?

Log in

No account? Create an account

Previous Entry | Next Entry

Несколько комментаторов предыдущей записи отметили, что из-за грамматических особенностей русского языка формы одного и того же слова попадают в разные категории: Россия, России, Россией подсчитываются отдельно. Полный грамматический анализ — штука сложная. При невнимательности получится как в известном анекдоте про самые частотные глаголы у Михаила Щербаков: "мыть" и "какать". Но есть более простая операция стемминга, она же обрезание, когда у слов отрезают аффиксы. Результат, возможно, более информативен - но для русского языка, увы, менее нагляден.

Пакет SnowballC для R умеет делать обрезание на датском, голландском, английском, финском, французском, немецком, венгерском, итальянском, норвежском, португальском, румынском, русском, испанском, шведском и турецком языках.

Вот программа для расчета облака с обрезанием:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin, stemDocument, language="russian")
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимирович",
                                    "путин",
                                    "мситтел",
                                    "кклеймён",
                                    "клеймён",
                                    "впутин",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очен",
                                    "котор"))

wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот результат:

Tags:

Comments

( 8 comments — Leave a comment )
kislin
Apr. 17th, 2015 04:27 pm (UTC)
Когда-то я обработал похожим способом "Консервативный манифест" Михалкова - http://kislin.livejournal.com/345685.html
old_radist
Apr. 17th, 2015 04:53 pm (UTC)
А почему у слова "наш" обрезан префикс?
r_l
Apr. 17th, 2015 06:14 pm (UTC)
Да лемматизируйте это дело майстемом, выберите оттуда только имена и глаголы - и получите нормальный материал для облака.
scholar_vit
Apr. 17th, 2015 08:30 pm (UTC)
Судя по облаку, иногда и местоимения вполне информативны.
r_l
Apr. 17th, 2015 08:33 pm (UTC)
Ну можно и личные местоимения тоже, да.
r_l
Apr. 17th, 2015 08:34 pm (UTC)
Но главное, что совершенно не надо резать по квазикорням.
mudrij_phoenix
Apr. 17th, 2015 07:22 pm (UTC)
То есть Крым все еще наш
prionik
Apr. 17th, 2015 08:39 pm (UTC)
Короче Путин почвенник :)
( 8 comments — Leave a comment )

Profile

knot
scholar_vit
scholar_vit

Latest Month

January 2018
S M T W T F S
 123456
78910111213
14151617181920
21222324252627
28293031   

Tags

Powered by LiveJournal.com
Designed by Paulina Bozek