?

Log in

No account? Create an account

Previous Entry | Next Entry

Облако Путина

peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимиром",
                                    "владимирович",
                                    "путиным",
                                    "путин",
                                    "линия",
                                    "прямая",
                                    "мситтель",
                                    "кклеймёнов",
                                    "клеймёнов",
                                    "впутин",
                                    "мситтель:",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очень",
                                    "который",
                                    "которая",
                                    "которые",
                                    "которое"))
wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:

Update: Облако Путина после обрезания.

Comments

breqwas
Apr. 17th, 2015 02:16 am (UTC)
$ join -i pmyst_sorted.txt freqs_uniq.txt | perl -lnawe 'print join "\t", sprintf("%.03f", $F[1] / $F[2]), $F[0]' | sort -n | tail -n30

2.286 данила
2.500 ворог
2.500 жульнический
2.500 многоконфессиональный
2.500 низковатый
2.500 нормандский
2.500 перерегистрировать
2.500 супердержава
2.500 тиранический
2.500 турбулентность
2.500 увековечивать
2.778 ксенофобия
2.857 макроэкономика
2.857 покритиковать
2.857 помечать
3.205 владимирович
3.333 субсидирование
3.523 должный
3.953 таки
4.286 паромный
4.444 забайкальский
4.444 космодром
5.000 морфин
5.000 регионал
5.882 юрьев
6.000 надой
6.000 обезболивание
6.818 донбасс
7.500 проиндексировать
7.500 сельхозпроизводство

Это вхождения, делённые на частоту. Так интереснее, конечно, но теперь тупо маргинальные слова лезут (супердержава, турбулентность, перерегистрировать - по одному вхождению). Если выкинуть все слова с менее чем 5 вхождениями, из 3400 останется 790, и топ такой:

0.955 спасибо
1.017 нибудь
1.053 минздрав
1.064 выплачивать
1.111 вынуждать
1.144 крым
1.149 отменять
1.275 путин
1.304 рублевый
1.373 иранский
1.477 поставлять
1.579 подрастать
1.589 санкция
1.628 фермер
1.667 минский
1.795 курсовой
1.935 триллион
1.951 госслужба
2.000 ипотека
2.000 ушаков
2.286 данила
2.778 ксенофобия
3.205 владимирович
3.333 субсидирование
3.523 должный
3.953 таки
4.444 космодром
5.882 юрьев
6.000 надой
6.818 донбасс

Вооот. Вот об этом он, наверное, и говорил. Ну, за вычетом оказавшихся в словаре имён-фамилий.
Это, понятно, только словарные слова, как правильно взвесить несловарные - я навскидку не придумал.

Ещё пробовал делить не на частотность, а на логарифм частотности. Топ всё так же был непримечательным набором частотных банальностей, но всплыли слова "россия", "донбасс" и "процент". :)

В исходном файле - и вопросы, и ответы, просто копипаст стенограммы. Из списка слов выкинул все короче четырёх букв (ещё на первом шаге), из частотного словаря - омографы по частям речи, в качестве частотности оставлял максимальную. Про инфинитивы верил mystem'у.


NB: я, несмотря на место работы, ничего не понимаю в том, как правильно анализировать тексты.

Edited at 2015-04-17 02:26 am (UTC)

Profile

knot
scholar_vit
scholar_vit

Latest Month

August 2018
S M T W T F S
   1234
567891011
12131415161718
19202122232425
262728293031 

Tags

Page Summary

Powered by LiveJournal.com
Designed by Paulina Bozek