?

Log in

No account? Create an account

Previous Entry | Next Entry

Облако Путина

peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимиром",
                                    "владимирович",
                                    "путиным",
                                    "путин",
                                    "линия",
                                    "прямая",
                                    "мситтель",
                                    "кклеймёнов",
                                    "клеймёнов",
                                    "впутин",
                                    "мситтель:",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очень",
                                    "который",
                                    "которая",
                                    "которые",
                                    "которое"))
wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:

Update: Облако Путина после обрезания.

Comments

breqwas
Apr. 17th, 2015 02:48 am (UTC)
И ещё подход. Попробовал отрезать от словаря "клюв", 100 самых частотных слов, и делить вхождения на логарифм частотности:

$ join -i pmyst_sorted.txt freqs_sin100.txt | perl -lnawe 'print join "\t", sprintf("%.03f", $F[1] / log(2.72 + $F[2])), $F[0]' | sort -n | tail -n30

7.354 крым
7.569 тоже
7.668 поставлять
7.710 сделать
7.754 малый
7.905 бизнес
7.971 потому
8.286 экономика
8.332 санкция
8.411 работать
8.678 космодром
9.414 донбасс
9.630 миллиард
9.726 проблема
9.978 пожалуйста
10.033 много
10.551 нужно
10.646 украина
11.071 здесь
11.193 процент
11.835 страна
12.351 конечно
12.663 спасибо
14.520 давать
15.426 владимир
18.555 таки
20.587 должный
22.987 владимирович
24.943 вопрос
26.584 путин
breqwas
Apr. 17th, 2015 03:00 am (UTC)
...заодно, раз уж машиночитаемый словарь под рукой, решил найти ответ на вопрос, мучивший ещё с детства: какое самое длинное слово в русском языке? Ответ: их два, "высокопревосходительство" и "человеконенавистнический", по 24 буквы. Самостоятельно найденное классе в седьмом "высококвалифицированный" - на букву короче, и это третье по длине слово в языке. Неплохо!
r_l
Apr. 17th, 2015 06:52 am (UTC)
сверхчеловеконенавистнечиский
greenkrokodilla
Apr. 17th, 2015 07:54 am (UTC)
сверхнедочеловеконенавистнический.
Посмотрись в зеркало
r_l
Apr. 17th, 2015 07:57 am (UTC)
ПЕПКА, ПРЫГНИ!
breqwas
Apr. 17th, 2015 09:47 am (UTC)
Нет такого слова в словарях, и в интернете нет :) Ну, почти нет.
Так-то "стасемидесятипятимиллимитровый" и "меламинокарбамидоформальдегидный" тоже длинные, но это же явное читерство.

Profile

knot
scholar_vit
scholar_vit

Latest Month

August 2018
S M T W T F S
   1234
567891011
12131415161718
19202122232425
262728293031 

Tags

Page Summary

Powered by LiveJournal.com
Designed by Paulina Bozek