?

Log in

No account? Create an account

Previous Entry | Next Entry

Облако Путина

peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
                                    "владимиром",
                                    "владимирович",
                                    "путиным",
                                    "путин",
                                    "линия",
                                    "прямая",
                                    "мситтель",
                                    "кклеймёнов",
                                    "клеймёнов",
                                    "впутин",
                                    "мситтель:",
                                    "это",
                                    "вопрос",
                                    "ещё",
                                    "очень",
                                    "который",
                                    "которая",
                                    "которые",
                                    "которое"))
wordcloud(putin, max.words=200,
          scale=c(5,0.5),
          random.order=FALSE,
          use.r.layout=FALSE,
          colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:

Update: Облако Путина после обрезания.

Comments

( 46 comments — Leave a comment )
malyj_gorgan
Apr. 16th, 2015 11:49 pm (UTC)
Не разбираюсь в программном синтаксисе, потому спрошу: а что в облаке с падежами и склонениями? Вот, есть "россии", а "россия" или "россией"? Или там "идет", но не "идем". Хотя, есть и "люди", и "людей"..., что, действительно вот настолько сильный перекос в конкретных формах для конкретных слов?
scholar_vit
Apr. 17th, 2015 12:15 am (UTC)
Падежные формы воспринимаются как отдельные слова. Ср. "эта" и "этим"
(no subject) - profpr - Apr. 17th, 2015 05:29 am (UTC) - Expand
(no subject) - scholar_vit - Apr. 17th, 2015 06:13 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 06:51 am (UTC) - Expand
spamsink
Apr. 17th, 2015 12:10 am (UTC)
Нам всё время нужно спасибо людей нашей России. Поэтому всё-таки, пожалуйста, давайте просто будем, действительно, делать добрый бизнес и деньги. Надеюсь, тысяч миллиардов процентов. Люди должны.
malyj_gorgan
Apr. 17th, 2015 12:20 am (UTC)
Точно. Wow!
balalajkin
Apr. 17th, 2015 12:23 am (UTC)
Красиво! Замечательно!
breqwas
Apr. 17th, 2015 12:51 am (UTC)
Идеи навскидку:

- инфинитивы можно с некоторой точностью получить mystem'ом
- пессимизировать тривиальщину можно частотным словарём (навскидку нашёлся этот)

Не станет ли результат интереснее?
breqwas
Apr. 17th, 2015 01:13 am (UTC)
$ ./mystem -nl putin.txt | perl -MEncode -lnwe 's/\|.+//; s/\?//; print if length(decode_utf8($_)) > 3' | sort | uniq -c | sort -n | tail -n20

81 владимир
82 знать
82 хотеть
86 давать
98 чтобы
103 свой
105 если
112 такой
115 очень
116 сказать
117 говорить
118 сейчас
122 путин
127 мочь
142 человек
167 вопрос
200 который
235 весь
239 этот
399 быть

Скучно.
Что ж, попробую перевзвесить по словарю.

Edited at 2015-04-17 01:14 am (UTC)
(no subject) - breqwas - Apr. 17th, 2015 02:16 am (UTC) - Expand
(no subject) - breqwas - Apr. 17th, 2015 02:48 am (UTC) - Expand
(no subject) - breqwas - Apr. 17th, 2015 03:00 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 06:52 am (UTC) - Expand
(no subject) - greenkrokodilla - Apr. 17th, 2015 07:54 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 07:57 am (UTC) - Expand
(no subject) - breqwas - Apr. 17th, 2015 09:47 am (UTC) - Expand
(no subject) - greenkrokodilla - Apr. 17th, 2015 05:32 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 08:01 am (UTC) - Expand
OMG - greenkrokodilla - Apr. 17th, 2015 01:49 pm (UTC) - Expand
Re: OMG - r_l - Apr. 17th, 2015 06:07 pm (UTC) - Expand
dmpogo
Apr. 17th, 2015 01:18 am (UTC)
Там было про собаку ! Про это целая статья на ББС
scholar_vit
Apr. 17th, 2015 01:48 am (UTC)
Параметр max.words=200 убил собаку
vgramagin
Apr. 17th, 2015 01:37 am (UTC)
Что характерно, миллиона нет. Или миллиарды, или тысячи...
Лев Горенштейн [poxod.com]
Apr. 17th, 2015 03:19 am (UTC)
Ты крут.
scholar_vit
Apr. 17th, 2015 03:26 am (UTC)
Круты те, кто эти пакеты написали: Ingo Feinerer, Kurt Hornik, Ian Fellows. Я просто учусь разным новым для меня инструментам.
(no subject) - Лев Горенштейн [poxod.com] - Apr. 17th, 2015 03:51 am (UTC) - Expand
(no subject) - scholar_vit - Apr. 17th, 2015 03:54 am (UTC) - Expand
prostak_1982
Apr. 17th, 2015 04:15 am (UTC)
Читал в свое время про другую форму смыслового анализа.
Берется текст, потом из него выкидываются все существительные, прилагательные и прочее, оставляют только глаголы. Потом подсчитывают, сколько в тексте глаголов, которые можно назвать глаголами действия (сделать, построить, выполнить), а сколько глаголов, которые можно назвать глаголами состояния (думать, обсудить, рассмотреть).

Edited at 2015-04-17 04:15 am (UTC)
r_l
Apr. 17th, 2015 06:56 am (UTC)
Глаголы fucking многозначны, без дизамбигуации это превратится в цирк с конями.
brother2
Apr. 17th, 2015 04:22 am (UTC)
Нам всё нужно! Нам всё время нужно! - вполне тянет на нацидею.
vlkamov
Apr. 17th, 2015 04:26 am (UTC)
Странно, что вас это волнует.
scholar_vit
Apr. 17th, 2015 06:10 am (UTC)
Вообще-то text mining действительно далек от моих занятий, но мне в последнее время стало интересно, как они это делают.
greenkrokodilla
Apr. 17th, 2015 05:19 am (UTC)
Я не могу сказать, что сильно люблю Путина.
Однако я еще и разбираюсь в языках и в
программировании, помимо прочето, а потому
могу объяснить: то, что вы сделали - очень
дешевая и лживая пропаганда

Дело в том, что распределение слов в языках
сильно неравномерно. Есть некое частотное
ядро (и я выдумал нестандартный и более
быстрый способ учить языки, зная это).
Самые-самые частые слова (в любых - как
минимум европейских - языках) - предлоги,
союзы, прочие "служебные" или "грамматические"
слова.
Если хорошо знать их, язык начинаешь понимать
как в известном примере Щербы (глокая
куздра ... - ни одного слова не знаем, но
"всё" понятно).
Затем идет несколько "слоёв" слов, без
четких границ.
Ядро языка покрывает 85-90 процентов
общих текстов. А оставшиеся десятки тысяч
слов - длинный хвост распределения, попадающихся
в среднем раз на десятки тысяч слов текста.

Вы - будучи членом секты фанатиков-террористов,
которая каждый божий день ВОЮЕТ с народами,
внутри которых она живет - не озабочены
представлением реальности.
Потому вы взяли частотное распределение
НЕ ОТРЕЗАВ грамматические слова, потому что,
попробовав так и этак, вы решили, что
вот такая картинка выглядит наиболее издевательски.

'Смотрите, вот он Путен - "безусловно, эта,
этим, хотя, этих, далее" - хахаха, какой
обсос, видите? Да? да? да?


Что и было вашей целью (как это всегда является
целью любых еврейских воинов с людьми по
всему миру)

Очень интересная получилась шутка еврейского
юмора, животики надорвешь.


П.С. на днях наблюдал по ссылке из блога
Шнайера еще одного еврейского юмориста,
который (понятно, ненавидя Сноудена как
предателя "страны, которой владеют наши",
т.е. США) пришел его унизить, заставив
разговаривать про свой еврейский хуй.

Понятно, что другие, кто также тайно
Сноудена ненавидит, вроде брюса шнайера,
тут же объявили это интервью самым великим
из всех: ну это же "коомик", он объяснил
простым американцам на понятном им языке,
что такое NSA. На примере их собственного
хуя.
greenkrokodilla
Apr. 17th, 2015 05:26 am (UTC)
П.С. И еще - раз вы "учитесь пользоваться
новыми пакетами" (хотя эти задачи решаются
несколькими строчками на пёрле, без пакетов),
то - если не читаете книг - я вам раскрою
стандартную процедуру анализа речи.

Найдя частотное распределение его СРАВНИВАЮТ
С ОБЩИМ СРЕДНИМ частотным распределением
по большой массе подобного языка (сегодня
для этого есть "корпусы" языков).

И значимыми особенностями являются
СЛОВА, ИМЕЮЩИЕ ЧАСТОТНОСТЬ, ЗАМЕТНО
ОТЛИЧНУЮ ОТ ОБЩЕГО СРЕДНЕГО РАСПРЕДЕЛЕНИЯ.

А не то, что вы нам тут нарисовали.
(no subject) - profpr - Apr. 17th, 2015 05:57 am (UTC) - Expand
(no subject) - sidorow - Apr. 17th, 2015 07:49 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 06:55 am (UTC) - Expand
(no subject) - (Anonymous) - Apr. 17th, 2015 07:16 am (UTC) - Expand
(no subject) - greenkrokodilla - Apr. 17th, 2015 07:52 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 07:54 am (UTC) - Expand
(no subject) - r_l - Apr. 17th, 2015 07:55 am (UTC) - Expand
(Deleted comment)
scholar_vit
Apr. 17th, 2015 07:55 pm (UTC)
Нет, не пользовался.
sidorow
Apr. 17th, 2015 07:45 am (UTC)
А чего ты хотел, собссно?
В любой речи любого политика будет что-то в этом роде.
Что же до речи нормального человека - так в быту будет ещё и похлеще при соответствующей длины выборке.
ab_s
Apr. 17th, 2015 11:07 am (UTC)
Не совсем о том, но музыкой навеяло.
Есть еще старый пионерский способ: берется исходная песня (стихотворение, параграф из учебника физики, речь Брежнева...) и после каждого нечетного предложения вставляется "в штанах", а после каждого четного -- "без штанов".

"Облако -- в штанах! -- Путина -- без штанов!"

:)
( 46 comments — Leave a comment )

Profile

knot
scholar_vit
scholar_vit

Latest Month

October 2017
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031    

Tags

Powered by LiveJournal.com
Designed by Paulina Bozek