Вернулся невод с тиной морскою…

Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей)
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В общем после всех приготовлений запустил я скрипт и приготовился увидеть современный слэнг во всей своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут заглянуть под спойлер и полюбоваться на начало полученного мной списка:

Я предупредил!

блять сцуко компом седня блеать чтоли ахуе заебали гавно порнуху всмысле аськи одмин кароче отожгла телеку сцука хуясе бляяя чтоль ржач ржу незнаю нафига сервак комент пидарасы пиздюлей компу фотке нихера чмок пизды качаю ахаха нууу кароч комменты компы ноуте мобилу нахрена преподу ноутом курсач отжог хуяк ноута долбоеб преподша бляяяя стремно девченки насрал компах поржал омг пздц смску спиздили блондинко бляя охуели ссать тыщ заебало както админу нажрался спалился личку помоему фейл нефиг девушко смска девч преподом вайфай ржала кхм ичто бляяяяя ебаться компов фигею ахахах гандоны айфона ебало ебанутая заорет звонишь фотик блядей

Для тех, кто под спойлер не полез, скажу что я действительно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё больше получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу как делать частотный словарь Википедии (если смогу отыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия всегда лежит здесь — download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
2) Убираем все теги и оставляем голый текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor записывая его по ходу дела в файлы удобного нам и нашей машине размера.
3) Для каждого файла делим текст используя в качестве разделителей всё, что не кириллица и не дефис (чтобы не поделить всякие кресла-качалки) и считаем токены (можно использовать collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари вместе.

Приложение 2

А вот собственно частотный словарь Википедии, делал его около двух лет назад.
С ним можно кучу всяких интересных вещей делать, например искать слова со всякими интересными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы разные). Или скажем сделать генератор анаграмм. Впрочем об экспериментах со словарём постараюсь сделать отдельный пост.

ссылка на оригинал статьи http://habrahabr.ru/post/188678/

Вернулся невод с тиной морскою…

Комментарии

Добавить комментарий Отменить ответ