Следующим очевидным шагом было выявить термины, наиболее значимо отклоняющиеся от среднестатистических в русском языке. Получив «добро» у автора первой части исследования и обсудив некоторые математические вопросы с хабрапользователем Trept, я приступил к следующим мероприятиям.
С сайта Национального Корпуса Русского Языка (НКРЯ) была скачана база частот словоформ «среднеобщеупотребительного» русского языка, составленная на основе анализа текстов общим объемом 192 689 044 единиц (слов). В базе 1 054 211 уникальных case-sensitive словоформ. Так как анализ лексики Хабра, представленный Muxto, является регистронезависимым, да и в принципе это больше соответствует итоговой цели, первой задачей оказалось привести все словоформы к нижнему регистру. Уникальных case-insensitive словоформ в базе НКРЯ осталось — 888 397 (значения частот у объединяемых форм, естественно, суммировались).
Вторым вопросом стало собственно выявление значимо выделяющихся слов. Как выяснилось, задача это давно решенная в современной лингвистике, активно пользующейся и статистикой и вычислительной техникой. Одна из статистик степени «неоднородности» частоты появления слова в одном корпусе по отношению к общему набору корпусов, особо приглянувшаяся филологам — это G-тест, являющийся частным случаем теста отношения правдоподобия. Сама статистика для отдельного слова вычисляется как
Здесь Oi — фактически наблюдаемая частота появления i-ой словоформы в исследуемом корпусе,
а Ei — ожидаемая частота этой же словоформы в объединении корпусов, то есть
где ai и bi — частоты появления i-ой словоформы в корпусах (Хабра и НКРЯ),
а c и d — общий объем этих корпусов (33 732 229 и 192 689 044 единиц соответственно).
Итак, все расчеты произведены, слова отсортированы по убыванию статистики Gi, топ-30:
405587,703 пользователь 197850,057 сайт 139330,707 разработчик 135705,259 файл 124132,397 приложение 121233,522 веб 116809,907 данные 113262,075 компания 109463,742 код 94468,080 версия 92093,985 проект 79257,370 com 77786,398 информация 74006,346 сеть 71844,136 ru 66674,626 работает 64946,067 помощью 63195,334 сервер 60807,287 можно 60433,187 google 55160,380 ссылка 55147,137 интернет 53984,795 например 52609,986 windows 50998,105 позволяет 50177,316 возможность 48421,264 http 48372,913 работы 48328,683 видео 48158,301 сделать
Подозрительно? Да, каюсь, частоты нескольких форм одного и того же слова в топ-150 я всё таки после первого прогона объединил вручную, выбрав начальную форму слова, т.к. обидно было видеть в топе словоформы «пользователя/пользователю/пользователей» или, например, «версия/версии/версию» с очень высокими показателями, но не в лидерах только из-за того, что русский язык богат на окончания падежа и числа.
Как топ-30, так и топ-150 Хабрахабра конечно заслуживают рефлексии. Лично я остался доволен результатом — на мой взгляд, сущность этого уникального ИТ-ресурса оказалась высвечена весьма точно. Ну а лидер — «ПОЛЬЗОВАТЕЛЬ» — это та обобщенная цель, ради которой, мы и тратим часы, дни и годы нашей жизни.
Wordle.net отреагировал на загруженный топ-30 (с частотами, пропорциональными статистике G) и цветовую палитру Хабра вот таким облаком тегов:
А мне остается лишь предложить Вам в качестве филологической разминки придумать в комментариях наиболее длинное предложение со словами из топ-30, которое не казалось бы слишком искусственным.
Желаю всем оптимистичной и нескучной пятницы!
ссылка на оригинал статьи http://habrahabr.ru/post/204104/
Добавить комментарий