Лексикон Хабра

Данный пост является продолжением вот этого исследования хабраюзера Muxto о наиболее часто встречающихся словах в статьях и комментариях Хабра. Как, впрочем, заметили многие, топ-10 и даже топ-50, полученный Muxto, не изобилует собственно ИТ-терминами, их там вообще нет: «в» (107 735), «и» (106 420), «на» (103 084), «с» (93 453), «не» (91 591), «что» (88 488) и т.д.

Следующим очевидным шагом было выявить термины, наиболее значимо отклоняющиеся от среднестатистических в русском языке. Получив «добро» у автора первой части исследования и обсудив некоторые математические вопросы с хабрапользователем Trept, я приступил к следующим мероприятиям.

С сайта Национального Корпуса Русского Языка (НКРЯ) была скачана база частот словоформ «среднеобщеупотребительного» русского языка, составленная на основе анализа текстов общим объемом 192 689 044 единиц (слов). В базе 1 054 211 уникальных case-sensitive словоформ. Так как анализ лексики Хабра, представленный Muxto, является регистронезависимым, да и в принципе это больше соответствует итоговой цели, первой задачей оказалось привести все словоформы к нижнему регистру. Уникальных case-insensitive словоформ в базе НКРЯ осталось — 888 397 (значения частот у объединяемых форм, естественно, суммировались).

Вторым вопросом стало собственно выявление значимо выделяющихся слов. Как выяснилось, задача это давно решенная в современной лингвистике, активно пользующейся и статистикой и вычислительной техникой. Одна из статистик степени «неоднородности» частоты появления слова в одном корпусе по отношению к общему набору корпусов, особо приглянувшаяся филологам — это G-тест, являющийся частным случаем теста отношения правдоподобия. Сама статистика для отдельного слова вычисляется как

Здесь O_i — фактически наблюдаемая частота появления i-ой словоформы в исследуемом корпусе,
а E_i — ожидаемая частота этой же словоформы в объединении корпусов, то есть

где a_i и b_i — частоты появления i-ой словоформы в корпусах (Хабра и НКРЯ),
а c и d — общий объем этих корпусов (33 732 229 и 192 689 044 единиц соответственно).

Итак, все расчеты произведены, слова отсортированы по убыванию статистики G_i, топ-30:

  405587,703 пользователь   197850,057 сайт   139330,707 разработчик   135705,259 файл   124132,397 приложение   121233,522 веб   116809,907 данные   113262,075 компания   109463,742 код    94468,080 версия    92093,985 проект    79257,370 com    77786,398 информация    74006,346 сеть    71844,136 ru    66674,626 работает    64946,067 помощью    63195,334 сервер    60807,287 можно    60433,187 google    55160,380 ссылка    55147,137 интернет    53984,795 например    52609,986 windows    50998,105 позволяет    50177,316 возможность    48421,264 http    48372,913 работы    48328,683 видео    48158,301 сделать

Подозрительно? Да, каюсь, частоты нескольких форм одного и того же слова в топ-150 я всё таки после первого прогона объединил вручную, выбрав начальную форму слова, т.к. обидно было видеть в топе словоформы «пользователя/пользователю/пользователей» или, например, «версия/версии/версию» с очень высокими показателями, но не в лидерах только из-за того, что русский язык богат на окончания падежа и числа.

Как топ-30, так и топ-150 Хабрахабра конечно заслуживают рефлексии. Лично я остался доволен результатом — на мой взгляд, сущность этого уникального ИТ-ресурса оказалась высвечена весьма точно. Ну а лидер — «ПОЛЬЗОВАТЕЛЬ» — это та обобщенная цель, ради которой, мы и тратим часы, дни и годы нашей жизни.

Wordle.net отреагировал на загруженный топ-30 (с частотами, пропорциональными статистике G) и цветовую палитру Хабра вот таким облаком тегов:

А мне остается лишь предложить Вам в качестве филологической разминки придумать в комментариях наиболее длинное предложение со словами из топ-30, которое не казалось бы слишком искусственным.

Желаю всем оптимистичной и нескучной пятницы!

ссылка на оригинал статьи http://habrahabr.ru/post/204104/

Комментарии

Добавить комментарий Отменить ответ