От делать нечего решил собрать статистику хабра.
Статистика может быть не совсем отражать действительность, т.к. из 199к статей лишь 75к были открытыми, остальные удалены\скрыты в черновик\доступ к публикации закрыт.
Можно предположить, что большая часть отсутствующих статей заминусована.
Статистика может быть не совсем отражать действительность, т.к. из 199к статей лишь 75к были открытыми, остальные удалены\скрыты в черновик\доступ к публикации закрыт.
Можно предположить, что большая часть отсутствующих статей заминусована.
Собственно, сами данные:
Среднее количество постов в год:
Средние кол. во. комментариев в постах по годам:
За все время: 46.
Средняя оценка постах по годам:
Средняя оценка за все время: 31.
Чем собрал данные
Использовал 3 самописные программы, скачать тут (C#)
habrDownloader — для скачивания всех топиков. (неочищенного хтмл кода страниц накачалось на 16 гигов)
habrExtracter — парсер скачанного и перевод в понятный вид
habrAnaliser — анализ полученной информации и составление статистики
habrDownloader — для скачивания всех топиков. (неочищенного хтмл кода страниц накачалось на 16 гигов)
habrExtracter — парсер скачанного и перевод в понятный вид
habrAnaliser — анализ полученной информации и составление статистики
На выходе последней получил это:
ссылка на оригинал статьи http://habrahabr.ru/post/199400/
Добавить комментарий