Когда лучше публиковаться на Хабре. Статистический анализ связи времени публикации и охвата статей

от автора

Введение

На Хабре сейчас высокая конкуренция среди авторов за внимание читателей. По данным самого Хабра, в 2025 году на сайте было более 10 тысяч уникальных авторов контента, а количество публикаций превысило 51 тысячу. Это означает, что даже качественный материал может не получить заметный охват из-за большого количества публикаций в ленте.

Есть распространённое мнение, что публиковать статьи нужно в предобеденное время, чтобы люди на обеденном перерыве могли почитать эти статьи, тогда охват будет максимальным. Но так как этого правила придерживаются многие, возникает высококонкурентная среда, где за час публикуются десятки статей. При этом публикации, размещённые ночью, также нередко набирают высокий охват, несмотря на ожидаемо низкую активность пользователей в это время.

Возникает вопрос:

Связано ли время публикации с охватом аудитории, и если да, то когда статьи набирают больший охват?

Поэтому я решил провести исследование:

На основе данных ленты Хабра проверить, связано ли время публикации статьи с её охватом, и определить временные интервалы, в которые статьи набирают больший охват.

Сбор данных

Данные собирались автоматизировано с учётом ограничений, описанных в файле robots.txt.

Для анализа использовались страницы ленты из раздела «Все потоки», вкладка «Статьи» [https://habr.com/ru/articles/]. Со страниц собиралась информация о времени публикации статьи и охвате (уникальных пользователях, открывших публикацию или увидевших её в ленте).

Раздел 1. Динамика роста охвата аудитории после публикации

Для данной оценки был собран датасет из 157 статей. Для каждой статьи в течение двух недель раз в сутки фиксировалось изменение охвата. Были посчитаны средние и медианные значения охвата аудитории в первые дни после публикации статьи. Результат представлен в таблице 1 (полные результаты исследования приведены в репозитории GitHub).

Таблица 1. Охват аудитории в первые дни после публикации статьи

 

1 день

3 дня

5 дней

7 дней

10 дней

14 дней

Средний охват

7581

8744

9273

9639

9839

9977

Медианный охват

6807

7559

7871

8118

8234

8294

График роста охвата аудитории после публикации приведен на рисунке 1. На графике видно, что основной рост охвата происходит в первые сутки после публикации. Затем рост продолжается, но становится медленнее, постепенно выходя на плато примерно на 7-8 сутки. Далее рост становится незначительным, только единичные статьи показывают заметный рост на второй неделе после публикации.

Средний охват выше медианного на всем интервале наблюдений, потому что небольшая часть наиболее успешных статей тянет среднее значение вверх. Поэтому медианное значение лучше характеризует «обычную» статью.

Тонкие линии показывают отдельные статьи. Одна статья набрала охват около 87 тысяч читателей, что сильно выбивается из выборки. Остальные статьи набрали охват не более 26 тысяч читателей за первые 14 суток.

Рисунок 1 - График роста охвата аудитории после публикации

Рисунок 1 — График роста охвата аудитории после публикации

Вывод по разделу 1:

Первый день после публикации имеет наибольшее значение для набора охвата аудитории. Для большинства статей рост охвата после 7-8 дня становится незначительным.

Раздел 2. Анализ связи охвата аудитории и времени публикации

В течение трех недель собиралась информация о времени публикации статей и охвате аудитории. Был сформирован датасет из 2341 статьи. Для каждой статьи учитывался охват за 6,5-7,5 дней после публикации. Это ограничение получилось таким образом:

  • данные парсились с сайта раз в сутки в одно и тоже время;

  • основная часть охвата набирается в первую неделю после публикации, после чего рост охвата существенно замедляется (рисунок 1);

  • 7 дней охватывает полный недельный цикл и позволяет учесть различия в активности аудитории в разные дни недели;

  • данные получены из ленты Хабра с ограничением на глубину до 50 страниц по 20 статей на странице. Это позволяет исследовать статьи с датой публикации примерно до 10 дней назад.

На рисунке 2 приведены гистограмма и диаграмма размаха для охвата за 7 дней.

Рисунок 2 – Гистограмма и диаграмма размаха для охвата за 7 дней

Рисунок 2 – Гистограмма и диаграмма размаха для охвата за 7 дней

Распределение имеет выраженный правый скос.

Медианный охват: 8961.

Средний охват: 10772.

Межквартильный размах: от 7262 до 11928.

Границы основного диапазона значений составили от 3450 до 25108. Границы основного диапазона значений были рассчитаны с учётом асимметрии распределения. Правило 1,5×IQR применялось не к исходным значениям охвата, а к логарифмированным значениям log(views + 1).

Значения за пределами основного диапазона можно рассматривать как статистические выбросы. В представленной выборке из таких выбросов 80 — это статьи, которые набрали заметно меньший или больший охват, чем основная масса публикаций.

Ниже приведены основные графики (рисунки 3-8) и результаты, полученные в ходе анализа.

Рисунок 3 – Количество статей по дням недели

Рисунок 3 – Количество статей по дням недели

В полученной выборке наибольшая публикационная активность наблюдается в будние дни (максимум во вторник). Количество статей, опубликованных в выходные дни, в 2-3 раза меньше, чем в будние дни.

Рисунок 4 - Медианный охват по дням недели

Рисунок 4 — Медианный охват по дням недели

Статьи, опубликованные в выходные дни, набирали больший медианный охват, чем статьи, опубликованные в будние дни.

Рисунок 5 - Связь количества публикаций и медианного охвата по дням недели

Рисунок 5 — Связь количества публикаций и медианного охвата по дням недели

Наблюдается сильная отрицательная связь между количеством публикаций и медианным охватом статьей. Корреляция Спирмена, которая показывает силу и направление связи между двумя признаками, равняется -0.929. Для дней с большим количеством публикаций наблюдаются более низкие значения медианного охвата. Важно учитывать, что расчет проводится всего по 7 точкам, чего мало для доказательства устойчивой закономерности.

Рисунок 6 - Количество статей по часам публикации

Рисунок 6 — Количество статей по часам публикации

Большая часть статей опубликована в дневное время с 9 до 18 часов.

Наибольшее количество публикаций наблюдается в предобеденное время с 10 до 13 часов.

Рисунок 7 - Медианный охват по часам публикации

Рисунок 7 — Медианный охват по часам публикации

Статьи, опубликованные в вечернее и ночное время, набрали больший охват, чем дневные статьи.

Рисунок 8 - Связь медианного охвата и количества публикаций по часам

Рисунок 8 — Связь медианного охвата и количества публикаций по часам

Для часовых интервалов с большим количеством публикаций наблюдаются более низкие значения медианного охвата (корреляция Спирмена -0.735). Однако разброс значений по часам остаётся существенным, поэтому количество статей, выпущенных в этот же временной промежуток, не полностью объясняет различия в охвате.

Ниже приведены тепловые карты (рисунки 8-9) для количества публикаций и медианного охвата для каждого часа недели.

Рисунок 9 - Количество опубликованных статей по дням недели и часам публикации

Рисунок 9 — Количество опубликованных статей по дням недели и часам публикации

За дни наблюдения наибольшая публикационная активность была в будние дни в предобеденное время с 9:00 до 13:00 и послеобеденное время с 14:00 до 18:00. Самый популярный час недели для публикаций это: Вторник с 10:00 до 11:00.

Также видно, что трёхнедельного периода наблюдений недостаточно для полного покрытия всех сочетаний дня недели и часа публикации. В период с 1:00 до 8:00 было опубликовано мало статей. Имеются часовые интервалы с пропусками, когда не было опубликовано ни одной статьи.

Значения по временным интервалам с малым числом публикаций следует интерпретировать осторожно.

Для построения тепловой карты медианного охвата по дням недели и часам публикации были убраны часовые интервалы, в которые было опубликовано менее трех статей.

Рисунок 10 - Медианный охват статей по дням недели и часам публикации

Рисунок 10 — Медианный охват статей по дням недели и часам публикации

Имеющиеся данные показывают, что статьи, опубликованные в дневное время в будние дни, набирают относительно меньший охват. В большинстве часовых интервалов с 8:00 до 17:00 в будние дни медианный охват статей не превышает 10 тыс. читателей.

При этом статьи, опубликованные после 19:00 в будние дни, а также в выходные дни, для большинства часовых интервалов имеют медианный охват более 10 тыс.

Была проведена агрегация временных промежутков по двум кластерам:

  • Рабочее время: Будние дни с 8:00 до 19:00

  • Нерабочее время: Будние дни с 19:00 до 8:00 + Выходные дни

Проверена гипотеза о том, что медианный охват статей, опубликованных в нерабочее время, выше медианного охвата статей, опубликованных в рабочее время.

Проверка гипотезы

Нулевая гипотеза H0: медианный охват статей, опубликованных в нерабочее время, не выше медианного охвата статей, опубликованных в рабочее время.

Альтернативная гипотеза H1: медианный охват статей, опубликованных в нерабочее время, выше медианного охвата статей, опубликованных в рабочее время.

Для проверки гипотезы использовался перестановочный тест, который позволяет оценить p-value. Доверительный интервал разницы медиан оценен через bootstrap. Такой подход выбран потому, что распределение охвата статей асимметрично и содержит выбросы. В таких условиях медиана лучше отражает типичный охват статьи, чем среднее значение, а классический t-test, проверяющий различия средних, может быть менее точен.

Расчеты приведены в файле исследования в репозитории GitHub.

Медианный охват в рабочее время: 8162.

Медианный охват в нерабочее время: 11944.

Наблюдаемая разница медиан: 3782.

p-value перестановочного теста: 0.0001.

Результат теста говорит о том, что если бы на самом деле различий между рабочим и нерабочим временем не было, то вероятность случайно получить разницу медиан 3782 или больше составила бы менее 0,01%.

99% bootstrap-доверительный интервал разницы медиан: от 3304 до 4209. Доверительный интервал полностью выше нуля.

На основе имеющихся данных есть основания отвергнуть нулевую гипотезу в пользу альтернативной.

В рассматриваемой выборке это различие оказалось статистически значимым.

Статьи, опубликованные в нерабочее время, набрали в 1,46 раза больший медианный охват, чем статьи, опубликованные в рабочие часы.

Вывод по разделу 2:

Больший охват наблюдается у статей, опубликованных в нерабочее время.

Также прослеживается обратная корреляция между количеством статей, опубликованных за единицу времени, и медианным охватом этих статей.

Ограничения результатов

При интерпретации результатов необходимо учитывать, что:

  • Анализ выполнен на выборке за три недели. В выборке нет данных за некоторые ночные часы. Многие часы представлены малым количеством статей, что влияет на точность статистики.

  • Результаты отражают текущие поведенческие паттерны аудитории и могут изменяться со временем.

  • В анализе участвуют только новые статьи на дистанции примерно 7 дней с даты публикации, что не отражает долгосрочные тенденции.

  • Не учитываются популярность автора, наличие подписчиков, название и тема статьи, и множество других параметров, которые могут влиять на охват.

Общий вывод

Больший медианный охват наблюдается у статей, опубликованных:

  • в будние дни с 19:00 до 8:00,

  • в выходные дни.

Дневные рабочие часы, наоборот, показывают более низкий медианный охват.

Одним из возможных объяснений может быть меньшая конкуренция за внимание читателей в вечернее и ночное время, а также в выходные дни. Так как основная часть охвата формируется именно в первое время после публикации, количество соседних статей, опубликованных в этот период, может влиять на итоговый охват статьи.

Ссылка на репозиторий с исследованием на GitHub

Исследование связи времени публикации с охватом статей Хабра: https://github.com/EgorTatarnikov/habr_article_reach_analysis

Материалы по похожим темам

  1. Когда лучше всего публиковать топики на хабре, чтобы достичь максимальной аудитории? (2010): https://qna.habr.com/q/3152

  2. Детальный анализ Хабрахабра с помощью языка Wolfram Language (Mathematica) (2015): https://habr.com/ru/companies/wolfram/articles/256999/

  3. Когда лучше всего публиковать статьи в блог (Статистика из США и России) (2016): https://habr.com/ru/companies/changeagain/articles/298490/

  4. ХаброСтатистика — в какое время лучше публиковать статью на хабре? (2016): https://habr.com/ru/articles/279607/

ссылка на оригинал статьи https://habr.com/ru/articles/1050172/