В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
![image](http://habrastorage.org/getpro/habr/post_images/789/234/bcc/789234bccb4b6339189b6ff1203e1aef.jpg)
Собственно, сам рейтинг получился таким:
Топ-30 рейтинга цитируемости СМИ в социальных медиа (март 2014г):
Место в рейтинге |
Название ресурса | Адрес сайта | Индекс SMI |
Количество ссылок |
1 | РИА «Новости» | ria.ru | 117 | 516 641 |
2 | RT на русском | russian.rt.com | 83 | 364 845 |
3 | Лента.Ру | lenta.ru | 72 | 318 735 |
4 | Радиостанция «Эхо Москвы» | echo.msk.ru | 52 | 226 985 |
5 | Газета.Ru | gazeta.ru | 51 | 226 760 |
6 | Life News | lifenews.ru | 48 | 212 870 |
7 | Телеканал «Дождь» | tvrain.ru | 48 | 210 413 |
8 | ИТАР-ТАСС | itar-tass.com | 46 | 203 795 |
9 | Вести.ru | vesti.ru | 45 | 197 654 |
10 | Sports.ru | sports.ru | 42 | 184 831 |
11 | РБК (РосБизнесКонсалтинг) | rbc.ru | 35 | 154 048 |
12 | NEWSru.com | newsru.com | 32 | 140 082 |
13 | Комсомольская правда | kp.ru | 31 | 136 291 |
14 | Интерфакс | interfax.ru | 28 | 121 714 |
15 | Российская газета | rg.ru | 27 | 118 643 |
16 | НТВ | ntv.ru | 26 | 113 353 |
17 | Новый Регион 2 | nr2.ru | 25 | 110 104 |
18 | Деловая газета «Взгляд» | vz.ru | 23 | 100 647 |
19 | Первый канал | 1tv.ru | 19 | 84 659 |
20 | Сноб Медиа | snob.ru | 18 | 78 439 |
21 | Информационное агентство REGNUM | regnum.ru | 17 | 76 920 |
22 | Коммерсант.ru | kommersant.ru | 15 | 66 221 |
23 | Slon.ru | slon.ru | 15 | 65 872 |
24 | Ведомости | vedomosti.ru | 15 | 63 915 |
25 | Аргументы и факты | aif.ru | 13 | 58 290 |
26 | Известия.ру | izvestia.ru | 13 | 56 109 |
27 | В Москве — Московские новости | newsmsk.com | 12 | 54 147 |
28 | Новая газета | novayagazeta.ru | 12 | 52 367 |
29 | Свободная пресса | svpressa.ru | 11 | 49 069 |
30 | ИноСМИ.ru | inosmi.ru | 10 | 42 757 |
Подробнее о рейтинге, формировании индекса SMI и рейтинговании SMR можно прочитать в нашем блоге: http://br-analytics.ru/blog/?p=1264
ЗАЧЕМ И ДЛЯ КОГО?
На рынке исследований СМИ существует несколько рейтингов измерений изданий: по тиражу, по посещаемости онлайн-версий, по цитируемости _в других_ СМИ, по количеству подписчиков (как в оффлайне, так и в онлайне). Фактически все эти измерения сравнивают данные, которые уже где-то собраны: в типографиях, сервисах интернет-статистики, счетчиках социальных сетей. Сравнивать же СМИ по цитируемости в других СМИ — это максимум, что могла предложить индустрия мониторинга СМИ, но, согласитесь, подобная метрика вызывает больше вопросов, чем ответов.
Когда у наших коллег-социологов появилась задача ранжирования СМИ по авторитетности и доверию читателей, решение было стандартное — провести опрос с предложением указать какие из СМИ, по мнению интервьюируемых, являются более авторитетными.
Имея (дурную 🙂 ) привычку все социумные задачи проецировать на социальные медиа, мы решили помочь партнерам получить дополнительную информацию из сообщений пользователей в социальных сетях и комментариев к статьям.
КАК: ОТКРЫТИЯ И ТРУДНОСТИ
Задача получилась интересная в техническом плане и неожиданная по результатам. Объем данных был понятен заранее — наша Платформа собирает в сутки 20-25 миллионов сообщений и комментариев в сутки, значит за март обработать придется примерно 600 млн материалов.
Дальше вроде как все просто: осталось понять количество сообщений, содержащих ссылки, выдрать их, обработать, убрать лишнее, отнормировать и отсортировать. Для анализа взяли данные за один день и понеслось. Первая неожиданность возникла в количестве ссылок: никто из аналитиков не мог предположить, что количество ссылок примерно соответствует количеству сообщений — свыше 15млн в сутки!
Вторая «неприятность» — количество ссылок на картинки, графические элементы, видео — примерно 30% от общего количества. К третьей «неприятности» мы были уже готовы — технология развертывания «коротких» ссылок уже используется в отчетах системы Brand Analytics, но одно дело развертка десятков тысяч, другое — порядка 4-5 млн за сутки. Заодно, к уже привычным 12-ти популярным сервисам свертки длинных ссылок прибавилось еще 23 новых.
«Лобовая» однопоточная обработка данных за одни сутки заняла часа 3-4, что в общем-то нормально для «наколеночного» неторопливого исследовательского варианта, но мало-приемлемо для регулярного ежедневного мониторинга. Итоговый многопоточный (3 потока) алгоритм, который применялся к обработке данных за месяц, позволил обработать месячный массив в 655 млн за 6 часов.
P.S. Желающим поэкспериментировать с различными методологиями парсинга неструктурированных данных готовы предоставить часовую выгрузку данных — возможно кто-то сможет предложить более скоростное решение.
ИТОГИ
Итоговые данные:
• Обработано сообщений за март: 655 269 709
• Уникальных авторов: 35 172 270
• ВСЕГО найдено ссылок: 536 185 906
• Cсылок БЕЗ КАРТИНОК: 357 853 627
• КОРОТКИХ ссылок: 110 685 097
Для любителей статистики приводим эксклюзивные данные по топу «сырых»
ссылок-«миллиоников» — на наш взгляд очень любопытная инфа:
154 659 839 | vk.com |
25 776 485 | apps.facebook.com |
23 611 855 | dsm.odnoklassniki.ru |
10 531 545 | facebook.com |
10 123 556 | youtube.com |
5 240 568 | instagram.com |
4 026 849 | twitter.com |
2 320 472 | plus.google.com |
2 304 521 | ask.fm |
1 847 571 | docs.google.com |
1 225 210 | islandandroid.17bullets.com |
Возвращаясь от технократических вопросов к методологическим…
1. Не секрет, что в каждой популярной соцсети достаточно высокий (от 10 до 47%) уровень автоматических сообщений: и бот-аккаунты (бот-сети), и сообщения-уведомления (игры, открытки, подарки, улыбки и пр.). Предвидя закономерный вопрос внимательных читателей-экспертов — да, подобные сообщения фильтруются и не доходят до модуля анализа и рейтингования целей ссылок.
2. После публикации Индекса цитирования СМИ на популярных ресурсах, в нескольких группах в соцсетях возникло обсуждение, где народ иронизировал над лидером рейтинга — РИА «Новости», — что их высокий уровень цитрирования в соцмедиа связан с тем, что редакция закрыла возможность комментирования материалов на сайте ria.ru. Мысль интересная, не правда ли? И наталкивает на новые «ходы» для SMM’щиков 🙂
Возможно наши аналитики учтут данный аспект в расчете Рейтинга и Индекса цитирования СМИ в следующем исследовании, за апрель месяц. Например, приравняв комментарии к статье на сайте издания к публикациям в соцмедиа (тем более, что по нашей методике комментарий к новости учитывается как самостоятельный объект). Если у вас есть мнение по данному вопросу — с удовольствием выслушаем и мнение, и конечно же аргументацию «за» и «против».
P.S. В рейтинге ссылок Хабра находится высоко, в первой 50-ке, и на первом месте среди технологических ресурсов.
ссылка на оригинал статьи http://habrahabr.ru/company/palitrumlab/blog/220415/
Добавить комментарий