Поиск сайтов заданой тематики

от автора

Для исследования рынка иногда нужно найти все сайты заданой тематики. Например, все сайты, про лекарства такие как med.sputnik.ru, aptekamos.ru и poisklekarstv.ru или все новостные сайты похожие на lenta.ru, vedomosti.ru или meduza.io.

За разумное время такую задачу можно решить с помощью графа похожих сайтов.

Идея такая: вручную набираем несколько сайтов, которые точно нам подходят, как-то для каждого находим похожие, проверяем их вручную, подходящие добавляем в набор, повторяем процедуру. Если на каждом шаге аккуратно отбирать сайты, то процесс рано или поздно сойдётся, граф похожих сайтов замкнётся.

Похожие сайты можно искать в Гугле c помощью ключевого слова related, брать у Алексы и Similarweb.

Чтобы не тратить время на выгребание подходящих, но мелких сайтов, нужно следить за тем, как меняется суммарный трафик на сайты из набора. Обычно он выходит на плато гораздо раньше, чем число сайтов в наборе.

Потом граф можно использовать, чтобы примерно понять структуру тематики. Например, новостные сайты бывают про игры:

Про религию:

Про науку:

ссылка на оригинал статьи http://habrahabr.ru/post/264627/