Как ваши твиты раскрывают ваше местоположение

от автора

Исследователи из IBM разработали алгоритм, позволяющий определять место жительства пользователя с точностью до 70% путём анализа 200 его последних твитов.

USA tweets

Одна из опциональных возможностей Twitter — это возможность указывать данные о местоположении пользователя. Как правило, этим пользуются, чтобы рассказать своим друзьям о том, где вы сейчас находитесь. Или же для того, чтобы через некоторое время вспомнить, где произошло то или иное событие. Также, это представляет собой ценный инструмент для исследователей, дающий возможность изучать географическое распределение твитов различными путями.

В то же время, данная возможность поднимает вопросы приватности, особенно, когда пользователи не знают или забывают о том, что их твиты помечаются геотегами. Есть мнение, что довольно большое число знаменитостей засветили таким образом свои домашние адреса. А в 2007 году в Ираке, четыре вертолета Apache, принадлежавшие армии США, были уничтожены миномётами, когда повстанцы вычислили их местоположение при помощи геотегов на фотографиях, опубликованных американскими солдатами.

Возможно, перечисленные проблемы и являются причиной того, что так мало твитов помечаются геотегами. Несколько исследований показали, что менее одного процента твитов содержат метаданные о местоположении.

Но отсутствие геотаргетирования данных не означает, что ваша локация остаётся в тайне. Сегодня, Джалал Махмуд (Jalal Mahmud) и несколько его коллег из IBM Research в Альмаден, штат Калифорния, заявили о том, что они разработали алгоритм, позволяющий проанализировать последние 200 твитов любого пользователя и определить его местоположение с точностью до 70%.

Эта возможность весьма полезна для исследователей, журналистов, маркетологов и прочих желающих определить, где были написан тот или иной твит. С другой стороны, это поднимает вопросы приватности для тех, кто предпочитает сохранять своё местонахождение в тайне.

Метод Махмуда и его коллег, является относительно простым. В период с июля по август 2011 года, при помощи Twitter Firehose они отфильтровали твиты, которые были помечены геотегами одного из 100 крупнейших городов США, насобирав таким образом 100 различных пользователей в каждом из городов.

Затем они загрузили последние 200 твитов, которые разместил каждый их этих пользователей, исключая те из них, которые были опубликованы приватно. Это дало им более 1,5 миллионов твитов с координатами, примерно от 10.000 человек.

Затем они разделили полученный набор данных на две части, использовав 90% твитов для обучения своего алгоритма, а оставшиеся 10% — для его проверки.

Основная идея их алгоритма заключается в том, что сам текст твитов содержат важную информацию о вероятном местоположении пользователя. Например, более 100.000 твитов из их выборки, были сгенерированы Foursquare — социальной сетью с функцией геопозиционирования. Таким образом, данные твиты содержали ссылку, дающую точные данные о местоположении пользователя. Также, почти 300.000 твитов содержали название одного из городов, внесенных в список Геологической службы США.

В других твитах местоположение автора выдавали такие фразы, как «Зачем мы взяли самовар?», что является прямым свидетельством посещения Тулы. Так же, Махмуд указывает на тот факт, что в США для каждого часового пояса распределение твитов в течение дня примерно одинаково. Поэтому, динамика пользовательских твитов в течение дня может дать довольно точные сведения о его часовом поясе.

Таким образом, исследователи пытаются дать ответ на следующий вопрос: возможно ли использовать всю эту информацию для определения местоположения пользователя. Свои результаты они могли проверить путём их сопоставления с метаданными геотегов.

Сотрудники IBM использовали алгоритм, известный как Наивный Байесовский классификатор. Они обучили его на тренировочном наборе данных с информацией о геолокации.

Затем они проверили алгоритм на оставшихся 10% данных, чтобы убедиться в корректности вычисляемого местоположения пользователей.

Результаты получились весьма интересными. Если исключить людей, которые путешествуют, то разработанный алгоритм предсказывает родной город человека с точностью до 68%, родной штат — с точностью 70%, а часовой пояс — с точностью 80%. При этом, исследователи заверяют, что определение локации для одного пользователя занимает менее одной секунды.

Данная разработка может служить полезным инструментом. Журналисты, например, могут использовать его для определения твитов, которые были написаны из региона подвергшегося катаклизму (например, землетрясению), а также те твиты, которые комментировали событие из удалённых регионов. Маркетологи могут использовать разработку для увеличения популярности своей продукции в определённых городах.

Махмуд и его коллеги заверяют, что в будущем их алгоритм может показать ещё более впечатляющий результат. Например, они рассчитывают, что смогут получать более точные сведения при помощи функции поиска твитов с упоминаниями о местных достопримечательностях. Что ж, подождём — увидим, что у них из этого получится.

Интересным следствием всего этого является то, что наше представление о частной жизни в очередной раз оказалось более хрупким, чем большинство из нас полагает. То, как мы можем укреплять и защитить наше право на приватность, должно стать предметом серьёзной общественной дискуссии.

ссылка на оригинал статьи http://habrahabr.ru/post/216773/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *