Идентифицировать человека среди 1 500 000 пользователей мобильной связи можно всего по 4 точкам во времени и пространстве

от автора

Каждый из нас изо дня в день бывает в одних и тех же местах примерно в одно и то же время — дом, работа, спортзал, магазин, снова дом… Наш ежедневный маршрут достаточно стабилен и в то же время уникален. Совместное исследование американских и бельгийских учёных продемонстрировало, что степень его уникальности гораздо выше, чем можно предположить.

Анализ базы данных, в которой была собрана анонимизированная информация о времени и месте звонков и СМС 1 500 000 абонентов на протяжении пятнадцати месяцев показал, что для идентификации 95% людей достаточно знать всего четыре пространственно-временные точки.

Всего две точки позволяют различить индивидуальный «след» половины пользователей, а одиннадцати достаточно, чтобы различить все полтора миллиона. На иллюстрации слева приведены примеры таких индивидуальных «следов». Авторы исследования сравнивают уникальность мобильного «следа» с отпечатками пальцев — в 1930 году французский пионер криминалистики Эдмон Локард показал, что для идентификации по отпечатку пальца достаточно двенадцати совпадений деталей рисунка.

Таким образом, получив из открытых источников (Facebook, Twitter, Foursquare, LinkedIn и т.п.) всего несколько характерных для человека пространственно-временных точек, можно деанонимизировать абонента мобильной связи среди миллионов записей, не содержащих вообще никакой персональной информации, и отследить все его перемещения.

При этом даже не требуется особая точность — в базе, использованной для анализа, место в пространстве определялось по базовой станции мобильной связи, а время указывалось с точностью до часа. Более того, уникальность мобильных «следов» хоть и уменьшалась с понижением пространственного и временного разрешения, но довольно медленно, и легко компенсировалась увеличением количества точек.

На графике слева показана зависимость степени уникальности «следа» при выборке из четырёх, а справа — из десяти точек. По горизонтальной оси отложено временное разрешение в часах, по вертикальной — пространственное (количество базовых станций):

Не являются помехой и большие скопления людей — плотность размещения базовых станций мобильной связи очень хорошо коррелирует с плотностью населения. Если в сельской местности одна базовая станция даёт пространственную точность в 15 км2, то в городах — 0.15 км2 и выше. Кроме того, 94% людей практически никогда не покидают территорию радиусом около 100 км. Таким образом этот метод хорошо масштабируется как для огромного количества абонентов, так и для больших территорий.

ссылка на оригинал статьи http://habrahabr.ru/post/174221/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *