Анализ базы данных, в которой была собрана анонимизированная информация о времени и месте звонков и СМС 1 500 000 абонентов на протяжении пятнадцати месяцев показал, что для идентификации 95% людей достаточно знать всего четыре пространственно-временные точки.
Всего две точки позволяют различить индивидуальный «след» половины пользователей, а одиннадцати достаточно, чтобы различить все полтора миллиона. На иллюстрации слева приведены примеры таких индивидуальных «следов». Авторы исследования сравнивают уникальность мобильного «следа» с отпечатками пальцев — в 1930 году французский пионер криминалистики Эдмон Локард показал, что для идентификации по отпечатку пальца достаточно двенадцати совпадений деталей рисунка.
Таким образом, получив из открытых источников (Facebook, Twitter, Foursquare, LinkedIn и т.п.) всего несколько характерных для человека пространственно-временных точек, можно деанонимизировать абонента мобильной связи среди миллионов записей, не содержащих вообще никакой персональной информации, и отследить все его перемещения.
При этом даже не требуется особая точность — в базе, использованной для анализа, место в пространстве определялось по базовой станции мобильной связи, а время указывалось с точностью до часа. Более того, уникальность мобильных «следов» хоть и уменьшалась с понижением пространственного и временного разрешения, но довольно медленно, и легко компенсировалась увеличением количества точек.
На графике слева показана зависимость степени уникальности «следа» при выборке из четырёх, а справа — из десяти точек. По горизонтальной оси отложено временное разрешение в часах, по вертикальной — пространственное (количество базовых станций):
Не являются помехой и большие скопления людей — плотность размещения базовых станций мобильной связи очень хорошо коррелирует с плотностью населения. Если в сельской местности одна базовая станция даёт пространственную точность в 15 км2, то в городах — 0.15 км2 и выше. Кроме того, 94% людей практически никогда не покидают территорию радиусом около 100 км. Таким образом этот метод хорошо масштабируется как для огромного количества абонентов, так и для больших территорий.
ссылка на оригинал статьи http://habrahabr.ru/post/174221/
Добавить комментарий