Machine Learning: распознаем пьяные твиты

Здравствуйте, дорогие читатели.

Сегодня мы предлагаем вам перевод замечательной статьи о создании поистине знакового алгоритма в истории машинного обучения. Работа, проделанная в Рочестерском университете, made our day. Статья переведена под это и яблочный сок.

Анализ твитов, написанных «в подпитии» с беспрецедентной точностью выявляет поведенческие закономерности, свойственные захмелевшему человеку

Согласитесь, сомнительная идея — отправить бывшей пассии в час ночи слезливый твит, разогнавшись бутылочкой шардонне, особенно если просишь прощения. Всем известно, что алкоголь с твиттером — порой не лучшая комбинация.

Но удивительно, как часто мы предаемся именно такому грешку. Эта человеческая привычка натолкнула на оригинальную идею Набила Хоссейна (Nabil Hossain) и его коллег из Рочестерского университета.

Эти ребята продемонстрировали, как им удалось обучить машину отлавливать твиты, написанные в состоянии алкогольного опьянения. Кроме того, они показали, как эти данные позволяют отслеживать употребление алкоголя и распределение этой вредной привычки в обществе. Исследователи полагают, что их метод может значительно дополнить наши представления об этой проблеме и о других зависимостях такого рода.

Работа Хоссейна и компании основана на двух передовых приемах. Во-первых, они смогли запрограммировать алгоритм машинного обучения, определяющий, какие твиты связаны с алкоголем, и какие были отосланы пользователями, употреблявшими алкоголь при написании твита. Во-вторых, этот метод позволяет определять расположение жилища пользователя с беспрецедентной точностью и, соответственно, узнавать, дома ли выпивает пользователь.

Группа начала работу со сбора геотегированных твитов, отправленных в течение года вплоть до июля 2014 из Нью-Йорка и округа Монро на севере штата Нью-Йорк, в частности, из города Рочестер. Из этого множества были отобраны все твиты, в которых упоминается алкоголь или слова, тематически связанные с алкоголем, например, «пьяный», «пиво», «вечеринка» и др.

Затем они воспользовались услугами работников с краудсорсингового сервиса Mechanical Turk от Amazon, чтобы более подробно проанализировать твиты. Исследователи показывали каждый твит троим работникам и спрашивали, относится это сообщение к алкоголю, и если так — то пил ли его автор, когда писал текст. Наконец, они спрашивали, был ли автор в подпитии, когда отправлял твит.

Анализ затронул 11 000 геопомеченных твитов, связанных с алкоголем (однако, в статье, к сожалению, отсутствуют данные о размере исследования и, таким образом, о его значимости). Этот объем данных вполне достаточен, чтобы построить на его материале алгоритм машинного обучения, отлавливающий твиты, связанные с алкоголем.

Тогда исследователи подошли к следующему вопросу: где находятся те, кто пишет о выпивке, в частности, пишутся ли такие твиты из дома или откуда-нибудь еще?

Исследователи научились различными способами выяснять место жительства пользователя, пользуясь только твитами снабженными геолокационной информацией. В частности, учитывалось, откуда пользователь пишет больше всего твитов, откуда отправляет последний твит в течение суток, либо откуда пишет твиты в период с 1.00 по 6.00. Однако, у всех этих методов были недостатки, из-за которых на них было сложно полагаться.
Хоссейн с коллегами применили другой метод. Они составили список слов и фраз, которые чаще всего употребляются, если человек пишет твит из дома, например: «наконец-то дома!», «ванная», «диван», «TV» и т.д. Затем отфильтровали геопомеченные твиты, содержащие такие слова, и спросили троих пользователей «Turok»: как им кажется, был ли конкретный твит отправлен из дома? В итоге оставили лишь те твиты, по которым все трое работников ответили утвердительно.

Затем Хоссейн и компания обозначили эти твиты как контрольное множество данных, соответствующее отправке сообщения из дома и научили машинный алгоритм распознавать другие закономерности, присущие таким «домашним» твитам. Алгоритм был должен определить, как «домашность» твита коррелирует с другими признаками — например, местом, откуда был отправлен последний твит в сутках, наиболее популярным местом отправки твита, долей твитов, отправленных из определенного места и т.д.

При учете сразу нескольких индикаторов точность определения такого «домашнего» местоположения значительно повышается. Действительно, Хоссейн утверждает, что в 80 процентах случаев им удавалось определить место жительства пользователя с точностью до 100 метров. Этот показатель значительно лучше, чем в более ранних исследованиях.

Пользуясь двумя этими методами, группа смогла выявить, когда и где люди обычно выпивают. Затем они сравнили алкогольные закономерности, свойственные для Нью-Йорка и пригородов (округа Монро).

Для этого каждый на каждый район была наложена сетка размером 100 x 100 ячеек, а затем помечены те зоны, откуда приходили твиты, связанные с алкоголем. Таким образом удалось начертить и сравнить «тепловые карты» потребления алкоголя в каждом районе.

Кроме того, они различали твиты на алкогольную тему, отправленные из дома и откуда-либо еще. Нанесли на карту каждого района точки, торгующие алкоголем. Таким образом исследователи смогли определить соотношение плотности написанных в подпитии твитов, отправленных из разных районов, и плотности алкогольных точек в данном районе.

Результат получились интересными. Во-первых, Хоссейн и компания отмечают, что плотность алкогольных твитов в Нью-Йорке значительно выше, чем в округе Монро. «Возможное объяснение – в таком мегаполисе как Нью-Йорк выше плотность различных баров, где люди любят общаться и попутно выпивать», — считают они.
Более того, геолокационные данные показывают, что в Нью-Йорке выше процент людей, пьющих дома или на расстоянии в пределах 100 метров от дома. Для сравнения, в округе Монро высока доля людей, пьющих на расстоянии километр и более от дома.

На тепловых картах также прослеживаются интересные закономерности. Исследователи смогли выявить в сетке (100×100) такие квадраты, откуда приходило не менее пяти твитов об алкоголе. «Думаю, это такие места, где пьют небанально», — считают Хоссейн и Ко.

Они также выявили корреляцию между плотностью алкогольных точек в районе и количеством твитов, указывающих, что автор выпивает прямо сейчас. В данном случае возникает интересный вопрос о связи корреляции и обусловленности. Может быть, люди пьют больше потому, что вокруг больше баров? Или пьянчуги стекаются в районы, где больше баров? Разумеется, на основании использованных данных на этот вопрос ответить нельзя.

Огромное достоинство такого метода заключается в его дешевизне и скорости по сравнению с аналогами.

Обычно для таких исследований требуется тщательно подобрать участников, составить опросники, а затем детально их проанализировать. Подход с машинным обучением, в свою очередь, даже позволяет отслеживать такую «деятельность» в реальном времени. «Наши результаты свидетельствуют, что твиты дают исчерпывающую детализированную информацию о времяпрепровождении в городах», — считают авторы статьи.

Разумеется, у метода есть и недостатки. Данные из Твиттера явно искажают общую картину, поскольку в выборке слишком много молодежи и определенных меньшинств. Но подобные искажения возникают и при других вариантах сбора данных — например, при анкетировании не учитываются люди, которые попросту от него отказались. Сглаживание таких искажений – важная составляющая любых исследований, связанных со сбором данных.

Хоссейн с коллегами не собираются останавливаться на достигнутом. Они планируют изучить, как варьируется потребление алкоголя в зависимости от возраста, пола, национальности и т.д.; как написание твитов в опьянении связано с обстановкой — например, когда пишущий находится в гостях у друга, на стадионе, в парке и т.д.; сравнить, с какой активностью авторы таких твитов перемещаются между районами города.

Пригодится и социальный аспект твиттера. «Мы сможем исследовать алкогольную социальную сеть, определить, как общение и давление коллектива в соцсетях влияют на склонность упоминать об алкоголе», — заявляет Хоссейн.
Все это поможет лучше разобраться с влиянием алкоголя на здоровье – ведь в США пьянство является третьей по распространенности предотвратимой причиной летальных исходов.

ссылка на оригинал статьи https://habrahabr.ru/post/280670/

Machine Learning: распознаем пьяные твиты

Комментарии

Добавить комментарий Отменить ответ