Google заявляет, что «reCAPTCHA» не злоупотребляет данными о пользователях. Стоит ли этому верить?

Использование новаторского способа различения людей и ботов в Интернете сопряжено с рядом серьезных проблем

На удивление много сил уходит на то, чтобы веб-сайты могли убедиться, что пользователь — не робот. По этой причине при входе на сайты часто можно увидеть вопросы от системы «CAPTCHA»: размытые фотографии пешеходных переходов, светофоров и витрин магазинов, которые предлагается идентифицировать с помощью нескольких нажатий кнопки мыши.

Задания бывают разных видов: от расплывчатых букв, которые нужно распознать и вписать в поле, до фирменных слоганов вроде «Comfort Plus» на сайте Delta — как будто плачевное состояние современных авиаперевозок еще недостаточно антиутопично. Наиболее распространенным, однако, является принадлежащий компании Google сервис reCAPTCHA, третья версия которого была выпущена в конце 2018 года. Его задача — значительно сократить количество действий, требуемых от пользователя при входе на сайт, что достигается за счет присвоения пользователям неотображаемых оценок в зависимости от того, насколько «человеческим» является их поведение. В конце концов, изначальной задачей CAPTCHA было отсеять учетные записи ботов, которые заполоняют веб-сайты с не самыми честными целями.

Но у новаторской системы, разрабатываемой специалистами Google, есть и обратная сторона: новая версия отслеживает каждое движение пользователя на веб-сайте, благодаря чему она и определяет, действительно ли он человек.

Переведено в Alconost

Источник: Alexey Bezrodny/iStock/Getty Images Plus

Необходимое улучшение?

Прежде чем мы перейдем к тому, как работает эта новинка, полезно разобраться, откуда она взялась. Новая reCAPTCHA пришла на замену относительно старой веб-технологии, которая использовалась далеко не только для защиты сайтов.

Инструмент CAPTCHA — что означает «полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей» — впервые появился в конце 90-х: его разработала команда одной из первых поисковых систем — AltaVista. До этого было довольно легко написать бота, который автоматически регистрировался на сервисе и тысячами отправлял спам-комментарии. Решение от AltaVista было основано на рекомендациях в руководстве к принтеру по предотвращению плохого оптического распознавания символов (OCR); характерный размытый текст системы CAPTCHA был специально приведен в такой вид, чтобы его было трудно прочитать компьютеру, но легко — человеку, и это позволяло отсеивать ботов.

К началу двухтысячных эти тесты были повсюду. Затем появилась reCAPTCHA, разработанная исследователями из Carnegie Mellon и купленная компанией Google в 2009 году, которая использовала ту же идею, но по-новому: вводя проверочный текст, пользователи должны идентифицировать определенные слова, которые программы распознать не могут. То есть, программа сканирует текст и помечает слова, которые она распознать не может. В тестах reCAPTCHA эти слова затем помещаются рядом с известными словами — таким образом пользователя проверяют на известном слове, а затем он помогает идентифицировать новое.

К 2011 году Google оцифровал весь архив Нью-Йорк таймс с помощью одних лишь тестов reCAPTCHA. Пользователи распознали текст из газетных сканов по одному размытому слову за раз, что в итоге позволило оцифровать каталог газеты и организовать поиск по нему. Создавая удобный инструмент для защиты сайтов от ботов, компания Google смогла привлечь людей к выполнению собственной нудной работы.

Отказаться от применения reCAPTCHA нельзя: вы вынуждены либо согласиться на отслеживание, либо прекратить использование нужного вам сайта.

Достигнув таких результатов, в 2014 году reCAPTCHA перешла на показ изображений из приложения Street View компании Google. После нажатия кнопки «Я не робот» вам могут предложить определить, на каком из девяти изображений находятся «велосипеды» или «уличные фонари». Параллельно Google снизил частоту, с которой пользователей просили проходить проверку — этого удалось достигнуть благодаря поведенческому анализу: теперь reCAPTCHA может работать в фоновом режиме и отслеживать, как мы используем веб-сайты.

Если на вашем компьютере есть файл cookie от Google или вы используете мышь и клавиатуру на странице так, что это не похоже на действия бота, вам не будет предлагаться пройти тест Street View. Но некоторые пользователи, которые пекутся о конфиденциальности, жаловались на то, что после удаления файлов cookie и во время просмотра в режиме «инкогнито» резко увеличивается количество тестов reCAPTCHA, которые предлагается пройти.

Пользователи также отмечали, что при работе в конкурирующих с Google Chrome браузерах, например в Firefox, требовалось выполнять больше тестов, и это, естественно, вызывает вопрос: не используется ли reCAPTCHA для укрепления доминирования браузера от Google?

Это вызывает серьезные вопросы в отношении конфиденциальности, особенно учитывая, что основной доход Google — от рекламного бизнеса, который опирается на отслеживание данных. Беспокоить может то, что reCAPTCHA — это по сути рекламный инструмент отслеживания, скрывающийся на обычных сайтах, как та же встраиваемая на веб-страницы кнопка «Мне нравится» от Фейсбука.

Точка зрения компании Google

Чтобы использовать последнюю версию reCAPTCHA, разработчикам следует включить теги отслеживания на как можно большем количестве страниц веб-сайта — это дает возможность получить лучшую картину действий пользователя. Однако этот инструмент существует не в вакууме: например, есть также Google Analytics — платформа, которая помогает разработчикам и маркетологам понять, каким образом посетители используют веб-сайт. Это превосходный инструмент, используемый на более чем 100 000 из 1 млн самых посещаемых веб-сайтов по версии Built With, однако он в то же время является частью стратегии по отслеживанию привычек пользователей в Интернете.

Новая версия reCAPTCHA заполняет недостающие фрагменты этой картинки и позволяет компании Google проникать еще дальше — на сайты, которые не используют Google Analytics. В ответ на соответствующие претензии компания сообщила изданию Fast Company, что она не будет собирать пользовательские данные из reCAPTCHA в целях рекламы, и что собираемые данные используются для улучшения сервиса.

Но эти данные остаются заключенными в черный ящик даже для разработчиков, внедряющих эту технологию у себя. В документации по reCAPTCHA пользовательские данные не упоминаются, а также не поясняется, как пользователи могут отслеживаться, и где полученная информация оказывается в конечном итоге — в ней просто описана практическая реализация.

Я попросил у Google рассказать подробнее, какие обязательства берет на себя компания касательно независимости reCAPTCHA от рекламного бизнеса в долгосрочной перспективе: то, что они не связаны сейчас, не означает, что они не будут связаны в будущем.

«Google не будет использовать reCAPTCHA для персонализированной рекламы».

Представитель Google сказал, что «reCAPTCHA может использоваться только для борьбы со спамом и неправильным использованием [веб-сайтов]» и что «API сервиса reCAPTCHA работает, собирая информацию об оборудовании и программном обеспечении, например, данные об устройстве и приложениях, и отправляя эти данные в Google для анализа. Собранная в связи с использованием вами сервиса информация будет применяться для улучшения reCAPTCHA и в целях общей безопасности. Google не будет использовать reCAPTCHA для персонализированной рекламы».

Это здорово, и, надеюсь, Google сдержит свое обещание. Проблема в том, что нет никаких оснований полагать, что всё будет именно так. Внедрение такой мощной технологии отслеживания — это шаг, который должен стать предметом пристального внимания общественности, поскольку мы уже видели, как легко всё может пойти не так. Например, в 2014 году было обещано, что WhatsApp останется независимым, будет работать отдельно от бэкенд-инфраструктуры Фейсбука, но всего через два года это решение было пересмотрено. Когда Google приобрела Nest, нам также обещали независимость, от которой всего пять лет спустя отказались: владельцам устройств пришлось переходить на учетную запись Google или отказываться от некоторых функций.

Google может создать такой сервис, как reCAPTCHA, благодаря обширным ресурсам и широкому охвату, однако это же — и причина подозревать, что всё обернется к худшему.

К сожалению, мы как пользователи мало что можем сделать. Отказаться от применения reCAPTCHA нельзя: вы вынуждены либо согласиться на отслеживание, либо прекратить использование нужного вам сайта. Если вам не нравятся сканеры тела в аэропортах, можно, по крайней мере, отказаться от них и пройти обычный обыск. Но если на сайте есть reCAPTCHA, отказаться от ее использования нельзя.

Если Google намеревается создавать подобные инструменты с учетом общественных интересов, а не собственной прибыли, тогда компании нужно найти более убедительные способы заверить остальных, что они не изменят своему слову, когда это будет удобно. Если бы они захотели открыть исходные коды проекта (как это было со многими другими продуктами), вынести его за пределы компании или хотя бы установить сторонний надзор, возможно, это было бы хорошим началом, которое поможет завоевать доверие пользователей.

О переводчике

Перевод статьи выполнен в Alconost.

Alconost занимается локализацией игр, приложений и сайтов на 70 языков. Переводчики-носители языка, лингвистическое тестирование, облачная платформа с API, непрерывная локализация, менеджеры проектов 24/7, любые форматы строковых ресурсов.

Мы также делаем рекламные и обучающие видеоролики — для сайтов, продающие, имиджевые, рекламные, обучающие, тизеры, эксплейнеры, трейлеры для Google Play и App Store.

→ Подробнее

ссылка на оригинал статьи https://habr.com/ru/company/alconost/blog/460573/

Google заявляет, что «reCAPTCHA» не злоупотребляет данными о пользователях. Стоит ли этому верить?

Необходимое улучшение?

Точка зрения компании Google

Комментарии

Добавить комментарий Отменить ответ