Зачем и как нейросети учат быть человечными

Раньше мы ожидали, что машины заменят нас в простой механической работе, но такие сферы, как искусство, всегда останутся за человеком. Сейчас с этим утверждением уже можно поспорить. Зато есть предположение, что поскольку ИИ не способен испытывать эмоции и выстраивать межличностные отношения, «гибкие» и «мягкие» навыки станут все более значимы и высокооплачиваемы, а учителя и медработники постепенно будут получать гораздо больше юристов и финансистов.

Однако то, в каких направлениях ИИ заменяет человека, сложно предсказывать. Машин обучают эмоциям и человечности в целом, причем достаточно успешно. Рынок распознавания эмоций через ИИ уже сейчас оценивается в сумму около 20 млрд долларов. Так как же машин учат понимать и проявлять эмоции, будет это нам полезно или навредит? Разбираемся.

Как можно использовать эмпатичный ИИ

Affective computing или эмоциональные вычисления, они же эмоциональный ИИ — это быстро развивающаяся область. Компании, работающие в ней, стремятся создать искусственный интеллект, который не только выполняет задачи, но и понимает глубинный смысл общения с людьми, умеет считывать их эмоции. Потенциально применение ИИ, способного распознавать эмоции, видят во многих сферах.

Безопасность. Распознавание настроений людей в составе толпы или на важных объектах может уведомить местные структуры, если кто-то ведет себя подозрительно или испытывает слишком большой стресс. Системы прогнозирования преступлений в США разрабатывают уже больше 10 лет, несколько таких технологий с ИИ уже представила IBM и добавление в комплекс признаков распознавание настроений может улучшить эти системы.

Другой пример из сферы личной безопасности — встроенный в автомобили ИИ с распознаванием эмоций. Он может определить, если водитель находится в нестабильном состоянии, и исходя из этого предпринять меры.

Общение с аудиторией. Предполагают, например, появление устройства типа очков Microsoft Hololens с ИИ, распознающим эмоции каждого человека в зале. Тогда при выступлении можно получить от компьютера подсказку, как аудитория в среднем воспринимает сказанное, и при необходимости изменить своё поведение или слова.

Такие технологии можно активно использовать в образовании. Методы распознавания динамических выражений лица могут помочь определить или даже спрогнозировать вовлечённость и эмоциональное состояние учащихся при помощи нейросети.

Развлечения. Эмоциональный ИИ может сделать так, что сюжет или другие параметры игры будут подстраиваться под эмоции игрока. Особенно большой простор для действий возникает в сфере виртуальной реальности.

Сервис и психическое здоровье. Распознающий эмоции и меняющийся контент или свое поведение исходя из этого ИИ может помочь различным сферам обслуживания начиная простыми колл-центрами. Также есть идеи совмещать такой ИИ, считывающий информацию с ЭЭГ мозга и других не внешних показателей со все той же виртуальной реальностью для создания максимально комфортных и расслабляющих условий, например, для отдыха и релаксации.

Итак, многие видят обученный эмоциям ИИ более эффективным для почти любой сферы. Вопрос в том, насколько точными и подходящими могут быть такие программы.

Какие технологии используют, чтобы научить ИИ эмоциям

Эмоциональный ИИ анализирует множество способов, с помощью которых люди выражают эмоции, и использует эти данные для формулирования ответов и реакций, имитирующих эмпатию. Это не просто анализ мимики или тона голоса, могут использовать данные ЭЭГ, технологию отслеживания движений глаз, вариабельность сердечного ритма, кожно-гальванические реакции и т. д.

С другой стороны задействуют различные алгоритмы и модели, такие как метод опорных векторов, нейронные сети и глубокое обучение, в частности глубокие сверточные нейронные сети (CNN). Эти модели обучаются на больших объемах данных и способны точно предсказывать эмоциональные состояния. Вот на каких отдельных технологиях строится комплексное распознавание эмоций.

Распознавание выражений лица (FER). Такие технологии позволяют определять и классифицировать изменения в мимике, анализируя изображения лица для оценки эмоционального состояния человека. Наиболее эффективны в этих задачах оказываются свёрточные нейронные сети. Было установлено, что они успешно распознают эмоции в диапазоне от нейтральных до пугающих или радостных.

Распознавание микровыражений лица (FMiR). Эта технология фокусируется на кратковременных и незначительных изменениях мимики, которые возникают, например, если человек пытается скрыть свои эмоции. Для регистрации этих быстрых и едва уловимых движений лица используют высокоскоростные камеры и методы обработки изображений.

Динамическое распознавание выражений лица (DFER). Это технология, которая позволяет анализировать изменения выражений лица с течением времени. Она не только анализирует статические данные о лице, но и удаляет ненужные кадры во время динамических выражений. Кроме того, DFER учитывает контекстуальные связи между внутрипарными и межпарными кадрами, а также статические и динамические аспекты выражений лица.

Методы генерации сложных выражений (CEG). Эти технологии активно развиваются благодаря применению методов глубокого обучения и использованию больших языковых моделей. Генеративно-состязательные сети и вариационные автокодировщики распознают и генерируют динамические эмоции и микровыражения. Большие языковые модели, такие как SORA, объединяющие визуальные и текстовые данные, способны генерировать мимику, тесно связанную со словами.

Технология распознавания эмоций по звуку (AER). Она значительно повысила точность анализа эмоций за счет интеграции нечеткой логики. Эта технология определяет эмоциональное состояние пользователя и реагирует на него, повышая плавность и естественность взаимодействия человека с компьютером. Смешанные модели эмоций для преобразования речи:

Повышают естественность и реалистичность распознавания эмоций;
Позволяют имитировать сложные реакций в сценариях без непосредственного участия человека;
Повышает безопасность за счет распознавания эмоциональных особенностей для выявления дипфейков.

Распознавание эмоций в тексте (TER). Для развития технологии анализируют поведение пользователей в социальных сетях. Мультимодальная модель анализа настроений, основанная на механизмах интерактивного внимания, может объединять текстовые, аудио- и видеоданные для повышения точности распознавания.

Применение распознавания эмоций на основе акустических характеристик речи. Используют технологии акустического моделирования, глубокого обучения и обработки естественного языка для достижения точного распознавания и генерации эмоций. Новый метод, сочетающий глубокие свёрточные нейронные сети и акустические характеристики, достиг более чем 93% точности в распознавании эмоций.

Считывание языка тела и распознавание эмоций по жестам. Новые каркасные системы распознавания, такие как SAGN, используют усовершенствованные структуры графических сетей и способны качественно анализировать движения человеческого скелета.

Технология виртуальной реальности (VR). Она стала эффективным инструментом для вызывания и обнаружения эмоций, особенно в сочетании с нейрофизиологическими методами, такими как ЭЭГ. Исследования показали, что виртуальная реальность может эффективно вызывать эмоции, имитируя захватывающие сценарии, и при этом точно отслеживать эмоциональное состояние пользователя с помощью механизмов физиологической обратной связи.

Есть ли практические разработки?

Еще в 2017 году были такие способы применить эмоциональный ИИ:

Affectiva. Распознавание эмоций для игры в жанре психологического триллера, которое используется для подстраивания сложности игры под эмоции игрока. Чем сильнее игрок испытывает страх, тем больше препятствий, а совладание с эмоциями, наоборот, упрощает прохождение;
Другой пример из игровой индустрии — распознавание выражения лиц для анимирования лица персонажей под эмоции игроков в игре Star Citizen от Faceware Technologies;
Технология стартапа NuraLogix адаптирует рекламу под эмоции того, кто её смотрит. В 2017 году их разработка уже тестировалась в ряде канадских универмагов.

Есть и много других примеров.

Cogito. Этот ИИ призван помочь сотрудникам сопереживать расстроенным звонящим и повысить производительность.

FaceReader. Разработан компанией из Нидерландов, оценивает эмоции по ряду характеристик. Сейчас он может даже распознавать нейтральное состояние и анализировать презрение, подходит для фото и видео в реальном времени. Система адаптируется к тому, кем является исследуемый — ребенком, взрослым или пожилым человеком. Сервис использует уже более 1000 университетов, предприятий и учреждений. Для анализа создается точная искусственная модель лица с применением почти 500 ключевых точек, после чего она классифицируется через сравнение с известными данными.

Заявленные показатели точности анализа базовых эмоций при помощи FaceReader. — *Заявленные показатели точности анализа базовых эмоций при помощи* *FaceReader*.

Больше медицинское, но также способное определять стресс и другие в том числе эмоциональные состояния решение есть у NuraLogix. Их программа просто по фотографии:

Извлекает данные о кровотоке в лице. Эта информация отправляется в облако для обработки;
Методы обработки сигналов и модели глубокого обучения используют для прогнозирования физиологических и психологических эффектов и состояний.

Пример результатов анализа здоровья и состояния при помощи ИИ от NuraLogix. — *Пример результатов анализа здоровья и состояния при помощи ИИ от* *NuraLogix*.

Какие проблемы остаются

Несмотря на значительный прогресс в технологиях распознавания выражений лица, точность этого процесса остаётся проблемой из-за размытых выражений и низкого качества изображений.

Кроме того, культурные различия являются серьезным барьером. Различия в выражении настроений в разных культурах могут привести к тому, что алгоритмы будут неправильно интерпретировать или классифицировать эмоции.

Черный ящик и невозможность объясниться

Еще в 2018 году практически каждый искусственный интеллект страдал одной проблемой, которая полноценно не решена до сих пор. ИИ работает на базе знаний, но не пополняет её в процессе своей эксплуатации. То есть каждый день он набирает огромные базы знаний, но не использует их.

Другая сторона проблемы — так называемый «черный ящик». ИИ обучается сам, он непрозрачен в этом плане, и поэтому его создатели не мог объяснить, почему система пришла к тому или иному выводу. Создать машну, способную объяснить это самостоятельно, также оказалось не так-то просто. Если же говорить об эмоциях, особенно об их генерации, а не считывании, то способность объяснять свои решения может оказаться критически важной.

Поэтому концепция «Explainable AI» приобрела популярность в последние годы. Это должно помочь укрепить доверие между людьми и системами ИИ. Когда люди понимают, почему система ИИ приняла то или иное решение, они с большей вероятностью примут его и будут использовать в повседневной жизни.

Способность ошибаться

Объяснять свои решения — это не единственная человеческая способность, которую ИИ также может перенять. Важно помнить о способности ошибаться. Когда чат-бот Eugene Goostman в 2014 году прошел тест Тьюринга, этому поспособствовал встроенный обман.

Eugene имитировал 13-летнего мальчика, для которого английский был вторым языком. Это означало, что его ошибки в синтаксисе и грамматике, а также недостаточные знания были восприняты как наивность и незрелость, а не как недостатки в понимании естественного языка. То есть ИИ не ошибался сам по себе, так и было задумано изначально.

Как ИИ меняет наше восприятие себя

С развитием технологий искусственного интеллекта люди всё больше задумываются о том, чем они отличаются от машин. Считается, что появление искусственного интеллекта запускает в обществе новый кризис идентичности и немного меняет наши представления о том, что вообще делает человека человеком.

В ходе одного исследования было проведено несколько экспериментов. В одном из них приняли участие около 800 человек, которых разделили на две группы. Половина участников прочитала статью о революции в области искусственного интеллекта, а другая половина — статью о выдающихся свойствах деревьев. Затем участникам предложили оценить, насколько важны для человека 20 различных качеств.

Участники, которые прочитали статью об искусственном интеллекте, считали такие качества, как уникальность, нравственность и способность к общению, более значимыми, чем те, кто читал статью о деревьях. В другом опыте испытуемым просто сообщили, что искусственный интеллект продолжает развиваться. Результаты были аналогичны предыдущим — каждый раз, когда упоминались достижения в сфере ИИ, участники отмечали рост значимости человеческих качеств.

Качества, общие с ИИ

Уникальные качества

Выполнение вычислений

Использование языка

Внедрение правил

Прогнозирование будущего

Логика

Общение

Распознавание лиц

Память

Ощущение температуры

Распознавание звуков

Обладать культурой

Придерживаться убеждений

Иметь чувство юмора

Быть нравственным

Быть духовным

Иметь желания

Чувствовать себя счастливым

Чувство любви

Обладать индивидуальностью

Заводить отношения

Такие качества предлагали оценить испытуемым и так их впоследствии разделили на общие с искусственным интеллектом и исключительные для человека.

Смогут ли роботы быть лучше людей в эмпатии

Итак, ИИ можно научить имитировать эмоции. При этом сами люди в современном цифровом мире начинают все хуже распознавать их. На этом фоне возникает вопрос, может ли ИИ помогать нам распознавать чувства других и испытывать собственные, и среди экспертов об этом развернулась целая дискуссия.

В условиях цифрового общения, когда люди всё больше общаются онлайн, возникают проблемы с созданием по-настоящему эмпатических отношений. Отсутствие физического присутствия рядом с другими затрудняет понимание их чувств и эмоций.

Здесь на помощь может прийти искусственный интеллект. Научить ИИ имитировать эмпатию более чем возможно. Системы искусственного интеллекта и машинного обучения очень хорошо находят закономерности в данных. Если мы предоставим ИИ множество примеров эмпатичного текста, ИИ сможет выявить закономерности и сигналы, которые вызывают или демонстрируют эмпатию.

ИИ может анализировать и оценивать такие характеристики, как тон и эмоции в речи. Это может помочь человеку, получающему сообщения, лучше понять, что имелось в виду, и помогает ему «говорить», показывая, как сообщения можно интерпретировать.

Однако также такой подход сравнивают с «использованием костыля для ходьбы», который «может привести к атрофии мышц». Возникает вопрос, сможет ли зависимый работник эффективно выполнять свою работу, если система ИИ перестанет работать.

Кроме того, одним из возможных недостатков использования ИИ для обучения эмпатии является то, что люди могут сильнее привязаться к роботам, чем к другим людям. Машина не может сделать выбор вопреки своей программе. Человек же может быть сострадательным в один день и безжалостным в другой. То есть ИИ может совершать ошибки реже человека даже в такой сфере, как эмпатия.

Итоги

В 2016 году рынок систем детекции и распознавания эмоций оценивался в 6,72 млрд долларов. В то время прогнозировали, что в 2021 году он будет уже по разным оценкам от 20 до 40 млрд долларов. На практике же в 2022 году объем рынка достиг 19,5 млрд, а прогнозы на 2026 год — рост до 58,3 млрд долларов. В этой сфере уже много стартапов, и крупные корпорации готовы покупать их за сотни миллионов долларов.

Наибольший прорыв ожидают тогда, когда все способы анализа эмоций смогут использовать в комплексе и при этом научат ИИ подстраиваться под личностные, культурные и возрастные особенности клиентов.

Бесплатный поиск, мониторинг и регистрация товарных знаков и других объектов интеллектуальной собственности.

Больше контента о сфере интеллектуальной собственности в нашем Telegram-канале

ссылка на оригинал статьи https://habr.com/ru/articles/857654/