Прорыв в изучении эмоций: новый взгляд от команды НИУ ВШЭ — Санкт-Петербург

Современные технологии всё увереннее вторгаются в область, традиционно считавшуюся прерogативой человеческой интуиции — распознавание эмоций. Под руководством Анастасии Колмогоровой, заведующей Лабораторией языковой конвергенции НИУ ВШЭ — Санкт-Петербург, был создан уникальный датасет эмоциональной речи, преобразовавший подход к обучению нейросетей. Комплексная база, состоящая из 909 видеофрагментов общей длительностью 173 минуты, стала основой для новых языковых моделей, способных улавливать эмоции на множестве уровней коммуникации: аудио, видео, текст и их сочетания.
Каждый фрагмент проходил строгую разметку по шести базовым эмоциям: радость, удивление, страх, злость, грусть и отвращение. При этом данные классифицировались в четырёх различных форматах: полное видео со звуком, только аудиоряд, исключительно текстовое содержание и «немое» видео. Такой подход позволил создать разнотипную базу для обучения искусственного интеллекта и дал новый импульс исследованиям в сфере эмоционального ИИ.
Как эмоции проявляются в разных каналах: неожиданные открытия
Результаты анализа стали настоящим сюрпризом даже для самих исследователей. Долгое время считалось, что именно интонация наиболее точно отражает эмоциональное состояние собеседника. Но выводы исследования показали: люди чаще всего лучше распознают эмоции при чтении текста или просмотре видео со звуком, чем при прослушивании только аудио или анализе беззвучной мимики. Особенно низкие показатели зафиксированы для «немого» видеоряда: по мимике разметчики практически не определяли страх, а точность в целом не превышала 3,5 %.
Детализация по эмоциям продемонстрировала такую специфику: радость и удивление преимущественно передаются через интонацию, злость яснее распознаётся в тексте (точность 72,9 % против 67,4 % для аудио), а страх оказался наиболее «вербальной» эмоцией, определяемой по речи в 87 % случаев. Таким образом, языковые особенности текста могут нести даже больше эмоциональной информации, чем тональность или визуальная составляющая.
Применение в культуре: кейсы Эрмитажа и Владимиро-Суздальского музейного заповедника
Вычислительные методики, созданные под руководством Анастасии Колмогоровой, уже нашли практическое применение — и не где-нибудь, а в заметных российских культурных институциях. Полученный датасет был использован для анализа отзывов посетителей Владимиро-Суздальского музейного заповедника, что позволило глубже понять настроение гостей и повысить сервис.
Не менее амбициозная задача реализуется в Эрмитаже: на базе этих наработок внедрён эмпатичный чат-бот, способный мгновенно распознавать эмоции пользователей и реагировать соответствующим образом. Такие инновации помогают музеям и культурным организациям становиться ближе к аудитории, учитывая даже нюансы эмоционального отклика.
Доступность и перспективы развития: от лаборатории к глобальному сообществу
В отличие от прежних подходов, когда для анализа эмоций требовались сотни и тысячи размеченных примеров, новая методика открывает путь к обучению искусственного интеллекта с минимальными затратами ресурсов. Как подчёркивает Анастасия Колмогорова, теперь достаточно предоставить нейросети десятки качественно размеченных примеров — и она уже может работать с эмоциями не хуже профессионального психолога.
Разработанные инструменты и словарь эмоциональных меток доступны для широкой научной аудитории. Команда НИУ ВШЭ — Санкт-Петербург не останавливается на достигнутом: планируется дальнейшее расширение базы, внедрение новых форматов и исследование «смешанных» эмоциональных проявлений для создания ещё более чувствительных моделей.
Сравнение нейросетей: кто лидирует в распознавании эмоций?
Созданный набор данных позволяет не только обучать новые модели, но и тестировать существующие системы распознавания эмоций. В ходе анализа восьми популярных моделей (текстовых, аудиальных, видео и мультимодальных) было выявлено: текстовые решения демонстрируют самую высокую точность (50–58 %), аудиальные системы показывают средний результат (около 40 %), а вот автоматический анализ мимики оказался наименее эффективным (25,6 %).
Эти результаты вдохновляют команду исследователей и подтверждают, что российская школа в области эмоционального искусственного интеллекта уверенно двигается вперёд. В ближайшем будущем такие разработки могут стать основой для создания по-настоящему «чувствительных» цифровых ассистентов, меняющих качество общения и сервиса во многих сферах жизни.
Источник: naked-science.ru






