Специалисты из Высшей школы экономики (ВШЭ) разработали компьютерную систему, которая может различать эмоции, звучащие в голосе говорящего человека.
Доклад об этом сотрудники факультета информатики, математики и компьютерных наук Нижегородского филиала ВШЭ представили на международной конференции Neuroinformatics-2017, посвященной нейросетям, адаптивному поведению и когнитивным исследованиям. В технологии задействована сверточная сеть глубокого обучения с архитектурой VGG-16. Об этом сообщает издание CNews.
Как отмечают разработчики, распознавание устной речи и ее отображение в письменном виде уже давно не представляет для компьютера никакой сложности. Однако смысл одного и того же высказывания может меняться в зависимости от того, каким тоном произносится фраза, какие эмоции присутствуют в голосе говорящего. Такие оттенки смысла компьютер, как правило, не способен улавливать.
Чтобы системе было легче работать со звуком, она преобразовывает его в спектрограммы, которые в дальнейшем анализируются с помощью методов для распознавания графики. Таким способом система уже смогла распознать с точностью около 70% восемь эмоциональных оттенков голоса: нейтральный, спокойный, радостный, злой, грустный, испуганный, удивленный и брезгливый. При этом авторы проекта отмечают, что нейтральный тон системе определить легче всего, а вот радостную интонацию нейросеть склонна путать с испуганной или печальной, удивленный голос она иногда может иногда может принять за брезгливый.
В России обучили нейросеть распознавать эмоции человека по голосу
См. также
Не найдено ни одной записи.
Комментарии
Сортировка:
Древо развёрнутое
Свернуть все