Специалисты китайского университета Цинхуа представили программу «голосовой помощник», которая распознает беззвучный запрос, анализируя двадцать контрольных точек на губах пользователя.
Не надо даже шептать
Техническими деталями разработчики поделились на международной конференции UIST-2018 (User Interface Software and Technology-2018). Для того, чтобы распознавать беззвучные команды, голосовой помощник использует фронтальную камеру устройства. Нейросеть отслеживает не только 20 контрольных точек, но и анализирует расстояние между губами для фиксации окончания и начала слов. В тестовых испытаниях использовали 44 команды, среди которых как конкретизированные, например, «включить Wi-Fi», так и общие – «ответ на сообщение».
Для тестирования, которое проводилось в пекинской подземке, программу «обучили» голосу и речи 21 добровольца. В итоге точность распознавания команд, которые отдавались даже не шепотом, а просто шевелением губ, составила 95,5%. При этом практически все участники тестирования признали такой способ управления голосовым помощником удобным.
Однако не стоит ждать выхода нового приложения в ближайшей перспективе. Для расшифровки данных требуется мощный ПК, что делает проблематичным использование программы вне дома или работы.
Я слушаю ваше дыхание
В том же направлении, но другим путем движутся специалисты компании Microsoft Research, которые неделей ранее представили технологию распознавания речи SilentVoice.
Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом. В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.
По утверждениям специалистов Microsoft Research, программа может распознавать звук ниже 39 дБ. Насколько ниже, не уточняется, но если принять во внимание содержание СНиП 23-03-2003 «Защита от шума», в котором регламентирован максимально допустимый шум с 23-00 до 7-00 не выше 30 дБ (громкое тиканье маятника, настенных часов), то результаты тестов, во время которых точность распознавания составила 98,9%, не впечатляют.
На этом фоне программа пекинского университета выглядит предпочтительней, однако на этом ее преимущества заканчиваются. Продукт Microsoft Research – обычное приложение, которое не требует дополнительных мощностей для обработки информации. Но главное, используя эту программу, пользователь сможет не только отдавать команды, но и шепотом общаться с другими абонентами. Впрочем, и этот проект пока находится в разработке и на рынок выйдет нескоро.
Аргументы против
Сложно сказать, насколько популярными будут приложения распознавания голоса по шевелению губ или улавливанию шепота, но некоторые специалисты уже бьют тревогу.
Такие программы смогут использовать мошенники. Если управление домом или машиной будет осуществляться голосовыми командами, преступники, отсканировав движение губ, получат доступ к имуществу пользователя.
Разработчики на эти вопросы прямого ответа не дают, но регулярно заявляют, что безопасность пользователей – главный приоритет при создании программ.