Ученые из КНР научили голосовой помощник распознавать беззвучные команды

06.11.2018      11454

Специалисты китайского университета Цинхуа представили программу «голосовой помощник», которая распознает беззвучный запрос, анализируя двадцать контрольных точек на губах пользователя.   

Не надо даже шептать

Техническими деталями разработчики поделились на международной конференции UIST-2018 (User Interface Software and Technology-2018). Для того, чтобы распознавать беззвучные команды, голосовой помощник использует фронтальную камеру устройства. Нейросеть отслеживает не только 20 контрольных точек, но и анализирует расстояние между губами для фиксации окончания и начала слов. В тестовых испытаниях использовали 44 команды, среди которых как конкретизированные, например, «включить Wi-Fi», так и общие – «ответ на сообщение».  

 

 

Для тестирования, которое проводилось в пекинской подземке, программу «обучили» голосу и речи 21 добровольца. В итоге точность распознавания команд, которые отдавались даже не шепотом, а просто шевелением губ, составила 95,5%. При этом практически все участники тестирования признали такой способ управления голосовым помощником удобным.

Однако не стоит ждать выхода нового приложения в ближайшей перспективе. Для расшифровки данных требуется мощный ПК, что делает проблематичным использование программы вне дома или работы.

Я слушаю ваше дыхание

В том же направлении, но другим путем движутся специалисты компании Microsoft Research, которые неделей ранее представили технологию распознавания речи SilentVoice.

Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом. В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.  

 

 

По утверждениям специалистов Microsoft Research, программа может распознавать звук ниже 39 дБ. Насколько ниже, не уточняется, но если принять во внимание содержание СНиП 23-03-2003 «Защита от шума», в котором регламентирован максимально допустимый шум с 23-00 до 7-00 не выше 30 дБ (громкое тиканье маятника, настенных часов), то результаты тестов, во время которых точность распознавания составила 98,9%, не впечатляют.

На этом фоне программа пекинского университета выглядит предпочтительней, однако на этом ее преимущества заканчиваются. Продукт Microsoft Research – обычное приложение, которое не требует дополнительных мощностей для обработки информации. Но главное, используя эту программу, пользователь сможет не только отдавать команды, но и шепотом общаться с другими абонентами. Впрочем, и этот проект пока находится в разработке и на рынок выйдет нескоро.

Аргументы против

Сложно сказать, насколько популярными будут приложения распознавания голоса по шевелению губ или улавливанию шепота, но некоторые специалисты уже бьют тревогу.

Такие программы смогут использовать мошенники. Если управление домом или машиной будет осуществляться голосовыми командами, преступники, отсканировав движение губ, получат доступ к имуществу пользователя.

Разработчики на эти вопросы прямого ответа не дают, но регулярно заявляют, что безопасность пользователей – главный приоритет при создании программ.


Автор:
Обозреватель


См. также

Новость Windows ИТ-Новость

Энтузиасты и стартаперы полюбили Arduino и Raspberry Pi. Но инженеры Commate Computer (Commell) пошли дальше и представили миниатюрный ПК LE-37O на базе новейших чипов Intel Tiger Lake. И на нем можно запустить Windows 10.

16.07.2021    13658    user1015646    3       

1

Новость iOS Импортозамещение ИТ-Новость Мобильные приложения

Минцифры обязало производителей техники устанавливать софт из реестра отечественного ПО на устройства для рынка РФ. Компания Apple ранее выступала резко против этой инициативы, но теперь, похоже, решила пойти на компромисс.

23.03.2021    24015    user1015646    1       

1

Новость ИТ-Новость Телекоммуникации

Российский холдинг «Росэлектроника» входящий в состав госкорпорации «Ростех» разработал радиотрекер «Гончак». Устройство подключается к смартфону и позволяет совершать звонки, передавая сигнал на другие устройства в сети в радиусе 20 километров.

22.10.2020    18553    user-programmist    14       

4

Новость ИТ-Новость

Компания XCY выпустила миниатюрный компьютер Mini PC Stick, по размеру напоминающий флешку, помещающуюся в ладони. В качестве ОС на него можно установить Windows 10 или Linux.

11.08.2020    16908    user-programmist    10       

3

Новость Android iOS

Независимые разработчики компании Correlium создали бета-версию сборки Android для iOS –  Project Sandcastle. Мобильную ОС можно запустить на iPhone или iPad.

17.03.2020    27171    user1015646    3       

3

Новость iOS

В Apple произошла утечка кода еще не выпущенной операционной системы iOS 14. Кроме обновлений самой ОС, в исходниках можно отыскать некоторые характеристики новых планшетов и смартфонов компании. 

17.03.2020    20438    VKuser24342747    1       

2

Новость Минцифры

В России скоро может появиться возможность сертифицировать устройства с поддержкой Wi-Fi 6. Новая технология будет разблокирована на смартфонах Apple, Samsung и Huawei.

18.02.2020    14916    VKuser24342747    1       

1

Новость Импортозамещение

В марте 2020 года на Калужском заводе телеграфных аппаратов начнется серийный выпуск защищенных российских смартфонов и планшетов MIG S6 и MIG T8X.

17.02.2020    19481    AnastasiaKl    11       

1

Пользуетесь ли вы голосовыми помощниками?


Да, это удобнее «ручного управления» (0%, 0 голосов)
0%
Да, но только за рулем (0%, 0 голосов)
0%
Мне проще пользоваться клавиатурой (100%, 11 голосов)
100%
Нет, эта технология еще плохо работает (0%, 0 голосов)
0%
Свой вариант (в комментарии) (0%, 0 голосов)
0%

Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Timur.V 79 06.11.18 11:51 Сейчас в теме
Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом.

Так микрофоны (гарнитура) так и работают.

В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.

Кажется первые придумали Apple, когда у iPhone сделали два микрофона.
Один микрофон записывает речь человека и шумы, а второй микрофон расположен
в другом месте (противоположном) устройства - и записывает шумы.
Потом, это оцифровывается, звук из одного микрофона вычитают второй - и получается чистый голос без шумов.
Которой можно уже распознавать.
SKravchenko; +1 Ответить
Оставьте свое сообщение