Ученые из КНР научили голосовой помощник распознавать беззвучные команды

06.11.2018     

Специалисты китайского университета Цинхуа представили программу «голосовой помощник», которая распознает беззвучный запрос, анализируя двадцать контрольных точек на губах пользователя.   

Не надо даже шептать

Техническими деталями разработчики поделились на международной конференции UIST-2018 (User Interface Software and Technology-2018). Для того, чтобы распознавать беззвучные команды, голосовой помощник использует фронтальную камеру устройства. Нейросеть отслеживает не только 20 контрольных точек, но и анализирует расстояние между губами для фиксации окончания и начала слов. В тестовых испытаниях использовали 44 команды, среди которых как конкретизированные, например, «включить Wi-Fi», так и общие – «ответ на сообщение».  

 

 

Для тестирования, которое проводилось в пекинской подземке, программу «обучили» голосу и речи 21 добровольца. В итоге точность распознавания команд, которые отдавались даже не шепотом, а просто шевелением губ, составила 95,5%. При этом практически все участники тестирования признали такой способ управления голосовым помощником удобным.

Однако не стоит ждать выхода нового приложения в ближайшей перспективе. Для расшифровки данных требуется мощный ПК, что делает проблематичным использование программы вне дома или работы.

Я слушаю ваше дыхание

В том же направлении, но другим путем движутся специалисты компании Microsoft Research, которые неделей ранее представили технологию распознавания речи SilentVoice.

Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом. В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.  

 

 

По утверждениям специалистов Microsoft Research, программа может распознавать звук ниже 39 дБ. Насколько ниже, не уточняется, но если принять во внимание содержание СНиП 23-03-2003 «Защита от шума», в котором регламентирован максимально допустимый шум с 23-00 до 7-00 не выше 30 дБ (громкое тиканье маятника, настенных часов), то результаты тестов, во время которых точность распознавания составила 98,9%, не впечатляют.

На этом фоне программа пекинского университета выглядит предпочтительней, однако на этом ее преимущества заканчиваются. Продукт Microsoft Research – обычное приложение, которое не требует дополнительных мощностей для обработки информации. Но главное, используя эту программу, пользователь сможет не только отдавать команды, но и шепотом общаться с другими абонентами. Впрочем, и этот проект пока находится в разработке и на рынок выйдет нескоро.

Аргументы против

Сложно сказать, насколько популярными будут приложения распознавания голоса по шевелению губ или улавливанию шепота, но некоторые специалисты уже бьют тревогу.

Такие программы смогут использовать мошенники. Если управление домом или машиной будет осуществляться голосовыми командами, преступники, отсканировав движение губ, получат доступ к имуществу пользователя.

Разработчики на эти вопросы прямого ответа не дают, но регулярно заявляют, что безопасность пользователей – главный приоритет при создании программ.


Автор:
Яков Колосов Обозреватель


Пользуетесь ли вы голосовыми помощниками?


Да, это удобнее «ручного управления» (0%, 0 голосов)
0%
Да, но только за рулем (0%, 0 голосов)
0%
Мне проще пользоваться клавиатурой (100%, 11 голосов)
100%
Нет, эта технология еще плохо работает (0%, 0 голосов)
0%
Свой вариант (в комментарии) (0%, 0 голосов)
0%

Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Timur.V 67 06.11.18 11:51 Сейчас в теме
Метод разработчиков Microsoft основан на фиксации и анализе воздушных колебаний в непосредственной близости от ротовой полости. Колебания воздуха улавливаются специальным датчиком, затем полученные данные расшифровываются и трансформируются в текстовый формат, либо в сообщение с хорошо слышимым и различимым голосом.

Так микрофоны (гарнитура) так и работают.

В процессе работы приложения осуществляется фильтрация эфира – удаляются посторонние шумы.

Кажется первые придумали Apple, когда у iPhone сделали два микрофона.
Один микрофон записывает речь человека и шумы, а второй микрофон расположен
в другом месте (противоположном) устройства - и записывает шумы.
Потом, это оцифровывается, звук из одного микрофона вычитают второй - и получается чистый голос без шумов.
Которой можно уже распознавать.
SKravchenko; +1 Ответить
Оставьте свое сообщение

См. также

Nvidia купит производителя чипов ARM

Новость ИТ-новость

Производитель графических карт Nvidia заключил соглашение с японским холдингом Softbank. Цель – покупка разработчика процессоров ARM за 40 млрд долларов США.

сегодня в 13:21    379    user1015646    0       

Рассекречены характеристики процессоров Intel, которые сменят Atom

Новость ИТ-новость Микроэлектроника

Процессоры Intel Atom стали основой тысяч моделей бюджетных ноутбуков с пассивным охлаждением. Инсайдеры рассказали о характеристиках новых чипов, которые сменят Atom на рынке и обеспечат достойную производительность при достаточно низкой цене.

вчера в 11:05    2125    user1015646    0       

Деньги на ветер: Google опубликовала на Github исходники проекта Makani

Новость GitHub Google ИТ-новость

Google выложила исходный код программного обеспечения для управления системой ветрогенераторов. Проект, для которого разработаны исходники, уже закрыт, но они почти целиком стали доступны как open source.

вчера в 09:48    2485    VKuser24342747    0       

Microsoft подвела итоги эксперимента по размещению своих дата-центров под водой

Новость Дата-центры ИТ-новость Новости компаний

Проект «Natick», в рамках которого сервера в герметичном контейнере разместили в океане недалеко от Шотландии, длился 5 лет. Недавно состоялся подъем контейнера и подведение итогов исследования.

18.09.2020    2877    ЕленаЧерепнева    0       

Прощай, браузер: Google разработает замену для Chrome OS

Новость ОС Google ИТ-новость

Google работает над созданием новой операционной системы под внутренним названием LaCrOs. Разработка должна заменить Chrome OS. Ключевое отличие – отказ от встроенного в ОС браузера.

18.09.2020    3696    VKuser24342747    0       

Android 11 представлен официально

Новость Android ИТ-новость Мобильные приложения

Компания Google выпустила новую версию самой популярной в мире мобильной операционной системы. Android 11 – Red Velvet Cake – названа в честь торта «Красный бархат», получила новые настройки приватности, поддержку 5G, встроенную функцию записи экрана и опцию подтвержденных звонков от компаний.

18.09.2020    5299    user1015646    0       

Google объединила разработку no-code, управление API и бессерверные вычисления

Новость Google ИТ-новость Новости компаний

Google Cloud объявила о запуске своей новой платформы бизнес-приложений, которая сочетает в себе управление через API с разработкой приложений без кода, а также с возможностями автоматизации и анализа данных.

18.09.2020    2497    SKravchenko    1       

Microsoft раскрыла исходники библиотеки для редактирования документов в облаке

Новость ИТ-новость Новости компаний Облачные технологии

Microsoft опубликовала исходный код собственного фреймворка Fluid. Компания использует его в Office 365 для создания облачных документов для совместного редактирования.

17.09.2020    1815    VKuser24342747    0       

Microsoft и VMware запустили облачный сервис Azure Spring для Java-разработчиков

Новость ИТ-новость Новости компаний Облачные технологии

Компания Microsoft совместно с VMware запустила сервис для облачной разработки – Azure Spring Cloud. Это комфортная среда для создания Java-приложений на платформе Microsoft Azure с использованием популярного фреймворка Spring Boot.

17.09.2020    1621    user1015646    0       

Приближается конец Adobe Flash Player

Новость Интернет ИТ-новость

В июле 2017 года Microsoft вместе с Adobe объявили, что Adobe Flash Player больше не будет поддерживаться системой после декабря 2020. В соответствии с этим планом Microsoft прекратит и использование Flash Player в Edge и IE 11.

16.09.2020    2444    SKravchenko    1       

Утверждено крупное обновление языка С++

Новость ИТ-новость Языки программирования

Выхода С++ 20 осталось ждать совсем недолго. Новый стандарт утвердила группа международной организации по стандартизации ISO – Working Group 21 (WG21).

15.09.2020    2561    user1015646    6       

GitHub победил: Microsoft закроет IDE Visual Studio Codespace

Новость GitHub ИТ-новость

Microsoft в этом году запретит создавать новые проекты в облачной среде разработки Visual Studio Codespace. Вместо нее компания будет продвигать одноименный инструмент GitHub.

14.09.2020    2847    VKuser24342747    3       

Mozillа: история самой недооцененной технологической компании

Новость Интернет ИТ-новость Новости компаний Языки программирования

В августе Mozilla запустила второй раунд увольнений за год. Хотя официальной причиной называют COVID-19, это свидетельствует о глубоком кризисе компании с долгой историей, которая приложила руку к созданию многих ИТ-стандартов и технологий.

11.09.2020    3054    SKravchenko    1       

Microsoft изучают LTO + PGO для ядра Linux

Новость Linux ИТ-новость

Ян Бирман – менеджер по разработке программного обеспечения в Microsoft – представил на конференции Linux Plumbers Conference доклад об исследовании профильной оптимизации ядра Linux.

10.09.2020    2997    SKravchenko    2       

Microsoft выпустила официальные ISO-образы Windows 10 20H2 для инсайдеров

Новость Windows ИТ-новость

Microsoft активно работает над следующей версией Windows 10, известной как 20H2. Она будет выпущена в конце 2020 года. И недавно 20H2 стала доступна в виде ISO-образов для коммерческих клиентов в бета-канале.

09.09.2020    1148    SKravchenko    2       

Устройства Huawei больше не будут получать патчи безопасности Android

Новость Android ИТ-новость Мобильные приложения

Компания Google прекратила предоставление патчей безопасности для смартфонов и планшетов Huawei, которые работают под управлением Android. Это следствие политики американского правительства, которое ограничивает работу с китайскими партнерами.

09.09.2020    895    user1015646    3       

Google представила новый инструмент для Android-разработки Jetpack Compose

Новость Android Google ИТ-новость Мобильные приложения

Компания Google запустила альфа-тест UI-фреймворка Jetpack Compose, предназначенного для создания приложений под Android. Инструментарий решения уже доступен в Android Studio 4.2.

09.09.2020    739    VKuser24342747    2       

Российские разработчики бесплатно передали Linux поддержку NTFS

Новость Linux ИТ-новость

Сообщество Linux получило драйвер для файловой системы NTFS, которая используется в Windows. Код решения бесплатно передали разработчики российской компании Paragon Software.

08.09.2020    2244    user1015646    0       

Google запустил портал для разработчиков Chrome OS

Новость ОС Google ИТ-новость

Компания Google представила новый портал ChromeOS.dev. Это ресурс, предназначенный для общения и предоставления информации всем разработчикам системы Chrome OS и приложений для нее.

07.09.2020    765    user1015646    0       

Facebook ждёт обрушения доходов от рекламы из-за повышенной конфиденциальности в iOS 14

Новость iOS ИТ-новость Мобильные приложения Соцсети

26 августа Facebook предупредил рекламодателей, что новые инструменты Apple для борьбы с отслеживанием активности пользователей могут привести к падению доходов издателей более чем на 50 процентов.

04.09.2020    985    SKravchenko    2       

Энтузиасты демонстрируют Windows 10 для ARM с функцией, аналогичной Continuum

Новость Windows ИТ-новость Мобильные приложения

Недавние выпуски Windows 10 на ARM позволили энтузиастам включить поддержку двойного экрана. Некоторым разработчикам даже удалось воссоздать возможности Windows Phone Continuum.

03.09.2020    871    SKravchenko    0       

Программист из США попросил суд выдать ИИ патент на изобретение

Новость Инновации Искусственный интеллект ИТ-новость

Американский разработчик настаивает, что созданная им нейросеть стала автором двух изобретений. Патентное ведомство США отказалось признать ИИ владельцем интеллектуальных прав на устройства.

03.09.2020    1033    VKuser24342747    30       

В Microsoft Word появились функция расшифровки аудио и голосовые команды

Новость Автоматизация Infostart Software Partners Искусственный интеллект Маркет

Компания Microsoft представила обновление офисного пакета Microsoft 365. Теперь в приложении Word доступны функция расшифровки аудиозаписей и поддержка голосовых команд.

03.09.2020    1319    user1015646    3       

Разработчики языка Rust и компания Mozilla объявили о намерении создать фонд Rust Foundation

Новость ИТ-новость Новости компаний Языки программирования

Команда Rust – исследовательский проект спонсируемый Mozilla, планирует создать фонд. Сокращение 250 сотрудников компании Mozilla ускорило принятие этого решения.

01.09.2020    937    SKravchenko    1       

Минкомсвязь озвучила требования к социально значимым сайтам

Новость Интернет ИТ-новость Минкомсвязь

Доступ к социально значимым сайтам хотят сделать бесплатным в рамках проекта «Доступный интернет». Минкомсвязь определила, каким требованиям должны соответствовать такие сайты.

01.09.2020    865    user1015646    0