В Microsoft сделали записи компьютерного голоса, который имитирует человеческую речь. Добиться результата удалось с помощью нейронных сетей. В будущем нейросеть обучат 49 языкам и внедрят технологию создания собственных голосов.
Синтез речи
Для того, чтобы ИИ заговорил по-человечески, нейронные сети сравнивают ударение, протяженность речи говорящего и синтезируют это в компьютерный голос. Обычно синтез происходит в два этапа: сначала производится акустический анализ, затем лингвистический, далее результаты объединяются. Но в Microsoft решили объединить два процесса в один, что позволило избавиться от «механичности» в голосе нейросети. Синтез осуществляли на базе вычислительных мощностей облачной платформы Azure.
Сейчас доступно лишь два голоса – мужской Guy и женский Jessa.
Разработчики и предприниматели уверены, что новый синтез позволит сделать общение человека и ИИ (виртуальных собеседников и электронных помощников) более естественным. Уже появились предложения об использовании технологии Microsoft для конвертации электронных книг в аудиокниги.
Напомним, что решение от Microsoft – не единственное в своем роде. В августе корпорация Google также представила функцию облачного синтеза речи Cloud Speech-to-Text: технология умеет расшифровывать аудиозапись и переводить ее в текст.
Сравнение синтеза речи от Microsoft с традиционным
Другие наработки Microsoft
Одним из первых творений Microsoft в сфере ИИ стала система распознавания эмоций в речи. Она способна анализировать текст и оценивать его по шкале от 0 до 100% – от негативных окрасок до самых позитивных.
Но были у корпорации и промахи. Например, в 2016 году в Microsoft представили искусственный интеллект, способный общаться с людьми. Чтобы ИИ чему-то научился у человека, его загрузили в Twitter, но через несколько часов технологию из соцсети пришлось убрать. Люди научили ИИ слишком плохому. Тау, как назвали разработку в корпорации, начала поддерживать Гитлера, нацизм и грязно обругала американское правительство.
Что ИИ умеет еще?
В университете имени Джона Хопкинса (США) собираются использовать искусственный интеллект для определения первичных стадий рака. Нейросети помогут оперативно и точно поставить диагноз пациенту, чтобы назначить соответствующее лечение.
Исследователи из Индии и Англии разработали специальный алгоритм распознавания лиц. Он настолько хорош, что способен узнать человека, даже если его лицо будет замаскировано. Система работает на машинном обучении и нейронных сетях, которые идентифицируют людей с помощью определения ключевых точек – уголков губ, бровей и т.д. После этого ведется поиск открытого лица в базе данных.
В Германии разработали систему EnhanceNet-PAT, которая позволяет улучшить качество фотографий в несколько раз. Искусственный интеллект подбирает схожие пиксели и подставляет их в изображение. Если картинка получается нечеткой, начинается поиск схожих изображений. Для ИИ ученые загрузили огромное количество картинок-примеров как в низком разрешении, так и в высоком, чтобы компьютер смог учиться на своих ошибках и больше их не допускать.