В Alibaba научили речевой алгоритм изолировать голоса в шумной толпе

В Alibaba научили речевой алгоритм изолировать голоса в шумной толпе
07.12.2018
30620

Китайский конгломерат Alibaba все чаще обращает свое внимание на искусственный интеллект. На конференции NeurIPS 2018 в Монреале он представил презентацию о своих достижениях в прикладном использовании ИИ.

Искусственный интеллект и 40 разбойников

В марте 2017 года Alibaba запускает подразделение служб ИИ для здравоохранения и производства, а в сентябре подразделение Alibaba Cloud обнародовало планы создания специализированной дочерней компании и саморазвивающегося чипа вывода AI для логистики и автономного вождения. В июле 2018 стало известно, что Alibaba начал использовать ИИ при написании продающих текстов.

Имея достаточно ресурсов, компания активно развивает цифровые сервисы на базе искусственного интеллекта.

 

 

Он узнает тебя по голосу

Декан Института данных Alibaba Ронг Джин в ходе конференции NeurIPS заявил, что AI помогает решать интересные задачи. И одна из таких задач – распознавание речи в шумных местах, например, переполненное метро или перегруженный торговый центр.

Решение Alibaba – это комплекс из аппаратного и программного обеспечения: микрофонный массив с дальним полем и сложные алгоритмы глубокого обучения, которые изолируют голоса в толпе, снижая частоту ошибок.

«Лучшие» технологии распознавания речи способны достичь с помощью микрофонной матрицы 84% точности, Alibaba утверждает, что точность ее модели находится в пределах 94-95%. Комплекс уже развернут в рамках системы голосового взаимодействия в метро Шанхая, и компания ведет переговоры, чтобы использовать ее в других городах.

Применение

Голосовое взаимодействие в транспорте – не единственное направление, в котором Alibaba применяет искусственный интеллект. Используя обработку естественного языка, ИИ выполняет автоматический перевод в реальном времени в облаке, так что розничные клиенты компании в России и Малайзии могут общаться с агентами на их родных языках. Эти алгоритмы основаны на данных десятков тысяч звонков, которые центры поддержки получают каждый день с помощью интеллектуального механизма обслуживания клиентов AliMe.

 

 

AliMe, как и Google Duplex, может вести телефонный разговор и отвечать на вопросы без участия человека. Также он может автоматически извлекать текст и изображения из прилагаемого документа.

В ходе демонстрации в Монреале Ронг Джин попросил чат-бот Dian Xiaomi рассказать о рекламных акциях для конкретного Bluetooth-динамика. Бот рассказал, какие бесплатные подарки клиенты получат при покупке, и как они будут доставлены. Еще одна демонстрация представила гуманоидное воплощение чат-бота – прототип с координированными движениями глаз, губ и головы. Dian Xiaomi обслуживает почти 3,5 миллиона пользователей в день.

И глаз как у орла

Для складского учета и поиска изображений Alibaba использует масштабируемую архитектуру компьютерного зрения, чтобы обработать сотни миллионов объектов. Его алгоритм поиска облачных изображений может распознавать идентичные картинки. Приложение для управления магазином выбирает несколько элементов на полке для создания сводки и включает в себя распределение разных брендов, может обнаруживать 100 тыс. идентификаторов товарных позиций с высокой точностью.

Эти инструменты дополняют Alibaba Ali Smart Supply Chain (ASSC) – набор инструментов AI, которые помогают продавцам прогнозировать спрос на продукт, распределять ресурсы и выбирать стратегии ценообразования. Работа машинного зрения Alibaba распространяется и на спутниковые снимки. Alibaba Ali Smart Supply Chain использует данные, собранные от AutoNavi, крупнейшего поставщика карт и навигации в Китае, насчитывающего 70 млн пользователей. Его системы могут идентифицировать недавно построенные здания и собирать информацию, связанную с дорожными работами и достопримечательностями.

 

 

Alibaba также использует компьютерное зрение, чтобы предотвратить кражи в магазинах. Алгоритм глубокого обучения AliFPGA-X100 работает на программируемой пользователем интегральной схеме. Представители компании утверждают, что он способен обрабатывать изображения в 170 раз быстрее, чем сопоставимые на основе GPU.

Alibaba также применяет AI для Youku – своего видеохостинга. Алгоритмы машинного обучения автоматически генерируют эскизы для 200 тыс. видео. AI может ориентироваться на определенные сегменты аудитории. Например, пользователи женского пола могут видеть одно изображение предварительного просмотра, а мужчины – другое. 

Alibaba планирует потратить 15 млрд долларов на исследования и разработки в области искусственного интеллекта к 2020 году.

Автор:
Обозреватель

См. также

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    866    user1915669    0       

2

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    980    AnastasiaKl    0       

1

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    2180    AnastasiaKl    3       

3

ИИ-помощник для разработчиков GitHub Copilot теперь не только в реальном времени анализирует код, предлагает варианты для его улучшения и помогает найти решение проблем в разработке, но и  показывает ссылки на репозитории, из которых взят код. 

17.08.2023    1563    VKuser24342747    0       

1

JetBrains представила нейросеть Ask AI для онлайн-блокнота Datalore. Виртуальный ассистент способен генерировать код на нескольких языках, предлагать доработки и упрощать процесс аналитики данных. 

16.08.2023    1123    VKuser24342747    0       

1

Чат-бот OpenAI ошибается в 52% случаев, когда отвечает на вопросы по программированию. Однако делает это так убедительно, что пользователи не замечают ошибки. 

14.08.2023    3637    VKuser24342747    5       

3

«Сбер» предоставил свободный доступ к языковой модели ruGPT-3.5, предназначенной для генерации текста на русском языке. Кроме того, стала доступна нейросеть mGPT, поддерживающая 61 язык, включая языки СНГ и малых народов России.

25.07.2023    1405    VKuser24342747    1       

2

GitLab представила собственную нейросеть Code Suggestions, способную генерировать код по запросу на естественном языке. ИИ-помощник поддерживает работу с 13 языками программирования.

10.07.2023    1740    VKuser24342747    0       

1

Использует ли ваша компания чат-боты для работы с клиентами?


Да (12.5%, 2 голосов)
12.5%
Нет, но собираемся (12.5%, 2 голосов)
12.5%
Нет, нам это не нужно (75%, 12 голосов)
75%

Инфостарт бот

Оставьте свое сообщение