«Яндекс» внедрил генеративную нейросеть для поиска ответов

11.06.2021     

«Яндекс» представил новую версию своего поисковика Y1. В числе прочих изменений – использование машинного обучения для генерации подзаголовков объектных ответов и классификации сниппетов. 

Технология обучения

Датасет используемой нейросети «Яндекс» обучал на реальных текстах, размещенных в интернете. В него вошли как качественные источники вроде «Википедии», книг и новостей, так и более «грязные» материалы, из которых исключены неестественные словарные конструкции: дубликаты, объявления и т.д. 

Для обучения модели используется комбинированный подход. Инженеры «Яндекса» применяют метод для тренировки больших сетей Pipeline parallelism, который разделяет модель, поэтому каждая ее карточка хранит лишь несколько первых слоев. Для экономии ресурсов задействуется подход Tensor parallelism от Nvidia, который разделяет модель не поперек слоев, а вдоль, из-за чего они сохраняются сразу на нескольких карточках. Также использован метод ZeRO, разработанный Microsoft.

В итоге «Яндекс» создал две модели, которые составляют его собственное семейство YaLM. Старшая модель насчитывает 13 млрд параметров, младшая — 1 млрд.

Где используется

Модели YaLM применяются компанией для доработки объектных ответов – быстрой выдачи на популярные запросы, которые загружаются из «Википедии». Нейросеть помогает упростить такие описания, сгенерировав для пользователя простую и понятную фразу. Благодаря машинному обучению система из краткого текста с информацией создает одно предложение, описывающее ответ, например «Короче, ТНТ – это телеканал» или «Короче, Booking.com – это сайт бронирования отелей».

Также нейросеть используется не только для генерации, но и для классификации. В «Яндексе» для выбора лучшего сниппета (короткого ответа на вопрос, взятого с разных сайтов) задействуются собственная технология машинного обучения CatBoost. Благодаря YaLM будет дополнительно рассчитываться вероятность слов из этой модели. 

Кроме того, новая разработка «Яндекса» должна улучшить ответы голосового помощника «Алиса». Сейчас он работает на базе диалогов, написанных редакторами с учетом характера персонажа. Однако виртуальный ассистент оказался недостаточно «живым» в общении из-за малого охвата тем. Для решения этой проблемы разработчики намерены использовать YaLM, применив к модели специфические настройки, например, заморозив все весы, кроме обучаемых параметров в слоях layer norm.  Первые эксперименты показали, что такой подход не «отупляет» «Алису» и позволяет сохранить задуманный для нее характер. 

Другие обновления

Кроме внедрения генеративной нейросети, «Яндекс» представил и другие изменения для своего поисковика. 

Система научилась находить видео с инструкциями, соответствующими запросу пользователя, и вычленять из него наиболее подходящий отрывок. В результатах поиска теперь будет отображаться пользовательский рейтинг организаций по нескольким критериям и отзывы.  Умная камера, предназначенная для распознавания объектов, по заверениям разработчиков, стала работать в пять раз точнее. Для пользователей мобильного приложения «Яндекс» доступен автоматический определитель номера, который позволяет блокировать нежелательные вызовы. 


Автор:
Александр Вашкевич Аналитик


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

JetBrains открыла ранний доступ к новой IDE для Data Science

Новость ИТ-новость Новости компаний

7 сентября JetBrains разместила в своем блоге статью с информацией о том, что новая IDE DataSpell, которая с марта 2021 года находилась в закрытом тестировании по программе раннего доступа (EAP), становится доступной для всех желающих.

вчера в 17:06    5283    capitan    1       

Microsoft предлагает отказаться от паролей в пользу сервиса Authentication

Новость Безопасность Интернет ИТ-новость Новости компаний

Microsoft видит проблему в стандартных паролях, которые зачастую повторяются и имеют низкую надежность. В компании убеждены, что альтернативные способы аутентификации более безопасны.

вчера в 15:23    1585    VKuser24342747    2       

Правительство утвердило разработку российского аналога GitHub

Новость ИТ-новость Цифровая экономика

Премьер-министр Михаил Мишустин на форуме Kazan Digital Week анонсировал создание отечественного репозитория, аналогичного GitHub. Проект реализуется в рамках второго пакета поддержки ИТ.

22.09.2021    6066    VKuser24342747    17       

Microsoft присоединилась к Open Infrastructure Foundation для развития облаков

Новость ИТ-новость Новости компаний Облачные технологии

Microsoft стала платиновым членом организации Open Infrastructure Foundation. Компания будет представлять интересы своих телекоммуникационных клиентов в OpenStack.

15.09.2021    3882    VKuser24342747    0       

Microsoft разрешит устанавливать Windows 11 на старые компьютеры

Новость Windows ИТ-новость Новости компаний

Microsoft пересмотрела правила установки Windows 11, которые не позволяли использовать ОС на компьютерах, не соответствующих системным требованиям. Для инсталляции придется создать загрузочный диск.

14.09.2021    2976    VKuser24342747    0       

Оплата лицом заработает на всех станциях метро Москвы

Новость Искусственный интеллект ИТ-новость Цифровая экономика

В столичном метрополитене внедряют систему FacePay. С 15 октября оплатить проезд можно будет, не доставая смартфон, карту или жетоны из кармана.

14.09.2021    2503    user1015646    2       

«Яндекс» представил технологию автоматического перевода любых видео на русский язык

Новость ИТ-новость Яндекс

«Яндекс» сделал функцию автоматического закадрового перевода иностранных роликов доступной для почти любых видео в интернете. Функция встроена в фирменный браузер компании.

13.09.2021    2538    VKuser24342747    4       

Исследователи синтезировали выразительную устную речь

Новость Искусственный интеллект ИТ-новость

Синтетическое воспроизведение речи от голосовых помощников и автопереводчиков не передает эмоций и интонаций. Специалисты NVIDIA разработали систему искусственного интеллекта, которая решает эту проблему: ее речь сложно отличить от естественной.

10.09.2021    9224    user1015646    0       

GitHub выпустил веб-редактор кода: возможности, о которых вы могли не знать

Новость GitHub Автоматизация Интернет ИТ-новость

Начинающим программистам часто сложно настроить среду разработки и установить весь необходимый софт. Для них, а также для специалистов, которые работают в распределенных командах, GitHub запустил новый сервис github.dev.

10.09.2021    5496    user1015646    0       

Раскрыта дата релиза Windows 11

Новость Windows ИТ-новость Новости компаний

Microsoft официально объявила, когда станет доступна новая версия самой популярной десктопной ОС. Обновиться с Windows 10 до Windows 11 можно будет уже 5 октября 2021 года.

09.09.2021    10064    user1015646    0       

В Google научились увеличивать изображения в 16 раз с восстановлением деталей

Новость Искусственный интеллект ИТ-новость

Раньше увеличить видео с камер наблюдения в десятки раз получалось только у героев фильмов. Но теперь такая возможность существует и в реальной жизни – инженеры Google разработали прорывную технологию масштабирования изображений.

09.09.2021    4397    user1015646    3       

Эксперты подготовили рекомендации по использованию кириллицы в доменах и почте

Новость Интернет ИТ-новость

Рабочая группа представила стандарты внедрения, обработки, хранения, валидации и адаптации кириллических символов для программ, поддерживающих доменные имена и email-адреса.

07.09.2021    2937    VKuser24342747    0       

Госструктуры перейдут на российские системы видеоконференций

Новость Импортозамещение ИТ-новость Облачные технологии

Российских чиновников переводят на использование отечественного сервиса видеоконференций. Будут внедрять систему TrueConf на базе ОС Astra Linux и процессоров Baikal-M от «Байкал Электроникс».

03.09.2021    3253    user1015646    0       

Минэкономики раскритиковало требования к обновлению оборудования для суверенного Рунета

Новость Импортозамещение Интернет ИТ-новость Телекоммуникации

Минэкономики пришло к выводу, что требования Минцифры затормозят развитие связи в России. По мнению специалистов ведомства, возможным последствием может стать ухудшение интернет-услуг провайдеров.

03.09.2021    2737    VKuser24342747    0       

Разработчики назвали любимые языки программирования

Новость ИТ-новость Языки программирования

Крупнейший форум для разработчиков Stack Overflow составил рейтинг любимых языков программирования. Первую строчку списка занял молодой, но перспективный Rust.

02.09.2021    5325    user1015646    3       

Петербургские ученые обучили нейросеть находить вредоносных ботов в соцсетях

Новость Безопасность Искусственный интеллект ИТ-новость Соцсети

Сотрудники Санкт-Петербургского федерального исследовательского центра Российской академии наук (СПб ФИЦ РАН) создали решение для поиска ботов, размещающих спам и дезинформацию на любом языке.

02.09.2021    2370    VKuser24342747    1       

Windows Server исключается из эксперимента по поставке обновлений Microsoft WaaS

Новость Windows ИТ-новость Новости компаний Облачные технологии

По результатам четырехлетнего эксперимента Windows as a Service Microsoft решила, что больше не будет обновлять Windows Server несколько раз в год. Для серверной ОС было решено вернуться к практике обновления каждые 2-3 года.

01.09.2021    5523    SKravchenko    0       

Microsoft добавила в Power BI инструменты аналитики для Angular-приложений

Новость Аналитика ИТ-новость

Microsoft представила новый компонент для создания веб-сервисов аналитики данных. Он позволит интегрировать функции Power BI в Angular-приложения.

31.08.2021    3415    user1015646    0       

Windows 11 лишится нескольких функций предыдущей версии системы

Новость Windows ИТ-новость

Microsoft в бета-версии Windows 11 изменила привычные функции. Из ОС исчезло отображение секунд на часах и возможность быстро добавлять события в календарь, а кнопка «Пуск» переместилась в центр панели задач.

31.08.2021    5013    VKuser24342747    6       

GitHub в версии утилиты CLI 2.0 добавил поддержку расширений

Новость GitHub ИТ-новость Новости компаний

Разработчики GitHub представили вторую версию утилиты для управления проектами при помощи командной строки CLI. Приложение поддерживает несколько стандартных расширений и создание собственных.

27.08.2021    6524    VKuser24342747    0       

Круглая дата: ядру Linux исполнилось 30 лет

Новость Linux ИТ-новость Новости компаний

Ядро Linux отмечает юбилей. О создании новой ОС 21-летний Линус Торвальдс объявил 25 августа 1991 года.

27.08.2021    4849    user1015646    2       

Искусственный интеллект научился распознавать изображения лучше человека

Новость Искусственный интеллект ИТ-новость

Алгоритм компьютерного зрения впервые превзошел человека. В экспериментах людям и системе искусственного интеллекта предлагали определить, что изображено на фото, и ответить на вопросы. Результат ИИ оказался выше, чем у человека.

26.08.2021    3751    user1015646    5       

Facebook представил криптобиблиотеку для разработчиков – Winterfell

Новость ИТ-новость Новости компаний

Специалисты Facebook выпустили новую библиотеку Winterfell. Проект с открытым исходным кодом может генерировать доказательство вычислительной целостности STARK.

24.08.2021    5043    user1015646    3       

В GitHub добавлена поддержка цитирования из репозиториев

Новость GitHub ИТ-новость

GitHub позволил использовать файл CITATION.cff, в котором можно указать, как правильно ссылаться на содержимое репозитория при написании академических публикаций.

24.08.2021    5199    VKuser24342747    0       

GitHub официально представил новую версию «Обсуждений»

Новость GitHub ИТ-новость

GitHub заявил о завершении бета-тестирования обновленной версии раздела Discussions. Релизный вариант площадки для обсуждений репозиториев разрабатывался почти год при активном участии сообщества.

23.08.2021    3399    VKuser24342747    0