«Яндекс» создал свою генеративную нейросеть для текстов разных стилей

21.06.2021      24654

«Яндекс» открыл для всех желающих доступ к собственной нейросети для генерации текста «Балабоба». Программа работает на базе языковой модели, разработанной поисковой системой.

Нейросеть балабобит

В основе «Балабобы» лежит модель из семейства YaLM (Yet another Language Model), которая вдохновлена аналогичной технологией GPT-3 от компании Open AI. Эта система позволяет нейросети запомнить правила русского языка и подбирать подходящие по контексту слова. Разработчики «Яндекса» напоминают, что программа не имеет своего мнения и лишь генерирует тексты, которые могли бы быть написаны в интернете.

Для обучения нейросети были использованы проиндексированные российским поисковиком страницы. Для начала работы необходимо написать несколько слов, и приложение создаст продолжение. В зависимости от настроек «Балабоба» дополнит текст без попытки подражания либо стилизует фразу под ТВ-репортаж, теорию заговора, тост, пацанскую цитату, рекламный слоган, короткую историю, подпись в Instagram или «Википедию».

Впервые о разработке языковой нейросети стало известно в начале июня, когда «Яндекс» случайно открыл доступ к ранней версии «Балабобы». Спустя пару часов сервис снова стал закрытым, но пользователи, которые успели опробовать его, сообщили, что официальная версия программы стала меньше материться и не генерирует тексты, касающиеся политики и религии.

Детали технологии

Языковая модель YaLM предназначена для генерации каждого последующего слова в предложении. Для повышения качества фраз во время обучения нейросеть оценивает предсказываемые слова и определяет, какие словосочетания употребляются чаще. От правильного или неверного подбора слов изменяются параметры YaLM. В самой языковой модели их может быть от 1 до 13 млрд, «Балабоба» использует 3 млрд настроек.

Для повышения лексического и грамматического разнообразия нейросеть обучена на терабайтах информации. «Яндекс» использовал в качестве материалов самые разнообразные источники: статьи из «Википедии», журналистские материалы, новости, книги, пользовательские записи из социальных сетей и форумов. Для снижения нагрузки на нейросеть из выборки исключены повторяющиеся, незаконченные и неестественные тексты вроде объявлений.

Главная особенность YaLM – возможность быстро обучиться требуемому навыку всего за несколько примеров. Например, языковая модель будет способна сгенерировать осмысленную рецензию на фильм после изучения пяти примеров настоящих авторских отзывов от критиков. На основе этого механизма в «Балабобе» реализована стилизация текста.

Возможности YaLM также применяются и в других сервисах «Яндекса».


Автор:
Аналитик


См. также

Новость ИТ-Новость

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    680    user1915669    0       

2

Новость ИТ-Новость

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    907    AnastasiaKl    0       

3

Новость ИТ-компания ИТ-Новость

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    949    user1915669    2       

2

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    603    user1915669    0       

2

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    728    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    807    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    773    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1661    AnastasiaKl    3       

3
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. protexprotex 139 21.06.21 22:22 Сейчас в теме
"что официальная версия программы стала меньше материться" - видать, и у нейросети тоже есть понедельники :-)
2. пользователь 21.06.21 22:23
Сообщение было скрыто модератором.
...
3. PowerBoy 3416 22.06.21 09:58 Сейчас в теме
Короче, infostart это сайт 1c для бухгалтеров, на котором они могут посмотреть на красивых девушек, которые показывают им 1с-отчеты.
Короче, infostart это сайт 1c для программистов, а не сайт 1с.
Короче, infostart это сайт 1c для тех, кому надо, а не для тех, кого.

:)
4. portwein 22.06.21 11:09 Сейчас в теме
Писать на bsl "оно" конечно не может, но, что удивительно, за синтаксис все таки в курсе!
Прикрепленные файлы:
5. vet7777 595 23.06.21 14:36 Сейчас в теме
и анекдоты смешные сочиняет )
Прикрепленные файлы:
Оставьте свое сообщение