«Яндекс» создал свою генеративную нейросеть для текстов разных стилей

21.06.2021      24572

«Яндекс» открыл для всех желающих доступ к собственной нейросети для генерации текста «Балабоба». Программа работает на базе языковой модели, разработанной поисковой системой.

Нейросеть балабобит

В основе «Балабобы» лежит модель из семейства YaLM (Yet another Language Model), которая вдохновлена аналогичной технологией GPT-3 от компании Open AI. Эта система позволяет нейросети запомнить правила русского языка и подбирать подходящие по контексту слова. Разработчики «Яндекса» напоминают, что программа не имеет своего мнения и лишь генерирует тексты, которые могли бы быть написаны в интернете.

Для обучения нейросети были использованы проиндексированные российским поисковиком страницы. Для начала работы необходимо написать несколько слов, и приложение создаст продолжение. В зависимости от настроек «Балабоба» дополнит текст без попытки подражания либо стилизует фразу под ТВ-репортаж, теорию заговора, тост, пацанскую цитату, рекламный слоган, короткую историю, подпись в Instagram или «Википедию».

Впервые о разработке языковой нейросети стало известно в начале июня, когда «Яндекс» случайно открыл доступ к ранней версии «Балабобы». Спустя пару часов сервис снова стал закрытым, но пользователи, которые успели опробовать его, сообщили, что официальная версия программы стала меньше материться и не генерирует тексты, касающиеся политики и религии.

Детали технологии

Языковая модель YaLM предназначена для генерации каждого последующего слова в предложении. Для повышения качества фраз во время обучения нейросеть оценивает предсказываемые слова и определяет, какие словосочетания употребляются чаще. От правильного или неверного подбора слов изменяются параметры YaLM. В самой языковой модели их может быть от 1 до 13 млрд, «Балабоба» использует 3 млрд настроек.

Для повышения лексического и грамматического разнообразия нейросеть обучена на терабайтах информации. «Яндекс» использовал в качестве материалов самые разнообразные источники: статьи из «Википедии», журналистские материалы, новости, книги, пользовательские записи из социальных сетей и форумов. Для снижения нагрузки на нейросеть из выборки исключены повторяющиеся, незаконченные и неестественные тексты вроде объявлений.

Главная особенность YaLM – возможность быстро обучиться требуемому навыку всего за несколько примеров. Например, языковая модель будет способна сгенерировать осмысленную рецензию на фильм после изучения пяти примеров настоящих авторских отзывов от критиков. На основе этого механизма в «Балабобе» реализована стилизация текста.

Возможности YaLM также применяются и в других сервисах «Яндекса».


Автор:
Аналитик


См. также

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    296    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    994    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    844    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    631    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    782    VKuser24342747    2       

1

Новость Мобильные приложения ИТ-Новость

Новая версия Android Studio под номером 2023.1 получила имя Hedgehog. Появились возможности контролировать производительность приложений и управлять подключенными устройствами.

07.12.2023    1004    VKuser24342747    2       

3

Новость GitHub ИТ-Новость

GitHub собрал данные об Open Source проектах в рамках ежегодного исследования Octoverse. Компания изучила географию репозиториев, используемые языки программирования и нейросети, а также активность сообщества.

15.11.2023    641    VKuser24342747    1       

2

Новость ИТ-компания ИТ-Новость

Компания «Сбер» заявила, что будет бесплатно предоставлять доступ к API нейросети для генерации текста GigaChat для некоммерческих проектов. Однако для них будет ограничено число доступных токенов.

01.11.2023    801    VKuser24342747    2       

3
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. protexprotex 131 21.06.21 22:22 Сейчас в теме
"что официальная версия программы стала меньше материться" - видать, и у нейросети тоже есть понедельники :-)
2. пользователь 21.06.21 22:23
Сообщение было скрыто модератором.
...
3. PowerBoy 3379 22.06.21 09:58 Сейчас в теме
Короче, infostart это сайт 1c для бухгалтеров, на котором они могут посмотреть на красивых девушек, которые показывают им 1с-отчеты.
Короче, infostart это сайт 1c для программистов, а не сайт 1с.
Короче, infostart это сайт 1c для тех, кому надо, а не для тех, кого.

:)
4. portwein 22.06.21 11:09 Сейчас в теме
Писать на bsl "оно" конечно не может, но, что удивительно, за синтаксис все таки в курсе!
Прикрепленные файлы:
5. vet7777 593 23.06.21 14:36 Сейчас в теме
и анекдоты смешные сочиняет )
Прикрепленные файлы:
Оставьте свое сообщение