OpenAI научила нейросеть кратко пересказывать содержимое книг

30.09.2021      30718

OpenAI представила инструмент, который генерирует краткое содержание книг при помощи машинного обучения. Нейросеть способна ужать произведение из тысяч слов до нескольких сотен.

Как работает технология

Модель искусственного интеллекта, способная создавать выжимки из книг, разработана на базе GPT-3. Инструмент обрабатывает текст в несколько этапов. Сперва нейросеть анализирует структуру произведения и разбивает его на разделы, затем генерирует краткое содержимое каждой из частей, объединяет получившийся результат в один текст и снова укорачивает его, пока не получит финальную выжимку с заданными параметрами.

В качестве демонстрации работы ИИ исследователи OpenAI сократили «Алису в стране чудес». Книга Льюиса Кэрролла содержит более 26 тыс. слов. После первого этапа обработки нейросеть представила 66 выжимок по 6 тыс. слов, после сократила объем текста до шести разделов по 830 слов. На выходе получился краткий пересказ книги из 136 слов.

Как заявляют исследователи, нейросеть способна создавать выжимки на уровне литературного произведения, которые содержат большую часть исходной ключевой информации. Тем не менее, иногда ИИ допускает неточные утверждения из-за того, что не распознает контекст. Авторы проекта уточняют, что инструмент способен работать с книгами любого размера, даже состоящими из тысяч страниц.

Метод обучения

По словам представителей OpenAI, создание инструмента для генерации выжимок из литературы – часть постоянных исследований организации по совершенствованию возможностей искусственного интеллекта. Компания не намерена делать сервис доступным для других пользователей, публиковать его исходный код и делать проект открытым.

Для тренировки нейросети OpenAI использовала базу данных из художественных англоязычных книг в обучающем наборе GPT-3. Каждое произведение в среднем содержало не менее 100 тыс. слов. Чтобы оценить результаты генерации краткого содержания, исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги и самостоятельно написать выжимку. После результаты человеческого труда сравнили с итогами машинной обработки текста.

Несмотря на достаточно детальное изложение фактов, нейросеть, по словам авторов проекта, скорее генерирует список событий из книги, а не связанный краткий пересказ. Кроме того, ИИ иногда принимает незначительные детали за существенные, особенно в детективных романах.


Автор:
Аналитик


См. также

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    198    user1915669    0       

1

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    357    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    410    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    522    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1057    AnastasiaKl    3       

3

Новость ИТ-Новость

Пятничное: в России вступил в силу стандарт подготовки по дисциплине «спортивное программирование». В стандарт вошли требования к физическим показателям спортсменов и скорости набора текста.

16.02.2024    859    VKuser24342747    2       

1

Новость ИТ-Новость

Федеральное агентство по техническому регулированию и метрологии (Росстандарт) утвердило национальный стандарт протокола LoRaWAN RU, таким образом он получил официальный статус. Технология используется для беспроводной передачи данных между устройствами интернета вещей.

19.01.2024    651    VKuser24342747    0       

2

Новость Законодательство ИТ-Новость

12 декабря вступил в силу Федеральный закон, меняющий срок, к которому все владельцы сайтов должны внести изменения в порядок авторизации пользователей на сайте. Закон вводит переходный период до 1 января 2025 года.

20.12.2023    796    VKuser24342747    2       

1
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. dka80 21 30.09.21 16:56 Сейчас в теме
"После результаты человеческого труда сравнили с итогами машинной обработки текста."
Какой результат сравнения?
2. booksfill 30.09.21 18:09 Сейчас в теме
Хотелось бы хотя бы минимальной конкретики.

Сиречь примера, с той же Алисой.

А так... вот вам выжимка из "Алисы", которую я ожидал бы от ИИ, в 11 слов: "Девочка Алиса во сне попадает в сказочную страну, и, после ряда удивительных приключений, просыпается."
Здесь просчитывается абсолютно всё, включая слово "удивительных".

Задача как раз для программы - довольно легко высчитать начало и конец истории, сказочность остальных персонажей, пол, приблизительный возраст и наиболее часто встречающийся персонаж - скорее-всего, он же, главный герой.
Можно добавить несколько слов про имена и роли персонажей - встречается с сумасшедшим шляпником, гусеницей - наркоманкой, наблюдает за битвой единорога со львом, знакомится с королевой и т.п.

Если это оно, то, честно говоря, особого восторга механизм не вызывает.


"исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги" - бедные. Обычно среди "бестселлеров" столько же интересных, сколько и среди оскароносных фильмов, т.е. процентов 10. А им пришлось читать все, да еще сочинения писать. Понятно, что ИИ справился не сильно хуже.
И, хотя бы из милосердия и понимания того как проводится эксперимент, я дал бы по 3 одинаковых книги 100 разных людей. Причем не случайным, а достаточно образованным и умеющим грамотно излагать свои мысли, что большая редкость.


P.S.
Кстати, охотно верю, что выжимку от ИИ вполне можно запихать в предисловие. Которое, в большинстве случаев, достаточно тоскливо.
Но, разумеется, я понимаю, что ИИ создается не для написания предисловий.
Оставьте свое сообщение