OpenAI научила нейросеть кратко пересказывать содержимое книг

30.09.2021      30925

OpenAI представила инструмент, который генерирует краткое содержание книг при помощи машинного обучения. Нейросеть способна ужать произведение из тысяч слов до нескольких сотен.

Как работает технология

Модель искусственного интеллекта, способная создавать выжимки из книг, разработана на базе GPT-3. Инструмент обрабатывает текст в несколько этапов. Сперва нейросеть анализирует структуру произведения и разбивает его на разделы, затем генерирует краткое содержимое каждой из частей, объединяет получившийся результат в один текст и снова укорачивает его, пока не получит финальную выжимку с заданными параметрами.

В качестве демонстрации работы ИИ исследователи OpenAI сократили «Алису в стране чудес». Книга Льюиса Кэрролла содержит более 26 тыс. слов. После первого этапа обработки нейросеть представила 66 выжимок по 6 тыс. слов, после сократила объем текста до шести разделов по 830 слов. На выходе получился краткий пересказ книги из 136 слов.

Как заявляют исследователи, нейросеть способна создавать выжимки на уровне литературного произведения, которые содержат большую часть исходной ключевой информации. Тем не менее, иногда ИИ допускает неточные утверждения из-за того, что не распознает контекст. Авторы проекта уточняют, что инструмент способен работать с книгами любого размера, даже состоящими из тысяч страниц.

Метод обучения

По словам представителей OpenAI, создание инструмента для генерации выжимок из литературы – часть постоянных исследований организации по совершенствованию возможностей искусственного интеллекта. Компания не намерена делать сервис доступным для других пользователей, публиковать его исходный код и делать проект открытым.

Для тренировки нейросети OpenAI использовала базу данных из художественных англоязычных книг в обучающем наборе GPT-3. Каждое произведение в среднем содержало не менее 100 тыс. слов. Чтобы оценить результаты генерации краткого содержания, исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги и самостоятельно написать выжимку. После результаты человеческого труда сравнили с итогами машинной обработки текста.

Несмотря на достаточно детальное изложение фактов, нейросеть, по словам авторов проекта, скорее генерирует список событий из книги, а не связанный краткий пересказ. Кроме того, ИИ иногда принимает незначительные детали за существенные, особенно в детективных романах.


Автор:
Аналитик


См. также

Новость ИТ-Новость

Российский Альянс по искусственному интеллекту обновил требования к специалистам по ИИ: вышла новая модель с основными профессиями и навыками. Теперь базовых профессий в сфере ИИ осталось только четыре.

01.11.2024    669    user1915669    0       

2

Новость ИТ-Новость

Система платежей «Волна» по планам сделает возможной бесконтактную оплату для владельцев IPhone в России, а BRICS Pay позволит совершать безналичные расчеты иностранцам по картам Visa и Mastercard.

23.10.2024    895    AnastasiaKl    0       

3

Новость ИТ-компания ИТ-Новость

Конструктор сайтов Wix уходит из России с 12 сентября 2024 года – перестанут работать все российский аккаунты. Сайты, привязанные к аккаунтам, также перестанут работать.

11.09.2024    945    user1915669    2       

2

Новость Искусственный интеллект ИТ-Новость

ИИ научат разработке цифровых интегральных микросхем – несколько российских научных институтов заявили об участии в проекте. Проект рассчитан на 3 года – с 2024 по 2026.

23.07.2024    600    user1915669    0       

2

Новость Дата-центры Искусственный интеллект ИТ-Новость

Развитие искусственного интеллекта и цифровых сервисов в России стало причиной роста потребности в мощных центрах обработки данных. Эксперты прогнозируют, что дефицит ЦОД, который уже наблюдается сегодня, в ближайшие годы будет только усиливаться.

18.07.2024    720    AnastasiaKl    0       

1

Новость ИТ-Новость

В сентябре 2024 года видеоигры в России начнут маркировать – пока на добровольной основе. Геймерам будут сообщать о семи видах чувствительного (неприятного) контента в игре.

17.07.2024    801    user1915669    0       

1

Новость Законодательство ИТ-Новость

Депутаты Госдумы работают над законопроектом по ужесточению контроля за электросамокатами. Среди мер: обязательная регистрация СИМ (средств индивидуальной мобильности) и разработка системы отслеживания их перемещений.

10.07.2024    768    AnastasiaKl    2       

1

Новость Искусственный интеллект ИТ-Новость

В 2024 году «Сколково» выделит пилотным проектам в сфере искусственного интеллекта гранты на общую сумму 554 млн рублей. В результате отбора финансирование получат проекты с применением ИИ в областях производства, операционной деятельности и в работе предоставляемых сервисов.

12.04.2024    1646    AnastasiaKl    3       

3
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. dka80 21 30.09.21 16:56 Сейчас в теме
"После результаты человеческого труда сравнили с итогами машинной обработки текста."
Какой результат сравнения?
2. booksfill 30.09.21 18:09 Сейчас в теме
Хотелось бы хотя бы минимальной конкретики.

Сиречь примера, с той же Алисой.

А так... вот вам выжимка из "Алисы", которую я ожидал бы от ИИ, в 11 слов: "Девочка Алиса во сне попадает в сказочную страну, и, после ряда удивительных приключений, просыпается."
Здесь просчитывается абсолютно всё, включая слово "удивительных".

Задача как раз для программы - довольно легко высчитать начало и конец истории, сказочность остальных персонажей, пол, приблизительный возраст и наиболее часто встречающийся персонаж - скорее-всего, он же, главный герой.
Можно добавить несколько слов про имена и роли персонажей - встречается с сумасшедшим шляпником, гусеницей - наркоманкой, наблюдает за битвой единорога со львом, знакомится с королевой и т.п.

Если это оно, то, честно говоря, особого восторга механизм не вызывает.


"исследователи отобрали 40 бестселлеров 2020 года и поручили двум людям прочитать эти книги" - бедные. Обычно среди "бестселлеров" столько же интересных, сколько и среди оскароносных фильмов, т.е. процентов 10. А им пришлось читать все, да еще сочинения писать. Понятно, что ИИ справился не сильно хуже.
И, хотя бы из милосердия и понимания того как проводится эксперимент, я дал бы по 3 одинаковых книги 100 разных людей. Причем не случайным, а достаточно образованным и умеющим грамотно излагать свои мысли, что большая редкость.


P.S.
Кстати, охотно верю, что выжимку от ИИ вполне можно запихать в предисловие. Которое, в большинстве случаев, достаточно тоскливо.
Но, разумеется, я понимаю, что ИИ создается не для написания предисловий.
Оставьте свое сообщение