Создал набор инструментов для автоматического сбора и структурирования документации «1С:Предприятие.Элемент» версии 8.1 с официального сайта 1cmycloud.com. Документация преобразуется в удобный для работы формат Markdown, который можно использовать для обучения ИИ-моделей, создания RAG-систем или просто локального поиска по документации.
Проект состоит из двух специализированных парсеров:
1. Парсер Руководства разработчика (parser.py)
2. Парсер Стандартной библиотеки (parser stdlib.py)
Структура выходных данных
pages/
Название_страницы/
page.html
content.md
Другая_страница/
page.html
content.md
...
Каждая страница документации представлена в двух форматах:
page.html- оригинальный HTMLcontent.md- Markdown для удобной работы с ИИ
Дополнительно создаются:
- documentation.json — метаданные всех страниц с URL и заголовками
- documentation.txt — вся документация в одном текстовом файле
Зачем это нужно
Собранная документация подходит для:
1. Обучения ИИ-ассистентов — например, для создания специализированного помощника по 1С:Элемент
2. RAG-систем (Retrieval-Augmented Generation) — поиск релевантных фрагментов документации для ответов ИИ
Интеграция с IDE
- Cursor, GitHub Copilot - подключаете документацию как контекст
- Автодополнение кода с учётом синтаксиса 1С
- Генерация шаблонов и примеров кода
Формат Markdown отлично подходит для работы с ИИ, так как сохраняет структуру документации (заголовки, списки, код, ссылки).
Примеры работы с Cursor
Репозиторий на GitHub
https://github.com/vanyagoncharov/parser_1cmycloud
P.S.
Не исключаю, что могут быть проблемы с парсером. Возможно потребуется адаптация, но у меня сработало все.
Вступайте в нашу телеграмм-группу Инфостарт

