Реализация сравнения текстовых файлов

27.01.17

Разработка - Инструментарий разработчика

Понадобилось мне для одного моего проекта сравнивать файлы. После недолгого гугления оказалось, что сравнение файлов это весело! А еще 1С, оказывается, поддерживает многомерные массивы. В статье будет рассмотрена общая задача нахождения наибольшей общей подпоследовательности и немного отсебятины. PS.: про существование kdiff3 знаю

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование	Скачано	Купить файл	По подписке PRO
Пример обработки сравнения файлов .epf 10,49Kb 11	11	2 500 руб. Купить	1 SM Скачать

Подпоследовательности

Пусть у нас есть последовательности АБВГДЕЖЗ и АВБГДЖ. Общая подпоследовательность это например АГЖ, она есть в обеих последовательностях: АБВГДЕЖЗ и АВБГДЖ. При этом АБВ не входит в АВБГДЖ - не тот порядок букв, и поэтому АБВ не общая подпоследовательность для АБВГДЕЖЗ и АВБГДЖ. Общих подпоследовательностей много, среди них есть самые длинные - наибольшие.

Когда мы смотрим на сравнение двух текстов, фактически мы смотрим на наибольшую общую подпоследовательность строк (сопоставленные строки), а добавленные/удаленные - это те что не вошли в неё.

Алгоритмы и понятия я почерпнул из http://foxford.ru/wiki/informatika/naibolshaya-obschaya-podposledovatelnost.

Подготовка

Перед тем как сравнить тексты, их разбивают на строки и хешируют. За функцию хеша спасибо //infostart.ru/public/100845/, возможно встроенная в платформу SHA256 была бы быстрее, но в этой публикации использование очевидное, а узкое место в быстродействии всей обработки не здесь.

Потом строится таблица длин подпоследовательностей такого вида:

		А	В	Б	Г	Д	Ж
	0	0	0	0	0	0	0
А	0	0	1	1	1	1	1
Б	0	1	1	2	2	2	2
В	0	1	2	2	2	2	2
Г	0	1	2	2	3	3	3
Д	0	1	2	2	3	4	4
Е	0	1	2	2	3	4	4
Ж	0	1	2	2	3	4	5
З	0	1	2	2	3	4	5

Потом надо от последней ячейки вернуться к слою с нолями шагая либо в стороны на клетки с таким же значением, либо по диагонали если пришли в тупик.

Обратите внимание, что на пересечении Б и В получилась развилка - выбор зависит от того, как написан алгоритм. Дав возможность менять выбор пути при построении дерева можно сделать удобнее сравнение модулей*

*Сейчас пример построить не смог, но раньше встречал - когда добавленный код перемешивался с типовым т.к. встречались одинаковые куски.

Реализация всего этого в приложенной обработке. Надеюсь, вам было также интересно узнать всё это, как и мне.

Быстродействие

Конечно, использовать 1с в качестве числодробилки - не самая лучшая идея и быстродействие ожидаемо проигрывает существующим утилитам, но некоторая оптимизация была проведена. Во первых оказалось плохой идеей использовать для хранения таблицы таблицу значений и обращаться к колонкам по имени - после замены её на двумерный массив всё ускорилось. Во вторых - запись циклов одной строкой дала ещё двойное ускорение. Сейчас файлы длинной 1000 строк сравниваются у меня примерно за 3 секунды. Вероятно, можно улучшать этот показатель, но для моих дальнейших задач этого хватает. Для файлов большей длины используйте её с осторожностью.

Вступайте в нашу телеграмм-группу Инфостарт

+8 –1

См. также

Database Compression Tool: Инструмент для свертки и сжатия баз данных 1С

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку одновременно в несколько потоков. А так же автоматически, без непосредственного участия пользователя. Решение в Реестре отечественного ПО

24900 руб.

20.08.2024 57110 307 154

279

Infostart Toolkit: Инструменты для разработчика 1С:8.3

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта 1С:Предприятие 8 Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

16500 руб.

02.09.2020 239672 1304 419

1109

Вайб-кодинг в 1С = Infostart MCP серверы

Инструментарий разработчика Нейросети Платные (руб)

Первые попытки разработки на 1С с использованием больших языковых моделей (LLM) могут разочаровать. LLMки сильно галлюцинируют, потому что не знают устройства конфигураций 1С, не знают нюансов синтаксиса. Но если дать им подсказки с помощью MCP, то результат получается кардинально лучше. Далее в публикации: MCP для поиска по метаданым 1С, справке синтакс-помошника и проверки синтаксиса.

15250 руб.

25.08.2025 36150 77 19

Infostart PrintWizard (конструктор печатных форм)

Пакетная печать Печатные формы Инструментарий разработчика Программист 1С:Предприятие 8 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Библиотека стандартных подсистем Платные (руб)

Расширение для создания и редактирования печатных форм в системе 1С:Предприятие 8.3. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и прозрачность разработки, а также навести порядок в многообразии корпоративных печатных форм.

22570 руб.

06.10.2023 33767 87 35

110

Infostart DataFormWizard: Управление данными и формами в 1С 8.3

Инструменты администратора БД Инструментарий разработчика Роли и права Программист 1С:Предприятие 8 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

17000 руб.

10.11.2023 22955 83 42

OneDebugger - инструмент для отладки кода в 1С без использования конфигуратора

Инструментарий разработчика Программист 1С:Предприятие 8 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9500 руб.

17.05.2024 47474 164 63

201

Дизайнер форм 1С

Разработка Инструментарий разработчика Работа с интерфейсом Адаптация типовых решений Нейросети 1C:Бухгалтерия 1C:ERP 1С:ЗУП 1С:КА 1С:УНФ 1С:УТ 1С:Розница 1С:ДО 1С:ERP Управление предприятием 2 Платные (руб)

Разработка "Дизайнер форм 1С" реализована в виде расширения 1С и является универсальным инструментом для разработки прототипа форм с целью демонстраций, технических заданий и т.д. Без участия разработчика с возможностью экспорта в файл внешней обработки и генерации формы используя искусственный интеллект.

36600 руб.

28.08.2025 5136 2 2

SALE! %

PowerTools: Инструменты администратора 1С 8.3

Инструментарий разработчика Инструменты администратора БД Системный администратор Программист Бизнес-аналитик 1С:Предприятие 8 1C:ERP 1С:УТ 1С:ДО 1С:Бухгалтерия 3.0 1С:ERP. Управление холдингом 1С:Зарплата и Управление Персоналом 3.x 1С:Управление нашей фирмой 3.0 1С:Управление торговлей 11 Россия Платные (руб)

Универсальный инструмент программиста для администрирования конфигураций. Сборник наиболее часто используемых обработок под единым интерфейсом.

~~6100~~ 4758 руб.

14.01.2013 207831 1214 0

957

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. tormozit 7332 27.01.17 14:10 Сейчас в теме

Опечатка "Бастродействие"

2. ildarovich 8047 28.01.17 11:33 Сейчас в теме

"Перед тем как сравнить тексты, их разбивают на строки и хешируют" - в данном случае в этом нет необходимости. Строки достаточно "пронумеровать". То есть, просматривая строки вниз по тексту, каждой новой (не встречающейся ранее) найденной строке присваивать новый номер. Это можно сделать при помощи такой структуры как соответствие.
Посмотрите как это сделано, например, в обработке http://infostart.ru/public/294285/ .

3. pumbaE 28.01.17 13:27 Сейчас в теме

(2) а какие можете посоветовать алгоритмы для diff xml деревьев и для последующего merge? Если для объектов метаданных xml доволно таки простой и достаточно искать соответствия по имени или по uuid, то для форм не так просто сделать определить правильный порядок, т.к. вложенность элементов может быть большая.

4. ildarovich 8047 28.01.17 15:11 Сейчас в теме

(3) тема diff tree algorithm очень специфичная, напрямую сталкиваться не приходилось, могу только посоветовать посмотреть вот эти статьи, чтобы понять, что вообще в этой области происходит:
https://www.deltaxml.com/support/documents/articles-and-papers/is2004.pdf
http://treepatch.sourceforge.net/report.pdf
а также вот эту ссылку:
http://stackoverflow.com/questions/5894879/detect-differences-between-tree-structures .

Для отправки сообщения требуется регистрация/авторизация

Автор:

Игорь Пашутин (Alien_job)

Рейтинг: 193

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 581384

Создание 27.01.17 13:33

Обновление 27.01.17 13:33

Статистика:

Просмотры 12105

Загрузки 11

Рейтинг 7

Комментарии 4

Характеристики:

Код открыт Не указано

Рубрики Инструментарий разработчика

Кому Программист

Тип файла Внешняя обработка (ert,epf)

Платформа 1С:Предприятие 8

Конфигурация 1C:Бухгалтерия

Операционная система Не имеет значения

Страна Россия

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Абонемент ($m)