Реализация сравнения текстовых файлов

27.01.17

Разработка - Инструментарий разработчика

Понадобилось мне для одного моего проекта сравнивать файлы. После недолгого гугления оказалось, что сравнение файлов это весело! А еще 1С, оказывается, поддерживает многомерные массивы. В статье будет рассмотрена общая задача нахождения наибольшей общей подпоследовательности и немного отсебятины. PS.: про существование kdiff3 знаю

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Пример обработки сравнения файлов
.epf 10,49Kb
11
11 Скачать (1 SM) Купить за 1 850 руб.

Подпоследовательности

Пусть у нас есть последовательности АБВГДЕЖЗ и АВБГДЖ. Общая подпоследовательность это например АГЖ, она есть в обеих последовательностях: АБВГДЕЖЗ и АВБГДЖ. При этом АБВ не входит в АВБГДЖ - не тот порядок букв, и поэтому АБВ не общая подпоследовательность для АБВГДЕЖЗ и АВБГДЖ. Общих подпоследовательностей много, среди них есть самые длинные - наибольшие.

Когда мы смотрим на сравнение двух текстов, фактически мы смотрим на наибольшую общую подпоследовательность строк (сопоставленные строки), а добавленные/удаленные - это те что не вошли в неё. 

Алгоритмы и понятия я почерпнул из http://foxford.ru/wiki/informatika/naibolshaya-obschaya-podposledovatelnost

Подготовка

Перед тем как сравнить тексты, их разбивают на строки и хешируют. За функцию хеша спасибо //infostart.ru/public/100845/, возможно встроенная в платформу SHA256 была бы быстрее, но в этой публикации использование очевидное, а узкое место в быстродействии всей обработки не здесь.

Потом строится таблица длин подпоследовательностей такого вида:

 

А

В

Б

Г

Д

Ж

 

0

0

0

0

0

0

0

А

0

0

1

1

1

1

1

Б

0

1

1

2

2

2

2

В

0

1

2

2

2

2

2

Г

0

1

2

2

3

3

3

Д

0

1

2

2

3

4

4

Е

0

1

2

2

3

4

4

Ж

0

1

2

2

3

4

5

З

0

1

2

2

3

4

5

Потом надо от последней ячейки вернуться к слою с нолями шагая либо в стороны на клетки с таким же значением, либо по диагонали если пришли в тупик.

 

Обратите внимание, что на пересечении Б и В получилась развилка - выбор зависит от того, как написан алгоритм. Дав возможность менять выбор пути при построении дерева можно сделать удобнее сравнение модулей*

*Сейчас пример построить не смог, но раньше встречал - когда добавленный код перемешивался с типовым т.к. встречались одинаковые куски.

Реализация всего этого в приложенной обработке. Надеюсь, вам было также интересно узнать всё это, как и мне.

Быстродействие

Конечно, использовать 1с в качестве числодробилки - не самая лучшая идея и быстродействие ожидаемо проигрывает существующим утилитам, но некоторая оптимизация была проведена. Во первых оказалось плохой идеей использовать для хранения таблицы таблицу значений и обращаться к колонкам по имени - после замены её на двумерный массив всё ускорилось. Во вторых - запись циклов одной строкой дала ещё двойное ускорение. Сейчас файлы длинной 1000 строк сравниваются у меня примерно за 3 секунды. Вероятно, можно улучшать этот показатель, но для моих дальнейших задач этого хватает. Для файлов большей длины используйте её с осторожностью.

См. также

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

15500 руб.

02.09.2020    178434    987    403    

947

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку одновременно в несколько потоков. А так же автоматически, без непосредственного участия пользователя. Решение в Реестре отечественного ПО

8400 руб.

20.08.2024    19877    131    70    

134

Пакетная печать Печатные формы Инструментарий разработчика Программист Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

22200 руб.

06.10.2023    18924    51    19    

83

Инструменты администратора БД Инструментарий разработчика Роли и права Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

15000 руб.

10.11.2023    12929    53    33    

72

Инструментарий разработчика Программист Платформа 1С v8.3 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9360 руб.

17.05.2024    29100    100    48    

146

Инструментарий разработчика Программист 8.3.14 Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

20000 руб.

07.10.2021    18678    7    32    

43

Инструментарий разработчика Платформа 1С v8.3 1C:Бухгалтерия 1С:ERP Управление предприятием 2 Платные (руб)

Разработка Конструктор автоматизированных рабочих мест "Конструктор АРМ" реализована в виде расширения и является универсальным инструментом для создания АРМ любой сложности в пользовательском режиме.

3600 руб.

27.12.2024    1784    2    0    

5
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. tormozit 7269 27.01.17 14:10 Сейчас в теме
Опечатка "Бастродействие"
2. ildarovich 7946 28.01.17 11:33 Сейчас в теме
"Перед тем как сравнить тексты, их разбивают на строки и хешируют" - в данном случае в этом нет необходимости. Строки достаточно "пронумеровать". То есть, просматривая строки вниз по тексту, каждой новой (не встречающейся ранее) найденной строке присваивать новый номер. Это можно сделать при помощи такой структуры как соответствие.
Посмотрите как это сделано, например, в обработке http://infostart.ru/public/294285/ .
3. pumbaE 28.01.17 13:27 Сейчас в теме
(2) а какие можете посоветовать алгоритмы для diff xml деревьев и для последующего merge? Если для объектов метаданных xml доволно таки простой и достаточно искать соответствия по имени или по uuid, то для форм не так просто сделать определить правильный порядок, т.к. вложенность элементов может быть большая.
4. ildarovich 7946 28.01.17 15:11 Сейчас в теме
(3) тема diff tree algorithm очень специфичная, напрямую сталкиваться не приходилось, могу только посоветовать посмотреть вот эти статьи, чтобы понять, что вообще в этой области происходит:
https://www.deltaxml.com/support/documents/articles-and-papers/is2004.pdf
http://treepatch.sourceforge.net/report.pdf
а также вот эту ссылку:
http://stackoverflow.com/questions/5894879/detect-differences-between-tree-structures .
Оставьте свое сообщение