Практика регулярных выражений в 1С или "парсим неудобные форматы"

26.10.11

Разработка - Механизмы платформы 1С

+95 –

В продолжение статьи Использование регулярных выражений (RegExp) в 1С8.х. Углубляемся в практику использования регулярных выражений в 1С. Основы работы с регулярными выражениями хорошо описаны в указанной публикации. А я попробую ответить на вопрос "почему именно регулярные выражения?" на примере конкретной рабочей задачи.

Удобный и неудобный

Прежде чем приступить к непосредственному разбору практической задачи хотелось бы внести ясность в понятия "удобный" и "неудобный" формат на примере xml и html. Первый (xml - расширяемый язык разметки) предназначен именно для хранения информации, в то время как последний (html - язык разметки гипертекста) предназначен для структурированного отображения информации.

"В чем же такая большая разница? И там и там язык разметки." - резонно заметите вы. Все дело в значимых тегах. Теги xml предназначены для идентификации определенного в них содержимого. Например:

Слово "Иванов", заключенное в тег для читающей xml-файл системы будет означать, что Иванов - автор, со всеми вытекающими последствиями. xml потому и называется "расширяемым", что названия тегов разработчик вводит сам с учетом потребностей по хранению/передаче определенной информации.

Теги html служат для того, чтобы сказать читающей системе (браузеру), как нужно визуализировать (отобразить в окне браузера) те или иные данные. Теги html конечны, т.е. разработчик сам не может придумать свой тег, иначе браузер его не поймет. Например:

Для браузера будет означать, что слово "Иванов" отображается в окне браузера как новый параграф с соответствующими отступами и т.п. Из этого мы вовсе не знаем, что Иванов - автор. Очевидно, что html - неудобный для парсинга (разбора) формат.

Справедливости ради надо заметить, что html может стать частично удобным форматом если тегам начать присваивать классы или идентификаторы. Если в нашем случае будет написано например так:

то в принципе из этого можно конечно заключить, что Иванов - автор, но все-таки это скорее ухищрение, т.к. классы в html естественно не предназначены для идентификации данных - они предназначены для конкретизации визуализации (отображения) и лишь косвенно могут служить для идентификации. Поэтому давайте считать html неудобным форматом для хранения/передачи информации.

Все было бы хорошо, НО на практике иногда приходится сталкиваться с задачами, когда данные нужно извлечь именно из таких вот неудобных форматов, как html. Приведу пример (который собственно дальше и разберу). У меня есть разработка Анализатор мобильной связи. Один из клиентов предоствил для извлечения детальных расходов по трафику именно html, в котором у тегов напрочь отсутствуют идентификаторы или классы, т.е. никакого намека на возможность идентификации. Однако не все потеряно, даже наоборот, все очень даже интересно получается с помощью регулярных выражений. Ведь html - это вовсе не набор бессвязной информации, а вполне себе структурированное содержимое, отдельные части которого имеют зависимости друг между другом.

Почему регулярные выражения?

Суть работы с регулярными выражениями сводится к элементарному разбору строк и поиску в них совпадений и субсовпадений. Прелесть метода последовательного построчного разбора очевидна - низкие требования к ресурсам компьютера.

"Почему именно регулярные выражения?" - сросите вы. Ведь можно использовать штатные средства платформы 1С "Найти", "СтрДлина", "СтрЗаменить" и пр. Да, можно, но программный код с использованием регулярных выражений локоничнее и понятнее. Для того, чтобы идентифицировать определенные данные в строке, нужно будет написать кучу "Если", "Найти", "СтрЗаменить" и т.д. В регулярных выражениях весь этот массив кода можно заменить одним шаблоном (паттерном).

Ключевым моментом при работе с регулярными выражениями является выявление уникальной комбинации строковых выражений. Именно комбинация определенных строковых выражений и служит идентификацирующим признаком значимых данных. Поясню. Например, встречая в разбираемом файле такую комбинацию тегов:

Пример 4. Стругацкие

знаем, что в первом теге h1 содержится название автора произведения, во втором теге h2 содержится название произведения, а в третьем теге p содержится аннотация к произведению. Т.е. каждый раз встречая в файле набор этих тегов я заранее знаю что находится в первом, втором и третьем тегах. Повторюсь - здесь важно знать, что комбинация уникальна, т.е. не должно быть другой такой же комбинации тегов, в которых содержится какая-то другая информация или присутствует другой порядок данных. Это знание и регулярные выражения позволяют извлекать из таких вот уникальных комбинаций нужные данные.

Практика

Ничто так не позволяет усваивать материал, как практика.

Ниже на скриншоте вы можете наблюдать фрагмент отрисованного в браузере счета, присланного в формате html:

Фрагмент счета

"Чудесно, это же всего-навсего таблица и распарсить ее не составит труда" - подумаете вы. Как бы не так. Не стоит забывать, что это всего лишь фрагмент, до и после которого есть уйма всякой сопутствующей информации, как-то разрывы строк, колонтитулы, итоги, заголовки страниц и пр. и пр., вобщем структурированный хаос информации. И такого хаоса мегабайт на 200.

А теперь вот как одна из строк выглядит в html коде (строка длинная, поэтому я сделал перенос строк и обозначил места переносов символом "|"):

Пример строки в коде HTML

Кто разбирается в HTML знает, что тег tr обозначает строку в таблице, а td обозначает колонку, точнее ячейку в определенной колонке определенной строки.

Парсить такое штатными средствами 1С весьма затруднительно, проще написать шаблон на языке регулярных выражений и текст исходного кода сокращается в разы. Ниже пример разбора в 1С такого кода с помощью регулярных выражений (обращаю внимание, что это лишь фрагмент кода и я не акцентирую внимание на создание в 1С объекта для работы с регулярными выражениями - это итак хорошо описано в обозначенной мной выше статье):

Пример кода 1С для разбора строки HTML при помощи рег. выражений

Это собственно весь разбор. Далее уже следует работа с извлеченными данными.

Если при разборе строки все условия регулярного выражения выполнены - это значит, что мы разбирали именно строку детализации, а значит в МассивеСовпадений располагаются в порядке очередности нужные данные (дата/время, номер собеседника, количество, стоимость и т.д.)

Давайте теперь пройдемся по регулярному выражению и переведем на русский язык условия, заданные с помощью самого него.

Расшифровка регулярного выражения

Ищется тег td внутри которого может присутствовать описание классов, атрибутов и т.п.
Ищется последовательность цифр и символов: 2 цифры, точка, 2 цифры, точка, 4 цифры, пробел, 2 цифры, двоеточие, 2 цифры, двоеточие, 2 цифры. Это ничто иное как дата и время. Причем все, что находится в круглых скобках запоминается и затем попадет в МассивСовпадений, за исключением тех скобок, в которых сначала идет ?:.
Ищется закрывающий тег td, после которого идет произвольное количество тегов td до выполнения следующего по выражению условия.
Далее по условию следует либо любой символ, кроме символа >, либо символ "пусто". Пусто, потому что в ячейке может быть пусто, что будет обозначено специальным символом. Здесь производится поиск номера собеседника.
Далее по условию должны встретиться одна из букв F, D, S либо знак "пусто" - это тип звонка.
Далее по условию должны встретиться либо 1 цифра, либо 2 цифры, либо знак "пусто" - это код звонка.
Далее по условию следует от 1 до 6 цифр, точка, 1 или 2 цифры. Причем последние две цифры необязательные. Это длительность звонка (количество).
Далее по условию должны встиретиться любое количество русских букв, цифр или пробелов до выполенения следующего условия выражения. Это строковое представление единицы измерения длительности звонка.
Далее по условию следуют от 1 до 9 цифр и в обязательном порядке точка и 2 цифры. Это стоимость звонка.
Ну и напоследок закрывающий тег td.

Вступайте в нашу телеграмм-группу Инфостарт

+95 –

См. также

15 мифов о платформе 1С

Механизмы платформы 1С Программист Бесплатно (free)

Разберем 15 мифов о работе платформы «1С:Предприятие 8» – как распространенных, так и малоизвестных. Начнем с классики: «Код, написанный в одну строку, работает быстрее, чем многострочный». Так ли это на самом деле?

16.07.2025 24201 TitanLuchs 106

143

Текучий интерфейс в 1С

Механизмы платформы 1С Работа с интерфейсом Программист Стажер 1С:Предприятие 8 Бесплатно (free)

Про ООП в 1С и о том, как сделать свой код более кратким и выразительным при помощи использования текучего интерфейса (fluent interface).

03.02.2025 13371 bayselonarrend 127

Поинтегрируем: WebSocket’ы в платформе 1С. Часть 1

Механизмы платформы 1С WEB-интеграция Программист 1С:Предприятие 8 Бесплатно (free)

В платформе 8.3.27 появилась возможность использовать WebSocket-клиент. Давайте посмотрим, как это все устроено и чем оно нам полезно.

14.01.2025 24500 dsdred 77

140

Передача параметров процедур и функций. Особенности "Знач"

Механизмы платформы 1С Программист 1С:Предприятие 8 Бесплатно (free)

Особенности "Знач" и разбор документации к нему.

10.01.2025 13423 VAAngelov 59

108

Файловые потоки в 1С

Механизмы платформы 1С Программист Стажер 1С:Предприятие 8 1C:Бухгалтерия Бесплатно (free)

Эта небольшая статья - некоторого рода шпаргалка по файловым потокам: как и зачем с ними работать, какие преимущества это дает.

23.06.2024 22837 bayselonarrend 22

172

Сервисы интеграции без Шины и интеграции

Механизмы платформы 1С Программист Стажер 1С:Предприятие 8 1C:Бухгалтерия Бесплатно (free)

Пример использования «Сервисов интеграции» без подключения к Шине и без обменов.

13.03.2024 12691 dsdred 22

Поинтегрируем: сервисы интеграции – новый стандарт или просто коннектор?

Перенос данных 1C Администрирование СУБД Механизмы платформы 1С Системный администратор Программист Стажер 1С:Предприятие 8 Бесплатно (free)

В платформе 8.3.17 появился замечательный механизм «Сервисы интеграции». Многие считают, что это просто коннектор 1С:Шины. Так ли это?

11.03.2024 29636 dsdred 70

108

Массивы

Механизмы платформы 1С Программист Стажер 1С:Предприятие 8 Бесплатно (free)

Все мы используем массивы в своем коде. Это один из первых объектов, который дают ученикам при прохождении обучения программированию. Но умеем ли мы ими пользоваться? В этой статье я хочу показать все методы массива, а также некоторые фишки в работе с массивами.

24.01.2024 45678 YA_418728146 35

Комментарии

Подписаться на ответы Инфостарт бот

Свернуть все

1. Арчибальд 2709 26.10.11 09:36 Сейчас в теме

Совершенно мне не требуется. Но не могу не оценить "красоту игры" (© Ю. Ким)

2. cool.vlad4 2 26.10.11 10:56 Сейчас в теме

автор, молодец, но плюс я ставить не буду. В общем случае html не советуют парсить регулярными выражениями, очень часто будут ошибки. Приводят html к валидному xml, а дальше xpath или xslt, если хочется. В редких случаях, я допускаю использование рег.выражений для быстрого и за один раз - извлечения данных.

4. 1cspecialist 1470 26.10.11 12:06 Сейчас в теме

(2) Не совсем понял, чем вам поможет xpath или xslt в этом случае - при приведении html к валидному xml вы столкнетесь абсолютно с теми же вопросами, как и при парсинге html регулярными выражениями. Да и само утверждение "html не советуют парсить регулярными выражениями" весьма спорно - это все равно что сказать, что не рекомендуют автоматизировать "Газпром" на 1С. Почему нет? Нужно рассматривать каждую ситуацию в отдельности. Регулярные выражения - это такой же инструмент как и многие другие.

6. cool.vlad4 2 26.10.11 12:11 Сейчас в теме

(4) я вроде ничего, такого не написал, даже похвалил вас. не нарывайтесь. Эти глупые сравнения не в счет, поскольку я нигде не писал, что от регулярных выражений надо отказыватся. А не советуют пользоватся для парсинга html вполне серьезные программисты из stackoverflow. Я куда больше доверяю, чем вам. xpath и xslt не тоже самое, не знаете, не говорите.

5. 1cspecialist 1470 26.10.11 12:10 Сейчас в теме

(2) вообще, я да и многие другие были бы признательны, если бы вы написали тут статью про парсинг с помощью xpath, xslt и приведение html к валидному xml - просто уж очень тема интересная

7. cool.vlad4 2 26.10.11 12:12 Сейчас в теме

(5) не обещаю, но может быть.

3. Armando 1402 26.10.11 11:11 Сейчас в теме

Хочу чтоб регекспы сделали объектом языка 1С, тогда ваще кошерно было бы.
РегулярноеВыражение = Новый РегулярноеВыражение;

9. German 414 26.10.11 12:31 Сейчас в теме

(3) да и будет вам как "Внешние источники данных"
(5) про Xpach тут можно пример посмотреть тут http://main.1c-ei.ru/Home/help/console/template/xml
а парсинг HTML лучше доверить специализированным но очень редким уже(!) вещам, например http://blog.1c-ei.ru/2009/09/openkapow.html

8. cool.vlad4 2 26.10.11 12:29 Сейчас в теме

+6 вот ссылки на те сайты http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html
http://stackoverflow.com/questions/2400623/if-youre-not-supposed-to-use-regular-expressions-to-parse-html-then-how-are-ht
http://stackoverflow.com/questions/7196915/regular-expressions-vs-xpath-when-parsing-html-text
где и написано, чем может быть regex нехорошим при парсинге html.
и вот еще http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454

10. cool.vlad4 2 26.10.11 12:40 Сейчас в теме

на самом деле просто писать статью, с целью обучения, конечно, благородно, но я не могу себя заставить. У меня идея и потихоньку я её реализовываю, сделать обычный прокси, через который, в зависимости от опций и можно будет получать/парсить/кэшировать/приводить в xml и т.д. - тогда можно будет и из 1С-ки это делать. Для знакомства с xpath - поставьте расширение для chrome/firefox (firepath например). Единственно, нужно помнить, что webkit-овские движки и mozilla, добавляют некоторые изменения - например <tbody>, в таблицы, которого нет. Поэтому xpath может быть неточным в браузере.

11. 1cspecialist 1470 26.10.11 13:03 Сейчас в теме

(10) что такое xpath я представляю, реализация объекта для работы с xpath есть и в 1С, но у этой методики есть также и минус - для работы требуется построение DOM дерева, по которому xpath будет ходить, а это требует ресурсов оперативки, хотя наверное на мощных серверах это и не такой уж и большой минус

то что вы кому-то доверяете, а кому-то нет - ваше право, но я хотел просто услышать, почему не рекомендуется использовать регулярные выражения, как решается проблема идентификации данных? был бы признателен, если бы вы тезисно изложили суть.

12. cool.vlad4 2 26.10.11 13:13 Сейчас в теме

(11) для этого надо либо прочесть ссылки, которые я дал выше, либо понять, что такое регулярное выражение(в статье об этом ни слово). html не относится к регулярным языкам. Есть такая теорема любой регулярный язык представим в виде регулярного выражения. html нет.

13. cool.vlad4 2 26.10.11 13:22 Сейчас в теме

(11) и почему есть DOM, если regexp так хорош? Сколько вы спарсили сайтов? Кто гарантирует вам, что если для пару страниц ваша регулярка сработает, то и для 1000 страниц тоже? Почему DOM сработает? да потому, что вы парсите те участки, которые занимают вполне определенное положение в дереве иначе смысла нет.И тем не менее я не исключаю регулярки, я использую и то, и то. Просто в статье посыл другой.

14. 1cspecialist 1470 26.10.11 13:26 Сейчас в теме

(13) ну я так примерно и представлял, все равно спасибо за ответ

15. theologian 26.10.11 15:57 Сейчас в теме

нужная вещь. спасибо

16. curys 27.10.11 11:32 Сейчас в теме

хорошая штука, благодарю

17. byuf_in 27.10.11 11:40 Сейчас в теме

спасибо, как раз поставили задачу, где можно применить

18. Seregalink 79 28.10.11 00:31 Сейчас в теме

спасибо, хорошая штука!

19. opiumdx 28.10.11 14:56 Сейчас в теме

Спасибо!

20. CaSH_2004 374 28.10.11 22:43 Сейчас в теме

Думаю у любого инструмента есть минусы, но с непривычки легче пользоваться более простыми инструментами, а потом переходить к более сложным. Также важно знать какие минусы есть. Поэтому спасибо и автору и cool.vlad4 за критику (правда она какая-то злая, наверно столкнулся с этими проблемами сам :)

21. maljaev 790 29.10.11 12:19 Сейчас в теме

Прочитал пост 13, вот абсолютно соглашусь с его автором - использую и то и другое в определенных случаях, но сам RegExp не панацея, тем более относительно HTML (DOM лучше). Но в определенных ситуациях RegExp рулит.

22. 1cspecialist 1470 29.10.11 13:48 Сейчас в теме

(21) regexp спасет в большинстве случаев, особенно когда нужно оптимизировать производительность в условиях ограниченных ресурсов. Попробуйте в браузере открыть файл html размером 200 мб (и это далеко не самый большой файл, который приходится парсить) и посмотрите в диспетчере задач windows - он сожрет у вас больше 2 гигабайт оперативной памяти на построение DOM-модели документа. Тоже самое будет и с любой другой программой, использующей DOM для своей работы. Если у вас на компьютере 4 Гб и/или 32-разрядная ось то легко получите out of memory. Т.е. предложенный вариант с xpath будет еле ворочиться, если вообще зашивелится.

PS. Конечно xpath хороший и надежный выбор, но говорить, что regexp ненадежен - тоже нельзя. Еще раз повторюсь - нужно смотреть на условия конкретной задачи. В большинстве случаев regexp прекрасно справится с увесистыми файлами и причем не на самых мощных компьютерах. Если речь идет просто о парсинге сайтов, то конечно лучше использовать xpath, но с файлами с большим объемом лучше использовать механику последовательного чтения и парсинга, что собственно как нельзя лучше осуществляет regexp.

23. vikorn 03.11.11 13:08 Сейчас в теме

Нужная вещь, скопировал себе, спасибо

24. laeg 14 12.11.11 10:00 Сейчас в теме

Одно время, писал на 1с-ке парсер товаров с нескольких интернет магазинов
тупое перебирание текста, поиск по тегам не есть гуд. Малейшие изменение в дизайне и все коту под хвост.

Спасибо за статейку, при дальнейшей разработке, попробую использовать ваши наработки.

25. Minotavrik 1649 16.11.11 11:28 Сейчас в теме

И не жалко тратить время на это? Во времена ассемблера и с статья была бы бесценна. В коде много других участков, которые надо думать как оптимизировать. А вот работа со строками в 1с вроде реализована и довольно не плохо.

Но статья клевая снимаю шляпу за усердие.

26. dtitov 28.11.11 11:23 Сейчас в теме

Спасибо, очень вовремя.

27. petrovaUL 08.12.11 14:53 Сейчас в теме

нужная вещь. спасибо

28. ratinc 17.01.12 10:26 Сейчас в теме

Жаль что regexp у vbscript куцый.
Никак не удастся развернуться в полную силу.
Сильно не хватает следующего:
No \A or \Z anchors to match the start or end of the string. Use a caret or dollar instead.
Lookbehind is not supported at all. Lookahead is fully supported.
No atomic grouping or possessive quantifiers
No Unicode support, except for matching single characters with
No named capturing groups. Use numbered capturing groups instead.
No mode modifiers to set matching options within the regular expression.
No conditionals.
No regular expression comments. Describe your regular expression with VBScript apostrophe comments instead, outside the regular expression string.

Может можно ещё к чему com поиметь с "нормальным" regexp?
Буду признателен за помощь в поиске альтернативы
PS. Майкрософт как обычно реализует "свои" стандарты вот и regexp-у досталось :)

29. serpisal 14.02.12 11:51 Сейчас в теме

Хорошее решение, спасибо!

30. Veduin 15.02.12 08:09 Сейчас в теме

Интересно и познавательно! Спасибо!

31. пользователь 15.03.12 00:01

Сообщение было скрыто модератором.

...

32. ratinc 28.03.12 12:20 Сейчас в теме

Что то тема совсем заглохла. Оскудела земля русская программистами :)
Ну неужели никто не подскажет откуда ещё кроме vbscript можно regexp поиметь?

33. EmpireSer 09.08.12 23:00 Сейчас в теме

(32) ratinc, от delphi. Они там его от каких-то С++ библиотек прикрутили.

34. peper- 16.08.22 19:45 Сейчас в теме

Потребовалось всего 10 или 15 лет мольбы со стороны разработчиков 1С и в платформе 8.3.23 появилась "Поддержка регулярных выражений во встроенном языке"
https://wonderland.v8.1c.ru/blog/podderzhka-regulyarnykh-vyrazheniy-vo-vstroennom-yazyke/

Для отправки сообщения требуется регистрация/авторизация

Автор:

Денис (1cspecialist)

Рейтинг: 1470

Для получения уведомлений о новых публикациях автора подключите телеграм бот: Инфостарт бот

Публикация:

№ 95111

Создание 26.10.11 03:52

Обновление 26.10.11 03:56

Статистика:

Просмотры 33670

Загрузки 0

Рейтинг 95

Комментарии 33

Характеристики:

Код открыт Не указано

Рубрики Механизмы платформы 1С

Кому Программист

Тип файла Нет файла

Платформа 1С:Предприятие 8

Конфигурация 1C:Бухгалтерия

Операционная система Windows

Страна Россия

Отрасль Не имеет значения

Налоги Не имеет значения

Вид учета Не имеет значения

Доступ к файлу Бесплатно (free)