Регулярные выражения без внешних компонент? Легко!

Программирование - Практика программирования

Сложный способ организовать проверку строки с помощью регулярного выражения в 1С. При этом ни одна внешняя компонента не пострадала. Ну и от платформы (Linux, MustDie) - не зависит.

Здравствуйте, товарищи! 

Дабы не затягивать, сразу приведу код. Кто хочет разобраться, в чем тут, собственно, дело, пусть читает статьи по XDTO. О регулярных выражениях расскажу ниже, но статей на эту тему и так масса.

Код:

&НаКлиенте
Функция ПроверитьСтроку(Строка, Фасет)
	Чтение = Новый ЧтениеXML;
	Чтение.УстановитьСтроку(
				"<Model xmlns=""http://v8.1c.ru/8.1/xdto"" xmlns:xs=""http://www.w3.org/2001/XMLSchema"" xmlns:xsi=""http://www.w3.org/2001/XMLSchema-instance"" xsi:type=""Model"">
				|<package targetNamespace=""sample-my-package"">
				|<valueType name=""testtypes"" base=""xs:string"">
				|<pattern>" + Фасет + "</pattern>
				|</valueType>
				|<objectType name=""TestObj"">
				|<property xmlns:d4p1=""sample-my-package"" name=""TestItem"" type=""d4p1:testtypes""/>
				|</objectType>
				|</package>
				|</Model>");

	Модель = ФабрикаXDTO.ПрочитатьXML(Чтение);
	МояФабрикаXDTO = Новый ФабрикаXDTO(Модель);
	Пакет = МояФабрикаXDTO.Пакеты.Получить("sample-my-package");
	Тест = МояФабрикаXDTO.Создать(Пакет.Получить("TestObj"));

	Попытка
		Тест.TestItem = Строка;
		Возврат Истина
	Исключение
		Возврат Ложь
	КонецПопытки;
	
КонецФункции
	
&НаКлиенте
Процедура Модель(Команда)
	
	Сообщить(ПроверитьСтроку("01.01.2012","\d{2}\.\d{2}\.\d{4}"));
	Сообщить(ПроверитьСтроку("01.01.20121","\d{2}\.\d{2}\.\d{4}"));
	
КонецПроцедуры

Все.

Для тех, кому мало...

Итак, лет этак эндцать назад программисты решили упростить поиск, замену и проверку на соответвие различных строк, т.к. им, полагаю, надоело каждый раз писать что-то типа:

Если Сред(стрДата,1,1) < "0" ИЛИ Сред(стрДата,1,1) > "9" Тогда Ошибка = Истина;
КонецЕсли;

Если Сред(стрДата,2,1) < "0" ИЛИ Сред(стрДата,2,1) > "9" Тогда Ошибка = Истина;
КонецЕсли;

Если Сред(стрДата,3,1) <> "." Тогда Ошибка = Истина;
КонецЕсли;

//...

В итоге во всех нормальных языках программирования были реализованы библиотеки, содержащие процедуры и функции для работы с регулярными выражениями, и жизнь разработчиков качественно улучшилась, ибо тот монструозный код можно было заменить на куда более простой:

Ошибка = НЕ ПроверитьСтроку(СтрДата, "\d{2}\.\d{2}\.\d{4}");

Да, грамотным разработчикам стало ой как просто. Но что делать остальным? Правилный ответ, конечно, - учиться, учиться и еще раз  учиться! )))

 

Итак, самое простое, что нужно, чтобы освоить шаблоны проверки:

. - любой символ

+ - один или более раз, пример ".+" - один или более любой символ.

* - ноль или более раз, пример ".*" - любое количество любых символов (даже ни одного).

[n-m] - символ от m до n, пример: "[0-9]+" - одна или более цифр(а).

\d - цифра, пример \d+ - одна или более цифр(а).

\D - не цифра.

\s - пробельный символ - ТАБ, пробел, перенос строки, возврат каретки и т.п.

\S - непробельный символ.

\w - буква, цифра, подчеркивание.

\W - не буква, не цифра и не подчеркивание соответственно.

^ - начало текста, например "^\d+" - строка начинается с цифры.

$ - конец текста, например "\D+$" - строка заканчивается НЕ цифрой.

{m,n} - шаблон для от m до n символов, например "\d{2,4}" - от двух до четырех цифр. Можно указать одну и всего цифру для строгого соответвия.

\ - экранирует спецсимволы. Например, "\." - символ точки.

См. также

Комментарии
1. Азамат Масалимов (neuromancer_aza) 44 05.03.16 05:54 Сейчас в теме
Здравствуйте. Замеряли скорость работы? Как оно в скорости, например, с тем же VBScript.RegExp?
2. Sergey Andreev (starik-2005) 980 05.03.16 11:20 Сейчас в теме
(1) neuromancer_aza, у меня Linux, поэтому мне непросто ответить на Ваш вопрос, но Вы всегда можете померять это самостоятельно и рассказать нам. Предположу, что медленнее, если не кешировать объект XDTO, но если кешировать, то может быть и быстрее (если надо один шаблон тестить с многими исходными данными)
3. Роман Цованян (pfihr) 185 05.03.16 14:17 Сейчас в теме
Прекрасно!
От себя могу только добавить, что есть еще объекты для работы с XPath, это тоже регулярные выражения, но для уже языков разметки, типа html и xml.
Если добавите и их, будет совсем хорошо!
Роман Цованян.
4. Сергей Ожерельев (Поручик) 3563 05.03.16 14:22 Сейчас в теме
Оригинально. Интересно, как оно будет работать в цикле.
5. Sergey Andreev (starik-2005) 980 05.03.16 16:42 Сейчас в теме
(4) Поручик, предположу, что если сохранять объект XDTO, то и в цикле будет быстро. Если же каждый раз фабрикой создавать пакет, то. полагаю, при множественном использовании производительность будет не очень.

(3) pfihr, здесь используется встроенная в 1С проверка типа по фасету для значения поля XDTO-объекта, так что, полагаю, добавить сюда ХPath совсем не получится )))
1prog@bk.ru; Brawler; +2 Ответить
6. Алексей 1 (AlX0id) 06.03.16 10:34 Сейчас в теме
Круто %)
А какой язык регулярок используется в фасетах?
7. Xer shi (Xershi) 249 06.03.16 10:43 Сейчас в теме
Было бы не плохо добавить блок, который бы описывал как на практике это использовать.
А то после прочтения не стало понятнее как это употреблять.
8. Sergey Andreev (starik-2005) 980 06.03.16 11:01 Сейчас в теме
(6) AlX0id, ИМХО тот же, что и в RegExp от M$.

(7) Xershi, ниже я привел часть синтаксиса с примерами. В коде есть пример для проверки даты: ПроверитьСтроку("01.01.2012","\d{2}\.\d{2}\.\d{4}") - сравните с описанием регулярных выражений ниже по тексту и попробуйте разобрать данный пример. Я сам с регулярками раза с третьего только разобрался, а первые два подхода вызвали лишь мысли о том, что пока мне это не сильно надо, но выглядит как-то сложно и времени потратить надо будет немало, а его, типа, у меня нет. Но когда действительно появилась необходимость в их освоении, то оказалось, что достаточно дня, чтобы разобраться.
9. Xer shi (Xershi) 249 06.03.16 11:23 Сейчас в теме
(8) starik-2005, поэтому и говорю. Было бы не плохо чтобы эту тему разжевали более подробно. Так было бы быстрее освоить материал!
10. Sergey Andreev (starik-2005) 980 06.03.16 11:36 Сейчас в теме
(9) Xershi, быстрее освоить материал - это взять и написать регулярки для тестирования каких-то реальных вещей. Например, даты, e-mail, адреса сайта, имени переменной, числа, почтового адреса с индексом, ... - вот реализуйте каждый из них - и Вы сразу же станете специалистом. Описанной в статье информации для этого уже должно хватить. А если что-то непонятно - всегда есть гугл, он куда терпеливей иных учителей и никогда не отказывает пытливому уму в предоставлении ссылок на искомое.
11. Алексей Олешко (retif) 06.03.16 15:20 Сейчас в теме
интересно,надо будет проверить скорость работы
12. Роман Ложкин (webester) 22 06.03.16 16:12 Сейчас в теме
(7)Пробегите хотя бы бегло Дж.Фридл - Регулярные выражения. Уйдут все вопросы.
13. Sergey Andreev (starik-2005) 980 06.03.16 16:19 Сейчас в теме
Кстати, господа, в notepad++ есть поиск и замена на основе регулярных выражений. Я так иногда на работе что-то искал и менял, чтобы потом в консоль запросов вставить, как список. Вот там как раз непочатый край для экспериментов с регулярными выражениями. Например, попробуйте все даты в тексте заменить на какую-то конкретную дату - уже расширите горизонты своего познания и огребете достаточно экспы для очередного левелапа )))
CHSN8; SiAl; +2 Ответить 1
14. Xer shi (Xershi) 249 06.03.16 16:29 Сейчас в теме
(12) webester, если будет задача, я просто погуглю, а пока просто хотел, чтобы улучшили статью, чтобы начинающим не пришлось гуглить)
15. Алексей 1 (AlX0id) 09.03.16 09:16 Сейчас в теме
(13) starik-2005,
Ну уж тогда Regex Buddy можно поставить, для полноты ощущений :)
16. Maxim Goncharov (maxx) 607 09.03.16 12:14 Сейчас в теме
Здорово.
А не подскажете почему в конфигураторе при определении XTDO пакета визуально свойства pattern не видно?
17. Sergey Andreev (starik-2005) 980 09.03.16 12:44 Сейчас в теме
(16) maxx, это свойство есть только у типа данных.
18. Кирилл Бондаренко (karapuzzzz) 58 09.03.16 14:38 Сейчас в теме
Регулярки это найс. Спасибо огромное автору за хорошую альтернативу внешним компонентам.

А теперь тестирование. За основу взял проверку адреса электронной почты:
Регулярка: "\w+@\w+\.\w+"
Текст проверки 1С:
ПозицияСобаки = Найти(СтрокаАнализа, "@");
		СтрокаПослеСобаки = Сред(СтрокаАнализа, ПозицияСобаки);
		ПозицияТочки =  Найти(СтрокаПослеСобаки, ".");
		
		Если ПозицияСобаки > 1 
			И ПозицияТочки > 1 Тогда
		
			//
		
		КонецЕсли;
...Показать Скрыть


На 100000 итераций код 1С отработал за 2сек, а регулярные выражения 63с
19. Sergey Andreev (starik-2005) 980 09.03.16 15:04 Сейчас в теме
(18) karapuzzzz, а Вы кешировали объект XDTO или выполняли процедуру целиком? У Вас в коде правильным адресом будет и "%;№!@:?*!.", ибо вы не проверяете на "букву, цифру и подчеркивание" - реальный адрес куда сложнее. при том валидный "iem.mycompany@holding.com" не пройдет проверку по регулярке, ибо валидная "." приведет к ошибке. Т.е. не все так просто в действительности )))
20. Sergey Andreev (starik-2005) 980 09.03.16 15:31 Сейчас в теме
(18) karapuzzzz, попробовал с кешем объекта XDTO и паттерном "[0-z]+@[0-z]+\.[0-z]+":

Время начала: 63 593 123 364 131
Длительность: 999 мс
Истинных: 100 000
Время начала: 63 593 123 365 130
Длительность: 280 мс

Код какой-то такой получился:
	ВремяНачала = ТекущаяУниверсальнаяДатаВМиллисекундах();
	Сообщить("Время начала: " + ВремяНачала);
	Для А = 1 ПО 100000 Цикл 
		Результат = ПроверитьСтроку(ОбъектХ, СтрокаАнализа, "[0-z]+@[0-z]+\.[0-z]+");
		Если Результат Тогда Сч = Сч + 1;
		КонецЕсли;
	КонецЦикла;
	Сообщить("Длительность: " + (ТекущаяУниверсальнаяДатаВМиллисекундах() - ВремяНачала));
	Сообщить("Истинных: " + Сч);


	ВремяНачала = ТекущаяУниверсальнаяДатаВМиллисекундах();
	Сообщить("Время начала: " + ВремяНачала);
	Для А = 1 ПО 100000 Цикл 
	
		Результат = Ложь;
		ПозицияСобаки = Найти(СтрокаАнализа, "@");
        СтрокаПослеСобаки = Сред(СтрокаАнализа, ПозицияСобаки);
        ПозицияТочки =  Найти(СтрокаПослеСобаки, ".");
        
        Если ПозицияСобаки > 1 
            И ПозицияТочки > 1 Тогда
        
            Результат = Истина;
        
		КонецЕсли;
		
	КонецЦикла;
	Сообщить("Длительность: " + (ТекущаяУниверсальнаяДатаВМиллисекундах() - ВремяНачала));

...Показать Скрыть
21. Maxim Goncharov (maxx) 607 09.03.16 16:27 Сейчас в теме
(17) в определении типа тоже не увидел свойства pattern, хотя есть другие свойства фасета (максим. , миним. длины)
22. Sergey Andreev (starik-2005) 980 09.03.16 16:34 Сейчас в теме
(21) maxx, ну, это, ...
Прикрепленные файлы:
23. Яков Коган (Yashazz) 2080 09.03.16 20:26 Сейчас в теме
Класс! Просто фантастика. Круть неимоверная, зачёт однозначный.
Совершенно шикарная идея, и ведь правда работает. Неистово плюсую.

Если не секрет, как до такого додумались? Что натолкнуло?
24. Sergey Andreev (starik-2005) 980 09.03.16 21:52 Сейчас в теме
(23) Yashazz, ну как бы тут было два момента: выгрузка отчета по схеме XSD, любезно предосиавленная ПФР, которая отказалась грузиться в пакет и вынудила исследовать механизм XDTO. Потом была статья на ИС, в которой кто-то реализовал алгоритм регулярок. Я было подумал, а не выгрузить ли мне пакет в модель с прикрученным типом и менять паттерн проверки у этого типа... И, в итоге, сработало как видите...

ЗЫ: про XDTO еще месяц назад ничего толком не знал, а теперь знаю о нем весьма много.
Дмитрий74Чел; +1 Ответить
25. vadim vadim (fvadim) 4 10.03.16 11:03 Сейчас в теме
я правильно понимаю, что этот метод годится только для проверки на соответствие шаблону и получение сабматчей реализовать не получится?
26. Сергей Старых (tormozit) 4282 10.03.16 11:06 Сейчас в теме
Проверка паттерна конечно полезна. Но например в ИР соотношение проверки паттерна и поиска по паттерну составляет 1:100. Поэтому название публикации не совсем корректное. Корректнее было бы "Проверка регулярного выражения без внешних компонент? Легко!"
herfis; zqzq; myjob1c; _also; borrman; Fragster; +6 Ответить
27. Антонио Антонио (Fragster) 677 10.03.16 11:34 Сейчас в теме
Проверка - замечательно. Но часто нужна замена и/или данные по началу и длине найденных фрагментов (опять же, их может быть более одного)
28. Sergey Andreev (starik-2005) 980 10.03.16 12:29 Сейчас в теме
(27) Fragster, 1с использует в своем коде библиотеку icu - в ней все это, на сколько я знаю, есть. Что мешает им реализовать все это в языке - для меня загадка. Поэтому без внешних компонент только проверка.
29. Sergey Andreev (starik-2005) 980 10.03.16 12:42 Сейчас в теме
30. Андрей Зырянов (AndreykO) 3 11.03.16 06:48 Сейчас в теме
Спасибо. Очень помогло. Всё работает.
31. Sergey Andreev (starik-2005) 980 12.03.16 11:11 Сейчас в теме
(30) AndreykO, всегда пожалуйста.
32. Алексей 1 (AlX0id) 26.06.16 14:35 Сейчас в теме
чота рано порадовался ) как только решил применить реально, получил:

{Форма.Форма.Форма(102)}: Ошибка при вызове конструктора (ФабрикаXDTO)
МояФабрикаXDTO = Новый ФабрикаXDTO(Модель);
по причине:
Ошибка проверки данных XDTO:
Значение: '\d*\.\d*\.\d*\.\d*\:\d*' не соответствует простому типу: {sample-my-package}testtypes
Несоответствие фасету Pattern = '\d*\.\d*\.\d*\.\d*\:\d*'
по причине:
failed to compile: xmlFAParseRegExp: extra characters


При вот такой проверке:
Сообщить(ПроверитьСтроку("1.233.54.55:80","\d*\.\d*\.\d*\.\d*\:\d*"));
33. Sergey Andreev (starik-2005) 980 26.06.16 15:45 Сейчас в теме
(32) AlX0id, а перед ":" зачем слеш обратный? Уберите его - и все заработает. Обратный слеш только перед спецсимволами можно ставить. В иных случаях регулярное выражение не будет валидным и система будет падать уже на попытке преобразования модели в XDTO-пакет. Можете а этом месте в код добавить проверку на криворуких программистов, чтобы система возвращала им вместо истины или лжи строку "криворукий программер написал неверное регулярное выражение" )))
34. Александр Орефков (orefkov) 1462 05.08.16 15:55 Сейчас в теме
(15) AlX0id, (15) AlX0id, зачем Regex Buddy, когда есть это:
35. Сан Саныч (herfis) 116 05.08.16 17:02 Сейчас в теме
Прикольно! Жалко, что только проверка...
Для теста регулярок я разное пробовал, но руки зацепились почему-то именно за regexr.com
36. b00t b00t (b00t) 57 10.09.16 22:47 Сейчас в теме
regex1c (github)

Доработал аналогичную идею, на днях выкачу поиск по шаблону.
Для улучшения производительности сделал предварительную компиляцию выражения (создание XDTO-объекта и сохранение в структуру)
Есть крайне простой тест производительности.
37. Денис Новосёлов (binex) 204 08.01.17 12:07 Сейчас в теме
\s - пробельный символ - ТАБ, пробел, перенос строки, возврат каретки и т.п.


Это только пробельный символ.

Перевод строки, табуляция - \r и \t, соответственно.
38. Sergey Andreev (starik-2005) 980 09.01.17 09:46 Сейчас в теме
(37)
Это только пробельный символ.

Идем учить мат.часть:
Прикрепленные файлы:
39. Алексей Кондратьев (alexkon) 80 17.01.17 17:03 Сейчас в теме
(34), а где такой редактор взять?
40. Алексей Кондратьев (alexkon) 80 17.01.17 17:08 Сейчас в теме
Коллеги, возник следующий вопрос: пишу в образце простое выражение "тест" и строку поиска "тестовый текст". Совпадений не находит. Если использовать то же самое, но при помощи VBScript.RegExp, то результат положительный. В XDTO какой-то "свой" синтаксис регулярных выражений?
41. Sergey Andreev (starik-2005) 980 17.01.17 18:08 Сейчас в теме
(40) в данном случае отрабатывает именно паттерн, т.е. проверяется соответствие образцу, а не выполняется поиск подстроки в образце. Смысл данного механизма - ограничивать данные в поле. Если Вы в качестве паттерна пишите "тест", то "тестовый текст" у Вас не будет равен "тест", но если задача стоит проверить на наличие во входящем потоке слова "тест", то нужно использовать ".*тест.*" (т.е. указать в шаблоне, что до и после слова "тест" могут следовать (или не следовать) любые символы.
42. Алексей Кондратьев (alexkon) 80 17.01.17 21:46 Сейчас в теме
(41), да я именно так и хотел. Я тоже вписывал в паттерн ".*тест.*" и "тестовый текст" удовлетворял поиску по шаблону. Я думал, что 1С использует в качестве шаблона стандартный синтаксис регулярных выражений, поэтому писал шаблон как и в VBScript.RegExp. Получается, что синтаксис отличается? Если да, то где можно посмотреть синтаксис, который используется при проверке в платформе? К примеру: хочу проверить, что во входящем потоке есть слова, начинающиеся с "test". В VBScript.RegExp написал бы паттерн "\btest". 1С такой паттерн принимать отказывается.
P.S.: кстати, если в VBScript.RegExp попытаться вписать в паттерн "\bтест", то вхождения в потоке "тестовый текст" тоже не найдутся. В инете нашел, что это связано с локализацией. В PHP можно просто указать флаг /u, тогда начинает адекватно работать с кириллицей.
43. Sergey Andreev (starik-2005) 980 18.01.17 11:03 Сейчас в теме
(42) синтаксис не отличается, но нужно иметь ввиду, что в данном случае 1С проверяет соответствие шаблону, а не осуществляет поиск подстроки. Тут необходимо уловить разницу между наличием в строке подстроки, соответствующей шаблону, и когда строка вся целиком соответствует шаблону. Т.е. при таком подходе нельзя делать так, как делали Вы - нужно добавлять ".*" с обоих сторон (как % при ПОДОБНО в запросе).
44. Сергей Железняк (sergzhel) 31.05.17 09:51 Сейчас в теме
Доступен ли многострочный режим и получение количество вхождений, игнорирование регистра?
45. Sergey Andreev (starik-2005) 980 31.05.17 11:06 Сейчас в теме
Оставьте свое сообщение