gifts2017

Регулярные выражения без внешних компонент? Легко!

Опубликовал Sergey Andreev (starik-2005) в раздел Программирование - Практика программирования

Сложный способ организовать проверку строки с помощью регулярного выражения в 1С. При этом ни одна внешняя компонента не пострадала. Ну и от платформы (Linux, MustDie) - не зависит.

Здравствуйте, товарищи! 

Дабы не затягивать, сразу приведу код. Кто хочет разобраться, в чем тут, собственно, дело, пусть читает статьи по XDTO. О регулярных выражениях расскажу ниже, но статей на эту тему и так масса.

Код:

&НаКлиенте
Функция ПроверитьСтроку(Строка, Фасет)
	Чтение = Новый ЧтениеXML;
	Чтение.УстановитьСтроку(
				"<Model xmlns=""http://v8.1c.ru/8.1/xdto"" xmlns:xs=""http://www.w3.org/2001/XMLSchema"" xmlns:xsi=""http://www.w3.org/2001/XMLSchema-instance"" xsi:type=""Model"">
				|<package targetNamespace=""sample-my-package"">
				|<valueType name=""testtypes"" base=""xs:string"">
				|<pattern>" + Фасет + "</pattern>
				|</valueType>
				|<objectType name=""TestObj"">
				|<property xmlns:d4p1=""sample-my-package"" name=""TestItem"" type=""d4p1:testtypes""/>
				|</objectType>
				|</package>
				|</Model>");

	Модель = ФабрикаXDTO.ПрочитатьXML(Чтение);
	МояФабрикаXDTO = Новый ФабрикаXDTO(Модель);
	Пакет = МояФабрикаXDTO.Пакеты.Получить("sample-my-package");
	Тест = МояФабрикаXDTO.Создать(Пакет.Получить("TestObj"));

	Попытка
		Тест.TestItem = Строка;
		Возврат Истина
	Исключение
		Возврат Ложь
	КонецПопытки;
	
КонецФункции
	
&НаКлиенте
Процедура Модель(Команда)
	
	Сообщить(ПроверитьСтроку("01.01.2012","\d{2}\.\d{2}\.\d{4}"));
	Сообщить(ПроверитьСтроку("01.01.20121","\d{2}\.\d{2}\.\d{4}"));
	
КонецПроцедуры

Все.

Для тех, кому мало...

Итак, лет этак эндцать назад программисты решили упростить поиск, замену и проверку на соответвие различных строк, т.к. им, полагаю, надоело каждый раз писать что-то типа:

Если Сред(стрДата,1,1) < "0" ИЛИ Сред(стрДата,1,1) > "9" Тогда Ошибка = Истина;
КонецЕсли;

Если Сред(стрДата,2,1) < "0" ИЛИ Сред(стрДата,2,1) > "9" Тогда Ошибка = Истина;
КонецЕсли;

Если Сред(стрДата,3,1) <> "." Тогда Ошибка = Истина;
КонецЕсли;

//...

В итоге во всех нормальных языках программирования были реализованы библиотеки, содержащие процедуры и функции для работы с регулярными выражениями, и жизнь разработчиков качественно улучшилась, ибо тот монструозный код можно было заменить на куда более простой:

Ошибка = НЕ ПроверитьСтроку(СтрДата, "\d{2}\.\d{2}\.\d{4}");

Да, грамотным разработчикам стало ой как просто. Но что делать остальным? Правилный ответ, конечно, - учиться, учиться и еще раз  учиться! )))

 

Итак, самое простое, что нужно, чтобы освоить шаблоны проверки:

. - любой символ

+ - один или более раз, пример ".+" - один или более любой символ.

* - ноль или более раз, пример ".*" - любое количество любых символов (даже ни одного).

[n-m] - символ от m до n, пример: "[0-9]+" - одна или более цифр(а).

\d - цифра, пример \d+ - одна или более цифр(а).

\D - не цифра.

\s - пробельный символ - ТАБ, пробел, перенос строки, возврат каретки и т.п.

\S - непробельный символ.

\w - буква, цифра, подчеркивание.

\W - не буква, не цифра и не подчеркивание соответственно.

^ - начало текста, например "^\d+" - строка начинается с цифры.

$ - конец текста, например "\D+$" - строка заканчивается НЕ цифрой.

{m,n} - шаблон для от m до n символов, например "\d{2,4}" - от двух до четырех цифр. Можно указать одну и всего цифру для строгого соответвия.

\ - экранирует спецсимволы. Например, "\." - символ точки.

См. также

Подписаться Добавить вознаграждение

Комментарии

1. Азамат Масалимов (neuromancer_aza) 05.03.16 05:54
Здравствуйте. Замеряли скорость работы? Как оно в скорости, например, с тем же VBScript.RegExp?
2. Sergey Andreev (starik-2005) 05.03.16 11:20
(1) neuromancer_aza, у меня Linux, поэтому мне непросто ответить на Ваш вопрос, но Вы всегда можете померять это самостоятельно и рассказать нам. Предположу, что медленнее, если не кешировать объект XDTO, но если кешировать, то может быть и быстрее (если надо один шаблон тестить с многими исходными данными)
3. Роман Цованян (pfihr) 05.03.16 14:17
Прекрасно!
От себя могу только добавить, что есть еще объекты для работы с XPath, это тоже регулярные выражения, но для уже языков разметки, типа html и xml.
Если добавите и их, будет совсем хорошо!
Роман Цованян.
4. Сергей Ожерельев (Поручик) 05.03.16 14:22
Оригинально. Интересно, как оно будет работать в цикле.
5. Sergey Andreev (starik-2005) 05.03.16 16:42
(4) Поручик, предположу, что если сохранять объект XDTO, то и в цикле будет быстро. Если же каждый раз фабрикой создавать пакет, то. полагаю, при множественном использовании производительность будет не очень.

(3) pfihr, здесь используется встроенная в 1С проверка типа по фасету для значения поля XDTO-объекта, так что, полагаю, добавить сюда ХPath совсем не получится )))
1prog@bk.ru; Brawler; +2 Ответить
6. Алексей 1 (AlX0id) 06.03.16 10:34
Круто %)
А какой язык регулярок используется в фасетах?
7. Xer shi (Xershi) 06.03.16 10:43
Было бы не плохо добавить блок, который бы описывал как на практике это использовать.
А то после прочтения не стало понятнее как это употреблять.
8. Sergey Andreev (starik-2005) 06.03.16 11:01
(6) AlX0id, ИМХО тот же, что и в RegExp от M$.

(7) Xershi, ниже я привел часть синтаксиса с примерами. В коде есть пример для проверки даты: ПроверитьСтроку("01.01.2012","\d{2}\.\d{2}\.\d{4}") - сравните с описанием регулярных выражений ниже по тексту и попробуйте разобрать данный пример. Я сам с регулярками раза с третьего только разобрался, а первые два подхода вызвали лишь мысли о том, что пока мне это не сильно надо, но выглядит как-то сложно и времени потратить надо будет немало, а его, типа, у меня нет. Но когда действительно появилась необходимость в их освоении, то оказалось, что достаточно дня, чтобы разобраться.
9. Xer shi (Xershi) 06.03.16 11:23
(8) starik-2005, поэтому и говорю. Было бы не плохо чтобы эту тему разжевали более подробно. Так было бы быстрее освоить материал!
10. Sergey Andreev (starik-2005) 06.03.16 11:36
(9) Xershi, быстрее освоить материал - это взять и написать регулярки для тестирования каких-то реальных вещей. Например, даты, e-mail, адреса сайта, имени переменной, числа, почтового адреса с индексом, ... - вот реализуйте каждый из них - и Вы сразу же станете специалистом. Описанной в статье информации для этого уже должно хватить. А если что-то непонятно - всегда есть гугл, он куда терпеливей иных учителей и никогда не отказывает пытливому уму в предоставлении ссылок на искомое.
11. Алексей Олешко (retif) 06.03.16 15:20
интересно,надо будет проверить скорость работы
12. Роман Ложкин (webester) 06.03.16 16:12
(7)Пробегите хотя бы бегло Дж.Фридл - Регулярные выражения. Уйдут все вопросы.
13. Sergey Andreev (starik-2005) 06.03.16 16:19
Кстати, господа, в notepad++ есть поиск и замена на основе регулярных выражений. Я так иногда на работе что-то искал и менял, чтобы потом в консоль запросов вставить, как список. Вот там как раз непочатый край для экспериментов с регулярными выражениями. Например, попробуйте все даты в тексте заменить на какую-то конкретную дату - уже расширите горизонты своего познания и огребете достаточно экспы для очередного левелапа )))
CHSN8; SiAl; +2 Ответить 1
14. Xer shi (Xershi) 06.03.16 16:29
(12) webester, если будет задача, я просто погуглю, а пока просто хотел, чтобы улучшили статью, чтобы начинающим не пришлось гуглить)
15. Алексей 1 (AlX0id) 09.03.16 09:16
(13) starik-2005,
Ну уж тогда Regex Buddy можно поставить, для полноты ощущений :)
16. Maxim Goncharov (maxx) 09.03.16 12:14
Здорово.
А не подскажете почему в конфигураторе при определении XTDO пакета визуально свойства pattern не видно?
17. Sergey Andreev (starik-2005) 09.03.16 12:44
(16) maxx, это свойство есть только у типа данных.
18. Кирилл Бондаренко (karapuzzzz) 09.03.16 14:38
Регулярки это найс. Спасибо огромное автору за хорошую альтернативу внешним компонентам.

А теперь тестирование. За основу взял проверку адреса электронной почты:
Регулярка: "\w+@\w+\.\w+"
Текст проверки 1С:
ПозицияСобаки = Найти(СтрокаАнализа, "@");
		СтрокаПослеСобаки = Сред(СтрокаАнализа, ПозицияСобаки);
		ПозицияТочки =  Найти(СтрокаПослеСобаки, ".");
		
		Если ПозицияСобаки > 1 
			И ПозицияТочки > 1 Тогда
		
			//
		
		КонецЕсли;
...Показать Скрыть


На 100000 итераций код 1С отработал за 2сек, а регулярные выражения 63с
19. Sergey Andreev (starik-2005) 09.03.16 15:04
(18) karapuzzzz, а Вы кешировали объект XDTO или выполняли процедуру целиком? У Вас в коде правильным адресом будет и "%;№!@:?*!.", ибо вы не проверяете на "букву, цифру и подчеркивание" - реальный адрес куда сложнее. при том валидный "iem.mycompany@holding.com" не пройдет проверку по регулярке, ибо валидная "." приведет к ошибке. Т.е. не все так просто в действительности )))
20. Sergey Andreev (starik-2005) 09.03.16 15:31
(18) karapuzzzz, попробовал с кешем объекта XDTO и паттерном "[0-z]+@[0-z]+\.[0-z]+":

Время начала: 63 593 123 364 131
Длительность: 999 мс
Истинных: 100 000
Время начала: 63 593 123 365 130
Длительность: 280 мс

Код какой-то такой получился:
	ВремяНачала = ТекущаяУниверсальнаяДатаВМиллисекундах();
	Сообщить("Время начала: " + ВремяНачала);
	Для А = 1 ПО 100000 Цикл 
		Результат = ПроверитьСтроку(ОбъектХ, СтрокаАнализа, "[0-z]+@[0-z]+\.[0-z]+");
		Если Результат Тогда Сч = Сч + 1;
		КонецЕсли;
	КонецЦикла;
	Сообщить("Длительность: " + (ТекущаяУниверсальнаяДатаВМиллисекундах() - ВремяНачала));
	Сообщить("Истинных: " + Сч);


	ВремяНачала = ТекущаяУниверсальнаяДатаВМиллисекундах();
	Сообщить("Время начала: " + ВремяНачала);
	Для А = 1 ПО 100000 Цикл 
	
		Результат = Ложь;
		ПозицияСобаки = Найти(СтрокаАнализа, "@");
        СтрокаПослеСобаки = Сред(СтрокаАнализа, ПозицияСобаки);
        ПозицияТочки =  Найти(СтрокаПослеСобаки, ".");
        
        Если ПозицияСобаки > 1 
            И ПозицияТочки > 1 Тогда
        
            Результат = Истина;
        
		КонецЕсли;
		
	КонецЦикла;
	Сообщить("Длительность: " + (ТекущаяУниверсальнаяДатаВМиллисекундах() - ВремяНачала));

...Показать Скрыть
21. Maxim Goncharov (maxx) 09.03.16 16:27
(17) в определении типа тоже не увидел свойства pattern, хотя есть другие свойства фасета (максим. , миним. длины)
22. Sergey Andreev (starik-2005) 09.03.16 16:34
(21) maxx, ну, это, ...
Прикрепленные файлы:
23. Яков Коган (Yashazz) 09.03.16 20:26
Класс! Просто фантастика. Круть неимоверная, зачёт однозначный.
Совершенно шикарная идея, и ведь правда работает. Неистово плюсую.

Если не секрет, как до такого додумались? Что натолкнуло?
24. Sergey Andreev (starik-2005) 09.03.16 21:52
(23) Yashazz, ну как бы тут было два момента: выгрузка отчета по схеме XSD, любезно предосиавленная ПФР, которая отказалась грузиться в пакет и вынудила исследовать механизм XDTO. Потом была статья на ИС, в которой кто-то реализовал алгоритм регулярок. Я было подумал, а не выгрузить ли мне пакет в модель с прикрученным типом и менять паттерн проверки у этого типа... И, в итоге, сработало как видите...

ЗЫ: про XDTO еще месяц назад ничего толком не знал, а теперь знаю о нем весьма много.
Дмитрий74Чел; +1 Ответить
25. vadim vadim (fvadim) 10.03.16 11:03
я правильно понимаю, что этот метод годится только для проверки на соответствие шаблону и получение сабматчей реализовать не получится?
26. Сергей Старых (tormozit) 10.03.16 11:06
Проверка паттерна конечно полезна. Но например в ИР соотношение проверки паттерна и поиска по паттерну составляет 1:100. Поэтому название публикации не совсем корректное. Корректнее было бы "Проверка регулярного выражения без внешних компонент? Легко!"
herfis; zqzq; myjob1c; _also; borrman; Fragster; +6 Ответить
27. Антонио (Fragster) 10.03.16 11:34
Проверка - замечательно. Но часто нужна замена и/или данные по началу и длине найденных фрагментов (опять же, их может быть более одного)
28. Sergey Andreev (starik-2005) 10.03.16 12:29
(27) Fragster, 1с использует в своем коде библиотеку icu - в ней все это, на сколько я знаю, есть. Что мешает им реализовать все это в языке - для меня загадка. Поэтому без внешних компонент только проверка.
29. Sergey Andreev (starik-2005) 10.03.16 12:42
30. Андрей Зырянов (AndreykO) 11.03.16 06:48
Спасибо. Очень помогло. Всё работает.
31. Sergey Andreev (starik-2005) 12.03.16 11:11
(30) AndreykO, всегда пожалуйста.
32. Алексей 1 (AlX0id) 26.06.16 14:35
чота рано порадовался ) как только решил применить реально, получил:

{Форма.Форма.Форма(102)}: Ошибка при вызове конструктора (ФабрикаXDTO)
МояФабрикаXDTO = Новый ФабрикаXDTO(Модель);
по причине:
Ошибка проверки данных XDTO:
Значение: '\d*\.\d*\.\d*\.\d*\:\d*' не соответствует простому типу: {sample-my-package}testtypes
Несоответствие фасету Pattern = '\d*\.\d*\.\d*\.\d*\:\d*'
по причине:
failed to compile: xmlFAParseRegExp: extra characters


При вот такой проверке:
Сообщить(ПроверитьСтроку("1.233.54.55:80","\d*\.\d*\.\d*\.\d*\:\d*"));
33. Sergey Andreev (starik-2005) 26.06.16 15:45
(32) AlX0id, а перед ":" зачем слеш обратный? Уберите его - и все заработает. Обратный слеш только перед спецсимволами можно ставить. В иных случаях регулярное выражение не будет валидным и система будет падать уже на попытке преобразования модели в XDTO-пакет. Можете а этом месте в код добавить проверку на криворуких программистов, чтобы система возвращала им вместо истины или лжи строку "криворукий программер написал неверное регулярное выражение" )))
34. Александр Орефков (orefkov) 05.08.16 15:55
(15) AlX0id, (15) AlX0id, зачем Regex Buddy, когда есть это:
35. Сан Саныч (herfis) 05.08.16 17:02
Прикольно! Жалко, что только проверка...
Для теста регулярок я разное пробовал, но руки зацепились почему-то именно за regexr.com
36. b00t b00t (b00t) 10.09.16 22:47
regex1c (github)

Доработал аналогичную идею, на днях выкачу поиск по шаблону.
Для улучшения производительности сделал предварительную компиляцию выражения (создание XDTO-объекта и сохранение в структуру)
Есть крайне простой тест производительности.
Для написания сообщения необходимо авторизоваться
Прикрепить файл
Дополнительные параметры ответа