Использование регулярных выражений (RegExp) в 1С8.х

Опубликовал Evg-Lylyk в раздел Программирование - Практика программирования

1. Использование
2. Достоинства RegExp
3. Отладка и проверка (RegExBuddy)
4. "Обертки"
5. Примеры использования (полезные универсальные функции)
6. Заключение

Данный материал касается платформы 8.х

О функциях и формате шаблона RegExp подробно можно почитать здесь:
http://ru.wikipedia.org/wiki/Регулярные_выражения
http://www.script-coding.info/WSH/RegExp.html
Книга Михайлов А. Системное программирование в 1С: Предприятии 7.7/8.0 (Глава 1. "Применение технологий СОМ и ActiveX" - "Регулярные выражения")

библиотека RegExp является предустановленной т.е. есть в любом Windows

 

Возможности регулярных выражений:
Сравнить текст с заданным шаблоном (метод Test).
Заменить или удалить из  строки текст, соответствующий заданному шаблону (метод Replace).
Извлечь из строки текст, соответствующий заданному шаблону (метод Execute).

1. Использование 

RegExp используется в 1С через COM интерфейс пример кода:

RegExp = Новый COMОбъект("VBScript.RegExp");// создаем объект для работы с регулярными выражениями
RegExp.MultiLine = Истина;  // истина — текст многострочный, ложь — одна строка
RegExp.Global = Истина;     // истина — поиск по всей строке, ложь — до первого совпадения
RegExp.IgnoreCase = Истина; // истина — игнорировать регистр строки при поиске

Шаблон = ".+@.+\..+"; //шаблон проверки e-mail

RegExp.Pattern = Шаблон;    // шаблон (регулярное выражение)

ПроверяемыйEMail = "test@mail.ru";

Если Не
RegExp.Test(ПроверяемыйEMail) Тогда
   
Сообщить("Некорректный email");
КонецЕсли;

о методах и свойствах можно почитать подробно здесь

2. Достоинства RegExp

Плюсы:

  • хорошая скорость анализа т.к. 1С анализ строк (разбор) обычно реализуется циклами и функциями: Лев, Прав, Сред, Найти, а встроенный язык медленный
  • высокая читаемость и модифицированность (более предсказуем в случае несоответствия строки - разбору)
  • доп. функционал (можно осуществлять анализ, замену и проверку строковых выражений)

Минусы:

  • не все задачи можно решить (например рекурсивные разборы тип 1 + (2+3*(2-7)) в случае если нужно разобрать на выражения в скобках) приходится смешивать с кодом
  • Возможны зависания при использовании сложных шаблонов. Отладчик RegExBuddy в таких ситуациях пишет о невозможности получить результат за разумное число итераций
  • RegExp доп. библиотека (инициализация занимает значительное время)

  основное достоинство RegExp это читаемость

3. Отладка и проверка (RegExBuddy) 

Отладка регулярных выражений довольно частая задача т.к. бывает трудно понять и сам шаблон и ошибки в разборе. Наиболее удобным инструментом на мой взгляд является программа RegexBuddy (внешний вид программы есть в скриншотах) она осуществляет подцветку разбираемых выражений и многое другое, есть все что нужно и даже больше. Очень простой в использовании инструмент.

Также есть тестер 8.1 от coder1cv8, но в нем к сожалению нет подвыражений и запускается только из 1С8.

4. "Обертки"

При частом использовании RegExp приходится делать более удобные и читаемые "оберки" (+ русифицированные) Внимание! Данные функции более медленные

Код функций:

Перем RegExp;

//RegExp --------------------------------------------------------

Процедура РегулярныеВыражения_Инициализация (Шаблон, ИскатьДоПервогоСовпадения = Истина, МногоСтрок = Истина, ИгнорироватьРегистр = Истина) Экспорт

    Если
RegExp = Неопределено Тогда //Нужна инициализация
       
RegExp = Новый COMОбъект("VBScript.RegExp");    // создаем объект для работы с регулярными выражениями
   
КонецЕсли;

   
//Заполняем данные
   
RegExp.MultiLine = МногоСтрок;                  // истина — текст многострочный, ложь — одна строка
   
RegExp.Global = Не ИскатьДоПервогоСовпадения;   // истина — поиск по всей строке, ложь — до первого совпадения
   
RegExp.IgnoreCase = ИгнорироватьРегистр;        // истина — игнорировать регистр строки при поиске
   
RegExp.Pattern = Шаблон;                        // шаблон (регулярное выражение)

КонецПроцедуры

Функция
РегулярныеВыражения_Проверка(ПроверяемыйТекст)

    Возврат
RegExp.Test(ПроверяемыйТекст);

КонецФункции

Функция РегулярныеВыражения_Выполнить(АнализируемыйТекст) Экспорт

   
РезультатАнализаСтроки = RegExp.Execute(АнализируемыйТекст);

   
МассивВыражений = Новый Массив;

    Для Каждого
Выражение Из РезультатАнализаСтроки Цикл
       
СтруктураВыражение = Новый Структура ("Начало, Длина, Значение, ПодВыражения", Выражение.FirstIndex, Выражение.Length,Выражение.Value);

       
//Обработка подвыражений
       
МассивПодВыражений = Новый Массив;
        Для Каждого
ПодВыражение Из Выражение.SubMatches Цикл
           
МассивПодВыражений.Добавить(ПодВыражение);
        КонецЦикла;
       
СтруктураВыражение.ПодВыражения = МассивПодВыражений;

       
МассивВыражений.Добавить (СтруктураВыражение);

    КонецЦикла;

    Возврат
МассивВыражений;

КонецФункции

//RegExp --------------------------------------------------------

 

Использование  на примере с email:

РегулярныеВыражения_Инициализация (".+@.+\..+");

ПроверяемыйEMail = "test@mail.ru";
Если Не
РегулярныеВыражения_Проверка(ПроверяемыйEMail) Тогда
   
Сообщить("Некорректный email");
КонецЕсли;

5. Примеры использования (полезные универсальные функции)

Функция ПодставитьПараметрыВСтроку (СтрокаШаблон, Коллекция) - подставляет в строку параметры из коллекции

   СтрокаШаблон - строка вида "Текст [Параметр]" параметры должны быть заключены в квадратные скобки

   Коллекция - коллекция из которой будут подбираться одноименные параметры

Пример: ПодставитьПараметрыВСтроку ("Выполнено: [ВыполненоПроцент]%", Новый Структура ("ВыполненоПроцент",50));

Результатом выполнения будет строка : "Выполнено: 50%"


Функция РазложитьСтрокуВМассив (Строка, Разделитель = ",") - возвращает массив полученный из строки  элементами которого являются строки разделенные разделителем (эта функция есть практически в любой конфигурации от  1С)

  Строка - строка из которой берем данные

  Разделитель -  символ разделитель (по умолчанию ",")

Пример: РазложитьСтрокуВМассив("1,23,45");

Результатом выполнения будет массив строк : "1","23","45"


Код функций:

Функция ПодставитьПараметрыВСтроку (Шаблон, КоллекцияЗаполнения) Экспорт

   
РегулярныеВыражения_Инициализация ("\[([\d\wЁА-Я]+)\]", Ложь);
   
НайденныеПараметры = РегулярныеВыражения_Выполнить(Шаблон);

   
НовыйТекст = Шаблон;

    Для Каждого
Параметр Из НайденныеПараметры Цикл

       
//Получим имя параметра
       
ИмяПараметра = Параметр.ПодВыражения[0];//Первый элемент

       
Попытка //Параметр может отсутствовать в коллекции
            //Получим значение параметра
           
ЗначениеПараметра = КоллекцияЗаполнения[ИмяПараметра];

           
//Подстановка параметров
           
НовыйТекст = СтрЗаменить(НовыйТекст, Параметр.Значение, ЗначениеПараметра);
        Исключение
        КонецПопытки;

    КонецЦикла;

    Возврат
НовыйТекст;

КонецФункции

Функция РазложитьСтрокуВМассив(Строка, Разделитель = ",") Экспорт

   
//Разбор строки вида 1,СЛОВО,(1+2); Маска для разделителя ',' ([^\,]+),?"
   
РегулярныеВыражения_Инициализация ("[^\" + Разделитель + "]+", Ложь, Ложь, Ложь);
   
Выражения = РегулярныеВыражения_Выполнить(Строка);

   
Массив = Новый Массив;

    Для Каждого
Выражение Из Выражения Цикл
       
Массив.Добавить(Выражение.Value);
    КонецЦикла;

    Возврат
Массив;

КонецФункции

 

Можно было привести более сложные примеры, но они бы имели узкую направленность.

6. Заключение

RegExp имеет хорошую скорость обработки и отличную читаемость .

На регулярах построены многие интересные разработки на инфостарте:

Разукрашка (1.4.1.5) alexk-is

Раскрашивание текста запроса 

[2 in 1] «Обфускация кода 1С» и «RegExp Тестер» от coder1c8

т.е. везде где нужна низкоуровневая обработка текста (разбор различных текстовых данных) хороший выбор это регуляры.

в файлах есть пример кода на RegExp и сравнение скорости

 

Файлы

Наименование Файл Версия Размер Кол. Скачив.
Пример 8.1. Тест. Сравнение скорости RegExp и встроенного языка на функции разбора 1,2,3
.epf 8,11Kb
27.01.10
332
.epf 8,11Kb 332 Скачать

См. также

Лучшие комментарии

44. artbear (файл скачал) 28.01.2010 08:53
(43) Про скорость кода в 1 строку согласен
(42) (43)
Можно еще ускорить :)
1. в конце модуля добавляем
Код
резМассив = Новый Массив;
Script.AddObject("myarray", резМассив);
Показать полностью


2. исправляем метод РазложитьСтрокуВМассивЯва
на следующий
Код
Функция РазложитьСтрокуВМассивЯва(Строка, Разделитель = ",") Экспорт 
   резМассив.Очистить();
   резМассив = Script.eval("var str=""" + Строка + """; array1 = str.split(""" + Разделитель + """); for (i = 0; i < array1.length; i++) { myarray.Add(array1[i]); }; myarray; "); Возврат резМассив;
КонецФункции
Показать полностью


Получаем результат
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 735 мс
Выполнений: 1 000 функций на RegExp время: 1 859 мс
Выполнений: 1 000 функций на Ява время: 688 мс

счас переделаю код RegExp :)

PS юнит-тесты показывают, что код верный - возвращается правильный массив
Ответили: (45) (46) (47)
# Ответить
58. dushelov (файл скачал) 28.01.2010 14:07
Я думаю, что надо заводить отдельную ветку с поисками и оптимизацией алгоритмов штатных, 1С-ных универсальных методов.
Ответили: (59)
+ 2 [ Evg-Lylyk; artbear; ]
# Ответить
64. TUTSIC9 21.09.2011 12:46
Суперски!!! Регулярные выражения очень помогаюТ!!! не Хочется каждый раз писать одно и тоже )
+ 1 [ Evg-Lylyk; ]
# Ответить

Комментарии

1. Арчибальд 25.01.2010 19:15
Внятно и полезно 8-)
# Ответить
2. dushelov (файл скачал) 25.01.2010 19:24
Хорошая статья!
# Ответить
3. Saint 25.01.2010 20:33
Хорошая статья. Единственное дополнение: при реальном использовании обёрток возможно более удобным будет оформить их в отдельном общем модуле. Типа эмуляция класса. :D
Ответили: (4)
+ 1 [ Evg-Lylyk; ]
# Ответить
4. Evg-Lylyk 25.01.2010 20:44
(3) Спасибо. Надо подумать как это поудобнее оформить.
# Ответить
5. awk (файл скачал) 25.01.2010 20:52
(0) Жаль в VBS регулярные выражения кастрированы...
Ответили: (6)
# Ответить
6. dushelov (файл скачал) 25.01.2010 22:09
(5) Я свою компоненту набросал для использования нетовских регулярных выражений из 1с-ки.
Ответили: (7)
# Ответить
7. Evg-Lylyk 25.01.2010 22:16
(6) главное чтобы без NET ;)
Ответили: (8)
# Ответить
8. dushelov (файл скачал) 25.01.2010 23:03
(7) У меня НЕТ везде стоит, так что на счет этого не беспокоюсь вообще.
Ответили: (9)
# Ответить
9. Evg-Lylyk 25.01.2010 23:22
(8) меня больше беспокоит где он не стоит :D
# Ответить
10. tormozit 26.01.2010 08:39
Из минусов обязательно нужно упомянуть возможность зависания при использовании сложных шаблонов. Отладчик RegExBuddy в таких ситуациях пишет о невозможности получить результат за разумное число итераций.
Ответили: (14)
+ 1 [ Evg-Lylyk; ]
# Ответить
11. Stepa86 26.01.2010 08:54
RegExBuddy - платная только?
Ответили: (14)
# Ответить
12. coder1cv8 26.01.2010 09:34
А где книжечку с "обложки" публикации скачать можно? :)

Из минусов я бы отметил еще ограниченность регэкспов в VBS (тут об этом уже упоминалось), нет "просмотра назад" в частности, что меня очень огорчило, когда я писал свой обфускатор...
Ответили: (13) (14)
# Ответить
13. Totoro 26.01.2010 10:24
(0) Доступно и понятно. Молодец.
(12) Например на Infanata
# Ответить
14. Evg-Lylyk 26.01.2010 12:30
(10) Хорошо... я с подобным не сталкивался. Здорово если бы был примерчик такого шаблона с которым зависает
(11) Если хорошо поискать можно найти и "русскую версию" ;)
(12) По сравнению со встроенным языком это как мне кажется не ограниченность
Было бы здорово если бы 1С встроила поддержу RegExp на уровне платформы наконец то за код Лев(Стр,Найти(... можно будет проклинать :)
# Ответить
15. aipnnov (файл скачал) 26.01.2010 14:29
Очень хорошо написано и понятно.
# Ответить
16. alexk-is (файл скачал) 26.01.2010 18:03
Скачал. Запустил. Получил:
Выполнений: 100 функций на RegExp время: 172 мс
Выполнений: 100 Функции из Бух 1.6 и КОРП 2.0 время: 78 мс

Мне показалось, что должно быть наоборот. Что я делаю не так?
Ответили: (17)

Прикрепленные файлы:

1.png
# Ответить
17. dushelov (файл скачал) 26.01.2010 18:09
(16) Думаю, что из теста времени надо убрать время на создание ком-объекта.
Ответили: (18)
# Ответить
18. alexk-is (файл скачал) 26.01.2010 18:25
(17) Ком-объект создается и настраивается при открытии обработки в её модуле. Проверил в отладчике - отрабатывается 1 раз при открытии...

Думал время определяет неправильно. Добавил циклов. Получил:
Выполнений: 1 000 функций на RegExp время: 1 781 мс
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 703 мс
Ответили: (19)
# Ответить
19. dushelov (файл скачал) 26.01.2010 18:33
(18) А что за обработка? Дай посмотреть ;)
Ответили: (20)
# Ответить
20. alexk-is (файл скачал) 26.01.2010 18:38
(19) Вверху страницы "Скачать Пример. Тест. Сравнение скорости..."
# Ответить
21. alexk-is (файл скачал) 26.01.2010 18:48
+18 Думал из-за конфигурации. Запустил в УПП. Получил:
Выполнений: 1 000 функций на RegExp время: 1 719 мс
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 625 мс
# Ответить
22. dushelov (файл скачал) 26.01.2010 18:59
Выполнений: 100 функций на RegExp время: 445 мс
Выполнений: 100 Функции из Бух 1.6 и КОРП 2.0 время: 341 мс
Ответили: (23)
# Ответить
23. alexk-is (файл скачал) 26.01.2010 19:18
(22) Ну, вот. Хоть и не большой, а перевес в сторону 1С. :(
Видимо у меня ПК немного побыстрее и 1С отрабатывает на нем оптимальнее чем RegExp.
Ответили: (24)
# Ответить
24. dushelov (файл скачал) 26.01.2010 19:23
(23) А мне кажется, что тут дело в кэшировании... Надо бы тест переделать на рандомную последовательность разбираемой строки...
Ответили: (25) (26)
# Ответить
25. alexk-is (файл скачал) 26.01.2010 19:41
(24) Вряд ли. В функции 1С строка постоянно режется и результат пишется в ту же переменную. Так не прокэшировать.

Но как вариант можно попробовать и случайный набор строк.
Ответили: (26) (27)
# Ответить
26. Evg-Lylyk 26.01.2010 20:26
(24), (25) неудачный пример для сравнения получился (слишком простой) поэтому и не акцентировал на нем внимание.
На моей системе выдавал как у Душелова около 400 мс иногда с перевесом в пользу 1С.
Я уже давно сталкивался что 1С быстрее отрабатывает на простых вариантах, поэтому и писал про читаемость
Ответили: (27) (28)
+ 1 [ Душелов; ]
# Ответить
27. dushelov (файл скачал) 26.01.2010 21:15
(25) Все таки, думаю, при постоянном вычислении одних и тех же значений 1С-как кэширует.

И я ряд тестов провел, скорость примерно одинаковая, выше/ниже друг друга.

Согласен с (26) надо более сложный пример.
Ответили: (28)
# Ответить
28. alexk-is (файл скачал) 26.01.2010 21:30
(26) (27) Я "ЗА" тестирование. Но у меня нет более сложного примера. Что вы имеете ввиду?

А функция в 1С могла бы выглядеть так:
Функция РазложитьСтрокуВМассивПодстрокБух16Корп20(Знач Стр, Разделитель = ",") Экспорт
	МассивСтрок = Новый Массив;
	ДлинаРазделителя = СтрДлина(Разделитель);
	Поз = Найти(Стр, Разделитель);
	Пока Поз <> 0 Цикл
		МассивСтрок.Добавить(Лев(Стр, Поз - 1));
		Стр = Сред(Стр, Поз + ДлинаРазделителя);
		Поз = Найти(Стр, Разделитель)
	КонецЦикла;
	МассивСтрок.Добавить(Стр);
	Возврат МассивСтрок
КонецФункции // глРазложить
...Показать Скрыть

Мне кажется вполне читаемо и работает быстрее. Возможно на более сложном примере будет иначе...
Ответили: (29) (30) (35) (43)
# Ответить
29. dushelov (файл скачал) 26.01.2010 22:01
(28) Берем к примеру любой анализ хтмл-кода, к примеру, выбрать весь текст, без тегов и т.п. Думаю, что "в ручном" режиме 1С это будет делать очень долго, именно в этом и есть прелесть регулярных выражений.
Или отобрать все е-мыл адреса в тексте.... Примеров найти можно много, но тут сложность будет в другом - написать аналогичные примеры на языке 1С.
Ответили: (30)
# Ответить
30. Evg-Lylyk 26.01.2010 23:05
(28) если честно я редко заморачиваюсь на счет скорости в абсолютном виде. Приемлемая вот то слово.
(29) согласен правильные примеры
Найти все GUIDы в тексте

Главная прелесть регуляров то что анализ описывается простым понятным языком.
Мое знакомство с RegExp началось когда мне нужно было разбирать файлы от дистрибьюторов вида:

<RCAgent {1},{Иванов}>
<SalesMen {1}, {ТП}, {1}>
...

причем была обработка, которая обрабатывала файлы, но она делала это очень медленно на файлы 30 Кб уходило по 5 минут. Понятно что она была написана не оптимально, но мне если честно трудно упрекать автора т.к. у меня от многих задач разбора текста "голова съезжала".
Переписал на RegExp оказалось просто и понятно и даже оптимизировать не пришлось разбор файлов по 100 Кб стал занимать 10 сек вместе с записью данных в СУБД. Было правда несколько ошибок, но это из за моего плохого знания языка шаблонов, да и ошибки исправлялись за 1 минуту.
# Ответить
31. Dementor 27.01.2010 10:32
Очень хороший обзор. За примеры кода - отдельное спасибо.
На скоростях не замарачивайтесь - можеть и дольше чем на встроенном языке 1С, но зато понятность и скорость алгоритмизации процеса это компенсирует.
+ 1 [ Evg-Lylyk; ]
# Ответить
32. artbear (файл скачал) 27.01.2010 15:58
Да, хороший обзор.
Лично я бы код функций оформил по-другому:
1. простой общий модуль - в каждую функции передаем переменную RegExp как первый параметр
т.е. сначала создаем (кеширование), затем используем
в этом случае можно сделать проверку параметра в каждой функции - типа если параметр не заполнен, то создаем его по новой, если заполнен, пропускаем.

2. или создаем отдельную обработку-класс, в модуль которой и записываем весь указанный код, убираем из имен функций строку "РегулярныеВыражения_", добавляем к нужным функциям Экспорт.
и класс почти спокойно можно юзать.

Лично мне как приверженцу ООП нравится второй вариант :)

Ну и пример на самом деле хорошо бы поменять :)
# Ответить
33. artbear (файл скачал) 27.01.2010 16:47
РазложитьСтрокуВМассив и ПодставитьПараметрыВСтроку нужно изменить, т.к они могут работать неточно :)
например, в первый метод передадим в качестве разделителя точку, получим ошибки :)
во втором также могут быть проблемы - название функции не очень соответствует выполняемой функции
Ответили: (38)
# Ответить
34. artbear (файл скачал) 27.01.2010 17:03
Насчет примера был неправ.
Даже в этом случае регулярные выражения немного, но выигрывают.
Проблема просто в неоптимальном/неаккуратном коде реализации метода РазложитьСтрокуВМассив :)
вместо вычисляющего цикла
Код
Для Сч = 0 По Matches.Count - 1 Цикл
      Массив.Добавить(Matches.Item(Сч).Value);
   КонецЦикла;
Показать полностью

нужно юзать простое
Код
Для каждого Item Из Matches Цикл
      Массив.Добавить(Item.Value);
   КонецЦикла;
Показать полностью

и результат налицо:
Выполнений: 1 000 функций на RegExp время: 2 516 мс
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 2 906 мс

для 100 функций - время одинаково :)

и это на очень простой задаче :) - а на сложных выигрыш будет намного больше

ЗЫ жаль, что код
Код
КОМ_Массив = Новый COMSafeArray(Matches);
   КОМ_Массив.Выгрузить(Массив);
Показать полностью

не работает, так было бы еще быстрее :)

PPS естественно, код функции РегулярныеВыражения_Выполнить также нужно изменить.
Ответили: (35) (36) (38)
+ 1 [ Evg-Lylyk; ]
# Ответить
35. artbear (файл скачал) 27.01.2010 18:07
(28) Приведенного кода из (34) достаточно для сравнения производительности и тестирования ? :)
# Ответить
36. dushelov (файл скачал) 27.01.2010 18:31
(34) :)

А круче всех в этом сравнении:

Функция РазложитьСтрокуВМассивЯва(Строка, Разделитель = ",") Экспорт
	Массив = Script.eval("
	|var str=""" + Строка + """;
	|str.split(""" + Разделитель + """);");
	
	Возврат Массив;
КонецФункции
...Показать Скрыть
Ответили: (38) (40)
+ 1 [ Evg-Lylyk; ]
− 1 [ artbear; ]
# Ответить
37. dushelov (файл скачал) 27.01.2010 18:39
Выполнений: 100 Функции из Бух 1.6 и КОРП 2.0 время: 439 мс
Выполнений: 100 функций на RegExp время: 334 мс
Выполнений: 100 функций на яве время: 224 мс
# Ответить
38. Evg-Lylyk 27.01.2010 20:39
(33) с разделителем точка не будет проблем проверил шаблон "[^\.]*"
(34) спасибо теперь лучше ;)
(36) класс!!! будем знать самый быстрый вариант

Учел ценные предложения товарища artbear (обновил пример)
# Ответить
39. alexk-is (файл скачал) 28.01.2010 06:55
1С интерпретатор. Больше строк кода - медленнее работает. Внес изменения в тест. Тест прилагается.

Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 641 мс
Выполнений: 1 000 функций на RegExp время: 1 047 мс
Выполнений: 1 000 функций на Ява время: 843 мс

Нужно еще подумать... :)
Ответили: (40) (41) (43)

Прикрепленные файлы:

Тест2.epf
# Ответить
40. artbear (файл скачал) 28.01.2010 07:45
(36) Код на Яве не соответствует требованиям теста - возвращаемое значение не Массив 1С :)
нужно в ее конце вставить код
Код
   резМассив = Новый Массив;
   Для каждого Item Из Массив Цикл резМассив.Добавить(Item); КонецЦикла;
      
   Возврат резМассив;
Показать полностью

И результат по тесту из (39)
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 797 мс
Выполнений: 1 000 функций на RegExp время: 1 296 мс
Выполнений: 1 000 функций на Ява время: 2 063 мс

Счас посмотрю код 1С из (39)

ЗЫ лично я для проверки в конце модуля формы сразу вставляю юнит-тест, который и выдал мне ошибку для Явы :)
Код
   // -- Артур -- 28.01.2010
   артТесты.ПроверитьРавенство(АнализТекстаЗапроса_МАССИВ_ОПЕРАТОРОВ_1.Количество(), АнализТекстаЗапроса_МАССИВ_ОПЕРАТОРОВ_2.Количество(), "массивы операторов 1 и 2");
   артТесты.ПроверитьРавенство(АнализТекстаЗапроса_МАССИВ_ОПЕРАТОРОВ_1.Количество(), АнализТекстаЗапроса_МАССИВ_ОПЕРАТОРОВ_3.Количество(), "массивы операторов 1 и 3");
   
   артТесты.ПроверитьРавенство(АнализТекстаЗапроса_МАССИВ_ФУНКЦИЙ_1.Количество(), АнализТекстаЗапроса_МАССИВ_ФУНКЦИЙ_2.Количество(), "массивы функций 1 и 2");
   артТесты.ПроверитьРавенство(АнализТекстаЗапроса_МАССИВ_ФУНКЦИЙ_1.Количество(), АнализТекстаЗапроса_МАССИВ_ФУНКЦИЙ_3.Количество(), "массивы функций 1 и 3");
   // --завершение
Показать полностью


и сплю спокойно
# Ответить
41. artbear (файл скачал) 28.01.2010 07:49
ОФФ. По (39) мелкий коммент -
ИМХО очень неудачное структурирование кода в одну строку :(
читать очень трудно, почти невозможно :(
особенно метод РазложитьСтрокуВМассивПодстрокБух16Корп20
остальные-то более тривиальны.
Ответили: (43)
# Ответить
42. dushelov (файл скачал) 28.01.2010 08:05
Все таки примеры нужны другие :)
Типа тех, что я предложил ниже.
Ответили: (44)
# Ответить
43. alexk-is (файл скачал) 28.01.2010 08:10
(41) Структурированный код приведен в (28), а в тексте теста используется оптимизированный код. :)
В 1 строчку работает в 1.5-2 раза быстрее. О причинах я писал в (39) - 1С интерпретатор.
Ответили: (44)
# Ответить
44. artbear (файл скачал) 28.01.2010 08:53
(43) Про скорость кода в 1 строку согласен
(42) (43)
Можно еще ускорить :)
1. в конце модуля добавляем
Код
резМассив = Новый Массив;
Script.AddObject("myarray", резМассив);
Показать полностью


2. исправляем метод РазложитьСтрокуВМассивЯва
на следующий
Код
Функция РазложитьСтрокуВМассивЯва(Строка, Разделитель = ",") Экспорт 
   резМассив.Очистить();
   резМассив = Script.eval("var str=""" + Строка + """; array1 = str.split(""" + Разделитель + """); for (i = 0; i < array1.length; i++) { myarray.Add(array1[i]); }; myarray; "); Возврат резМассив;
КонецФункции
Показать полностью


Получаем результат
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 735 мс
Выполнений: 1 000 функций на RegExp время: 1 859 мс
Выполнений: 1 000 функций на Ява время: 688 мс

счас переделаю код RegExp :)

PS юнит-тесты показывают, что код верный - возвращается правильный массив
Ответили: (45) (46) (47)
# Ответить
45. dushelov (файл скачал) 28.01.2010 09:21
(44) Нормально!.. Можно еще поковырять :)
Ответили: (47) (49)
# Ответить
46. alexk-is (файл скачал) 28.01.2010 09:29
(44) Ошибочка :)

Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 641 мс
Количество элементов: 151
Выполнений: 1 000 функций на RegExp время: 1 047 мс
Количество элементов: 151
Выполнений: 1 000 функций на Ява время: 797 мс
Количество элементов: 302 000
Ответили: (48) (49)

Прикрепленные файлы:

Тест2.epf
# Ответить
47. artbear (файл скачал) 28.01.2010 09:31
(45) На самом деле я немного смухлевал, конечно :)
Ведь в (44) на самом деле для Явы всегда возвращается один и тот же массив :( - а в остальных всегда вновь созданный.
К сожалению, у 1С нет метода копирования одного массива в другого или хотя бы конструирования массива по другому массиву.
А выгрузка/загрузка через списокЗначений или таблицуЗначений сильно тормозит :( (фактически время увеличивается в 2 раза)

Остается утешаться тем, что для более сложных задач RegExp поудобнее/помощнее/поудобнее :)
# Ответить
48. artbear (файл скачал) 28.01.2010 09:32
(46) Забыл дописать - естественно, в функции Ява нужно добавить резМассив.Очистить() :)

У меня юнит-тесты все равно такую ошибку бы не пропустили :)
# Ответить
49. artbear (файл скачал) 28.01.2010 10:08
(46) (45) Еще поковырял код :)
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 750 мс
Выполнений: 1 000 функций на RegExp время: 1 844 мс
Выполнений: 1 000 функций на Ява время: 344 мс

Вместо Явы, которая не возвращает чистый SafeArray, использую VBScript
в начале модуля
Код
Перем Script2;

Функция РазложитьСтрокуВМассивЯва(Строка, Разделитель = ",") Экспорт 
   Возврат Script2.eval("Split(""" + Строка + """, """ + Разделитель + """)").Выгрузить();
КонецФункции
Показать полностью

и в конце модуля
Код
Script2 = Новый COMОбъект("MSScriptControl.ScriptControl");
Script2.Language = "vbscript";
Показать полностью


ЗЫ код 1С также в 1 строчку.
Ответили: (50)

Прикрепленные файлы:

Тест2.epf
# Ответить
50. dushelov (файл скачал) 28.01.2010 10:17
(49) Это не ява, это VBS :) добавляй в тест ;)
# Ответить
51. artbear (файл скачал) 28.01.2010 11:51
Итак, для простой задачи получения массива подстрок из строки по разделителю
получилось вот такое распределение
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 750 мс
Выполнений: 1 000 функций на RegExp время: 969 мс
Выполнений: 1 000 функций на VBScript время: 375 мс

Больше способа ускорить получение данных через RegExp не нашел.
Уже видно, что не такая большая разница между 1С и RegExp - даже для столь простой задачи.

Ну и ВБСкрипт выше всяких похвал :)

ЗЫ в последнем варианте реализации regExp загнал практически весь код в ВБСкрипт.
Ответили: (52)

Прикрепленные файлы:

Тест2.epf
# Ответить
52. alexk-is (файл скачал) 28.01.2010 12:09
(51) Сделал более "читаемый" текст модуля на 1С. Вот результаты замеров.

Выполнений: 100 Функции из Бух 1.6 и КОРП 2.0 время: 47 мс
Выполнений: 100 функций на RegExp время: 78 мс
Выполнений: 100 функций на VBScript время: 47 мс

Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 469 мс
Выполнений: 1 000 функций на RegExp время: 890 мс
Выполнений: 1 000 функций на VBScript время: 406 мс
Ответили: (55) (57) (60)

Прикрепленные файлы:

Тест2.epf
# Ответить
53. dushelov (файл скачал) 28.01.2010 12:25
А вот альтернативные способы получить на 1С-е, не такие быстрые...

Строка = СтрЗаменить(Стр, Разделитель, Символы.ПС);
Для сч = 1 По СтрЧислоСтрок(Строка) Цикл
	МассивСтрок.Добавить(СтрПолучитьСтроку(Строка, сч));
КонецЦикла;


или, где Т = Новый ТекстовыйДокумент;

Строка = СтрЗаменить(Стр, Разделитель, Символы.ПС);	
Т.УстановитьТекст(Строка);
Для сч = 1 По Т.КоличествоСтрок() Цикл
	МассивСтрок.Добавить(Т.ПолучитьСтроку(сч));
КонецЦикла;
...Показать Скрыть
Ответили: (54)
# Ответить
54. alexk-is (файл скачал) 28.01.2010 12:53
(53) Вот и я говорю об альтернативном коде и довольно быстром...
Возврат ЗначениеИзСтрокиВнутр("{""#"",51e7a0d2-530b-11d4-b98a-008048da3034,{0,{""S"",""" + СтрЗаменить(Стр, Разделитель, """},{""S"",""") + """}}}")
Ответили: (55)
# Ответить
55. artbear (файл скачал) 28.01.2010 13:30
(54) Интересный вариант :)

А почему у тебя в (52) разница не такая большая ?
у меня на твоем тесте
Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 625 мс
Выполнений: 1 000 функций на RegExp время: 1 000 мс
Выполнений: 1 000 функций на VBScript время: 407 мс

т.е. ЗначениеИзСтрокиВнутр и рядом с ВБ не стоит :)
Ответили: (56)
# Ответить
56. alexk-is (файл скачал) 28.01.2010 13:41
(55) Наверное зависит от ПК, ОС и другого установленного ПО. У меня дома почему-то 1С немного медленее шевелится, хотя ПК почти одинаковые (дома RAID побольше :) ).
Ответили: (57)
# Ответить
57. artbear (файл скачал) 28.01.2010 13:49
(56) Кстати, меня давно интересует вопрос - почему 1С функцию РазложитьСтрокуВМассив не реализует как встроенную/штатную.
Ведь у 1С на этой функции достаточно много построено :)

Кстати, твой код в (52) уже не имеет никакого отношения к Бух 1.6 и КОРП 2.0 :)
Ответили: (60)
# Ответить
58. dushelov (файл скачал) 28.01.2010 14:07
Я думаю, что надо заводить отдельную ветку с поисками и оптимизацией алгоритмов штатных, 1С-ных универсальных методов.
Ответили: (59)
+ 2 [ Evg-Lylyk; artbear; ]
# Ответить
59. artbear (файл скачал) 28.01.2010 14:14
(58) Хорошая идея.
Завел новую ветку
http://infostart.ru/public/64770/
+ 1 [ Evg-Lylyk; ]
# Ответить
60. alexk-is (файл скачал) 28.01.2010 14:18
(57) Функция ЗначениеЗаполнено() появилась тоже сравнительно недавно. Может быть в 8.3 сделают. :)

В 7.7 у меня все построено на списках значений (динамических массивов нет) и используется приблизительно вот такой код:
СЗ = СоздатьОбъект("СписокЗначений");
СЗ.ИзСтрокиСРазделителями("""" + СтрЗаменить(ИсходнаяСтрока, Разделитель, """,""") + """");
Возврат СЗ;
Т.е. кое что по разбору строк в списки раньше было, но со временем об этом забыли...

Кстати, твой код в (52) уже не имеет никакого отношения к Бух 1.6 и КОРП 2.0
Ну, я тоже к этому не имею непосредственного отношения :)
Ответили: (61)
# Ответить
61. artbear (файл скачал) 28.01.2010 15:38
(60) это уже ОФФ :)
В 77 нужно хотя бы просто загружать ВК 1С++ - создание объектов будет супербыстрым, в штатной 1С оно очень-очень медленно.
Лично проверял и делал код в 1С++ :)
# Ответить
62. alexk-is (файл скачал) 31.01.2010 13:03
(0) Предполагаю, что в п. 6. Заключение есть ссылка на меня. Можно поправить ник или это так задумано?
# Ответить
63. Evg-Lylyk 31.01.2010 13:06
(63) Извини поправлю :)
Ответили: (63)
# Ответить
64. TUTSIC9 21.09.2011 12:46
Суперски!!! Регулярные выражения очень помогаюТ!!! не Хочется каждый раз писать одно и тоже )
+ 1 [ Evg-Lylyk; ]
# Ответить
65. CaSH_2004 28.10.2011 22:20
Автор - СПАСИБО за подробное изложение!
# Ответить
66. bar_s 20.11.2011 16:25
Выполнений: 100 Функции из Бух 1.6 и КОРП 2.0 время: 47 мс
Выполнений: 100 функций на RegExp время: 78 мс
Выполнений: 100 функций на VBScript время: 47 мс

Выполнений: 1 000 Функции из Бух 1.6 и КОРП 2.0 время: 469 мс
Выполнений: 1 000 функций на RegExp время: 890 мс
Выполнений: 1 000 функций на VBScript время: 406 мс
# Ответить
67. fixin 12.12.2011 11:08
хорошая статья, жаль нет примеров, как заменить одну строку на другую, но буду копать.

Может быть на РегЭксп так долго, потому что каждый раз объект создаете? Попробуйте его один раз создавать.

Ссылка http://www.script-coding.info/WSH/RegExp.html битая...
Вместо нее рекомендую: http://www.script-coding.com/WSH/RegExp.html#3.1.
# Ответить
68. ADirks 12.04.2013 10:27
С фразы: "основное достоинство RegExp это читаемость"
чуть со стула не упал :)
например, чё за? '^\\s*((?:(?:(?:"[^"]")*)|(?:[^/]*)|(?:[^/]+/))*)(//.*)?\\s*$'
и это ведь достаточно примитивный RegExp

Ну и за [([\wА-яёЁ]+)\] хочется кого-то придушить. Почему в Perl'е я могу просто написать \w, а в родном виндовом движке - фигушки??!!!
Ответили: (69)
# Ответить
69. Evg-Lylyk 12.04.2013 18:16
(68) Читаемость относительная. Код еще сложнее. Ну естественно при условии хороших знаний регуляров
Ответили: (70)
# Ответить
70. ADirks 12.04.2013 18:36
(69) Основной прикол регэкспов в том, что написать иной раз проще, чем понять :)
Ответили: (77)
# Ответить
71. Tedman (файл скачал) 14.11.2013 10:37
Если я всё правильно понимаю, то можно и не спрашивать будет ли конструкция
Новый COMОбъект("VBScript.RegExp");

у меня работать, если сервер 1С располагается на Linux?
Ответили: (72)
# Ответить
72. Evg-Lylyk 14.11.2013 10:47
(71) Ну да не будет
Там наверно есть другие библиотеки, но подсказать ничего не могу.
Ответили: (73)
# Ответить
73. Tedman (файл скачал) 14.11.2013 11:18
(72) Evg-Lylyk, Ну да, там есть штатные консольные средства мощные. Ясненько... просто решил уточнить. Спасибо.
# Ответить
74. Jon2011 29.11.2013 11:03
Всем привет! Есть обработка по поиску картинок в интернете: http://infostart.ru/public/82682/
в ней как раз основная фишка поиск через регулярное выражение.
Алгоритм простой: из Гугля или Яндекса получаем список картинок и анализируем при помощи регулярного выражения
мRegExp.Pattern = "imgres\?imgurl=(.*?)&imgrefurl=(.*?)&usg.*?&h=(.*?)&w=(.*?)&sz=(.*?)&.*?;tbnid=(.*?):";

Если Matches.Count больше нуля - все ОК.
Все работало хорошо до последнего времени, что сломалось не пойму.
Гугл картинки собирает, а скрипт ничего найти не может. Может кто знает в чем проблема?

P.S. Автор разработки отмалчивается.
Ответили: (75)
# Ответить
75. d_vit 04.12.2013 11:15
(74)Присоединяюсь.
Помогите пожалуйста с решением данной проблемы.
# Ответить
76. GreenLab 01.01.2014 21:23
У кого-нибудь работает под 8.3.4. ?
При подключении компоненты под 8.3.4.389 падает платформа.
Ответили: (78)
# Ответить
77. andrewks 01.01.2014 23:02
(70)

Some people, when confronted with a problem, think
“I know, I'll use regular expressions.” Now they have two problems.
©
# Ответить
78. andrewks 01.01.2014 23:05
(76) http://infostart.ru/public/183084/ не пробовали?
Ответили: (79)
# Ответить
79. GreenLab 02.01.2014 09:35
(78) andrewks, О сорри, не в ту публикацию написал. Падает под 8.3.4 именно компонента от Орефкова
# Ответить
80. LOleg 03.03.2016 12:28
вот это да, это же джаваскрипт в 1С :)
# Ответить
Внимание! За постинг в данном форуме $m не начисляются.
Внимание! Для написания сообщения необходимо авторизоваться
Текст сообщения*
Прикрепить файл






IE 2016