bdd2

Разбор XML документа - почти все возможные способы

Опубликовал Серафим Вендеревский (svenderevsky) в раздел Программирование - Практика программирования

К вам пришел XML документ, как получить из него данные для обработки в 1С.
ЧтениеXML,  ДокументDOM, XPath, ФабрикаXDTO, ПакетыXDTO в сравнении.

 

При обмене данными, как бы он не производился  ( через файлы, через HTTP запросы или еще каким либо другим путем ) все равно основным форматом обмена является XML. В 1С существует несколько способов обработки XML  документов    какой из них выбрать по критерию логической простоты и быстродействия?  Для практической проверки различных методов был создан XML документ вида


 

Задачей всех проверяемых методов было получение из XML файла массива, состоящего из структур со свойствами Номер, Дата, Поставщик, Состав, причем свойство Состав само является массивом структур со свойствами Номенклатура и Количество.  

 

Первый метод – простое последовательное чтение XML.


 

Текущее положение в XML документе отслеживается в переменной  ТекущийПуть и при поступлении текстового узла на  основании этой переменной заполняются (или игнорируются) соответствующие данные 1С. Конечно, не совсем корректно оценивать логическую сложность программы в строках исходного текста, но тем не менее это самый большой объем  из всех методов  - 64 строки. Что касается быстродействия (оно проверялось на компьютере памятью в 8 Гб и процессором Intel i7 2.2 Ггц, было создано два файла один на 10 тысяч записей объемом 10 мегабайт, другой на 100 тысяч и 100 мегабайт соответственно) , то на файле 10 000 записей полная обработка заняла 30 секунд  и на файле в 100 мегабайт линейно увеличилась в 10 раз.

 

Второй метод – получение из XML файла документа DOM и последовательный перебор всех узлов полученного документа

 

 

Логически этот метод весьма незначительно проще прямого ЧтенияXML (57 строк кода против 62), а вот с быстродействие картина интересная: для файла в 10 тысяч записей быстродействие составило 12 секунд (быстрее более чем в два раза) ,  но для файла со 100 тысячами записей резко поднялась до 1000 секунд (медленнее более чем в три раза).

  

Третий метод подобен второму, но вместо последовательного перебора узлов применен отбор требуемых узлов в DOM документе  с помощью  выражений XPath .

 

Этот метод немного проще чем простой перебор узлов в DOM документе, но быстродействие … При 10 000 записей 69 секунд , а для 100 000 обработка длилась более часа, так и не завершилась, после чего была снята принудительно.

 

Очевидно метод с использованием DOM, в особенности при поиске узлов документа XPath выражениями, надо использовать только для небольших изменений DOM документа со сложной структурой узлов.

 

 

Все последующие методы используют для разбора XML документа фабрику XDTO.

 

Четвертый метод использует метод  ПрочитатьXML глобальной ФабрикиXDTO. При этом тип получаемого объекта не указывается, его определяет сам метод фабрики. Тут есть маленькая тонкость – в случае, если тип получаемого объектаXDTO не указан, фабрика не всегда может самостоятельно определить что она получила одиночный объект или список из нескольких одинаковых объектов ( в нашем примере если ПриходныйОрдер в XML документе будет один фабрика посчитает что ПриходыXDTO.ПриходныйОрдер это одиночный объект а не список).



 

Данный метод не только заметно проще, чем все предыдущие, но и показывает отличное быстродействие  на 10 000 записях 4,6 секунды, а при 100 000 обработка длится 46 секунд. Что показывает линейную зависимость от объема обрабатываемого файла.

 

Пятый метод схож с предыдущим, но глобальной фабрике XDTO подается на вход не только сам XML документ, но и его тип. Этот тип берется из ветки конфигурации XDTO-пакеты. (Если те кто передает вам XML данные хорошие люди, то они должны передать вам и XML схему данных – файл с расширением .xsd  из которого вы и создаете в своей конфигурации  XDTO-пакет – команда импорт XML схемы …, если нет требуемый пакет обычно не сложно создать вручную, анализируя переданные XML данные).

 

Один нюанс – частенько XML данные передают без указания URI пространства имен ( атрибут  xmlns). Если это так, то необходимо самому добавить недостающий атрибут в XML данные, что и делают первые три оператора процедуры.

 

Метод замечательный, как по простоте создания, так и по быстродействию – 3,1 секунды на 10 000 записях.

 

И последний метод. Это скорее некоторая модификация пятого метода, но для условия, что не используется объект конфигурации XDTO-пакет, и фабрика XDTO создается на ходу из текстового описания XML схемы. (Примечание 1-Конечно можно загнать схему в текстовый макет, и оттуда уже использовать, но для учебной программы так нагляднее. 2-Текстовый вариант XML схемы можно например  получить создав XDTO-пакет в любой конфигурации XDTO-пакет и  выполнив команду Экспорт XML схемы..)


В прилагаемой конфигурации все методы разбора XML представлены в общей команде РазобратьXML, там же в другой общей команде СоздатьXML представлены средства для создания тестовых данных.

Скачать файлы

Наименование Файл Версия Размер
РазборXML.cf
.cf 18,49Kb
05.11.14
298
.cf 18,49Kb 298 Скачать

См. также

Вознаграждение за ответ
Сумма: 0 $m
Добавили:
Константин Юрин (kostyaomsk) (5.00 $m)
Добавить вознаграждение
Комментарии
1. Caponid V (caponid) 05.11.14 16:20 Сейчас в теме
Поправь картинку для XPath - слетела
2. Сергей Куликов (ksvd) 05.11.14 16:52 Сейчас в теме
Ну заодно и первую, а то она 8 раз повторилась
3. Александр Шкураев (salexdv) 1335 05.11.14 18:14 Сейчас в теме
Приходится часто обрабатывать файл известной структуры размером от 300 Мб до 1.5 Гб. Для быстрого чтения использую простую схему.
1. Из файла выделяются блоки (у меня называются "offer"), которых может быть до нескольких сотен тысяч. Делается это через чтение текста с разделителем.
// Чтение файла по блокам <offer>...</offer>
Файл = Новый ЧтениеТекста(ИмяФайла, , "</offer>");	
ТекСтрока = Файл.ПрочитатьСтроку();
Пока ТекСтрока <> Неопределено Цикл
     // Обработка блока
    ТекСтрока = Файл.ПрочитатьСтроку();
...Показать Скрыть


2. Каждый блок разбирается с помощью регуляного выражения <ИмяСвойства>(.*?)</ИмяСвойства>

Последний файл размером 460 Мб, обработал за 2 минуты. Но тут надо учитывать, что обработка включала в себя еще чтение/запись в БД.
Памяти такой метод практически не потребляет, правда плохо подходит для файлов со сложной структурой (большим уровнем вложенности)
NN2P; zerg17; yuraer; veiuper; Зеленоград; Valerich; +6 Ответить 2
4. Яков Коган (Yashazz) 1940 05.11.14 20:34 Сейчас в теме
Не вижу итогов производительности по последнему методу (который с прямым указанием xsd).

А вообще - спасибо. У меня всё руки не доходили померять, в результате исходил из пристрелки "на глазок". Рад, что ваши наблюдения подтвердили мои приблизительные замеры.

Эх, ещё бы посмотреть, что больше съедается, куда кэшируется...
5. Armando Armando (Armando) 1369 05.11.14 21:17 Сейчас в теме
Позволю себе процитировать ИТС. В контексте этой статьи полезно будет.

ИТС: Оптимизация использования оперативной памяти:
Недопустимо работать с большими XML документами с помощью объектов встроенного языка, предназначенных для обработки файлов целиком: текстовые документы в ТекстовыйДокумент, XML в ДокументDOM и HTML в ДокументHTML, а также создавать в памяти XDTO-пакеты размером с весь XML-файл целиком.

В противном случае, весь файл загружается в оперативную память целиком. Исключения составляют отдельные случаи, когда необходим произвольный доступ к содержимому файла, к какой-то конкретной его части.

Следует использовать объекты для последовательной записи и последовательного чтения: ЧтениеXML, ЧтениеТекста, ЗаписьXML, ЗаписьТекста, с помощью которых можно прочитать файл порциями и расходовать память экономно.

При использовании механизмов XDTO неправильно зачитывать в память весь XML-файл целиком (ФабрикаXTDO.ПрочитатьXML(ЧтениеXML)). Вместо этого следует зачитывать XML-файл последовательно, с помощью объекта ЧтениеXML, а его отдельные фрагменты (теги) десериализовывать с помощью фабрики XDTO.
NN2P; veiuper; alevnev; infostart user; kostyaomsk; Resha; alexscamp; bashirov.rs; mgn; FrLenok; help1Ckr; thevist; AfroditaS; Silenser; mr.Samuelson; logarifm; Klash; dj_serega; nsirotkin@mail.ru; kirillkr; awk; rtnm; +22 Ответить 2
6. Илья (husky) 3 05.11.14 22:09 Сейчас в теме
Подскажите методику, есть HTML страница, есть ли возможность к ней применить вышеизложенные методы, если да, то как?
7. Сергей Ожерельев (Поручик) 3443 06.11.14 08:43 Сейчас в теме
(6) HTML-страницы нормально можно парсить только через DOM-модель.
		ЧтениеHTML = Новый ЧтениеHTML;
		ЧтениеHTML.УстановитьСтроку(СтрокаHTML);
		ПостроительDOM = Новый ПостроительDOM;
		ДокументHTML = ПостроительDOM.Прочитать(ЧтениеHTML);

Они, как правило, относительно небольшого размера, поэтому быстродействие приемлемое. Я сейчас делаю один проект и в нём как раз есть получение страниц с сайта и их разбор. В цикле дёргаются и разбираются порядка ста страниц.
kostyaomsk; Spacer; Rustig; +3 Ответить 1
8. Илья (husky) 3 06.11.14 10:42 Сейчас в теме
(7) Поручик, этот механизм понятен, сам им пользуюсь, а если альтернативные варианты, может xpath можно использовать или еще как?
9. Яков Коган (Yashazz) 1940 06.11.14 11:24 Сейчас в теме
(8) husky, я вот использую в своих парсерах именно XPath.
10. Михаил (ZMGMSC) 61 06.11.14 12:29 Сейчас в теме
Положительных голосов на порядок больше чем скачиваний... Странно.
11. Сергей Ожерельев (Поручик) 3443 06.11.14 12:48 Сейчас в теме
(9) Расскажи про использование XPath для разбора html
12. Серафим Вендеревский (svenderevsky) 361 06.11.14 13:44 Сейчас в теме
(3) salexdv,
Преимущество XML документа, в том что это широко используемый международный стандарт
13. Серафим Вендеревский (svenderevsky) 361 06.11.14 13:47 Сейчас в теме
(11) Поручик,
Почти весь полезный программный код в статье - поэтому скачивание и не сильно требуется
14. Серафим Вендеревский (svenderevsky) 361 06.11.14 13:54 Сейчас в теме
(5) Armando,
Если подавать на вход фабрики XDTO не весь документ, а частями (в тестовом примере каждый ПриходныйОрдер отдельно), то несколько снижается быстродействие - при 100 000 записях с 31 сек до 35. В программировании всегда так - экономим память - ухудшаем быстродействие и наоборот. Экономия памяти не самоцель. Обрабатывать как единое целое или по частям XML документ стоит выбирать для каждого конкретного случая
15. Александр Шкураев (salexdv) 1335 06.11.14 15:18 Сейчас в теме
(12) Я знаю что такое XML, какие у него преимущества/недостатки, и как его можно прочитать. Попробуйте без затрат памяти, и быстро, прочитать файл в 1.5 Гб. Я просто привел способ, которым делаю это я. Согласен у него просто масса недостатков, но в некоторых случаях он очень сильно выручает.
16. Trotter_NN 07.11.14 08:11 Сейчас в теме
Скачал конфу, в ней нету всех методов, а качал для того что бы посмотреть функцию МассивВСтроку() Не могли бы поделится ?)) А то ЗначениеВСтрокуВнутр даёт немного другой результат
17. Серафим Вендеревский (svenderevsky) 361 07.11.14 08:56 Сейчас в теме
(16) Trotter_NN,
Функция находится в модуле общей команды РазобратьXML
18. Серафим Вендеревский (svenderevsky) 361 07.11.14 08:58 Сейчас в теме
(4) Yashazz,
Быстродействие практически такое же как и при использовании ФабрикиXDTO и ПакетаXDTO
19. Сергей Галюк (dj_serega) 203 07.11.14 09:04 Сейчас в теме
Всегда использую XDTO. Если правильно продумать логику то и кодить не нужно если новый объект добавился.
Для этого я использую ОбщийМакет.

Что хотел сказать XDTO рулит :)
Собственно в (5) этому подтверждение :)
20. Александр Хомяк (logarifm) 960 07.11.14 13:14 Сейчас в теме
Статья шикарная. Радует глаз сравнение визуально в коде всех методов. Я много занимаюсь обменами и всегда использую методы последовательного чтения ХМЛ. Попробую применить два последних метода. Автору однозначно плюсую.
21. Сергей Галюк (dj_serega) 203 07.11.14 15:41 Сейчас в теме
(20) logarifm, Попробуйте совместить последовательное чтение + xdto. Будете приятно удивлены :)
22. Александр (Иной) 08.11.14 23:53 Сейчас в теме
Спасибо. У самого времени не было потестить все методы.
23. Роман Озеряный (rozer) 180 09.11.14 19:56 Сейчас в теме
очень поучительно, плюс однозначно..
24. John Smith (PiccaHut001) 10.11.14 11:34 Сейчас в теме
когда-нибуть пригодится
25. Антон (anton.fly7) 134 12.11.14 09:27 Сейчас в теме
>>...то они должны передать вам и XML схему данных – файл с расширением .xsd ...

их файла xml можно самому собрать xsd-схему, есть консольная утилита xsd.exe
Прикрепленные файлы:
xsd.exe
kostyaomsk; +1 Ответить 2
26. Серафим Вендеревский (svenderevsky) 361 12.11.14 11:36 Сейчас в теме
(25) anton.fly7,
По крайней мере мои попытки использовать эту программу оканчивались неудачей - полученный xsd файл проще было не доделывать до кондиции, а создать свой вручную.
27. Антон (anton.fly7) 134 12.11.14 13:05 Сейчас в теме
(26) svenderevsky, ну не знаю... возможно... я им постоянно пользуюсь когда переношу что-то через xml файлы. в базе источнике записываю данные в текстовик xml, потом генею xsd, потом в базе приемнике через фабрику читаю xml
28. Саша Безымяный (help1Ckr) 12.11.14 13:12 Сейчас в теме
(10) ZMGMSC, старт мани есть не у всех, точнее есть у всех, но не все их могут использовать)
29. bulpi bulpi (bulpi) 100 12.11.14 14:03 Сейчас в теме
Сразу, сходу, не дочитав статью :
В первом методе, ИМХО, быстродействие тормозит вот это : МассивВСтроку(). Проверь без него, т.е. вообще не нужно использовать ТекущийПуть. Он нужен только в том случае, если есть неуникальные имена узлов, а в примере их нет
30. bulpi bulpi (bulpi) 100 12.11.14 14:08 Сейчас в теме
В примере для метода 4 один абзац написан дважды.
31. Сергей Афонькин (SeverBaP) 12.11.14 14:47 Сейчас в теме
(3) salexdv, Да реальная тема, есть более подробный пример как читаешь оферы?
32. Серафим Вендеревский (svenderevsky) 361 12.11.14 15:01 Сейчас в теме
(31) SeverBaP,
А что такое оферы?
33. Сергей Афонькин (SeverBaP) 12.11.14 15:29 Сейчас в теме
(32) svenderevsky, "</offer>" - из YML понятие товарное предложение (товар).
На данный момент написал такое:
	Файл = Новый ЧтениеТекста(ФайлХМЛ,КодировкаТекста.UTF8, "</offer>");    
	ТекСтрока = Файл.ПрочитатьСтроку();
	Пока ТекСтрока <> Неопределено Цикл
		
		ТекСтрока = СокрЛП(Файл.ПрочитатьСтроку());
		ТекСтрока = ТекСтрока + "</offer>";
		Сч = Сч+1;
		ЧтениеХМЛ = Новый ЧтениеXML;
		ПараметрыЧтенияХМЛ = Новый ПараметрыЧтенияXML(,,,,,,,,Истина,Истина);
		ЧтениеХМЛ.УстановитьСтроку(ТекСтрока,ПараметрыЧтенияХМЛ);
		
		ПостроительDOM = Новый ПостроительDOM();
		ДокументDOM = ПостроительDOM.Прочитать(ЧтениеХМЛ);
		ЧтениеХМЛ.Закрыть();
		
		Списокoffer=ДокументDOM.ПолучитьЭлементыПоИмени("offer");
		Для Каждого НоменклатураУзел ИЗ Списокoffer Цикл
                 //Тута делаем все что нужно
              КонецЦикла;
         КонецЦикла;
...Показать Скрыть
34. Серафим Вендеревский (svenderevsky) 361 12.11.14 16:33 Сейчас в теме
(33) SeverBaP,
	РезультатРазборки = Новый Массив;
	ТипПриходныйОрдерXDTO = ФабрикаXDTO.Тип("http://localhost/testXML","ПриходныйОрдер");
	
	Пока ЧтениеXML.Прочитать() Цикл
			
		Пока ЧтениеXML.ТипУзла = ТипУзлаXML.НачалоЭлемента И ЧтениеXML.Имя = "ПриходныйОрдер" Цикл 
			ПриходныйОрдерXDTO = ФабрикаXDTO.ПрочитатьXML(ЧтениеXML,ТипПриходныйОрдерXDTO);
			ДокументПриходныйОрдер = Новый Структура("Номер,Дата,Поставщик,Состав");
			
			ДокументПриходныйОрдер.Номер = ПриходныйОрдерXDTO.Номер;
			ДокументПриходныйОрдер.Дата = ПриходныйОрдерXDTO.Дата;
			ДокументПриходныйОрдер.Поставщик = ПриходныйОрдерXDTO.Поставщик;
			
			ДокументПриходныйОрдер.Состав = Новый Массив;
			Для Каждого СтрокаСоставаXDTO Из ПриходныйОрдерXDTO.Состав.СтрокаСостава Цикл 
				СтрокаСоставаСтруктура = Новый Структура("Номенклатура,Количество");
				СтрокаСоставаСтруктура.Номенклатура = СтрокаСоставаXDTO.Номенклатура;
				СтрокаСоставаСтруктура.Количество = СтрокаСоставаXDTO.Количество;
				ДокументПриходныйОрдер.Состав.Добавить(СтрокаСоставаСтруктура);
			КонецЦикла;
			
			РезультатРазборки.Добавить(ДокументПриходныйОрдер);
		КонецЦикла;
		
	КонецЦикла;
 
...Показать Скрыть


В принципе то же самое, только позволяет несколько сэкономить память при последовательном чтении XML
35. Сергей Афонькин (SeverBaP) 12.11.14 16:43 Сейчас в теме
(34) svenderevsky, в памяти все нормально но скорость просто жесть.. вот думаю как лучше.
36. Серафим Вендеревский (svenderevsky) 361 12.11.14 18:19 Сейчас в теме
(35) SeverBaP,
Работа с DOM самая тяжелая операция из всех методов разбора XML, явное увеличение быстродействия может дать работа с фабрикой XDTO
37. Сергей Афонькин (SeverBaP) 13.11.14 12:22 Сейчас в теме
(36) svenderevsky, непонятно как допустим используя XDTO вытянуть текст из: <category id="85115" parentId="85354">Платья и сарафаны</category> - "Платья и сарафаны" ведь в объектеXDTO только свойства.
38. Серафим Вендеревский (svenderevsky) 361 13.11.14 18:48 Сейчас в теме
(37) SeverBaP,
В пакете XDTO создайте тип category и добавте к нему три свойства - id,parentId и text (впрочем третье имя может быть любым), для первых двух свойств установите Форма - атрибут, а для третьего Форма - текст. Тогда фабрика XDTO поймет строку вида <category id="85115" parentId="85354">Платья и сарафаны</category>
39. Кирилл Краснов (kirillkr) 26 21.11.14 10:41 Сейчас в теме
(38) svenderevsky, можно пример? у меня аналогичная ситуация.
40. Серафим Вендеревский (svenderevsky) 361 21.11.14 20:54 Сейчас в теме
(39) kirillkr,
Не совсем, точнее совсем, непонятно пример чего?
41. Кирилл Краснов (kirillkr) 26 24.11.14 08:58 Сейчас в теме
(40) svenderevsky,
В пакете XDTO создайте тип category и добавте к нему три свойства - id,parentId и text (впрочем третье имя может быть любым), для первых двух свойств установите Форма - атрибут, а для третьего Форма - текст.

Как программно!! (без изменения конфигурации) создать или модифицировать пакет xdto, чтобы можно было прочитать и атрибуты и само содержимое тега?
42. Сергей Афонькин (SeverBaP) 24.11.14 11:46 Сейчас в теме
43. Серафим Вендеревский (svenderevsky) 361 24.11.14 13:04 Сейчас в теме
(41) kirillkr,
В последнем примере статьи фабрика XDTO создается программно из строки. тут и надо указывать требуемые элементы пакета