Немного про (кривые) кодировки XML

24.11.21

Интеграция - Файловый обмен (TXT, XML, DBF), FTP

Парочка функций для правильного чтения строк из XML.

В рамках текущей работы разбираю много файлов XML от внешних информационных систем, читаю обычным парсером ЧтениеXML.

Достаточно часто встречаются кривые файлы, когда кодировка файла - UTF (UTF-8, обычно), а в объявлении файла прописано, что данные в Windows-1251 (имеется тег encoding="windows-1251").

Тогда вместо строки ОАО "ТГК-9" читаем РћРђРћ "ТГК-9" - вот такая бяка...

Как определить, что читаем UTF? В википедии описаны маркеры, с которых начинается файл UTF. На основании этих маркеров написал функцию определения кодировки для случаев, когда данные файла существуют в виде ДвоичныеДанные.

 
 Функция КодировкаФайла(ДанныеФайла) Экспорт

Как бы, предварительно зная правильную кодировку, можно ее подсунуть в ЧтениеXML.ОткрытьФайл(...) параметром Кодировка:

ЧтениеXML.ОткрытьФайл(<ИмяФайлаXML>, <Параметры>, <НаборСхемXML>, <Кодировка>)

Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.

Тогда приходится перекодировать прочитываемые строки. 

Для разбора файлов у меня написан небольшой фреймворк с общим модулем и обработками-десериализаторами, написанными по определенным правилам. Поэтому всякую химию по определению кодировки показать не могу - придется выдергивать и склеивать демо-код из разных мест.

Но вот функция нижнего уровня, которая используется для выправления кодировки:

 
 Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт

 

Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт
	Возврат ?(ПоменятьКодировку=Истина,
		ПолучитьСтрокуИзДвоичныхДанных(
			ПолучитьДвоичныеДанныеИзСтроки(ЧтениеXML.Значение, ЧтениеXML.КодировкаXML), 
			ЧтениеXML.КодировкаИсточника),
		ЧтениеXML.Значение);
КонецФункции

 

Кстати, у ЧтениеXML есть свойства КодировкаXMLКодировкаИсточника. Казалось бы, этими свойствами вполне себе можно воспользоваться для определения необходимости перекодировки.

Но тут тоже засада. Похоже, что парсер всегда обозначает, что читает UTF. Т.е., при чтении файла в Windows-кодировке, свойство ЧтениеXML.КодировкаИсточника имеет некорректное значение "UTF-8". Вероятно, это баг платформы. Но пока ввязываться в переписку с 1С не планирую.

И есть нюанс насчет свойства ЧтениеXML.КодировкаXML - значение этого свойства устанавливается после первого ЧтениеXML.Прочитать(), не сразу после открытия файла.

Вероятно, кто-то скажет, что можно в объявлении переписать тег кодировки. По разным причинам, это для меня не вариант.

Тестировалось/разрабатывалось на 8.3.17.1989, к БСП или типовой конфигурации не имеет отношения.

ЧтениеXML UTF КодировкаXML

См. также

SALE! 15%

[ED3] Обмен для ERP 2.5, КА 2.5, УТ 11.5 БП 3.0, Розница, УНФ и других с EnterpriseData (универсальный формат обмена), правила обмена

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Россия Платные (руб)

Правила в универсальном формате обмена для ERP 2.5, КА 2.5, УТ 11.5, БП 3.0, Розница, УНФ, для последних версий конфигураций. Ссылки на другие конфигурации в описании публикации. Правила совместимы со всеми другими версиями конфигураций новыми и старыми, поддерживающими обмен в формате EnterpriseData. Не требуется синхронного обновления правил после обновления другой конфигурации, участвующей в обмене. Типовой обмен через планы обмена кнопкой Синхронизация вручную или автоматически по расписанию, или вручную обработкой.

25080 руб.

12.06.2017    135466    729    291    

391

Перенос данных из УПП 1.3 в БП 3.0. Переносятся документы (обороты за период), справочная информация и остатки

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление производственным предприятием 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из 1С:Управление производственным предприятием 1.3 в 1С:Бухгалтерия предприятия 3.0 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УПП 1.3 (1.3.223.x) и БП 3.0 (3.0.149.x). Правила подходят для версии ПРОФ и КОРП.

28000 руб.

15.12.2021    20542    136    38    

93

SALE! 10%

Перенос данных из ERP 2 / КА 2 / УТ 11 в БП 3.0. Переносятся документы, начальные остатки и справочники

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Перенос данных из ERP в БП 3 | из КА 2 в БП 3 | из УТ 11 в БП 3 | из ЕРП в БП 3 | В продаже с 2019г. | Воспользовались более 176 предприятий! | Сэкономьте время - используйте готовое решение для перехода! | Перенос разработан в формате КД 2 (правила конвертации данных) | Переносятся все возможные виды документов, начальных остатков и нормативно-справочная информация| Можно опционально выгружать каждую пару "номенклатура+характеристика" как отдельную номенклатуру | Есть выгрузка настроек счетов учета и зарплатных данных из ERP / КА 2 | Можно проверить на вашем сервере перед покупкой, обращайтесь!

38500 34650 руб.

15.04.2019    68764    179    139    

111

Перенос данных из УТ 10.3 в УТ 11.5. Переносятся документы (обороты за период), справочная информация и остатки

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 Оперативный учет 1С:Управление торговлей 10 1С:Управление торговлей 11 Россия Управленческий учет Платные (руб)

Перенос данных из 1С:Управление торговлей 10.3 в 1С:Управление торговлей 11.5 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УТ 10.3 (10.3.87.x) и УТ 11.5 (11.5.16.x).

28000 руб.

23.07.2020    46693    199    64    

162

SALE! 10%

Перенос данных из ERP 2 / КА 2 в ЗУП 3. Переносятся остатки, документы и справочники

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х 1С:Зарплата и Управление Персоналом 3.x Россия Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из ERP в ЗУП 3 | из КА 2 в ЗУП | Воспользовались более 79 предприятий! | Предлагаем приобрести готовые правила конвертации данных (КД 2) для переноса остатков, документов с движениями и справочной информации 3 | В продаже с 2020г. | Оперативно обновляем правила до актуальных релизов 1С | Есть перенос начальной задолженности по зарплате и начальной штатной расстановки на выбранную дату | Обороты за прошлые годы (данные для расчета среднего) переносятся свернуто в документ "Перенос данных" | Есть фильтр по организациям | Документы за текущий период переносятся сразу с движениями, поэтому не потребуется делать перерасчеты | Перенос можно проверить перед покупкой, обращайтесь!

48278 43450 руб.

03.12.2020    34374    81    58    

78

SALE! 10%

Перенос данных из БП 3.0 в УНФ 3.0 / УНФ 1.6. Переносятся остатки, документы и справочная информация

Обмен между базами 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

В продаже с 2018г. | Воспользовались более 41 предприятия! | Правила конвертации (КД 2) для переноса данных из БП 3 в УНФ | Переносятся все виды документов, начальные остатки и вся возможная справочная информация | Есть фильтр по организациям | Оперативно обновляем на новые релизы | Оказываем техподдержку | В комплект файлов входит инструкция, авторская версия обработки "Универсальный обмен...", актуальные правила переноса данных и архив старых версий переноса | Учет в БП 3 должен быть корректным, некорректные данные не переносятся | Можно бесплатно проверить на вашем сервере до покупки!

50722 руб.

10.07.2018    67680    41    122    

46

Перенос данных из Парус 10 в ЗГУ ред.3

Внешние источники данных Кадровый учет Файловый обмен (TXT, XML, DBF), FTP Обмен между базами 1C Платформа 1С v8.3 Сложные периодические расчеты 1С:Зарплата и кадры государственного учреждения 3 Государственные, бюджетные структуры Россия Бухгалтерский учет Бюджетный учет Платные (руб)

Обработка позволяет перенести кадровую информацию и данные по заработной плате, фактических удержаниях, НДФЛ, вычетах, страховых взносах из базы Парус 10 учреждений в конфигурацию 1С:Зарплата и кадры государственного учреждения ред. 3 (ЗГУ) и начать с ней работать с любого месяца года.

60000 руб.

05.10.2022    9295    9    8    

11

Загрузка номенклатуры c картинками (несколько потоков одновременно) и сопутствующими данными в базу и любые документы из yml, xls, xlsx, xlsm, ods, ots, csv для УТ 10.3, УТ 11 (все), БП 3, КА 2, ERP 2, УНФ 1.6/3.0, Розница 2

Загрузка и выгрузка в Excel Логистика, склад и ТМЦ Ценообразование, анализ цен Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Эволюция не стоит на месте - новая удобная версия функциональной обработки для Вашего бизнеса! Что же Вы получаете? Удобный и интуитивно понятный интерфейс с 3-мя этапами работы. 2 режима - автоматический и ручной. Чтение XLSX, XLSM, CSV, XML/YML форматов без офиса, на любом сервере! Визуальное связывание колонок файла и реквизитов простым перетаскиванием колонок. Создание или обновление номенклатуры с иерархией, характеристик, доп. реквизитов, упаковок, загрузка практически неограниченного количества картинок на одну номенклатуру (с возможностью загрузки в несколько потоков одновременно), с хранением в томах или в базе. Загрузка номенклатуры поставщиков или поиск по их данным номенклатуры. Загрузка доп. реквизитов в характеристики. Загрузка штрихкодов с генерацией новых. Создание элементов справочников и ПВХ "на лету" для выбранных реквизитов. (Обновление от 09.04.2024, версия 9.9 - 9.10)

14400 руб.

20.11.2015    151284    366    376    

502
Комментарии
Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. Danila-Master 116 25.11.21 14:17 Сейчас в теме
есть некорректность в условиях:
Если первый байт - 255, второй - 254, третий - 0, четвертый - 0

По логике при таком условии, по идее, должно зайти в условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 И Буфер[2]=0 И Буфер[3]=0 Тогда
И вернуться результат: "UTF-32LE"

Но по факту выполнится условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 Тогда
И вернется результат: "UTF-16LE"
2. ImHunter 315 25.11.21 14:21 Сейчас в теме
(1) Пасиб за замечание, гляну.
3. TMV 14 25.11.21 15:30 Сейчас в теме
Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.
Проще прописать в объявлении нужную кодировку, раз она уже определена.
4. ImHunter 315 25.11.21 15:36 Сейчас в теме
(3) Это искажение первичного файла. Теор, могут докопаться.
Ну и влазить в работающий код не хочется - ведь работы на файловом уровне практически нет, все на потоках и двоичных данных.
5. ImHunter 315 25.11.21 15:39 Сейчас в теме
(3) И тогда бы я не придумал финт с ПолучитьСтрокуИзДвоичныхДанных(ПолучитьДвоичныеДанныеИзСтроки(...)) ;) А этот финт можно взять на заметку и для каких-то других ситуаций с кодировками.
6. angabanga5 04.09.23 21:05 Сейчас в теме
ахах мало того что УТФ кодировка не читается иногда, иногда надо через нот пад прогонять и кодировки менять на УТФ с ВОМ (чтобы это ни было):
Прикрепленные файлы:
Оставьте свое сообщение