Немного про (кривые) кодировки XML

24.11.21

Интеграция - Файловый обмен (TXT, XML, DBF), FTP

Парочка функций для правильного чтения строк из XML.

В рамках текущей работы разбираю много файлов XML от внешних информационных систем, читаю обычным парсером ЧтениеXML.

Достаточно часто встречаются кривые файлы, когда кодировка файла - UTF (UTF-8, обычно), а в объявлении файла прописано, что данные в Windows-1251 (имеется тег encoding="windows-1251").

Тогда вместо строки ОАО "ТГК-9" читаем РћРђРћ "ТГК-9" - вот такая бяка...

Как определить, что читаем UTF? В википедии описаны маркеры, с которых начинается файл UTF. На основании этих маркеров написал функцию определения кодировки для случаев, когда данные файла существуют в виде ДвоичныеДанные.

 
 Функция КодировкаФайла(ДанныеФайла) Экспорт

Как бы, предварительно зная правильную кодировку, можно ее подсунуть в ЧтениеXML.ОткрытьФайл(...) параметром Кодировка:

ЧтениеXML.ОткрытьФайл(<ИмяФайлаXML>, <Параметры>, <НаборСхемXML>, <Кодировка>)

Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.

Тогда приходится перекодировать прочитываемые строки. 

Для разбора файлов у меня написан небольшой фреймворк с общим модулем и обработками-десериализаторами, написанными по определенным правилам. Поэтому всякую химию по определению кодировки показать не могу - придется выдергивать и склеивать демо-код из разных мест.

Но вот функция нижнего уровня, которая используется для выправления кодировки:

 
 Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт

 

Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт
	Возврат ?(ПоменятьКодировку=Истина,
		ПолучитьСтрокуИзДвоичныхДанных(
			ПолучитьДвоичныеДанныеИзСтроки(ЧтениеXML.Значение, ЧтениеXML.КодировкаXML), 
			ЧтениеXML.КодировкаИсточника),
		ЧтениеXML.Значение);
КонецФункции

 

Кстати, у ЧтениеXML есть свойства КодировкаXMLКодировкаИсточника. Казалось бы, этими свойствами вполне себе можно воспользоваться для определения необходимости перекодировки.

Но тут тоже засада. Похоже, что парсер всегда обозначает, что читает UTF. Т.е., при чтении файла в Windows-кодировке, свойство ЧтениеXML.КодировкаИсточника имеет некорректное значение "UTF-8". Вероятно, это баг платформы. Но пока ввязываться в переписку с 1С не планирую.

И есть нюанс насчет свойства ЧтениеXML.КодировкаXML - значение этого свойства устанавливается после первого ЧтениеXML.Прочитать(), не сразу после открытия файла.

Вероятно, кто-то скажет, что можно в объявлении переписать тег кодировки. По разным причинам, это для меня не вариант.

Тестировалось/разрабатывалось на 8.3.17.1989, к БСП или типовой конфигурации не имеет отношения.

ЧтениеXML UTF КодировкаXML

См. также

SALE! 10%

Синхронизация и обмен для ERP 2.5, КА 2.5, УТ 11.5 БП 3.0, Розница, УНФ и других с EnterpriseData (универсальный формат обмена), правила обмена

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Системный администратор Программист Платформа 1С v8.3 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Россия Платные (руб)

Правила в универсальном формате обмена для ERP 2.5, КА 2.5, УТ 11.5, БП 3.0, Розница, УНФ, для последних версий конфигураций. Ссылки на другие конфигурации в описании публикации. Правила совместимы со всеми другими версиями конфигураций новыми и старыми, поддерживающими обмен и синхронизацию в формате EnterpriseData. Не требуется синхронного обновления правил после обновления другой конфигурации, участвующей в обмене. Типовой обмен через планы обмена кнопкой Синхронизация вручную или автоматически по расписанию, или вручную обработкой.

25080 руб.

12.06.2017    136713    730    292    

393

Перенос данных из УТ 10.3 в УТ 11.5. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Системный администратор Программист Платформа 1С v8.3 Оперативный учет 1С:Управление торговлей 10 1С:Управление торговлей 11 Россия Управленческий учет Платные (руб)

Перенос данных из 1С:Управление торговлей 10.3 в 1С:Управление торговлей 11.5 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УТ 10.3.87.x и УТ 11.5.16.x

28000 руб.

23.07.2020    47524    205    64    

166

Перенос данных из ERP 2 / КА 2 / УТ 11 в БП 3.0. Переносятся документы, начальные остатки и справочники

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Программист Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Перенос данных из ERP в БП 3 | из КА 2 в БП 3 | из УТ 11 в БП 3 | из ЕРП в БП 3 | В продаже с 2019г. | Воспользовались более 176 предприятий! | Сэкономьте время - используйте готовое решение для перехода! | Перенос разработан в формате КД 2 (правила конвертации данных) | Переносятся все возможные виды документов, начальных остатков и нормативно-справочная информация| Можно опционально выгружать каждую пару "номенклатура+характеристика" как отдельную номенклатуру | Есть выгрузка настроек счетов учета и зарплатных данных из ERP / КА 2 | Можно проверить на вашем сервере перед покупкой, обращайтесь!

34650 руб.

15.04.2019    69515    166    141    

112

Перенос данных из УПП 1.3 в БП 3.0. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Системный администратор Программист Платформа 1С v8.3 1С:Управление производственным предприятием 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из 1С:Управление производственным предприятием 1.3 в 1С:Бухгалтерия предприятия 3.0 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УПП 1.3 (1.3.227.x) и БП 3.0 (3.0.151.x). Правила подходят для версии ПРОФ и КОРП.

28000 руб.

15.12.2021    21103    138    38    

97

Перенос данных из ERP 2 / КА 2 в ЗУП 3. Переносятся остатки, документы и справочники

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Программист Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х 1С:Зарплата и Управление Персоналом 3.x Россия Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из ERP в ЗУП 3 | из КА 2 в ЗУП | Воспользовались более 79 предприятий! | Предлагаем приобрести готовые правила конвертации данных (КД 2) для переноса остатков, документов с движениями и справочной информации 3 | В продаже с 2020г. | Оперативно обновляем правила до актуальных релизов 1С | Есть перенос начальной задолженности по зарплате и начальной штатной расстановки на выбранную дату | Обороты за прошлые годы (данные для расчета среднего) переносятся свернуто в документ "Перенос данных" | Есть фильтр по организациям | Документы за текущий период переносятся сразу с движениями, поэтому не потребуется делать перерасчеты | Перенос можно проверить перед покупкой, обращайтесь!

43450 руб.

03.12.2020    34829    83    58    

81

SALE! 10%

[ED2] Обмен УПП 1.3, КА 1.1, УТ 10.3 с EnterpriseData (универсальный формат обмена), обработка

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Системный администратор Программист Платформа 1С v8.3 Платформа 1C v8.2 1С:Комплексная автоматизация 1.х 1С:Управление торговлей 10 1С:Управление производственным предприятием Россия Платные (руб)

Регулярный обмен, выгрузка, перенос из КА 1.1, УПП 1.3, УТ 10.3 для обмена с любыми конфигурациями, поддерживающими обмен в формате EnterpriseData (КД3) - БП 3.0, ERP, КА 2, УТ 11, Розница 2, УНФ 1.6 и другими. Правила для старых и доработанных конфигураций не требуют синхронного обновления и совместимы с новыми и будущими конфигурациями. Обмен по расписанию, через папку, FTP, почту.

14580 руб.

18.02.2016    183653    566    508    

509

Переход и перенос данных из УПП 1.3 в ERP 2.5, КА 2.5. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Программист Платформа 1С v8.3 1С:Управление производственным предприятием 1С:ERP Управление предприятием 2 Бухгалтерский учет Управленческий учет Платные (руб)

Переход и перенос данных из 1С:Управление производственным предприятием 1.3 в 1С:ERP Управление предприятием 2.5 и 1С:Комплексную автоматизацию 2.5 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УПП 1.3 (1.3.227.x), ERP 2.5 (2.5.16.x), КА 2.5 (2.5.16.x) .

28000 руб.

24.06.2020    61701    45    27    

75

Перенос данных из БП 3.0 в УНФ 3.0 / УНФ 1.6. Переносятся остатки, документы и справочная информация

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Программист Платформа 1С v8.3 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

В продаже с 2018г. | Воспользовались более 41 предприятия! | Правила конвертации (КД 2) для переноса данных из БП 3 в УНФ | Переносятся все виды документов, начальные остатки и вся возможная справочная информация | Есть фильтр по организациям | Оперативно обновляем на новые релизы | Оказываем техподдержку | В комплект файлов входит инструкция, авторская версия обработки "Универсальный обмен...", актуальные правила переноса данных и архив старых версий переноса | Учет в БП 3 должен быть корректным, некорректные данные не переносятся | Можно бесплатно проверить на вашем сервере до покупки!

45650 руб.

10.07.2018    68466    41    124    

46
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Danila-Master 117 25.11.21 14:17 Сейчас в теме
есть некорректность в условиях:
Если первый байт - 255, второй - 254, третий - 0, четвертый - 0

По логике при таком условии, по идее, должно зайти в условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 И Буфер[2]=0 И Буфер[3]=0 Тогда
И вернуться результат: "UTF-32LE"

Но по факту выполнится условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 Тогда
И вернется результат: "UTF-16LE"
2. ImHunter 316 25.11.21 14:21 Сейчас в теме
(1) Пасиб за замечание, гляну.
3. TMV 14 25.11.21 15:30 Сейчас в теме
Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.
Проще прописать в объявлении нужную кодировку, раз она уже определена.
4. ImHunter 316 25.11.21 15:36 Сейчас в теме
(3) Это искажение первичного файла. Теор, могут докопаться.
Ну и влазить в работающий код не хочется - ведь работы на файловом уровне практически нет, все на потоках и двоичных данных.
5. ImHunter 316 25.11.21 15:39 Сейчас в теме
(3) И тогда бы я не придумал финт с ПолучитьСтрокуИзДвоичныхДанных(ПолучитьДвоичныеДанныеИзСтроки(...)) ;) А этот финт можно взять на заметку и для каких-то других ситуаций с кодировками.
6. angabanga5 04.09.23 21:05 Сейчас в теме
ахах мало того что УТФ кодировка не читается иногда, иногда надо через нот пад прогонять и кодировки менять на УТФ с ВОМ (чтобы это ни было):
Прикрепленные файлы:
Оставьте свое сообщение