Немного про (кривые) кодировки XML

24.11.21

Интеграция - Файловый обмен (TXT, XML, DBF), FTP

Парочка функций для правильного чтения строк из XML.

В рамках текущей работы разбираю много файлов XML от внешних информационных систем, читаю обычным парсером ЧтениеXML.

Достаточно часто встречаются кривые файлы, когда кодировка файла - UTF (UTF-8, обычно), а в объявлении файла прописано, что данные в Windows-1251 (имеется тег encoding="windows-1251").

Тогда вместо строки ОАО "ТГК-9" читаем РћРђРћ "ТГК-9" - вот такая бяка...

Как определить, что читаем UTF? В википедии описаны маркеры, с которых начинается файл UTF. На основании этих маркеров написал функцию определения кодировки для случаев, когда данные файла существуют в виде ДвоичныеДанные.

 
 Функция КодировкаФайла(ДанныеФайла) Экспорт

Как бы, предварительно зная правильную кодировку, можно ее подсунуть в ЧтениеXML.ОткрытьФайл(...) параметром Кодировка:

ЧтениеXML.ОткрытьФайл(<ИмяФайлаXML>, <Параметры>, <НаборСхемXML>, <Кодировка>)

Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.

Тогда приходится перекодировать прочитываемые строки. 

Для разбора файлов у меня написан небольшой фреймворк с общим модулем и обработками-десериализаторами, написанными по определенным правилам. Поэтому всякую химию по определению кодировки показать не могу - придется выдергивать и склеивать демо-код из разных мест.

Но вот функция нижнего уровня, которая используется для выправления кодировки:

 
 Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт

 

Функция ЗначениеУзлаВКодировкеИсточника(ЧтениеXML, ПоменятьКодировку = Ложь) Экспорт
	Возврат ?(ПоменятьКодировку=Истина,
		ПолучитьСтрокуИзДвоичныхДанных(
			ПолучитьДвоичныеДанныеИзСтроки(ЧтениеXML.Значение, ЧтениеXML.КодировкаXML), 
			ЧтениеXML.КодировкаИсточника),
		ЧтениеXML.Значение);
КонецФункции

 

Кстати, у ЧтениеXML есть свойства КодировкаXMLКодировкаИсточника. Казалось бы, этими свойствами вполне себе можно воспользоваться для определения необходимости перекодировки.

Но тут тоже засада. Похоже, что парсер всегда обозначает, что читает UTF. Т.е., при чтении файла в Windows-кодировке, свойство ЧтениеXML.КодировкаИсточника имеет некорректное значение "UTF-8". Вероятно, это баг платформы. Но пока ввязываться в переписку с 1С не планирую.

И есть нюанс насчет свойства ЧтениеXML.КодировкаXML - значение этого свойства устанавливается после первого ЧтениеXML.Прочитать(), не сразу после открытия файла.

Вероятно, кто-то скажет, что можно в объявлении переписать тег кодировки. По разным причинам, это для меня не вариант.

Тестировалось/разрабатывалось на 8.3.17.1989, к БСП или типовой конфигурации не имеет отношения.

ЧтениеXML UTF КодировкаXML

См. также

SALE! 10%

[ED3] Обмен для ERP 2.5, КА 2.5, УТ 11.5 БП 3.0, Розница, УНФ и других с EnterpriseData (универсальный формат обмена), правила обмена

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Розница 2 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 1С:Розница 3.0 Россия Платные (руб)

Правила в универсальном формате обмена для ERP 2.5, КА 2.5, УТ 11.5, БП 3.0, Розница, УНФ, для последних версий конфигураций. Ссылки на другие конфигурации в описании публикации. Правила совместимы со всеми другими версиями конфигураций новыми и старыми, поддерживающими обмен в формате EnterpriseData. Не требуется синхронного обновления правил после обновления другой конфигурации, участвующей в обмене. Типовой обмен через планы обмена кнопкой Синхронизация вручную или автоматически по расписанию, или вручную обработкой.

25080 руб.

12.06.2017    136059    732    291    

393

Перенос данных из ERP 2 / КА 2 / УТ 11 в БП 3.0. Переносятся документы, начальные остатки и справочники

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Платные (руб)

Перенос данных из ERP в БП 3 | из КА 2 в БП 3 | из УТ 11 в БП 3 | из ЕРП в БП 3 | В продаже с 2019г. | Воспользовались более 176 предприятий! | Сэкономьте время - используйте готовое решение для перехода! | Перенос разработан в формате КД 2 (правила конвертации данных) | Переносятся все возможные виды документов, начальных остатков и нормативно-справочная информация| Можно опционально выгружать каждую пару "номенклатура+характеристика" как отдельную номенклатуру | Есть выгрузка настроек счетов учета и зарплатных данных из ERP / КА 2 | Можно проверить на вашем сервере перед покупкой, обращайтесь!

34650 руб.

15.04.2019    69209    181    139    

111

Перенос данных из УПП 1.3 в БП 3.0. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление производственным предприятием 1С:Бухгалтерия 3.0 Россия Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из 1С:Управление производственным предприятием 1.3 в 1С:Бухгалтерия предприятия 3.0 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УПП 1.3 (1.3.226.x) и БП 3.0 (3.0.151.x). Правила подходят для версии ПРОФ и КОРП.

28000 руб.

15.12.2021    20839    137    38    

96

Перенос данных из УТ 10.3 в УТ 11.5. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 Оперативный учет 1С:Управление торговлей 10 1С:Управление торговлей 11 Россия Управленческий учет Платные (руб)

Перенос данных из 1С:Управление торговлей 10.3 в 1С:Управление торговлей 11.5 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УТ 10.3 (10.3.87.x) и УТ 11.5 (11.5.16.x).

28000 руб.

23.07.2020    47163    201    64    

163

Перенос данных из БП 3.0 в УНФ 3.0 / УНФ 1.6. Переносятся остатки, документы и справочная информация

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия 3.0 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

В продаже с 2018г. | Воспользовались более 41 предприятия! | Правила конвертации (КД 2) для переноса данных из БП 3 в УНФ | Переносятся все виды документов, начальные остатки и вся возможная справочная информация | Есть фильтр по организациям | Оперативно обновляем на новые релизы | Оказываем техподдержку | В комплект файлов входит инструкция, авторская версия обработки "Универсальный обмен...", актуальные правила переноса данных и архив старых версий переноса | Учет в БП 3 должен быть корректным, некорректные данные не переносятся | Можно бесплатно проверить на вашем сервере до покупки!

45650 руб.

10.07.2018    68073    41    123    

46

Перенос данных из УТ 10.3 в УТ 11 / КА 2 / ERP 2. Переносятся документы, справочники и остатки

Перенос данных 1C Взаиморасчеты Оптовая торговля Логистика, склад и ТМЦ Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление торговлей 10 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Россия Управленческий учет Платные (руб)

Можно проверить до покупки, оставьте заявку! Воспользовались более 268 компаний! Перенос в продаже с 2015г., и мы постоянно работаем над его развитием. Перенос данных из УТ 10.3 в УТ 11 | из УТ 10.3 в КА 2 | из УТ 10.3 в ERP. Предлагаем качественное и проверенное временем решение для перехода с УТ 10.3. Можно перенести начальные остатки, нормативно-справочную информацию и все возможные документы. При выгрузке можно установить отбор по периоду, организациям и складам. При выходе новых релизов конфигураций 1C оперативно выпускаем обновление переноса данных.

45650 руб.

24.04.2015    191312    270    239    

270

Перенос данных из УПП 1.3 в ERP 2.5, КА 2.5. Переносятся документы (обороты за период), справочная информация и остатки

Перенос данных 1C Файловый обмен (TXT, XML, DBF), FTP Платформа 1С v8.3 1С:Управление производственным предприятием 1С:ERP Управление предприятием 2 Бухгалтерский учет Управленческий учет Платные (руб)

Перенос данных из 1С:Управление производственным предприятием 1.3 в 1С:ERP Управление предприятием 2.5 и 1С:Комплексную автоматизацию 2.5 с помощью правил обмена. Переносятся остатки, документы (обороты за период), справочная информация. Правила проверены на конфигурациях УПП 1.3 (1.3.225.x), ERP 2.5 (2.5.16.x), КА 2.5 (2.5.16.x) .

28000 руб.

24.06.2020    61456    42    27    

75

Алкогольные Декларации по Форме 7 и 8 по данным ЕГАИС из 1С Розница 3.0 и 2.3 (УТ 11.5.х) (Комплексная Автоматизация)

Регламентированный учет и отчетность Розничная торговля Файловый обмен (TXT, XML, DBF), FTP Обмен с ГосИС Платформа 1С v8.3 1С:Розница 2 1С:Розница 3.0 Розничная и сетевая торговля (FMCG) Россия Бухгалтерский учет Акцизы Платные (руб)

Обработка формирует файлы алкогольных декларации форм 7,8 с 1С:Розницы от 2.3.8. ,Управление Торговлей 11.х Проста в использовании. Формат выгрузки деклараций: 4.4, есть возможность объединять сформированные декларации из файлов XML.Дополнительно можно делать передачу в рег2 по остаткам и списывать остатки ЕГАИС по данным базы (пиво)

3600 руб.

20.07.2016    171322    2273    1703    

1016
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Danila-Master 116 25.11.21 14:17 Сейчас в теме
есть некорректность в условиях:
Если первый байт - 255, второй - 254, третий - 0, четвертый - 0

По логике при таком условии, по идее, должно зайти в условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 И Буфер[2]=0 И Буфер[3]=0 Тогда
И вернуться результат: "UTF-32LE"

Но по факту выполнится условие:
ИначеЕсли Буфер[0]=255 И Буфер[1]=254 Тогда
И вернется результат: "UTF-16LE"
2. ImHunter 315 25.11.21 14:21 Сейчас в теме
(1) Пасиб за замечание, гляну.
3. TMV 14 25.11.21 15:30 Сейчас в теме
Но не тут-то было. Парсер начинает возмущаться, что его заставляют открывать файл не в той кодировке, которая прописана в объявлении. В общем, это не рабочий вариант.
Проще прописать в объявлении нужную кодировку, раз она уже определена.
4. ImHunter 315 25.11.21 15:36 Сейчас в теме
(3) Это искажение первичного файла. Теор, могут докопаться.
Ну и влазить в работающий код не хочется - ведь работы на файловом уровне практически нет, все на потоках и двоичных данных.
5. ImHunter 315 25.11.21 15:39 Сейчас в теме
(3) И тогда бы я не придумал финт с ПолучитьСтрокуИзДвоичныхДанных(ПолучитьДвоичныеДанныеИзСтроки(...)) ;) А этот финт можно взять на заметку и для каких-то других ситуаций с кодировками.
6. angabanga5 04.09.23 21:05 Сейчас в теме
ахах мало того что УТФ кодировка не читается иногда, иногда надо через нот пад прогонять и кодировки менять на УТФ с ВОМ (чтобы это ни было):
Прикрепленные файлы:
Оставьте свое сообщение