IE2017

Как сделать csv-файл согласно RFC4180

Программирование - Практика программирования

На днях потребовалось выгрузить данные из таблицы значений в CSV-файл. Спросил у гугла готовый код и... поставил его в тупик. Тогда отправился в закрома и нарыл универсальную процедуру на Delphi, которую когда-то (много-много лет тому назад) написал. Перевел ее на 1С-овременный язык. И вот что получилось...

Увы! Статья не может состоять только из кода. После некоторых раздумий я решился осквернить этот скрижаль мысли в рамках RFC4180, квинтэссенцию материализации файла с разделителями на накопителях и прочее и прочее своим косноязычным описанием сего таинства.
Пролью свет и приоткрою глаза начинающего программиста Архипа на это чудо. Итак, слушай, о достопочтенный начинающий программист Архип.

... 
имяФайлаCSV = КаталогВременныхФайлов()+"anycsvfile.txt"; 
Кодировка = КодировкаТекста.ANSI; разделитель = ","; 
текст = СоздатьДанныеCSV(ТаблицаЗначенийПолученнаяИзЗапроса, разделитель); 
ЗаписатьCSV(текст, имяФайлаCSV, Кодировка); 
... 

Прежде всего должен ты получить таблицу значений. Самый простой способ - написать запрос и выгрузить результат в упомянутую мной сущность бытия данных. Затем надо определиться с именем файла. После этого дозволь обратить твой взор, о начинающий программист Архип, на функцию СоздатьДанныеCSV(таблицаЗначений, разделитель = ",", выводитьЗаголовок = ЛОЖЬ). В эту функцию передается та самая таблица значений, полученная из запроса. А кроме нее разделитель полей. А потом принять ответственное решение на заполнение первой строки названиями колонок этой самой, выше упомянутой таблицы значений (см. функцию СоздатьЗаголовкиCSV).

А дальше таблица значений будет читаться построчно, и каждая строка ее будет превращаться в сроковое значение в соответствии с заклинанием манускрипта СоздатьСтрокуCSV(запись,разделитель).

// Создаем строку загоовков для CSV-файла
Функция СоздатьЗаголовкиCSV(таблицаЗначений, разделитель)
	
    колонкиТЗ = ТаблицаЗначений.колонки;
	
    Для каждого колонка Из колонкиТЗ Цикл
		
		Если СтрДлина(стрКолонки)>0 Тогда
			стрКолонки = стрКолонки + разделитель;
		КонецЕсли;	
		
		стрКолонки = стрКолонки + колонка.Имя;
		
	КонецЦикла; 
	
    Возврат стрКолонки;
	
КонецФункции

// Создаем строку записи ТаблицыЗначений для CSV-файла
Функция СоздатьСтрокуCSV(записьТаблицаЗначений, разделитель)    
	
	стрЗапись = "";    
	
	Для каждого поле Из записьТаблицаЗначений Цикл
		
		Если СтрДлина(стрЗапись)>0 Тогда
			стрЗапись = стрЗапись + разделитель;
		КонецЕсли;	
		
		Если ТипЗнч(поле) = Тип("Число") Тогда
			стрПоле = ?(ЗначениеЗаполнено(поле),Формат(поле,"ЧРД=."),"0");
		
		ИначеЕсли ТипЗнч(поле) = Тип("Дата") Тогда 
			стрПоле = Формат(поле,"ДФ=dd.MM.yyyy");
			
		Иначе //Если ТипЗнч(поле) = Тип("Строка") Тогда
			
			стрПоле = СтрЗаменить(Строка(поле),"""","""""");
			
			Если 
				( СтрНайти(стрПоле," ")>0  ) ИЛИ
          		( СтрНайти(стрПоле,"""")>0 ) ИЛИ
          		( СтрНайти(стрПоле,",")>0  ) ИЛИ
          		( СтрНайти(стрПоле,";")>0  ) ИЛИ
          		( СтрНайти(стрПоле,Символы.Таб)>0 )  ИЛИ
          		( СтрНайти(стрПоле,Символы.ВК)>0 )   ИЛИ
          		( СтрНайти(стрПоле,Символы.ПФ)>0 )   ИЛИ
          		( СтрНайти(стрПоле,Символы.ВТаб)>0 ) ИЛИ
          		( СтрНайти(стрПоле,Символы.НПП)>0 )  ИЛИ
          		( СтрНайти(стрПоле,Символы.ПС)>0 ) 
			Тогда 
				стрПоле = """"+стрПоле+"""";
			КонецЕсли;	
			
		КонецЕсли; 	
		
        стрЗапись = стрЗапись + Строка(стрПоле);
		
	КонецЦикла; 
	
    Возврат стрЗапись;
	
КонецФункции

// 
Функция СоздатьДанныеCSV(таблицаЗначений, разделитель = ",", выводитьЗаголовок = ЛОЖЬ)
	
	текстЗапись="";
	
	Если выводитьЗаголовок Тогда
	    текстЗапись=СоздатьЗаголовкиCSV(ТаблицаЗначений, разделитель);    
	КонецЕсли;
	
	Для Каждого запись Из таблицаЗначений Цикл
		
        стрЗапись = СоздатьСтрокуCSV(запись,разделитель);            
		Если СтрДлина(стрЗапись)>0 Тогда
			текстЗапись = текстЗапись +	Символы.ПС;
		КонецЕсли;	
        текстЗапись = текстЗапись + стрЗапись;
		
    КонецЦикла;        

    Возврат текстЗапись;

КонецФункции // СоздатьДанныеCSV()

// Запишем данные в файл
Процедура ЗаписатьCSV(текст, имяФайла, кодировка)              

    ТекстовыйФайлЗапись = Новый ЗаписьТекста(имяФайла, кодировка);            
    ТекстовыйФайлЗапись.Записать(Текст); 
    ТекстовыйФайлЗапись.Закрыть();    
	
КонецПроцедуры // ЗаписатьCSV()

См. также

Комментарии
1. Николай Q (kuzyara) 273 02.03.16 08:31 Сейчас в теме
Хоть бы RFC привели, интересно же
Evil Beaver; +1 Ответить 1
2. Наталья Ершова (Nati4ka) 02.03.16 09:59 Сейчас в теме
И можно еще чуть модифицировать и получится универcальный код для создания .csv и .tsv =)
3. Дмитрий Ивакин (pit201201) 66 02.03.16 11:05 Сейчас в теме
(1) kuzyara,
привел, RFC4180, гугл знает где взять и даже переводит сносно
4. Дмитрий Ивакин (pit201201) 66 02.03.16 11:07 Сейчас в теме
(2) Nati4ka,
вроде ничего не надо там модифицировать, только поменять на разделитель = Символ.Таб
5. Артем Перепёлкин (it-on) 02.03.16 11:14 Сейчас в теме
Боюсь ошибку выдаст программа сия, о достопочтенный учитель, в случае когда надо вывести заголовки.
В функции СоздатьЗаголовкиCSV нет начального описания переменной стрКолонки.
6. Дмитрий Ивакин (pit201201) 66 02.03.16 11:19 Сейчас в теме
(5) it-on,
Ну зачем так сразу-то, на весь класс. Решил - поднял руку, получил пять.
7. Артем Перепёлкин (it-on) 02.03.16 11:30 Сейчас в теме
(6) Прости учитель. С первого класса у меня так - сначала скажу, потом подумаю, а часто и не подумаю - скажу. Из-за чего часто выгоняли в коридор...
8. Alexander Speshilov (speshuric) 938 03.03.16 13:06 Сейчас в теме
На длинных таблицах код будет быстро деградировать по производительности. И только эта деградация спасёт от переполнения памяти. Тут либо уж сразу в файл писать, либо использовать ЗаписьXML как StringBuilder.

Вот пример. Учтите только, что этому коду уже 6 лет.
Evil Beaver; pit201201; kuzyara; ildarovich; +4 Ответить 1
9. Xer shi (Xershi) 274 03.03.16 22:12 Сейчас в теме
За сказку 5, а за повествование 2! Ну кто в такой манере статью пишет...
10. Sergey Andreev (starik-2005) 1046 03.03.16 22:30 Сейчас в теме
А так-то. батенька, зачем:
стрПоле = ?(ЗначениеЗаполнено(поле),Формат(поле,"ЧРД=."),"0");

Ну есть же в формате вариант для описания нулевого значения!

Дальше если в поле есть символ ( " ), то вы такое поле помещаете в кавычки:
стрПоле = """"+стрПоле+"""";


Если на входе будет такая строка, то что получится:
"Вася","Петя"","""Саша"""",""""Миша"""""


В итоге все преобразуется в строку:
""Вася","Петя"","""Саша"""",""""Миша""""""


Как это распарсится при чтении? Хреново. В действительности, надо все символы ( " ) заменить на символы ( "" ), т.е. так:
стрПоле = """"+СтрЗаменить(СтрПоле,"""","""""")+""""


Что, я один это увидел?
kostik_love; kuzyara; +2 1 Ответить 1
11. Дмитрий Ивакин (pit201201) 66 04.03.16 13:25 Сейчас в теме
(10) starik-2005,
чуть выше проверки на кавычку в строке есть строка, предлагаемый Вами вариантом с заменой кавычки на пару кавычек
стрПоле = СтрЗаменить(Строка(поле),"""","""""");

так-что вроде все справедливо.

А насчет 0 у числового значения: у 1С трудно понять в числовом значении где 0, а где NULL.Поэтому и проверяю если тип = ЧИСЛО и пусто, то пусть будет 0, а не пустое значение. Хотя вопрос интересный. Или имелось ввиду
Формат(поле,"ЧРД=.; ЧН=0")
?
12. Дмитрий Ивакин (pit201201) 66 04.03.16 13:38 Сейчас в теме
(8) speshuric,
Все так. Нужно будет выгрузить большие объемы - деградируем. Хотя csv и большие объемы - сомнительный союз.
13. Alexander Speshilov (speshuric) 938 04.03.16 14:03 Сейчас в теме
(12) pit201201,
Не соглашусь. Именно CSV нереально рулит на больших объёмах. Какие другие варианты в родном 1С-коде? XML - это вообще нецензурно. DBF - ограничение в сколько-то гигов (то ли 2 то ли 4 то ли еще что-то подобное). JSON - слишком молодо и оверхэд всё равно заметный. Табличный документ (в MXL или XLSX) сдохнут в районе миллиона строк. Остаются только внешние источники данных (или сразу ADO), там можно по частям запихивать, но не все получатели могут через ODBC/ADO. Все остальные средства - неродные вроде бы. И вот - единственный финалист CSV - благо во всех языках, в том числе 1С, его прочитать можно последовательно. Но и CSV в памяти тогда весь держать не следует, конечно же.
pit201201; Evil Beaver; +2 Ответить 1
14. Sergey Andreev (starik-2005) 1046 04.03.16 14:03 Сейчас в теме
(12) pit201201, скажите это тем, кто выгружает файл о недействительных паспортах - там 1 гиг в CSV.
15. Николай Q (kuzyara) 273 04.03.16 17:36 Сейчас в теме
кг/ам, но все-таки взял на себя смелость перевести этот rfc4180:
Общий формат и MIME-тип для значений, разделенных запятыми (CSV файлов)


1. Введение
----------------------------

Формат CSV (от англ. Comma-Separated Values — значения, разделённые запятыми)
используется для обмена и конвертации данных между различными электронными
таблицами, и уже достаточно давно. Удивительно, но несмотря на большую
распространённость этого формата, он так и не был официально задокументирован.
Кроме того, в то время как список MIME-типов включает в себя тип
"text/tab-separated-values" никакой MIME-тип не был зарегистрирован для CSV.

В то же время, различные программы и операционные системы с низапямятных времен используют различные MIME-типы для этого формата. Этот RFC документ официально регистрирует "text/csv" MIME-тип для CSV в соответствии с RFC 2048 [1].


2. Описание CSV формата
----------------------------

В то время как существуют различные реализации и спецификации для CSV формата
(напр. [4], [5], [6] и [7]), не существует ни одной официальной спецификации
в настоящее время, что позволяет существовать множеству разнообразных
интерпретации CSV файлов. Этот раздел описывает формат, которому, похоже,
следуют большинство реализаций:

1. Записи расположены на отдельных строках, разделенных символом разрыва
строки (CRLF). Например:

ааа, bbb, ссс CRLF
zzz, ууу, ххх CRLF

2. Последняя запись в файле может иметь или не иметь перенос строки.
Например:

ааа, bbb, ссс CRLF
zzz, ууу, ххх

3. Опционально и совсем необязательно в первой строке файла может быть
расположен заголовокв том же формате, как и для обычных записей строк.
Этот заголовок будет являться именами соответствующих полей в файле и
должн содержать такое же количество полей, как записи в остальной части
файла (наличие или отсутствие строки заголовка должно быть указано с
помощью дополнительного параметра этого MIME-типа). Например:

field_name, field_name, field_name CRLF
ааа, bbb, ссс CRLF
zzz, ууу, ххх CRLF

4. В пределах заголовка и каждой записи, может быть одно или более
полей, разделенных запятыми. Каждая строка должна содержать то же самое
количество полей по всему файлу. Пробелы считаются частью поля и не
должны игнорироваться. Последнее поле в записи не должна оканчиваться
запятой. Например:

ааа, bbb, ссс

5. Каждое поле может быть (а может и не быть) заключено в двойные
кавычки (однако некоторые программы, такие как Microsoft Excel, могут не
использовать двойные кавычки вообще). Поля, не заключеные в двойные
кавычки, не могут содержать двойные кавычки внутри полей. Например:

"ааа", "bbb", "ccc" CRLF
zzz, ууу, ххх

6. Поля, содержащие разрывы строки (CRLF), двойные кавычки, или запятые
должены быть заключены в двойные кавычки. Например:

"ааа", "b CRLF
bb ","ccc" CRLF
zzz, ууу, ххх

7. Если двойная кавычка используется внутри заключенного поля, то она
должна быть экранирована другой двойной кавычкой. Например:

"aaa","b""bb","ccc"

ABNF грамматика (англ. augmented Backus-Naur form — расширенная форма
Бэкуса — Наура) [2] выглядит следующим образом:

file = [header CRLF] record *(CRLF record) [CRLF]

header = name *(COMMA name)

record = field *(COMMA field)

name = field

field = (escaped / non-escaped)

escaped = DQUOTE *(TEXTDATA / COMMA / CR / LF / 2DQUOTE) DQUOTE

non-escaped = *TEXTDATA

COMMA = %x2C

CR = %x0D ;как указано в разделе 6.1 RFC 2234 [2]

DQUOTE = %x22 ;как указано в разделе 6.1 of RFC 2234 [2]

LF = %x0A ;как указано в разделе 6.1 of RFC 2234 [2]

CRLF = CR LF ;как указано в разделе 6.1 of RFC 2234 [2]

TEXTDATA = %x20-21 / %x23-2B / %x2D-7E


3. MIME-тип text/csv
----------------------------

Этот раздел содержит media-type описание приложений (в соответствии
с RFC 2048 [1]).

Кому: ietf-types@iana.org
Тема: Описание MIME-типа text/csv
Имя MIME-типа: text
Имя MIME подтипа: CSV
Обязательные параметры: нет
Дополнительные параметры: charset, header

Повсеместно использование CSV в US-ASCII, но и другие кодировки могут
быть использованы в сочетании с параметром "Charset" .

Параметр "header" указывает на наличие или отсутствие строки заголовка.
Допустимые значения "present" или "absent". Разработчики могут не
использовать этот параметр должен самостоятельно принимать решение
относительно того, присутствует или отсутствует строка заголовка.

Декодирование записей:

Как указано в разделе 4.1.1 RFC 2046 [3], этот media-тип использует CRLF
для обозначения разрыва строки, однако, разработчики должны знать, что
некоторые реализации могут использовать другие значения.

Соображения безопасности:

CSV-файлы содержат пассивный текстовые данные которые не должны создавать
каких-либо рисков. Тем не менее, теоретически возможно, что злонамеренные
двоичные данные могут быть включены для того, чтобы использовать
потенциальное переполнение буфера в программе обработки CSV данных.
Кроме того, частные данные могут быть переданы через этот формат (что,
конечно, относится к любому текстовых данных).

Соображения совместимости:

Из-за отсутствия единой спецификации, существуют значительные
различия между реализациями. Разработчики, вы должны "быть
консервативными в том, что вы делаете, и быть либеральным в том,
что вы принимаете от других"(RFC 793 [8]), когда делаете обработку
файлов CSV. Попытка создать общее определение можно найти в разделе 2.

Разработчик, решенив не использовать параметр "header" должен принимать
самостоятельно решение относительно того, присутствует ли заголовок
или отсутствует.

Опубликованная спецификация:

В то время как множество собственных спецификации существуют для различных программ и систем, не существует ни одного «хозяина» спецификации для этого формата. Попытка общего определения можно найти в разделе 2.

Приложения, использующие этот media-тип:

Электронные таблицы и различные утилиты преобразования данных.

Дополнительная информация:

Магическое число: нет

Расширение файла: CSV

Macintosh тип файла: TEXT

Email для получения дополнительной информации:

Yakov Shafranovich <ietf@shaftek.org>

Назначение использования: ОБЩЕЕ

Автор / Контроллер: IESG

4. Соображения IANA

IANA зарегистрировал MIME-тип "text/csv" с помощью
приложения, предусмотреного в разделе 3 настоящего документа.

5. Вопросы безопасности

См обсуждение выше в разделе 3.

6. Выражаю признательностт

Автор хотел бы поблагодарить Dave Crocker, Martin Duerst, Joel M.
Halpern, Clyde Ingram, Graham Klyne, Bruce Lilly, Chris Lilley, и
членов IESG за их полезные предложения. Особое слово
благодарности Дэйву за помощь с грамматикой ABNF.

Автор хотел бы также поблагодарить Henrik Lefkowetz, Marshall Rose,
и сообщество xml.resource.org за предоставление многих инструментов
для приготовления RFC и интернет-проектов.

Особая благодарность L.T.S.

7. Ссылки

7.1. Нормативные ссылки

[1] Freed, Н., Кленсин, J., и J. Постел, "Интернет Многоцелевой
Mail Extensions (MIME) Часть четвертая: Процедуры регистрации ", BCP
13, RFC 2048, ноябрь 1996 года.

[2] Крокер, Д. и П. Overell, "Augmented BNF для синтаксиса
Технические характеристики: ABNF ", RFC 2234, ноябрь 1997 года.

[3] Freed, Н. и Н. Borenstein, "Многоцелевой Internet Mail
Расширения (MIME) Часть вторая: Типы носителей ", RFC 2046, ноябрь
1996.

7.2. Информативные ссылки

[4] Repici, J., "How-To: запятая Separated Value (CSV) файла
Формат ", 2004,
<Http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm>.

[5] Edoceo, Inc., "Формат CSV файла Стандартный", 2004,
<Http://www.edoceo.com/utilis/csv-file-format.php>.

[6] Rodger, Р. и О. Шанахай, "Документация для Ricebridge CSV
Менеджер ", февраль 2005 г.,
<Http://www.ricebridge.com/products/csvman/reference.htm>.

[7] Раймонд Е., "Искусство программирования Unix, Глава 5", сентябрь
2003,
<Http://www.catb.org/~esr/writings/taoup/html/ch05s02.html>.

[8] Постел, J., "Протокол управления передачей", STD 7, RFC 793,
Сентябрь 1981.

Адрес автора:

Yakov Shafranovich
SolidMatrix Technologies, Inc.

EMail: ietf@shaftek.org
URI: http://www.shaftek.org


Собственно самая интересная часть:
ABNF грамматика:

file = [header CRLF] record *(CRLF record) [CRLF]
header = name *(COMMA name)
record = field *(COMMA field)
name = field
field = (escaped / non-escaped)
escaped = DQUOTE *(TEXTDATA / COMMA / CR / LF / 2DQUOTE) DQUOTE
non-escaped = *TEXTDATA
TEXTDATA = %x20-21 / %x23-2B / %x2D-7E
16. Дмитрий Ивакин (pit201201) 66 04.03.16 18:52 Сейчас в теме
(13) speshuric,
Ok, прозвучало убедительно, после праздников выпущу в свет второй комплект процедур и функций для больших массивов.
17. Дмитрий Ивакин (pit201201) 66 04.03.16 19:10 Сейчас в теме
(14) starik-2005,
про паспорта мне комментировать сложно, не тот профиль. Но есть предположение что, что-то не то в регламенте обмена. У меня получается на 1 недействительный паспорт 4+6+6 символов, плюсом 3 запятых. Итого 20(21) символ на запись с учетом ПС. 1073741824 /21=51130563 паспортов. Каждый третий в стране поменял паспорт. Интересно за какой период эта выборка?
18. Sergey Andreev (starik-2005) 1046 04.03.16 21:53 Сейчас в теме
(17) pit201201, за все периоды, как я понял. Это официальная открытая информация в целях соблюдения закона 115-ФЗ. Вот еще ссылка интересная. В 1 ГиБ данных 96 млн с лишним паспортов. На каждый паспорт 4+","+6+#13#10 = 13 символов. Откуда Вы насчитали три запятых - я ума не приложу.
19. Дмитрий Ивакин (pit201201) 66 09.03.16 10:27 Сейчас в теме
(18) starik-2005,
добавил еще код подразделения, выдававшего паспорт, но видимо лишнее
20. Николай Q (kuzyara) 273 22.08.16 15:34 Сейчас в теме
Оставьте свое сообщение