Powershell: Про чтение содержимого файлов и скорость

18.06.21

Разработка - Инструментарий разработчика

Как читать большие файлы? сколько времени займет поиск в файле 144Мб? Сколько ищет в папке логов на 14Гб?

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Тест времени чтения и поиска
.ps1 1,19Kb
0
0 Скачать (1 SM) Купить за 1 850 руб.

В Powershell существует множество способов прочитать файлы. Можно использовать встроенные cmdlets, можно использовать функции .NET. Захотелось узнать, какие быстрее.

Тесты проводились на PowerShell 5.1. Просто чтение файлов используется редко, поэтому замерял время чтения и поиска простой строки. В качестве данных использовался файл 144 мб, файл 1Гб и папка с полными логами ТЖ, размером 14Гб. Все специально лежало на обычном HDD.

1. Get-Content

Самый очевидный способ. У данной команды есть псевдоним cat, для тех, кто привык к linux.

Небольшое отступление: В Powershell есть уже встроенные псевдонимы, поэтому такие команды как grep, cat, ls будут отлично работать и делать именно то, что вы от них ожидаете при вызове без параметров. Параметры в Powershell свои, поэтому скопировать сложный вызов один в один не получится.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 12.1 сек

файл 1Гб - 92.8

папка 14Гб - 2608.5 сек

2. Get-Content -ReadCount

У данной команды есть параметр, который заставляет читать файл пачками строк, что должно быть быстрее на больших файлах.

2.1 Читаем по 1 строке

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1 |
    Select-String -Pattern ",CALL," -SimpleMatch

Результаты:

файл 144Мб - 13.4 сек

файл 1Гб - не проверял

папка 14Гб -  не проверял, очевидно будет долго

2.2 Читаем по 1000 строк.

Функция теперь выдает 1000 строк, поэтому пришлось добавить цикл обхода %{$_}, который передает дальше по одной строке.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_} |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 5.8 сек

файл 1Гб - 42.5 сек

папка 14Гб - 1131.2 сек

2.3 Читаем по 1000 строк. Другой способ поиска

Сразу ищем в цикле

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_ -match "CALL"}

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13.2 сек

папка 14Гб - 173.3 сек

папка 14Гб, чтение по 10000 строк - 178.4 сек

3. Select-String

У функции Select-String есть параметр в котором можно указать путь до файлов, и она сама прочитает их без использования Get-Content

Select-String -Path "E:\exchange\logs_analyze\full\*\*.log" -Pattern "CALL"

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13 сек

папка 14Гб - 173 сек

4. StreamReader

Читаем файлы используя .NET

$reader = [System.IO.StreamReader]::New(".\21053021.log")
while (!$reader.EndOfStream) {
  $line = $reader.ReadLine()
  if ($line.Contains("CALL")) {
    $lines += $line
  }
}   

Результаты:

файл 144Мб - 2.5 сек

файл 1Гб - 20 сек

папка 14Гб - не тестировал

5. ReadAllLines

Читаем сразу все строки файла. При тестах оказалось, что этот метод есть много памяти.

$Lines = [System.IO.File]::ReadAllLines(".\21053021.log")
[Regex]::Matches($Lines, "CALL")

Результаты:

файл 144Мб - 2.8 сек

файл 1Гб - 21,5 сек

папка 14Гб -  не тестировал

6. ReadLines

Get-ChildItem -Path "E:\exchange\logs_analyze\full\*\*.log" | % {
  foreach($line in [System.IO.File]::ReadLines($_))
  {
      if ($line.Contains("CALL")) {
        $line
      }
  }
}

Результаты:

файл 144Мб - 1.65 сек

файл 1Гб - 12.5 сек

папка 14Гб - 177 сек

Выводы

При одинаковой скорости работы способов 2.3, 3, 6, удобнее всего использовать простой Select-String.

Сравнивать по скорости с grep из linux нет никакой необходимости, тут PowerShell проигрывает без шансов.

Powershell

См. также

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

15500 руб.

02.09.2020    178668    988    403    

947

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку одновременно в несколько потоков. А так же автоматически, без непосредственного участия пользователя. Решение в Реестре отечественного ПО

8400 руб.

20.08.2024    20142    133    70    

134

Пакетная печать Печатные формы Инструментарий разработчика Программист Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

22200 руб.

06.10.2023    19005    51    19    

83

Инструменты администратора БД Инструментарий разработчика Роли и права Программист Платформа 1С v8.3 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

15000 руб.

10.11.2023    12975    53    33    

72

Инструментарий разработчика Программист Платформа 1С v8.3 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки.

9360 руб.

17.05.2024    29187    100    48    

146

Инструментарий разработчика Программист 8.3.14 Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

20000 руб.

07.10.2021    18709    7    32    

43

Инструментарий разработчика Платформа 1С v8.3 1C:Бухгалтерия 1С:ERP Управление предприятием 2 Платные (руб)

Разработка Конструктор автоматизированных рабочих мест "Конструктор АРМ" реализована в виде расширения и является универсальным инструментом для создания АРМ любой сложности в пользовательском режиме.

3600 руб.

27.12.2024    1821    2    0    

5
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. cdiamond 236 07.08.21 15:40 Сейчас в теме
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { (gc $_ -raw) -replace "`n(?!\d\d:\d\d\.\d+-\d+)"," " | out-file $_.FullName } }

Days              : 0
Hours             : 0
Minutes           : 1
Seconds           : 28
Milliseconds      : 673
Ticks             : 886732106
TotalDays         : 0,00102631030787037
TotalHours        : 0,0246314473888889
TotalMinutes      : 1,47788684333333
TotalSeconds      : 88,6732106
TotalMilliseconds : 88673,2106
Показать

10 ГБ логов перезаписывает обратно в однострочные записи за 1 минуту 30 секунд на Ryzen 5 3500U (чтобы потом без извращений доставать полные тексты запросов или контекста). Память сожрет всю, но не вывалится и при этом с ключом -AsJob выполняется в фоне и можно немедленно после запуска продолжать писать скрипты. Шансы догнать есть. Версия PowerShell Core 7.1.3
2. cdiamond 236 07.08.21 16:40 Сейчас в теме
(1) ну и для сравнения простой запрос наподобие вашего, на папке размером 10 ГБ:
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { sls ",CALL," $_ } }

Days              : 0
Hours             : 0
Minutes           : 0
Seconds           : 31
Milliseconds      : 789
Ticks             : 317894181
TotalDays         : 0,000367933079861111
TotalHours        : 0,00883039391666667
TotalMinutes      : 0,529823635
TotalSeconds      : 31,7894181
TotalMilliseconds : 31789,4181
Показать

На той же машине с помощью git-bash:
$ time (grep -Hr ",CALL," rphost*/*.log > 1.log)

real    0m14.937s
user    0m5.531s
sys     0m2.046s
Оставьте свое сообщение