Powershell: Про чтение содержимого файлов и скорость

18.06.21

Разработка - Инструментарий разработчика

Как читать большие файлы? сколько времени займет поиск в файле 144Мб? Сколько ищет в папке логов на 14Гб?

Файлы

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование Скачано Купить файл
Тест времени чтения и поиска
.ps1 1,19Kb
0 2 500 руб. Купить

Подписка PRO — скачивайте любые файлы со скидкой до 85% из Базы знаний

Оформите подписку на компанию для решения рабочих задач

Оформить подписку и скачать решение со скидкой

В Powershell существует множество способов прочитать файлы. Можно использовать встроенные cmdlets, можно использовать функции .NET. Захотелось узнать, какие быстрее.

Тесты проводились на PowerShell 5.1. Просто чтение файлов используется редко, поэтому замерял время чтения и поиска простой строки. В качестве данных использовался файл 144 мб, файл 1Гб и папка с полными логами ТЖ, размером 14Гб. Все специально лежало на обычном HDD.

1. Get-Content

Самый очевидный способ. У данной команды есть псевдоним cat, для тех, кто привык к linux.

Небольшое отступление: В Powershell есть уже встроенные псевдонимы, поэтому такие команды как grep, cat, ls будут отлично работать и делать именно то, что вы от них ожидаете при вызове без параметров. Параметры в Powershell свои, поэтому скопировать сложный вызов один в один не получится.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 12.1 сек

файл 1Гб - 92.8

папка 14Гб - 2608.5 сек

2. Get-Content -ReadCount

У данной команды есть параметр, который заставляет читать файл пачками строк, что должно быть быстрее на больших файлах.

2.1 Читаем по 1 строке

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1 |
    Select-String -Pattern ",CALL," -SimpleMatch

Результаты:

файл 144Мб - 13.4 сек

файл 1Гб - не проверял

папка 14Гб -  не проверял, очевидно будет долго

2.2 Читаем по 1000 строк.

Функция теперь выдает 1000 строк, поэтому пришлось добавить цикл обхода %{$_}, который передает дальше по одной строке.

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_} |
    Select-String -Pattern "CALL"

Результаты:

файл 144Мб - 5.8 сек

файл 1Гб - 42.5 сек

папка 14Гб - 1131.2 сек

2.3 Читаем по 1000 строк. Другой способ поиска

Сразу ищем в цикле

Get-Content "E:\exchange\logs_analyze\full\*\*.log" -ReadCount 1000 | %{$_ -match "CALL"}

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13.2 сек

папка 14Гб - 173.3 сек

папка 14Гб, чтение по 10000 строк - 178.4 сек

3. Select-String

У функции Select-String есть параметр в котором можно указать путь до файлов, и она сама прочитает их без использования Get-Content

Select-String -Path "E:\exchange\logs_analyze\full\*\*.log" -Pattern "CALL"

Результаты:

файл 144Мб - 1.7 сек

файл 1Гб - 13 сек

папка 14Гб - 173 сек

4. StreamReader

Читаем файлы используя .NET

$reader = [System.IO.StreamReader]::New(".\21053021.log")
while (!$reader.EndOfStream) {
  $line = $reader.ReadLine()
  if ($line.Contains("CALL")) {
    $lines += $line
  }
}   

Результаты:

файл 144Мб - 2.5 сек

файл 1Гб - 20 сек

папка 14Гб - не тестировал

5. ReadAllLines

Читаем сразу все строки файла. При тестах оказалось, что этот метод есть много памяти.

$Lines = [System.IO.File]::ReadAllLines(".\21053021.log")
[Regex]::Matches($Lines, "CALL")

Результаты:

файл 144Мб - 2.8 сек

файл 1Гб - 21,5 сек

папка 14Гб -  не тестировал

6. ReadLines

Get-ChildItem -Path "E:\exchange\logs_analyze\full\*\*.log" | % {
  foreach($line in [System.IO.File]::ReadLines($_))
  {
      if ($line.Contains("CALL")) {
        $line
      }
  }
}

Результаты:

файл 144Мб - 1.65 сек

файл 1Гб - 12.5 сек

папка 14Гб - 177 сек

Выводы

При одинаковой скорости работы способов 2.3, 3, 6, удобнее всего использовать простой Select-String.

Сравнивать по скорости с grep из linux нет никакой необходимости, тут PowerShell проигрывает без шансов.

Вступайте в нашу телеграмм-группу Инфостарт

Powershell

См. также

Инструментарий разработчика Чистка данных Свертка базы Инструменты администратора БД Системный администратор Программист Руководитель проекта 1С:Предприятие 8 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Россия Платные (руб)

Инструмент представляет собой обработку для проведения свёртки или обрезки баз данных. Работает на ЛЮБЫХ конфигурациях (УТ, БП, ERP, УНФ, КА и т.д.). Поддерживаются серверные и файловые базы, управляемые и обычные формы. Может выполнять свертку одновременно в несколько потоков. А так же автоматически, без непосредственного участия пользователя. Решение в Реестре отечественного ПО

24900 руб.

20.08.2024    64852    343    168    

301

Инструментарий разработчика Роли и права Запросы СКД Программист Руководитель проекта 1С:Предприятие 8 Платные (руб)

Инструменты для разработчиков 1С 8.3: Infostart Toolkit. Автоматизация и ускорение разработки на управляемых формах. Легкость работы с 1С.

16500 руб.

02.09.2020    253830    1401    421    

1152

Пакетная печать Печатные формы Инструментарий разработчика Программист 1С:Предприятие 8 Платные (руб)

Расширение для создания и редактирования печатных форм в системе 1С:Предприятие 8.3. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и прозрачность разработки, а также навести порядок в многообразии корпоративных печатных форм.

22570 руб.

06.10.2023    37013    97    40    

117

Инструментарий разработчика Нейросети Платные (руб)

Первые попытки разработки на 1С с использованием больших языковых моделей (LLM) могут разочаровать. LLMки сильно галлюцинируют, потому что не знают устройства конфигураций 1С, не знают нюансов синтаксиса. Но если дать им подсказки с помощью MCP, то результат получается кардинально лучше. Далее в публикации: MCP для поиска по метаданым 1С, справке синтакс-помошника и проверки синтаксиса.

15250 руб.

25.08.2025    50100    98    27    

114

Инструменты администратора БД Инструментарий разработчика Роли и права Программист 1С:Предприятие 8 1C:Бухгалтерия Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

17000 руб.

10.11.2023    24601    93    42    

101

Инструментарий разработчика Программист 1С:Предприятие 8 Платные (руб)

Инструмент для написания и отладки кода в режиме «1С:Предприятие». Представляет собой консоль кода с возможностью пошаговой отладки, просмотра значений переменных любых типов, использования процедур и функций, просмотра стека вызовов, вычисления произвольных выражений на встроенном языке в контексте точки останова, синтаксического контроля и остановки по ошибке. В консоли используется удобный редактор кода с подсветкой, контекстной подсказкой, возможностью вызова конструкторов запроса и форматной строки. 1.3.11 Доработан механизм контекстной подсказки по метаданным

9500 руб.

17.05.2024    51718    181    63    

213

Мастера заполнения Поиск данных Инструментарий разработчика Подбор и обработка объектов 1С 8.3 1С 8.5 Платные (руб)

Infostart MagicInput улучшает подбор в полях ввода 1С: ищет по любой части названия и по нескольким ключевым фрагментам, распознаёт ввод в другой раскладке и показывает иконки/статусы объектов прямо в списке. Поддерживает вставку навигационной ссылки/представления документа для автоподбора; для разработчиков доступны поиск по GUID и полному имени предопределённого. Работает в управляемых формах и подключается в большинстве конфигураций 1С 8.3/8.5.

5000 руб.

25.02.2026    2894    11    1    

14
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. cdiamond 237 07.08.21 15:40 Сейчас в теме
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { (gc $_ -raw) -replace "`n(?!\d\d:\d\d\.\d+-\d+)"," " | out-file $_.FullName } }

Days              : 0
Hours             : 0
Minutes           : 1
Seconds           : 28
Milliseconds      : 673
Ticks             : 886732106
TotalDays         : 0,00102631030787037
TotalHours        : 0,0246314473888889
TotalMinutes      : 1,47788684333333
TotalSeconds      : 88,6732106
TotalMilliseconds : 88673,2106
Показать

10 ГБ логов перезаписывает обратно в однострочные записи за 1 минуту 30 секунд на Ryzen 5 3500U (чтобы потом без извращений доставать полные тексты запросов или контекста). Память сожрет всю, но не вывалится и при этом с ключом -AsJob выполняется в фоне и можно немедленно после запуска продолжать писать скрипты. Шансы догнать есть. Версия PowerShell Core 7.1.3
2. cdiamond 237 07.08.21 16:40 Сейчас в теме
(1) ну и для сравнения простой запрос наподобие вашего, на папке размером 10 ГБ:
PS C:\temp\10> measure-command { dir -path "rphost*\*.log" | % -parallel { sls ",CALL," $_ } }

Days              : 0
Hours             : 0
Minutes           : 0
Seconds           : 31
Milliseconds      : 789
Ticks             : 317894181
TotalDays         : 0,000367933079861111
TotalHours        : 0,00883039391666667
TotalMinutes      : 0,529823635
TotalSeconds      : 31,7894181
TotalMilliseconds : 31789,4181
Показать

На той же машине с помощью git-bash:
$ time (grep -Hr ",CALL," rphost*/*.log > 1.log)

real    0m14.937s
user    0m5.531s
sys     0m2.046s
Для отправки сообщения требуется регистрация/авторизация