Ввод данных в 1С голосом, ничего не настраивая и без абонентской платы!

12.02.25

Интеграция - Нейросети

Вам нравится набирать сообщения и другую информацию в телефоне голосом? Вы хотите делать то же самое на компьютере? С помощью голосового ввода Вы можете упростить работу с текстом на компьютере, транскрибируя речь в реальном времени с SimpleVoiceInput.

Локальное приложение

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
SimpleVoiceInput (локальное приложение)
.zip 75,54Mb ver:1.0.0.1
4
4 Скачать (3 SM) Купить за 2 450 руб.

Клиент-серверный вариант

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
SimpleVoiceInput (клиент-серверный вариант)
.zip 177,24Mb ver:1.0.0.1
3
3 Скачать (6 SM) Купить за 3 350 руб.

Исходный код

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Исходный код SimpleVoiceInput
.zip 2,82Kb
2
2 Скачать (10 SM) Купить за 4 550 руб.

Откуда появилась идея создания приложения

На смартфонах большинство из нас пользуются различными мессенджерами, мы делаем заметки, иногда пишем тексты и многие делают это, используя голосовой ввод. При этом в смартфоне речь распознаётся в режиме реального времени и вставляется в нужное место в виде текста. Лично мне это очень нравится. Это максимально удобно в поездках, по пути на работу. Я этой функцией пользуюсь регулярно, при условии, что это не мешает окружающим. Мне давно хотелось иметь подобную функцию на компьютере, при этом желательно, чтобы она работала вне зависимости, есть ли у меня доступ к интернету или нет. Голосовой ввод от Майкрософта, к сожалению, на русском языке не работает. Сторонних программ, которые бы позволяли транскрибировать речь и вставлять результат в любое поле, любого приложения, тоже не нашёл. В результате я решил попробовать написать свою программу, которая бы закрыла этот вопрос. 

 

Требования к будущей программе:

  • ПО должно работать на старом и новом железе.
  • ПО должно работать в локальном режиме.
  • За основу для транскрибации должно браться стороннее ПО с открытым исходным кодом и доступной лицензией. Так же это ПО должно иметь API или же запускаться в консольном режиме с параметрами. А еще желательно, чтобы это ПО также могло восстанавливать пунктуацию.
  • Насколько мне известно вставка в текущее поле любого приложения не всегда возможна, из-за фундаментальных ограничений безопасности ОС. В связи с этим необходимо свести к минимуму проблемы со вставкой текста в текущее окно.

 

Что взял за основу для создания своего приложения.

Изучив текущий рынок подобного программного обеспечения пришёл к выводу, что за основу необходимо взять локальный ИИ для транскрибации текста. Мой выбор пал на модели VOSK, так как они удовлетворяют всем требованиям к разрабатываемому программному обеспечению.

 

Кратко о VOSK

VOSK - библиотека для распознавания речи.

Преимущества библиотеки:

  1. Поддерживает 20+ языков и диалектов - русский, английский, немецкий, французский, португальский, испанский, китайский и пр. 
  2. Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
  3. Модели для каждого языка занимают всего 50Мб, но есть и большие модели для более точного распознавания
  4. Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
  5. Поддерживает несколько популярных языков программирования - Java, C#, Javascript
  6. Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
  7. Позволяет идентифицировать говорящего

 

Сравнение моделей по транскрибации речи. 

Если интересно, то есть таблица протестированных доступных моделей для распознавания русской речи на различных наборах данных. Посмотреть можно по этой ссылке..

Результаты сравнения моделей взяты с этого же сайта и перечислены ниже: 

  • Nemo RNNT очень быстрый и довольно точный
  • Vosk начитанный и быстрый.
  • Whisper не очень хорошо работает для русского и его тяжело дообучить. Тем не менее на Silero он дообучился.
  • Whisper медленный, но даже на старой карте вполне удовлетворительный. Когда-то давно 10xRT считалось хорошей скоростью распознавания.
  • Wav2Vec переобучен на CommonVoice, в целом модель не очень хороша. Имеет смысл попробовать его с другой моделью языка, может будет получше.

 

Кратко о процессе создания программы

В качестве языка разработки был выбран Python (я на нем периодически пишу для себя программы и различные скрипты по автоматизации рутинных задач).

Самой сложной задачей в процессе разработки была, наверное, вставка текста в текущее поле на экране. В процессе разработки было опробовано много вариантов решения этой задачи. К сожалению, универсального кроссплатформенного решения я не нашёл, поэтому текущая версия программы под Windows. Если программа вызовет интерес у пользователей, то возможно, сделаю поддержку Linux.
Замечу, что в клиент - серверном варианте на сервере появляется консольное окно, помимо иконки в трее. Данное решение было обосновано тем, чтобы пользователь видел процесс загрузки приложения. Этот процесс может занимает довольно много времени и на старом железе пользователи могут не понимать, почему не работает приложение.

Отдельного окошка по настройке приложения делать пока не стал (добавлю в будущих версиях). Вся информация по смене сочетания клавиш записи речи и выбора сервера содержится в конфигурационном файле.

 

Что я сделал

В процессе работы появился SimpleVoiceInput.

SimpleVoiceInput — два приложения для транскрибации русской речи в реальном времени, которые работают либо на локальном компьютере, либо в локальной сети, гарантируя полную конфиденциальность вашей информации. Эти решения идеально подходят для пользователей 1С и всех, кто работает с текстами, но не хочет рисковать утечкой данных.

 

Что предлагает SimpleVoiceInput?

Мои приложения используют передовые технологии распознавания речи на основе моделей VOSK. Они просты в использовании, не требуют интеграции с 1С и работают почти на любом компьютере. Вы можете выбрать решение, которое лучше всего подходит для ваших задач.

 

1. Локальное приложение

Это приложение работает исключительно на вашем компьютере и использует младшую модель VOSK, которая обеспечивает быструю и точную транскрибацию текста. Оно идеально подходит для задач, где не требуется восстановление пунктуации и регистра.

Преимущества:

  • Работает полностью автономно на вашем компьютере.
  • Простота установки и использования.
  • Автоматическая вставка текста в текущее место на экране.
  • Подходит для любых задач, не только для работы с 1С.

 

2. Клиент-серверное приложение

Это решение работает в локальной сети и состоит из легкого клиента на вашем компьютере и серверной части, которая использует несколько моделей VOSK. Первая модель отвечает за транскрибацию, а вторая — за восстановление пунктуации и регистра текста, что делает результат максимально точным и читаемым.

Особенности серверной части:

  • Серверная часть может быть установлена на локальный компьютер, но для ее работы потребуется не менее 8 ГБ оперативной памяти и современное железо.
  • При запуске серверной части происходит загрузка моделей VOSK в память, что может занять от 20 секунд до нескольких минут. Однако после загрузки скорость транскрибации остается высокой и стабильной.
  • Клиентская часть работает быстро и не требует значительных ресурсов, так как основная нагрузка ложится на сервер.

Преимущества:

  • Высокая точность благодаря использованию нескольких моделей.
  • Работает в локальной сети, обеспечивая безопасность данных.
  • Минимальная нагрузка на ваш компьютер благодаря легкому клиенту.
  • Автоматическая вставка текста в текущее место на экране.
  • Подходит для любых задач, не только для работы с 1С.

 

Как работает SimpleVoiceInput?

Использование приложений максимально простое:

  1. Нажмите и удерживайте заданное сочетание клавиш (например, Ctrl + Shift + X).
  2. На экране появится пиктограмма записи — начинайте наговаривать текст.
  3. Отпустите сочетание клавиш, и текст автоматически вставится в текущее место на экране.

Важно: Сочетание клавиш можно изменить в конфигурационном файле.

 

Почему SimpleVoiceInput?

  • Безопасность: Локальное приложение работает автономно, а клиент-серверное — в локальной сети, что исключает риск утечки конфиденциальных данных.
  • Простота: Никаких сложных настроек или интеграций с 1С. Приложения готовы к использованию сразу после установки.
  • Универсальность: Подходят для любых задач, по голосовому вводу.
  • Экономия времени: Транскрибация в реальном времени позволяет вам сосредоточиться на важных задачах, не отвлекаясь на ручной ввод текста.

 

Кому это будет полезно?

  • Пользователи 1С: Ускорьте ввод данных и снизьте количество ошибок без необходимости доработок в 1С.
  • Специалисты по документации: Наговаривайте текст и автоматически вставляйте в нужные документы.
  • Все, кто работает с текстами: SimpleVoiceInput подходит для любых задач, где требуется быстрая и точная транскрибация речи.

 

Как начать?

Если вы используете локальное решение:

  1. Создайте каталог, полный путь которого не будет содержать кириллицы. (Например, "C:\InputText\".)
  2. Скачайте и распакуйте SimpleVoiceInput в данный каталог.
  3. Запустите файл "SimpleVoiceInput.exe"

Если вы используете клиент-серверный вариант:

  1. Распаковываем скачанный архив. 
  2. Внутри архива видим 2 папки: "SimpleVoiceInputClient" и "SimpleVoiceInputServer"
  3. На сервере:
    1. Копируем каталог "SimpleVoiceInputServer" на сервер. Полный путь к данному каталогу не должен содержать кириллицу.
    2. Качаем большую модель Vosk с официального сайта vosk-model-ru-0.42 и разархивируем её.
    3. Получаем папку "vosk-model-ru-0.42", содержащую подпапки и файлы. Данную папку копируем в "\SimpleVoiceInputServer\_internal\".
    4. Качаем модель пунктуации Vosk vosk-recasepunc-ru-0.22 и разархивируем её.
    5. Получаем папку "vosk-recasepunc-ru-0.22", содержащую файл "checkpoint". Копируем данный файл в "\SimpleVoiceInputServer\_internal\".
    6. В папке "\SimpleVoiceInputServer\_internal\"  есть файл "config.json", в котором установлен порт соединения с сервером. По умолчанию порт "5050". Если необходимо меняем на свой. Порт на сервере должен быть открыт.
    7. Запускаем серверное приложение с помощью файла "SimpleVoiceInputServer.exe".
  4. На Клиенте
    1. В папке "SimpleVoiceInputClient" в подкаталоге "_internal" ищем и открываем файл "config.json".
    2. В файле "config.json"  в строке "server_url": "http://127.0.0.1:5000" меняем IP адрес и порт, на адрес вашего сервера. Например, должно получиться  "server_url": "http://192.168.20.171:5050", если порт не был изменен на сервере.
    3. Копируем "SimpleVoiceInputClient" на компьютеры пользователей.
    4. Запускаем приложение с помощью файла "SimpleVoiceInputClient.exe".
    5. Выделяем поле, зажимаем и удерживаем клавиши "Ctrl+Shift+X" и наговариваем текст. Результат увидим в данном поле.

 

Демонстрация работы программы :

 

Кому интересно, как устроена программа внутри, могут скачать и посмотреть исходник на python. 

Все тесты проводились на Windows 10.


Ссылки на другие работы автора:

См. также

Нейросети Мастера заполнения Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для заполнения описания номенклатуры с помощью модели ИИ GigaChat от Сбера. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ.

5000 руб.

08.11.2023    3337    13    0    

23

Нейросети Платформа 1С v8.3 1С:Зарплата и Управление Персоналом 3.x Россия Платные (руб)

Уникальное расширение для автоматического распознавания текста и анализа изображений прямо в интерфейсе любой типовой конфигурации 1С:Предприятие. Автоматически извлекает данные с фотографий документов, поддерживает рукописный текст и формирует подробные описания изображений с помощью популярных моделей ИИ.

12000 руб.

18.03.2025    277    0    1    

1

Нейросети Мастера заполнения Пользователь Платформа 1С v8.3 1С:Бухгалтерия 3.0 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 1.6 1С:Управление нашей фирмой 3.0 1С:Управление торговлей 11 1С:Розница 2 1С:Розница 3.0 Абонемент ($m)

Обработка предназначена для автоматической генерации описания товаров справочника Номенклатура, используя мощности GigaChat, подходит для всех конфигураций на БСП. Может использоваться для автоматизации процесса заполнения карточки товара и оптимизации использования человеческого труда.

10 стартмани

18.03.2025    214    1    Marat1c8    0    

2

Нейросети Бесплатно (free)

В статье кратко расскажу, что такое ИИ агенты, чем они отличаются от "просто LLM". Что такое RAG, какой стек технологий для этого используется, с чего стоит начать. Особенности и подводные камни разработки. Также как и зачем мы стали делать агентов в 1С.

17.03.2025    5595    comol    34    

23

Мастера заполнения Нейросети Бухгалтер Пользователь Платформа 1С v8.3 1С:Бухгалтерия 3.0 1С:ERP Управление предприятием 2 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 1.6 1С:Управление нашей фирмой 3.0 1С:Управление торговлей 11 1С:Розница 2 1С:Розница 3.0 Абонемент ($m)

Обработка предназначена для автоматической генерации описания товаров справочника Номенклатура, используя мощности ChatGPT или DeepSeek (на выбор), подходит для всех конфигураций на БСП. Может использоваться для автоматизации процесса заполнения карточки товара и оптимизации использования человеческого труда.

10 стартмани

11.03.2025    457    4    Marat1c8    0    

2

Нейросети Рефакторинг и качество кода Тестирование QA Программист Платформа 1С v8.3 Бесплатно (free)

Искусственный интеллект в код-ревью – это не фантастика, а реальность, которая уже сегодня помогает разработчикам улучшать свои проекты. Расскажем о том, как ИИ может автоматически находить баги и предлагать улучшения, экономя ваше время и ресурсы.

11.03.2025    3933    mrXoxot    50    

43

Нейросети Программист Платформа 1С v8.3 1С:Управление торговлей 11 Абонемент ($m)

Библиотека искусственного интеллекта для 1С появилась примерно год назад. Сейчас она активно развивается. В последнее время я выпускаю обновления примерно раз в неделю. Библиотека это не только универсальное расширение, но множество статей и дополнительных материалов, в разное время опубликованных на Infostart. Данная статья поможет вам быстро сориентироваться во всем этом и начать использовать библиотеку в своей работе с максимальной отдачей.

1 стартмани

11.03.2025    6255    mkalimulin    23    

36

Работа с интерфейсом Нейросети Программист Платформа 1С v8.3 Бесплатно (free)

Внешняя обработка для создания прототипов форм на основе текста в стиле Markdown. Теперь с чатом ИИ и генерацией кода программного создания реквизитов.

10.03.2025    4829    nikitazherebtsov    24    

25
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Pim 189 17.02.25 18:13 Сейчас в теме
Ну, честно говоря, не очень.
1. не всегда "схватывает" речь. Возможно, проблема в Касперском.
2. пока не отпустишь клавиши, текст не появится.
3. часть длинных фраз с паузами теряет.
4. должна быть хорошая дикция, у меня многие слова путает.
2. Smikle 60 17.02.25 21:30 Сейчас в теме
Я думаю вы говорите про младшую модель.
Попробую ответить по пунктам.
п.1. Да действительно иногда бывают проблемы, но скорее не в Касперском. Очень сильно влияют шум вокруг вас или голоса других. Так же влияние оказывает качетство записи. Например на ноутбуке у меня микрофон хуже, чем я использую на компьютере и качество транскрибации поэтому на компьютере лучше. При частом использовании привыкаешь к программе и получается набирать довольно большие тексты за раз. Так же замечу, что качество транскрибации у большой модели мне нравится больше.
п.2. Да, все верно. Пока держим клавиши идет запись речи, как отпускаем сразу обрабатывается и мы видим результат
п.3. и п.4. У меня были подобные проблемы вначале, но сейчас уже очень редкие и это в основном касается младшей модели VOSK. У старшей проблем подобных не наблюдал.

Спасибо за обратную связь, я постоянно работаю над улучшением приложения и в следующих релизах постараюсь поправить проблемные моменты.
Оставьте свое сообщение