Ввод данных в 1С голосом, ничего не настраивая и без абонентской платы!

12.02.25

Интеграция - Нейросети

Вам нравится набирать сообщения и другую информацию в телефоне голосом? Вы хотите делать то же самое на компьютере? С помощью голосового ввода Вы можете упростить работу с текстом на компьютере, транскрибируя речь в реальном времени с SimpleVoiceInput.

Локальное приложение

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
SimpleVoiceInput (локальное приложение)
.zip 75,54Mb ver:1.0.0.1
4
4 Скачать (3 SM) Купить за 2 450 руб.

Клиент-серверный вариант

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
SimpleVoiceInput (клиент-серверный вариант)
.zip 177,24Mb ver:1.0.0.1
3
3 Скачать (6 SM) Купить за 3 350 руб.

Исходный код

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Исходный код SimpleVoiceInput
.zip 2,82Kb
1
1 Скачать (10 SM) Купить за 4 550 руб.

Откуда появилась идея создания приложения

На смартфонах большинство из нас пользуются различными мессенджерами, мы делаем заметки, иногда пишем тексты и многие делают это, используя голосовой ввод. При этом в смартфоне речь распознаётся в режиме реального времени и вставляется в нужное место в виде текста. Лично мне это очень нравится. Это максимально удобно в поездках, по пути на работу. Я этой функцией пользуюсь регулярно, при условии, что это не мешает окружающим. Мне давно хотелось иметь подобную функцию на компьютере, при этом желательно, чтобы она работала вне зависимости, есть ли у меня доступ к интернету или нет. Голосовой ввод от Майкрософта, к сожалению, на русском языке не работает. Сторонних программ, которые бы позволяли транскрибировать речь и вставлять результат в любое поле, любого приложения, тоже не нашёл. В результате я решил попробовать написать свою программу, которая бы закрыла этот вопрос. 

 

Требования к будущей программе:

  • ПО должно работать на старом и новом железе.
  • ПО должно работать в локальном режиме.
  • За основу для транскрибации должно браться стороннее ПО с открытым исходным кодом и доступной лицензией. Так же это ПО должно иметь API или же запускаться в консольном режиме с параметрами. А еще желательно, чтобы это ПО также могло восстанавливать пунктуацию.
  • Насколько мне известно вставка в текущее поле любого приложения не всегда возможна, из-за фундаментальных ограничений безопасности ОС. В связи с этим необходимо свести к минимуму проблемы со вставкой текста в текущее окно.

 

Что взял за основу для создания своего приложения.

Изучив текущий рынок подобного программного обеспечения пришёл к выводу, что за основу необходимо взять локальный ИИ для транскрибации текста. Мой выбор пал на модели VOSK, так как они удовлетворяют всем требованиям к разрабатываемому программному обеспечению.

 

Кратко о VOSK

VOSK - библиотека для распознавания речи.

Преимущества библиотеки:

  1. Поддерживает 20+ языков и диалектов - русский, английский, немецкий, французский, португальский, испанский, китайский и пр. 
  2. Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
  3. Модели для каждого языка занимают всего 50Мб, но есть и большие модели для более точного распознавания
  4. Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
  5. Поддерживает несколько популярных языков программирования - Java, C#, Javascript
  6. Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
  7. Позволяет идентифицировать говорящего

 

Сравнение моделей по транскрибации речи. 

Если интересно, то есть таблица протестированных доступных моделей для распознавания русской речи на различных наборах данных. Посмотреть можно по этой ссылке..

Результаты сравнения моделей взяты с этого же сайта и перечислены ниже: 

  • Nemo RNNT очень быстрый и довольно точный
  • Vosk начитанный и быстрый.
  • Whisper не очень хорошо работает для русского и его тяжело дообучить. Тем не менее на Silero он дообучился.
  • Whisper медленный, но даже на старой карте вполне удовлетворительный. Когда-то давно 10xRT считалось хорошей скоростью распознавания.
  • Wav2Vec переобучен на CommonVoice, в целом модель не очень хороша. Имеет смысл попробовать его с другой моделью языка, может будет получше.

 

Кратко о процессе создания программы

В качестве языка разработки был выбран Python (я на нем периодически пишу для себя программы и различные скрипты по автоматизации рутинных задач).

Самой сложной задачей в процессе разработки была, наверное, вставка текста в текущее поле на экране. В процессе разработки было опробовано много вариантов решения этой задачи. К сожалению, универсального кроссплатформенного решения я не нашёл, поэтому текущая версия программы под Windows. Если программа вызовет интерес у пользователей, то возможно, сделаю поддержку Linux.
Замечу, что в клиент - серверном варианте на сервере появляется консольное окно, помимо иконки в трее. Данное решение было обосновано тем, чтобы пользователь видел процесс загрузки приложения. Этот процесс может занимает довольно много времени и на старом железе пользователи могут не понимать, почему не работает приложение.

Отдельного окошка по настройке приложения делать пока не стал (добавлю в будущих версиях). Вся информация по смене сочетания клавиш записи речи и выбора сервера содержится в конфигурационном файле.

 

Что я сделал

В процессе работы появился SimpleVoiceInput.

SimpleVoiceInput — два приложения для транскрибации русской речи в реальном времени, которые работают либо на локальном компьютере, либо в локальной сети, гарантируя полную конфиденциальность вашей информации. Эти решения идеально подходят для пользователей 1С и всех, кто работает с текстами, но не хочет рисковать утечкой данных.

 

Что предлагает SimpleVoiceInput?

Мои приложения используют передовые технологии распознавания речи на основе моделей VOSK. Они просты в использовании, не требуют интеграции с 1С и работают почти на любом компьютере. Вы можете выбрать решение, которое лучше всего подходит для ваших задач.

 

1. Локальное приложение

Это приложение работает исключительно на вашем компьютере и использует младшую модель VOSK, которая обеспечивает быструю и точную транскрибацию текста. Оно идеально подходит для задач, где не требуется восстановление пунктуации и регистра.

Преимущества:

  • Работает полностью автономно на вашем компьютере.
  • Простота установки и использования.
  • Автоматическая вставка текста в текущее место на экране.
  • Подходит для любых задач, не только для работы с 1С.

 

2. Клиент-серверное приложение

Это решение работает в локальной сети и состоит из легкого клиента на вашем компьютере и серверной части, которая использует несколько моделей VOSK. Первая модель отвечает за транскрибацию, а вторая — за восстановление пунктуации и регистра текста, что делает результат максимально точным и читаемым.

Особенности серверной части:

  • Серверная часть может быть установлена на локальный компьютер, но для ее работы потребуется не менее 8 ГБ оперативной памяти и современное железо.
  • При запуске серверной части происходит загрузка моделей VOSK в память, что может занять от 20 секунд до нескольких минут. Однако после загрузки скорость транскрибации остается высокой и стабильной.
  • Клиентская часть работает быстро и не требует значительных ресурсов, так как основная нагрузка ложится на сервер.

Преимущества:

  • Высокая точность благодаря использованию нескольких моделей.
  • Работает в локальной сети, обеспечивая безопасность данных.
  • Минимальная нагрузка на ваш компьютер благодаря легкому клиенту.
  • Автоматическая вставка текста в текущее место на экране.
  • Подходит для любых задач, не только для работы с 1С.

 

Как работает SimpleVoiceInput?

Использование приложений максимально простое:

  1. Нажмите и удерживайте заданное сочетание клавиш (например, Ctrl + Shift + X).
  2. На экране появится пиктограмма записи — начинайте наговаривать текст.
  3. Отпустите сочетание клавиш, и текст автоматически вставится в текущее место на экране.

Важно: Сочетание клавиш можно изменить в конфигурационном файле.

 

Почему SimpleVoiceInput?

  • Безопасность: Локальное приложение работает автономно, а клиент-серверное — в локальной сети, что исключает риск утечки конфиденциальных данных.
  • Простота: Никаких сложных настроек или интеграций с 1С. Приложения готовы к использованию сразу после установки.
  • Универсальность: Подходят для любых задач, по голосовому вводу.
  • Экономия времени: Транскрибация в реальном времени позволяет вам сосредоточиться на важных задачах, не отвлекаясь на ручной ввод текста.

 

Кому это будет полезно?

  • Пользователи 1С: Ускорьте ввод данных и снизьте количество ошибок без необходимости доработок в 1С.
  • Специалисты по документации: Наговаривайте текст и автоматически вставляйте в нужные документы.
  • Все, кто работает с текстами: SimpleVoiceInput подходит для любых задач, где требуется быстрая и точная транскрибация речи.

 

Как начать?

Если вы используете локальное решение:

  1. Создайте каталог, полный путь которого не будет содержать кириллицы. (Например, "C:\InputText\".)
  2. Скачайте и распакуйте SimpleVoiceInput в данный каталог.
  3. Запустите файл "SimpleVoiceInput.exe"

Если вы используете клиент-серверный вариант:

  1. Распаковываем скачанный архив. 
  2. Внутри архива видим 2 папки: "SimpleVoiceInputClient" и "SimpleVoiceInputServer"
  3. На сервере:
    1. Копируем каталог "SimpleVoiceInputServer" на сервер. Полный путь к данному каталогу не должен содержать кириллицу.
    2. Качаем большую модель Vosk с официального сайта vosk-model-ru-0.42 и разархивируем её.
    3. Получаем папку "vosk-model-ru-0.42", содержащую подпапки и файлы. Данную папку копируем в "\SimpleVoiceInputServer\_internal\".
    4. Качаем модель пунктуации Vosk vosk-recasepunc-ru-0.22 и разархивируем её.
    5. Получаем папку "vosk-recasepunc-ru-0.22", содержащую файл "checkpoint". Копируем данный файл в "\SimpleVoiceInputServer\_internal\".
    6. В папке "\SimpleVoiceInputServer\_internal\"  есть файл "config.json", в котором установлен порт соединения с сервером. По умолчанию порт "5050". Если необходимо меняем на свой. Порт на сервере должен быть открыт.
    7. Запускаем серверное приложение с помощью файла "SimpleVoiceInputServer.exe".
  4. На Клиенте
    1. В папке "SimpleVoiceInputClient" в подкаталоге "_internal" ищем и открываем файл "config.json".
    2. В файле "config.json"  в строке "server_url": "http://127.0.0.1:5000" меняем IP адрес и порт, на адрес вашего сервера. Например, должно получиться  "server_url": "http://192.168.20.171:5050", если порт не был изменен на сервере.
    3. Копируем "SimpleVoiceInputClient" на компьютеры пользователей.
    4. Запускаем приложение с помощью файла "SimpleVoiceInputClient.exe".
    5. Выделяем поле, зажимаем и удерживаем клавиши "Ctrl+Shift+X" и наговариваем текст. Результат увидим в данном поле.

 

Демонстрация работы программы :

 

Кому интересно, как устроена программа внутри, могут скачать и посмотреть исходник на python. 

Все тесты проводились на Windows 10.


Ссылки на другие работы автора:

См. также

Нейросети 8.3.6 1С:Управление торговлей 11 Управленческий учет Платные (руб)

Обработка подключения фотокамер Canon и Nikon к Управление торговлей 11.4 для потоковой загрузки фотографий в карточки товаров с автоматическим удалением фона

22800 руб.

24.06.2021    10122    4    4    

15

Нейросети Мастера заполнения Платформа 1С v8.3 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х 1С:Управление нашей фирмой 3.0 Платные (руб)

Расширение для заполнения описания номенклатуры с помощью модели ИИ GigaChat от Сбера. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ.

5000 руб.

08.11.2023    3089    13    0    

22

Мастера заполнения Нейросети Платформа 1С v8.3 1C:Бухгалтерия 1С:Управление торговлей 11 Платные (руб)

Расширение для заполнения описания товара (номенклатуры) с помощью модели ИИ ChatGPT с ключевыми словами. Расширение формирует продающее описание товара по его наименованию с помощью модели искусственного интеллекта. Будет полезно для владельцев интернет магазинов, каталогов товаров и продающих через маркетплейсы. Адаптировано для основных конфигураций: УТ, ЕРП, КА, УНФ. Прошло аудит на 1cfresh.com. Версия для автоматического заполнения

5000 руб.

13.03.2023    18774    47    50    

77

Нейросети Программист Платформа 1С v8.3 Абонемент ($m)

В библиотеке искусственного интеллекта для 1С появилась опция анализа изображения. Можно попросить большую языковую модель (LLM) выдать информацию на основании того, что она видит. Будет полезно познакомиться с тем, как это работает и что является best practice при работе с изображениями и LLM

1 стартмани

17.02.2025    2936    6    mkalimulin    11    

28

Нейросети Бесплатно (free)

В этой статье расскажу, какие задачи можно и даже нужно делегировать искусственному интеллекту, в чём трудности применения Chat GPT в России. Попробуем составить полноценное ТЗ для создания мобильного приложения на базе 1С:Предприятие с помощью ИИ и сервиса MAKER-STUDIO.

14.02.2025    603    1Concept    0    

3

Нейросети Распознавание документов и образов Программист Платформа 1С v8.3 Отраслевые Бесплатно (free)

Пример использования механизма голосового распознавания платформы 1С: Предприятия на примере Демоприложения речевого распознавания от 1С с примером добавленной библиотеки ИИ от Михаила Калимулина с интегрированным голосовым управлением для формирования текста запроса к ИИ.

07.02.2025    429    24    m_aster    2    

6

Нейросети Бесплатно (free)

Искусственный интеллект постепенно становится неотъемлемой частью нашей жизни, ускоряя и упрощая рутинные процессы. Но ИИ – это не замена сотрудника, а лишь инструмент. Расскажем о применении дообученного ChatGPT для основных задач аналитиков: составления глоссария, моделирования процессов и User Story Mapping.

04.02.2025    1590    alenkaiva    0    

11

Нейросети Программист Платформа 1С v8.3 Бесплатно (free)

Год назад я покупал доступ к CoPilot, чтобы рассмотреть возможность ускорения разработки на 1С. Однако, я столкнулся с проблемой, что CoPilot отвратительно работает с кодом на языке 1С. Он не знал синтаксиса абсолютно...

04.02.2025    2546    huxuxuya    15    

13
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. Pim 186 17.02.25 18:13 Сейчас в теме
Ну, честно говоря, не очень.
1. не всегда "схватывает" речь. Возможно, проблема в Касперском.
2. пока не отпустишь клавиши, текст не появится.
3. часть длинных фраз с паузами теряет.
4. должна быть хорошая дикция, у меня многие слова путает.
2. Smikle 64 17.02.25 21:30 Сейчас в теме
Я думаю вы говорите про младшую модель.
Попробую ответить по пунктам.
п.1. Да действительно иногда бывают проблемы, но скорее не в Касперском. Очень сильно влияют шум вокруг вас или голоса других. Так же влияние оказывает качетство записи. Например на ноутбуке у меня микрофон хуже, чем я использую на компьютере и качество транскрибации поэтому на компьютере лучше. При частом использовании привыкаешь к программе и получается набирать довольно большие тексты за раз. Так же замечу, что качество транскрибации у большой модели мне нравится больше.
п.2. Да, все верно. Пока держим клавиши идет запись речи, как отпускаем сразу обрабатывается и мы видим результат
п.3. и п.4. У меня были подобные проблемы вначале, но сейчас уже очень редкие и это в основном касается младшей модели VOSK. У старшей проблем подобных не наблюдал.

Спасибо за обратную связь, я постоянно работаю над улучшением приложения и в следующих релизах постараюсь поправить проблемные моменты.
Оставьте свое сообщение