Векторизация текста и нечеткий поиск лучшего совпадения со строкой

15.10.24

Задачи пользователя - Поиск данных

Векторизация идеальна, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1+ лучшее вхождение (которое гарантированно там есть).

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Векторизация текста и нечеткий поиск лучшего совпадения со строкой
.epf 9,38Kb
4
4 Скачать (1 SM) Купить за 1 850 руб.

Векторизация текста на языке 1С. Простейший пример. Используется в реальной работе в обработке Контур.Диадок при подборе Склада по произвольному человекочитаемому комментарию, содержащему Адрес склада (и другую инфомрацию)

Подходит для использования, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1 лучшее вхождение (которое гарантированно там есть). Также

  • инвариантно к РеГиСтРу, наличию      повторению илиотсутствиюв    тексте   пробелов и знаков препинания и т.д.
  • инвариантно к положению мест словами (слов местами)
  • множество значений функции КосинусноеПроизведение: [0; 1] - можно спрогнозировать порог адекватности похожести строк
  • приемлемая скорость поиска ~100 строк/сек
  • легко внедрять: 3 функции/50 строчек кода, работающие в любой конфигурации.

Проверено на следующих конфигурациях и релизах:

  • Управление нашей фирмой, редакция 3.0, релизы 3.0.9.163
  • Управление торговлей, редакция 11, релизы 11.5.19.74

Векторизация текста косинусная подобность скалярное произведение

См. также

Поиск данных Системный администратор Программист Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Платные (руб)

Обработки помогут Вам легко и, главное, быстро (в 5 раз и быстрее штатной обработки 1С), выполнить поиск дублирующих данных в Ваших базах 1С на платформах 8.1-8.3. Это позволит уменьшить объем лишней информации в справочниках и документах, планах видов характеристик и др., упростит работу с данными пользователям. А так же можно, одним нажатием, узнать в каких ссылочных объектах есть вообще дубли! Понятное расположение команд и настроек, в сочетании с описанием и справкой, еще упростят процесс. А так же обновления Вы получаете бесплатно в течение года с момента приобретения данных обработок! (Обновление от 27.11.2023, версия 6.12)

10800 руб.

14.05.2012    159476    339    253    

573

Математика и алгоритмы Инструментарий разработчика Универсальные функции Поиск данных Программист Платформа 1С v8.3 Конфигурации 1cv8 1С:ERP Управление предприятием 2 Абонемент ($m)

Несколько упакованных в один класс интерфейсов для обработки популярных универсальных коллекций. Для тех, кого раздражает отсутствие действительно единого интерфейса для универсальных коллекций.

5 стартмани

25.09.2024    2521    1    Артано    14    

19

Поиск данных Программист Платформа 1С v8.3 Россия Бесплатно (free)

В этой статье я хочу рассмотреть еще один кейс применения Clickhouse в связке с 1С - оптимизацию поиска в справочнике по ключевым словам. Здесь не будет готового решения, но будут описаны важные моменты, которые позволят легко применить данный кейс в реальности.

18.08.2024    2120    1cnik2    23    

14

Поиск данных Программист Платформа 1С v8.3 Конфигурации 1cv8 Абонемент ($m)

Отображение и просмотр реквизитов справочника или документа - с бесконечным открытием подуровней.

1 стартмани

14.06.2024    3613    8    RustIG    29    

22

Поиск данных Системный администратор Программист Платформа 1С v8.3 Россия Абонемент ($m)

Статья об опыте развертывания и интеграции с базой данных Manticore Search для быстрого полнотекстового поиска.

1 стартмани

30.11.2023    4959    andreysidor4uk    18    

53

Поиск данных Корректировка данных Пользователь Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

PowerOffice - обработка для поиска, просмотра и обработки данных для пользователей. Доступ к объектам на просмотр и редактирование данных определяется правами пользователя.

1 стартмани

05.06.2023    2410    26    PowerBoy    1    

16

Поиск данных Программист Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

Получение ссылки в 1С по бинарной строке из PostgreSQL в виде строки формата bytea или из MSSQL в виде шестнадцатиричной строки. Кроме ссылочных объектов ссылки могут быть получены и для перечислений. Это может быть полезно при анализе логов журнала регистрации или СУБД.

1 стартмани

04.04.2023    3293    4    berserg    2    

13
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. ivanov660 4592 15.10.24 09:08 Сейчас в теме
Под алгоритмом векторизации вы понимаете что-то типа алгоритма шинглов, т.к. обычно в чистом виде ее применяют для подготовки данных при работе с нейронными сетями?
Или непосредственно создаете многомерный вектор из токенов и от него находите косинус? Тогда это получается слишком ресурсоемко. На мой взгляд, лучше использовать алгоритм TF-IDF с хорошей обработкой входных слов.
2. user785225 26 16.10.24 11:05 Сейчас в теме
(1)
многомерный вектор из токенов и от него находите косинус

Да, но отличие от алгоритма по сути только в упрощенной предобработке данных
и "шингл" здесь - не слова, а N подряд идущих символов (N=Длина токена).

(1)
слишком ресурсоемко

Возможно. Но как формализовать это понятие? ) на хранение векторов с длиной токена 2 ~100-200 kb + 10 мс на 1 сравнение - в рамках прикладной задачки вполне оправдано

TF-IDF
- обязательно гляну на неделе. Вопрос как обычно стоял срочно, здесь и сейчас. Поэтому такое решение
Оставьте свое сообщение