Векторизация текста и нечеткий поиск лучшего совпадения со строкой

15.10.24

Задачи пользователя - Поиск данных

Векторизация идеальна, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1+ лучшее вхождение (которое гарантированно там есть).

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Векторизация текста и нечеткий поиск лучшего совпадения со строкой
.epf 9,38Kb
4
4 Скачать (1 SM) Купить за 1 850 руб.

Векторизация текста на языке 1С. Простейший пример. Используется в реальной работе в обработке Контур.Диадок при подборе Склада по произвольному человекочитаемому комментарию, содержащему Адрес склада (и другую инфомрацию)

Подходит для использования, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1 лучшее вхождение (которое гарантированно там есть). Также

  • инвариантно к РеГиСтРу, наличию      повторению илиотсутствиюв    тексте   пробелов и знаков препинания и т.д.
  • инвариантно к положению мест словами (слов местами)
  • множество значений функции КосинусноеПроизведение: [0; 1] - можно спрогнозировать порог адекватности похожести строк
  • приемлемая скорость поиска ~100 строк/сек
  • легко внедрять: 3 функции/50 строчек кода, работающие в любой конфигурации.

Проверено на следующих конфигурациях и релизах:

  • Управление нашей фирмой, редакция 3.0, релизы 3.0.9.163
  • Управление торговлей, редакция 11, релизы 11.5.19.74

Векторизация текста косинусная подобность скалярное произведение

См. также

Поиск данных Системный администратор Программист Платформа 1С v8.3 Управляемые формы 1C:Бухгалтерия Платные (руб)

Обработки помогут Вам легко и, главное, быстро (в 5 раз и быстрее штатной обработки 1С), выполнить поиск дублирующих данных в Ваших базах 1С на платформах 8.1-8.3. Это позволит уменьшить объем лишней информации в справочниках и документах, планах видов характеристик и др., упростит работу с данными пользователям. А так же можно, одним нажатием, узнать в каких ссылочных объектах есть вообще дубли! Понятное расположение команд и настроек, в сочетании с описанием и справкой, еще упростят процесс. А так же обновления Вы получаете бесплатно в течение года с момента приобретения данных обработок! (Обновление от 27.11.2023, версия 6.12)

10800 руб.

14.05.2012    159881    341    253    

574

Математика и алгоритмы Инструментарий разработчика Универсальные функции Поиск данных Программист Платформа 1С v8.3 1C:Бухгалтерия 1С:ERP Управление предприятием 2 Абонемент ($m)

Несколько упакованных в один класс интерфейсов для обработки популярных универсальных коллекций. Для тех, кого раздражает отсутствие действительно единого интерфейса для универсальных коллекций.

5 стартмани

25.09.2024    2690    1    Артано    14    

19

Поиск данных Программист Платформа 1С v8.3 Россия Бесплатно (free)

В этой статье я хочу рассмотреть еще один кейс применения Clickhouse в связке с 1С - оптимизацию поиска в справочнике по ключевым словам. Здесь не будет готового решения, но будут описаны важные моменты, которые позволят легко применить данный кейс в реальности.

18.08.2024    2285    1cnik2    23    

16

Поиск данных Программист Платформа 1С v8.3 1C:Бухгалтерия Абонемент ($m)

Отображение и просмотр реквизитов справочника или документа - с бесконечным открытием подуровней.

1 стартмани

14.06.2024    3781    12    RustIG    30    

22

Поиск данных Системный администратор Программист Платформа 1С v8.3 Россия Абонемент ($m)

Статья об опыте развертывания и интеграции с базой данных Manticore Search для быстрого полнотекстового поиска.

1 стартмани

30.11.2023    5196    andreysidor4uk    18    

55

Поиск данных Системный администратор Программист Пользователь Платформа 1С v8.3 1C:Бухгалтерия Абонемент ($m)

Стандартная обработка с доработанным выводом ссылок в виде дерева с учётом фильтра и с удобным подбором исходного объекта

2 стартмани

24.11.2023    1383    15    SerVer1C    10    

10

Поиск данных Корректировка данных Пользователь Платформа 1С v8.3 Управляемые формы 1C:Бухгалтерия Абонемент ($m)

PowerOffice - обработка для поиска, просмотра и обработки данных для пользователей. Доступ к объектам на просмотр и редактирование данных определяется правами пользователя.

1 стартмани

05.06.2023    2469    26    PowerBoy    1    

16

Поиск данных Программист Платформа 1С v8.3 Управляемые формы 1C:Бухгалтерия Абонемент ($m)

Получение ссылки в 1С по бинарной строке из PostgreSQL в виде строки формата bytea или из MSSQL в виде шестнадцатиричной строки. Кроме ссылочных объектов ссылки могут быть получены и для перечислений. Это может быть полезно при анализе логов журнала регистрации или СУБД.

1 стартмани

04.04.2023    3395    4    berserg    2    

13
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. ivanov660 4690 15.10.24 09:08 Сейчас в теме
Под алгоритмом векторизации вы понимаете что-то типа алгоритма шинглов, т.к. обычно в чистом виде ее применяют для подготовки данных при работе с нейронными сетями?
Или непосредственно создаете многомерный вектор из токенов и от него находите косинус? Тогда это получается слишком ресурсоемко. На мой взгляд, лучше использовать алгоритм TF-IDF с хорошей обработкой входных слов.
2. user785225 26 16.10.24 11:05 Сейчас в теме
(1)
многомерный вектор из токенов и от него находите косинус

Да, но отличие от алгоритма по сути только в упрощенной предобработке данных
и "шингл" здесь - не слова, а N подряд идущих символов (N=Длина токена).

(1)
слишком ресурсоемко

Возможно. Но как формализовать это понятие? ) на хранение векторов с длиной токена 2 ~100-200 kb + 10 мс на 1 сравнение - в рамках прикладной задачки вполне оправдано

TF-IDF
- обязательно гляну на неделе. Вопрос как обычно стоял срочно, здесь и сейчас. Поэтому такое решение
Оставьте свое сообщение