Векторизация текста и нечеткий поиск лучшего совпадения со строкой

15.10.24

Задачи пользователя - Поиск данных

Векторизация идеальна, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1+ лучшее вхождение (которое гарантированно там есть).

Скачать файл

ВНИМАНИЕ: Файлы из Базы знаний - это исходный код разработки. Это примеры решения задач, шаблоны, заготовки, "строительные материалы" для учетной системы. Файлы ориентированы на специалистов 1С, которые могут разобраться в коде и оптимизировать программу для запуска в базе данных. Гарантии работоспособности нет. Возврата нет. Технической поддержки нет.

Наименование По подписке [?] Купить один файл
Векторизация текста и нечеткий поиск лучшего совпадения со строкой
.epf 9,38Kb
4
4 Скачать (1 SM) Купить за 1 850 руб.

Векторизация текста на языке 1С. Простейший пример. Используется в реальной работе в обработке Контур.Диадок при подборе Склада по произвольному человекочитаемому комментарию, содержащему Адрес склада (и другую инфомрацию)

Подходит для использования, если нужно осуществить нечеткий поиск по 100-200 строкам и найти 1 лучшее вхождение (которое гарантированно там есть). Также

  • инвариантно к РеГиСтРу, наличию      повторению илиотсутствиюв    тексте   пробелов и знаков препинания и т.д.
  • инвариантно к положению мест словами (слов местами)
  • множество значений функции КосинусноеПроизведение: [0; 1] - можно спрогнозировать порог адекватности похожести строк
  • приемлемая скорость поиска ~100 строк/сек
  • легко внедрять: 3 функции/50 строчек кода, работающие в любой конфигурации.

Проверено на следующих конфигурациях и релизах:

  • Управление нашей фирмой, редакция 3.0, релизы 3.0.9.163
  • Управление торговлей, редакция 11, релизы 11.5.19.74

Векторизация текста косинусная подобность скалярное произведение

См. также

Поиск данных Внешние источники данных Системный администратор Программист Платформа 1С v8.3 Конфигурации 1cv8 Платные (руб)

Если вам нужно автоматически генерировать представления (view) к вашей базе данных 1С (есть две версии - для СУБД MS SQL Server и для PostgreSQL) по структуре метаданных 1С, то вам необходима данная обработка. Наш "Генератор View", другими словами - это коннектор к данным 1С для Power BI - незаменимый помощник для бизнес-аналитиков, работающих с базами 1С из Yandex Datalens/Power BI и т.д. Работает для обычных и управляемых форм под 1С 8.3

230000 руб.

31.07.2020    13733    13    48    

25

Поиск данных Системный администратор Программист Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Платные (руб)

Обработки помогут Вам легко и, главное, быстро (в 5 раз и быстрее штатной обработки 1С), выполнить поиск дублирующих данных в Ваших базах 1С на платформах 8.1-8.3. Это позволит уменьшить объем лишней информации в справочниках и документах, планах видов характеристик и др., упростит работу с данными пользователям. А так же можно, одним нажатием, узнать в каких ссылочных объектах есть вообще дубли! Понятное расположение команд и настроек, в сочетании с описанием и справкой, еще упростят процесс. А так же обновления Вы получаете бесплатно в течение года с момента приобретения данных обработок! (Обновление от 27.11.2023, версия 6.12)

10800 руб.

14.05.2012    158936    336    253    

570

Розничная торговля WEB-интеграция Поиск данных Пользователь Платформа 1С v8.3 Оперативный учет 1С:Розница 2 1С:Управление торговлей 11 Управленческий учет Платные (руб)

Альтернатива сервису 1С Номенклатура, не требует подписки ИТС, ищет данные в открытых источниках. Для поиска товара по штрихкоду в сети интернет, полезно для первоначального заполнения базы.

1999 руб.

15.10.2020    18966    23    63    

24

Математика и алгоритмы Инструментарий разработчика Универсальные функции Поиск данных Программист Платформа 1С v8.3 Конфигурации 1cv8 1С:ERP Управление предприятием 2 Абонемент ($m)

Несколько упакованных в один класс интерфейсов для обработки популярных универсальных коллекций. Для тех, кого раздражает отсутствие действительно единого интерфейса для универсальных коллекций.

5 стартмани

25.09.2024    2215    0    Артано    14    

19

Поиск данных Программист Платформа 1С v8.3 Россия Бесплатно (free)

В этой статье я хочу рассмотреть еще один кейс применения Clickhouse в связке с 1С - оптимизацию поиска в справочнике по ключевым словам. Здесь не будет готового решения, но будут описаны важные моменты, которые позволят легко применить данный кейс в реальности.

18.08.2024    1791    1cnik2    23    

14

Поиск данных Программист Платформа 1С v8.3 Конфигурации 1cv8 Абонемент ($m)

Отображение и просмотр реквизитов справочника или документа - с бесконечным открытием подуровней.

1 стартмани

14.06.2024    3389    7    RustIG    26    

22

Поиск данных Системный администратор Программист Платформа 1С v8.3 Россия Абонемент ($m)

Статья об опыте развертывания и интеграции с базой данных Manticore Search для быстрого полнотекстового поиска.

1 стартмани

30.11.2023    4543    andreysidor4uk    18    

53

Поиск данных Корректировка данных Пользователь Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Абонемент ($m)

PowerOffice - обработка для поиска, просмотра и обработки данных для пользователей. Доступ к объектам на просмотр и редактирование данных определяется правами пользователя.

1 стартмани

05.06.2023    2324    25    PowerBoy    1    

15
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. ivanov660 4577 15.10.24 09:08 Сейчас в теме
Под алгоритмом векторизации вы понимаете что-то типа алгоритма шинглов, т.к. обычно в чистом виде ее применяют для подготовки данных при работе с нейронными сетями?
Или непосредственно создаете многомерный вектор из токенов и от него находите косинус? Тогда это получается слишком ресурсоемко. На мой взгляд, лучше использовать алгоритм TF-IDF с хорошей обработкой входных слов.
2. user785225 26 16.10.24 11:05 Сейчас в теме
(1)
многомерный вектор из токенов и от него находите косинус

Да, но отличие от алгоритма по сути только в упрощенной предобработке данных
и "шингл" здесь - не слова, а N подряд идущих символов (N=Длина токена).

(1)
слишком ресурсоемко

Возможно. Но как формализовать это понятие? ) на хранение векторов с длиной токена 2 ~100-200 kb + 10 мс на 1 сравнение - в рамках прикладной задачки вполне оправдано

TF-IDF
- обязательно гляну на неделе. Вопрос как обычно стоял срочно, здесь и сейчас. Поэтому такое решение
Оставьте свое сообщение