RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2024, том 36, выпуск 5, страницы 227–240 (Mi tisp934)

H1: гибридная система извлечения информации для поиска товаров в электронной торговле

Ф. В. Краснов

Исследовательский центр ООО "ВБ СК" на базе Инновационного Центра Сколково

Аннотация: В данной статье обоснована продуктивность использования системы H1 для поиска товаров различных поставщиков на торговой интернет-площадке. Как и все современные системы поиска товаров, гибридная система H1 соединяет в себе преимущества лексических методов извлечения товаров и семантических методов, основанных на многомерных векторных представлениях. Новизна предложенного подхода заключается в объединении методов извлечения на уровне токенов. Дополнительное преимущество H1, по сравнению с другими индустриальными системами, – обработка поисковых запросов, состоящих из нескольких слов. Например, поисковые запросы «конфеты рот фронт», «gloria jeans детская одежда» будут выделять сущность бренда в отдельный токен – «рот фронт», «gloria jeans», что позволит уменьшить размер модели и улучшить автономные показатели системы извлечения. Полученные на публичном наборе данных WANDS значения показателей усредненной пороговой точности mAP@12 = 56.1% и пороговой полноты R@1k = 86.6% для H1 превышают самые современные аналоги.

Ключевые слова: информационный поиск по товарам, распознавание бизнес-терминов, суб-словарная токенизация, трансформеры, электронная коммерция.

DOI: 10.15514/ISPRAS-2024-36(5)-16



© МИАН, 2026