Аннотация:
Быстрый рост числа ежегодно публикуемых научных статей создает значительную нагрузку на редакторов научных журналов и организаторов конференций, в частности, оперативный подбор подходящих рецензентов становится сложной задачей. Автоматизация этого процесса затруднена из-за отсутствия общедоступной информации о рецензентах уже опубликованных статей в условиях двойного слепого рецензирования. В данной работе мы сделали первые шаги к разработке системы рекомендации рецензентов. Наше исследование сосредоточено на русскоязычных научных статьях по математике. В основе нашего подхода лежит сравнение семантики целевой статьи с семантикой статей из внешней базы данных. Наиболее похожие статьи из базы агрегируются по авторам, формируя список потенциальных рецензентов. Этот список дополнительно уточняется с помощью набора фильтров. Кроме того, был проведён эксперимент с ранжированием наиболее подходящих кандидатов с использованием большой языковой модели (LLM). Для оценки качества рекомендаций мы использовали несколько метрик на основе Универсальной десятичной классификации (УДК), в том числе, точность (Accuracy) по УДК. Наилучшие результаты были достигнуты с использованием моделей эмбеддингов E5-multilingual и E5-mistral. Нам удалось добиться качества выше 0,88 по метрике УДК Accuracy@1. Введение этапа переранжирования на основе LLM дало неоднозначные предварительные результаты. Хотя это улучшило метрики точности и полноты при малых значениях k, эксперты в ходе ручной проверки отдали предпочтение конфигурации системы без переранжирования. В то же время оценки экспертов были преимущественно положительными: большинство рекомендаций получили оценки 4 и 5 по пятибалльной шкале. Библ. – 23 назв.
Ключевые слова:
научные статьи, подбор рецензентов, большие языковые модели, векторные модели текста, рекомендательные системы.