О. В. Гончарова, “Глубокое обучение и лингвистический анализ в задачах идентификации когнатов: обзор современных подходов”, Труды ИСП РАН, 2025, том 37, выпуск 6(2),страницы 177

Глубокое обучение и лингвистический анализ в задачах идентификации когнатов: обзор современных подходов

О. В. Гончарова^abc

^a Институт системного программирования РАН
^b Российский университет дружбы народов имени Патриса Лумумбы
^c Федеральное государственное бюджетное образовательное учреждение высшего образования «Пятигорский государственный университет»

Аннотация: В статье представлен обзор современных подходов к автоматическому обнаружению когнатов, сочетающий методы глубокого обучения и классические лингвистические техники. Основная цель исследования - систематизировать существующие архитектуры, выявить их сильные и слабые стороны и предложить интегративную модель, объединяющую фонетические, морфологические и семантические представления лексических данных. Для достижения этой цели проведён критический анализ работ, опубликованных в период 2015–2025 гг. и отобранных с помощью специализированного парсера научного репозитория arXiv.org. В рамках анализа рассмотрены следующие задачи: (1) оценка точности и устойчивости сиамских сверточных нейронных сетей (CNN) и трансформеров при переносе фонетических паттернов между разнородными языковыми семьями; (2) сопоставление эффективности орфографических метрик (LCSR, нормализованное расстояние Левенштейна, индексы Джарро-Винклера и др.) и семантических эмбеддингов (fastText, MUSE, VecMap, XLM-R); (3) исследование гибридных архитектур, включающих морфологические слои и механизмы транзитивности для выявления частичных когнатов. В результате выявлено, что комбинирование фонетических модулей (сиамские CNN + трансформеры), морфологической обработки (BiLSTM на основе данных UniMorph) и обучаемых семантических векторов обеспечивает наилучшие показатели точности и устойчивости для различных языковых пар, включая малоресурсные. Предложена интегративная архитектура, способная адаптироваться к разнообразию языковых групп и эффективно оценивать степень родства слов. Итогом работы стал не только аналитический отчёт о передовых методах, но и разработка рекомендаций для дальнейшего развития автоматизированного выявления когнатов.

Ключевые слова: глубокое обучение, лингвистический анализ, идентификация когнатов, сиамские нейронные сети, трансформеры, орфографические метрики, семантические эмбеддинги

DOI: 10.15514/ISPRAS-2025-37(6)-28