Аннотация:
В статье представлен обзор современных подходов к автоматическому обнаружению когнатов, сочетающий методы глубокого обучения и классические лингвистические техники. Основная цель исследования - систематизировать существующие архитектуры, выявить их сильные и слабые стороны и предложить интегративную модель, объединяющую фонетические, морфологические и семантические представления лексических данных. Для достижения этой цели проведён критический анализ работ, опубликованных в период 2015–2025 гг. и отобранных с помощью специализированного парсера научного репозитория arXiv.org. В рамках анализа рассмотрены следующие задачи: (1) оценка точности и устойчивости сиамских сверточных нейронных сетей (CNN) и трансформеров при переносе фонетических паттернов между разнородными языковыми семьями; (2) сопоставление эффективности орфографических метрик (LCSR, нормализованное расстояние Левенштейна, индексы Джарро-Винклера и др.) и семантических эмбеддингов (fastText, MUSE, VecMap, XLM-R); (3) исследование гибридных архитектур, включающих морфологические слои и механизмы транзитивности для выявления частичных когнатов. В результате выявлено, что комбинирование фонетических модулей (сиамские CNN + трансформеры), морфологической обработки (BiLSTM на основе данных UniMorph) и обучаемых семантических векторов обеспечивает наилучшие показатели точности и устойчивости для различных языковых пар, включая малоресурсные. Предложена интегративная архитектура, способная адаптироваться к разнообразию языковых групп и эффективно оценивать степень родства слов. Итогом работы стал не только аналитический отчёт о передовых методах, но и разработка рекомендаций для дальнейшего развития автоматизированного выявления когнатов.