RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 432–448 (Mi danma699)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Интерпретация классификаторов на основе архитектуры трансформер с помощью кластеризации

Г. М. Грицайab, А. В. Грабовойab

a Компания Антиплагиат, Москва, Россия
b Московский физико-технический институт (национальный исследовательский университет), Москва, Россия

Аннотация: Модели на основе архитектуры трансформер, особенно такие как BERT, стали стандартом для решения задач обработки естественного языка (NLP): классификации текстов, суммаризации, ответов на вопросы. Их высокая эффективность не вызывает сомнений, однако ключевой проблемой остается интерпретируемость. Понимание причин, по которым модели принимают те или иные решения, критически важно для повышения доверия к ним, выявления предвзятости и соблюдения этических и правовых норм. Существующие методы объяснений сосредоточены на выявлении отдельных значимых токенов или взаимодействий только между соседними токенами или их парами, игнорируя глобальный контекст. Это ограничивает их информативность, поскольку такие объяснения часто не отражают логику принятия решений на уровне, понятном человеку. В данной работе предлагается подход, переводящий предсказания модели в объяснения на естественном языке. Алгоритм основан на кластеризации слоев трансформера: из кластеров извлекаются метки, формируются индексы для отбора близких примеров, которые затем подаются в большие языковые модели (Large Language Models, LLM) с целью выявления ключевых общих признаков на естественном языке. Частотный анализ этих признаков в примерах лежит в основе доказательной базы с определенной вероятностью. В задаче обнаружения машинно-стенерированных текстов выявленный подход показывает, как классификаторы могут опираться на стилистические подсказки или структурные аномалии.

Ключевые слова: интерпретируемость, объяснимость, трансформер, классификация, языковая модель, машинно-стенерированный текст, кластеризация.

УДК: 004.9

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070379



Реферативные базы данных:


© МИАН, 2026