А. Н. Лукьянов, А. М. Трамова, “Метод оценки степени доверия к само-объяснениям GPT-моделей”, Известия Кабардино-Балкарского научного центра РАН, 2024, том 26, выпуск 4,страницы 54

Информатика и информационные процессы

Метод оценки степени доверия к само-объяснениям GPT-моделей

А. Н. Лукьянов, А. М. Трамова

Российский экономический университет им. Г. В. Плеханова, 117997, Россия, Москва, Стремянный переулок, 36

Аннотация: Со стремительным ростом использования генеративных нейросетевых моделей для решения практических задач все более остро встает проблема объяснения их решений. По мере ввода решений на основе нейросетей в медицинскую практику, государственное управление и сферу обороны требования к таким системам в плане их интерпретируемости однозначно будут расти. В данной работе предложен метод проверки достоверности само-объяснений, которые модели дают постфактум, посредством сравнения распределения внимания модели во время генерации ответа и его объяснения. Авторами предложены и разработаны методы для численной оценки степени достоверности ответов генеративных предобученных трансформеров. Предлагается использовать расхождение Кульбака – Лейблера над распределениями внимания модели во время выдачи ответа и следующего за этим объяснения. Также предлагается вычислять отношение внимания модели между изначальным запросом и сгенерированным объяснением с целью понять, насколько само-объяснение было обусловлено собственным ответом. Для получения данных величин предлагается алгоритм для рекурсивного вычисления внимания модели по шагам генерации. В результате исследования была продемонстрирована работа предложенных методов, найдены значения метрик, соответствующие корректным и некорректным объяснениям и ответам. Был проведен анализ существующих в настоящий момент методов определения достоверности ответов генеративных моделей, причем подавляющее большинство из них сложно интерпретируемые обычным пользователем. В связи с этим мы выдвинули собственные методы, проверив их на наиболее широко используемых на момент написания генеративных моделях, находящихся в открытом доступе. В результате мы получили типичные значения для предложенных метрик, алгоритм их вычисления и визуализации.

Ключевые слова: нейронные сети, метрики, языковые модели, интерпретируемость, LLM, GPT, XAI

УДК: 004.054

MSC: 68T09

Поступила в редакцию: 24.06.2024
Исправленный вариант: 01.08.2024
Принята в печать: 07.08.2024

DOI: 10.35330/1991-6639-2024-26-4-54-61