Аннотация:
Со стремительным ростом использования генеративных нейросетевых моделей
для решения практических задач все более остро встает проблема объяснения их решений. По
мере ввода решений на основе нейросетей в медицинскую практику, государственное управление
и сферу обороны требования к таким системам в плане их интерпретируемости однозначно будут
расти. В данной работе предложен метод проверки достоверности само-объяснений, которые
модели дают постфактум, посредством сравнения распределения внимания модели во время
генерации ответа и его объяснения. Авторами предложены и разработаны методы для численной
оценки степени достоверности ответов генеративных предобученных трансформеров. Предлагается
использовать расхождение Кульбака – Лейблера над распределениями внимания модели во время
выдачи ответа и следующего за этим объяснения. Также предлагается вычислять отношение
внимания модели между изначальным запросом и сгенерированным объяснением с целью понять,
насколько само-объяснение было обусловлено собственным ответом. Для получения данных
величин предлагается алгоритм для рекурсивного вычисления внимания модели по шагам генерации.
В результате исследования была продемонстрирована работа предложенных методов, найдены
значения метрик, соответствующие корректным и некорректным объяснениям и ответам. Был
проведен анализ существующих в настоящий момент методов определения достоверности ответов
генеративных моделей, причем подавляющее большинство из них сложно интерпретируемые
обычным пользователем. В связи с этим мы выдвинули собственные методы, проверив их на
наиболее широко используемых на момент написания генеративных моделях, находящихся в
открытом доступе. В результате мы получили типичные значения для предложенных метрик,
алгоритм их вычисления и визуализации.