Аннотация:
В статье анализируется значимость слоев больших языковых моделей в вопросно-ответной задаче. Для анализа использовались модели LLaMA-2-7B-Chat-GPTQ, Vicuna-7B v1.5-GPTQ и Mistral-7B-v0.1-GPTQ, а также русскоязычный датасет MuSeRC. Модели дообучались методом QLoRA, на основе добавления адаптеров к различным слоям. Качество ответов оценивалось с помощью модели GPT-4o, которая продемонстрировала высокую корреляцию с оценками аннотатора. Показано, что для инструктивных моделей (LLaMA и Vicuna) наиболее значимыми являются последние четыре слоя, а для базовой модели Mistral – первые четыре слоя. Добавление адаптера только к одному слою (последнему для LLaMA и Vicuna или первому для Mistral) оказалось более эффективным по качеству и объему параметров, чем дообучение всех 32 слоев. Результаты исследования демонстрируют, что выбор конкретных слоев для дообучения может повысить эффективность языковых моделей, снижая при этом вычислительные затраты.
Ключевые слова:
интерпретация, роль слоев в обучении, большие языковые модели, вопросно-ответная задача, MuSeRC, LLM-as-a-Judge.