RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2025, выпуск 3, страницы 130–142 (Mi iipr644)

Анализ текстовой и графической информации

Анализ значимости слоев больших языковых моделей

В. С. Головизнина, Е. В. Котельников

Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия

Аннотация: В статье анализируется значимость слоев больших языковых моделей в вопросно-ответной задаче. Для анализа использовались модели LLaMA-2-7B-Chat-GPTQ, Vicuna-7B v1.5-GPTQ и Mistral-7B-v0.1-GPTQ, а также русскоязычный датасет MuSeRC. Модели дообучались методом QLoRA, на основе добавления адаптеров к различным слоям. Качество ответов оценивалось с помощью модели GPT-4o, которая продемонстрировала высокую корреляцию с оценками аннотатора. Показано, что для инструктивных моделей (LLaMA и Vicuna) наиболее значимыми являются последние четыре слоя, а для базовой модели Mistral – первые четыре слоя. Добавление адаптера только к одному слою (последнему для LLaMA и Vicuna или первому для Mistral) оказалось более эффективным по качеству и объему параметров, чем дообучение всех 32 слоев. Результаты исследования демонстрируют, что выбор конкретных слоев для дообучения может повысить эффективность языковых моделей, снижая при этом вычислительные затраты.

Ключевые слова: интерпретация, роль слоев в обучении, большие языковые модели, вопросно-ответная задача, MuSeRC, LLM-as-a-Judge.

DOI: 10.14357/20718594250310



© МИАН, 2026