RUS  ENG
Полная версия
ЖУРНАЛЫ // Computational nanotechnology // Архив

Comp. nanotechnol., 2025, том 12, выпуск 4, страницы 13–19 (Mi cn588)

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

Извлечение знаний в формате триплетов с использованием дообученных больших языковых моделей

Б. Р. Зиннуров, З.М. Гизатуллин

Казанский национальный исследовательский технический университет им. А.Н. Туполева – КАИ

Аннотация: Извлечение структурированной информации из текста является одной из ключевых задач в области обработки естественного языка. Большие языковые модели в задачах извлечения информации достигают высокой точности благодаря предобучению на огромных объемах данных. Однако такие модели требуют значительных вычислительных ресурсов и недоступны для локального использования из-за зависимости от облачной инфраструктуры. Поэтому в настоящее время для решения этой проблемы, все чаще используют компактные открытые большие языковые модели, которые можно дообучить локально. Цель работы – сравнительная оценка эффективности дообучения компактных больших языковых моделей для автоматизированного извлечения информации в формате триплетов из неструктурированного текста. В работе использовалась модель Mistral с семи млрд параметров. Дообучение модели было проведено на собственном наборе данных, состоящем из 650 примеров, где каждая запись содержала инструкцию, входной текст и ожидаемый ответ. Полученные результаты подтверждают эффективность дообучения: критерий F1-мера вырос в разы в сравнении с базовой моделью. Дообученная версия модели демонстрирует конкурентоспособность с крупной большой языковой моделью DeepSeek с 685 млрд параметров. Полученные результаты подчеркивают потенциал компактных открытых больших языковых моделей для задач извлечения знаний в условиях ограниченных ресурсов, например, для задачи построения графов знаний.

Ключевые слова: большая языковая модель, дообучение, настройка инструкций, извлечение триплетов, граф знаний.

УДК: 303.732;004.94;004.8

DOI: 10.33693/2313-223X-2025-12-4-13-19



© МИАН, 2026