Аннотация:
Извлечение структурированной информации из текста является одной из ключевых задач в области обработки естественного языка. Большие языковые модели в задачах извлечения информации достигают высокой точности благодаря предобучению на огромных объемах данных. Однако такие модели требуют значительных вычислительных ресурсов и недоступны для локального использования из-за зависимости от облачной инфраструктуры. Поэтому в настоящее время для решения этой проблемы, все чаще используют компактные открытые большие языковые модели, которые можно дообучить локально. Цель работы – сравнительная оценка эффективности дообучения компактных больших языковых моделей для автоматизированного извлечения информации в формате триплетов из неструктурированного текста. В работе использовалась модель Mistral с семи млрд параметров. Дообучение модели было проведено на собственном наборе данных, состоящем из 650 примеров, где каждая запись содержала инструкцию, входной текст и ожидаемый ответ. Полученные результаты подтверждают эффективность дообучения: критерий F1-мера вырос в разы в сравнении с базовой моделью. Дообученная версия модели демонстрирует конкурентоспособность с крупной большой языковой моделью DeepSeek с 685 млрд параметров. Полученные результаты подчеркивают потенциал компактных открытых больших языковых моделей для задач извлечения знаний в условиях ограниченных ресурсов, например, для задачи построения графов знаний.
Ключевые слова:
большая языковая модель, дообучение, настройка инструкций, извлечение триплетов, граф знаний.