RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Информатика, телекоммуникации и управление, 2024, том 17, выпуск 3, страницы 93–102 (Mi ntitu372)

Решение прикладных задач методами искусственного интеллекта

Development of the system of automatic generation of database model on the basis of the task text in natural language

[Разработка системы автоматической генерации модели базы данных на основе текста задания на естественном языке]

I. A. Lapin, O. Yu. Sabinin

Peter the Great St. Petersburg Polytechnic University

Аннотация: В данной статье описывается подход к реализации системы, которая позволила бы автоматически составлять модель базы данных по приведенному пользователем описанию на естественном языке. Рассматриваются и применяются различные методы машинного обучения, такие как трансформер, распознавание именованных сущностей и извлечение отношений. При реализации нейросетевой модели применяются возможности фреймворка spaCy для организации общего пайплайна для обучения. Также используются готовые реализации некоторых отдельных компонентов из spaCy, в то время как остальные являются пользовательскими. Кроме того, в статье описывается процесс сбора исходных данных для обучения нейросетевой модели, а также формирование из них надлежащего корпуса. Для этих целей используется специализированный инструмент для аннотирования – Doccano, который удовлетворяет всем функциональным требованиям, а также находится в свободном доступе. Наконец, в статье приводятся используемые при обучении параметры модели и полученные метрики производительности. В результате проведенного исследования авторам удалось достигнуть высоких показателей для компонента named entity recognition, в то время как показатели производительности для компонента relation extraction можно еще улучшить. В конце статьи приводятся возможные направления дальнейшей работы над реализацией описанной системы.

Ключевые слова: обработка естественного языка, распознавание именованных сущностей, извлечение отношений, анализ текста, классификация, реляционные базы данных, построение моделей.

УДК: 004.652:004.912

Поступила в редакцию: 22.04.2024

Язык публикации: английский

DOI: 10.18721/JCSTCS.17309



© МИАН, 2026