Н. О. Дородных, А. Ю. Юрин, “Набор табличных данных RF-200 и тестирование производительности извлечения фактов из русскоязычных таблиц”, Труды ИСП РАН, 2025, том 37, выпуск 5,страницы 205

Набор табличных данных RF-200 и тестирование производительности извлечения фактов из русскоязычных таблиц

Н. О. Дородных, А. Ю. Юрин

Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук

Аннотация: В настоящее время огромное количество данных представлено в виде таблиц. Они повсеместно используются при решении различных практических задач в разных областях. Для семантической интерпретации (аннотирования) таблиц и построения на их основе графов знаний разрабатывается специализированное методологическое и программное обеспечение. Эффективное тестирование подобного обеспечения требует создания и использования русскоязычных наборов данных. В данной статье предложен русскоязычный набор табличных данных RF-200, содержащий 200 таблиц из 26 предметных областей, размеченных с использованием платформы Talisman. Приведены результаты тестирования производительности авторского подхода к извлечению фактов из русскоязычных таблиц с использованием RF-200, при которых F-мера достигла значения 0.464, превзойдя традиционные методы извлечения фактов из текстов (F1 = 0.277). Результаты подчеркивают важность специализированных решений для работы со структурированными данными, особенно для русскоязычных источников. Практическая значимость работы заключается в интеграции подхода в платформу Talisman, что расширяет возможности семантической аналитики, проводимой по таблицам. Исследование вносит вклад в автоматизацию обработки таблиц, решая проблему семантической интерпретации в условиях лингвистического разнообразия, и открывает перспективы для интеграции методов глубокого обучения и масштабирования созданного набора данных.

Ключевые слова: граф знаний, разработка графов знаний, пополнение графов знаний, таблица, русскоязычный набор табличных данных, извлечение фактов, тестирование производительности.

DOI: 10.15514/ISPRAS-2025-37(5)-16