RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 193–202 (Mi znsl7637)

RuMathBERT: a Russian-language model for mathematical formula interpretation

[RuMathBERT: русскоязычная модель для семантического анализа математических формул]

A. Latushkoa, E. Bruchesba

a Novosibirsk State University
b Institute of Informatics Systems SB RAS

Аннотация: Часто в научных и технических текстах важная информация модержится в математических формулах и не может быть получена непосредственно из текста. Это затрудняет процесс обработки таких текстов классическими языковыми моделями. Модели, способные обрабатывать текст с вкраплениями математических формул, разрабатываются для английского языка, в то время как для русского языка такие работы отсутствуют. В данной статье мы представляем RuMathBERT – модель, обученную на русскоязычных текстах, которая может быть использована для обработки научных текстов, содержащих формулы.При оценке качества модели было обнаружено, что RuMathBERT показывает более глубокое понимание семантики формул и их взаимосвязи с окружающим контекстом. Набор данных, который был использован для обучения и тестирования модели, доступен по ссылке https://huggingface.co/datasets/iis-research-team/ruwiki-formulae. Полученная модель является открытой и доступна по ссылке https://huggingface.co/iis-research-team/RuMathBERT. Библ. – 16 назв.

Ключевые слова: BERT, математические тексты, формулы, обработка естественных языков.

УДК: 004.912

Поступило: 05.05.2025

Язык публикации: английский



© МИАН, 2026