Аннотация:
Часто в научных и технических текстах важная информация модержится в математических формулах и не может быть получена непосредственно из текста. Это затрудняет процесс обработки таких текстов классическими языковыми моделями. Модели, способные обрабатывать текст с вкраплениями математических формул, разрабатываются для английского языка, в то время как для русского языка такие работы отсутствуют. В данной статье мы представляем RuMathBERT – модель, обученную на русскоязычных текстах, которая может быть использована для обработки научных текстов, содержащих формулы.При оценке качества модели было обнаружено, что RuMathBERT показывает более глубокое понимание семантики формул и их взаимосвязи с окружающим контекстом. Набор данных, который был использован для обучения и тестирования модели, доступен по ссылке https://huggingface.co/datasets/iis-research-team/ruwiki-formulae. Полученная модель является открытой и доступна по ссылке https://huggingface.co/iis-research-team/RuMathBERT. Библ. – 16 назв.
Ключевые слова:
BERT, математические тексты, формулы, обработка естественных языков.