RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 246–258 (Mi znsl7640)

Определение водянистости текстовых документов

Д. Р. Талдытоваa, В. А. Малыхb

a НИТУ МИСиС
b Университет ИТМО

Аннотация: Избыточность текста – это информация, представленная в предложении, абзаце или тексте более одного раза. Проблема выявления и устранения избыточности до сих пор недостаточно изучена. В данной работе мы исследовали избыточность, или “водянистость”, текстовых документов и методы её оценки.
Мы собрали датасет, который может быть использован для обучения или дообучения моделей для задачи устранения избыточности текста. Он был основан на подборке статей из российских СМИ и был создан с использованием русскоязычных LLM Saiga и Yandex GPT Lite.
Мы также провели сравнительный анализ русскоязычных LLM по сжатию текстовых документов. Был сделан вывод, что среди моделей лучшей является Gigachat Lite, и близкие к ней результаты показывает модель Saiga. Библ. – 28 назв.

Ключевые слова: большие языковые модели, суммаризация текста, избыточность текста.

УДК: 004.912

Поступило: 28.02.2025



© МИАН, 2026