Аннотация:
Избыточность текста – это информация, представленная в предложении, абзаце или тексте более одного раза. Проблема выявления и устранения избыточности до сих пор недостаточно изучена. В данной работе мы исследовали избыточность, или “водянистость”, текстовых документов и методы её оценки.
Мы собрали датасет, который может быть использован для обучения или дообучения моделей для задачи устранения избыточности текста. Он был основан на подборке статей из российских СМИ и был создан с использованием русскоязычных LLM Saiga и Yandex GPT Lite.
Мы также провели сравнительный анализ русскоязычных LLM по сжатию текстовых документов. Был сделан вывод, что среди моделей лучшей является Gigachat Lite, и близкие к ней результаты показывает модель Saiga. Библ. – 28 назв.
Ключевые слова:
большие языковые модели, суммаризация текста, избыточность текста.