RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 6–31 (Mi znsl7627)

Efficient tokenization: balancing babymmlu, fertility and speed

[Эффективная токенизация: баланс между BabyMMLU, чувствительностью и скоростью]

I. Bychkov, F. Chernogorskii, S. Averkiev, A. Fenogenova

SberDevices

Аннотация: В области обработки естественного языка (NLP) токенизация – важный этап предварительной обработки, существенно влияющий на производительность модели. Выбор токенизатора играет ключевую роль, особенно в современных условиях, когда обучение больших языковых моделей требует значительных затрат. В нашем исследовании рассматриваются преимущества и ограничения различных токенизаторов, работающих на уровне частей слов. На основе анализа мы предлагаем практический подход к сравнению этих токенизаторов, учитывая такие факторы, как эффективность токенизации, размер словаря и скорость работы. В статье рассматриваются существующие методы оценки токенизаторов и предлагается новый датасет для их оценки. Таким образом, данная работа призвана помочь исследователям в выборе и обучении наиболее подходящих токенизаторов для конкретных задач, особенно в условиях ограниченных ресурсов для обучения. Наша цель – содействовать принятию обоснованных решений при выборе токенизатора и повысить качество языковых моделей. Библ. – 32 назв.

Ключевые слова: NLP, обработка естественного языка, LLM, большие языковые модели, токенизатор, токенизация, оптимизация, бенчмаркинг, датасет.

УДК: 004.89

Поступило: 28.02.2025

Язык публикации: английский



© МИАН, 2026