Аннотация:
В области обработки естественного языка (NLP) токенизация – важный этап предварительной обработки, существенно влияющий на производительность модели. Выбор токенизатора играет ключевую роль, особенно в современных условиях, когда обучение больших языковых моделей требует значительных затрат. В нашем исследовании рассматриваются преимущества и ограничения различных токенизаторов, работающих на уровне частей слов. На основе анализа мы предлагаем практический подход к сравнению этих токенизаторов, учитывая такие факторы, как эффективность токенизации, размер словаря и скорость работы. В статье рассматриваются существующие методы оценки токенизаторов и предлагается новый датасет для их оценки. Таким образом, данная работа призвана помочь исследователям в выборе и обучении наиболее подходящих токенизаторов для конкретных задач, особенно в условиях ограниченных ресурсов для обучения. Наша цель – содействовать принятию обоснованных решений при выборе токенизатора и повысить качество языковых моделей. Библ. – 32 назв.
Ключевые слова:
NLP, обработка естественного языка, LLM, большие языковые модели, токенизатор, токенизация, оптимизация, бенчмаркинг, датасет.