Аннотация:
В последние годы в сфере обработки естественного языка широкое распространение получили большие языковые модели. Но, несмотря на их востребованность, их применение становится затруднительным из-за больших затрат времени, энергии и памяти.
Одним из способов решения этой проблемы является квантизация нейронных сетей - преобразование весов и активаций сети к представлению с более низкой точностью. Частным случаем квантизации является бинаризация - приведение параметров сети к разрядности $1$ бит.
В работе рассмотрена структура бинарных нейронных сетей, приведен обзор текущих методов бинаризации языковых моделей, описаны полученные результаты.
Ключевые слова:
обработка естественного языка, бинарные нейронные сети, бинаризация, квантизация, большие языковые модели