Аннотация:
Мы представляем JDCEmb – новый фреймворк для обучения универсальных векторных представлений в задачах целеориентированных диалогов. Ключевую роль в таких системах играют текстовые кодировщики, от качества которых зависит эффективность диалоговых систем. Современные подходы к обучению диалоговых кодировщиков часто опираются на контрастивные методы, которые повышают различимость представлений, но чувствительны к выбору положительных и отрицательных пар. Это может приводить к потере важной смысловой информации. Методы, основанные на дистилляции знаний, наоборот, передают больше контекста, но хуже различают схожие реплики и плохо работают с тонкими смысловыми различиями. JDCEmb сочетает сильные стороны обоих подходов за счет архитектуры типа “учитель-ученик”, где модель-ученик одновременно обучается контрастивно и выравнивается с векторными представлениями модели-учителя. Такая комбинация позволяет одновременно сохранить смысловую полноту и повысить различимость векторных представлений, что критически важно для диалоговых систем. Экспериментальные результаты на ключевых диалоговых задачах подтверждают эффективность подхода: JDCEmb стабильно достигает или превосходит уровень state of the art, превосходя современные сильные базовые модели.