Аннотация:
Предложен метод составления списка слов, рекомендуемых для расширения тонального словаря RuSentiLex, разработанного Н.Лукашевич. Слова, попадающие в список, определяются путем классификации на основе алгоритма, использующего семантическую схожесть со словами из RuSentiLex. Эта схожесть определяется на основе статистики совместной встречаемости в группах семантически близких терминов, которые, в свою очередь, определяются нейросетью Word2Vec. Предложен коэффициент тональной согласованности, который упорядочивает рекомендуемый список слов по степени их подтвержденности ассоциативными связями в нейросети. Оценка точности предлагаемого алгоритма классификации выполнена методом кросс-валидации и составляет 98% правильных определений позитивной/негативной тональности слова. Предложен список из 6061 слов, рекомендованных для расширения. При сравнении рекомендованных слов с тональным словарем KartaSlovSent найдено 1909 общих слов, у 94.7% которых совпали тональности.
Ключевые слова:
тональный анализ текста, расширение тонального словаря, нейронная сеть, русский тональный словарь, RuSentiLex, KartaSlovSent.