Аннотация:
Целью работы является разработка нового метода предсказания аномалий в текстовых чатах, не использующего корпусы текстов. Поставленные задачи: краткое представление статистического описания повторяемости аномалий, развитого в прошлых работах авторов, введение метода парных (обобщенных) N-грамм на коллекциях «существительное – глагол», синтез указанных методов в новый метод предсказания аномалий в системах обмена короткими сообщениями, тестирование метода. Предложен новый метод предсказания аномалий в потоке текстовых сообщений, не использующий корпус текстов для обучения, и, кроме того, допускающий онлайн-обучение. Материалом для работы были чаты, группы и каналы в Telegram, на которые подписан один из авторов работы, с большим объемом текстового материала. Метод использует статистическое распределение повторения аномалий, а также метод тематического моделирования на основе статистики пар «существительное – глагол». Оба метода предложены ранее в работах авторов. Проведенный эксперимент показал соответствие результатов, предсказанных с помощью предлагаемого метода, фактически зарегистрированным аномалиям. Применение предложенного метода может быть полезно в исследованиях и анализе появления аномалий в сложных социальных системах, взаимодействие в которых отражается в коммуникациях через социальные сети и мессенджеры. Подобного рода задачи являются актуальными как для государственных структур, так и для бизнеса, и могут позволить сгладить острые социальные и производственные проблемы. Особенно полезен предложенный метод для журналистов – он позволяет определить время наиболее вероятного появления значимых социальных явлений.