I. O. Buyanov, D. V. Yaskova, D. S. Serenko, D. N. Shkereda, A. D. Yaskov, I. V. Sochenkov, “The methodology of constructing the large-scale dataset for detecting presuicidal and anti-suicidal signals in social media texts in Russian”, Труды ИСП РАН, 2025, том 37, выпуск 6(2),страницы 191

The methodology of constructing the large-scale dataset for detecting presuicidal and anti-suicidal signals in social media texts in Russian

[Методология создания большого русскоязычного набора данных для обнаружения пресуицидальных и антисуицидальных сигналов в текстах социальных сетей]

I. O. Buyanov^a, D. V. Yaskova^b, D. S. Serenko^a, D. N. Shkereda^a, A. D. Yaskov^c, I. V. Sochenkov^ade

^a Federal Research Center "Computer Science and Control" of Russian Academy of Sciences
^b MTS
^c Company "Yandex"
^d Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich Institute)
^e Ivannikov Institute for System Programming of the RAS

Аннотация: Самоубийство – это ужасающий поступок человека, которого вводит в заблуждение его собственное психическое состояние. Эта проблема актуальна для многих странах и в России в том числе. К счастью, некоторые из этих людей пишут о своих проблемах в социальных сетях, что позволяет найти их и помочь справиться с их проблемами. Однако эти значимые тексты теряются среди большего количества нерелевантных текстов, что значительно замедляет процесс принятия решения о суицидальном риске человека. Чтобы помочь справиться с этой проблемой, в этой работе представлена подробная методология создания набора данных для обнаружения текстов, содержащих пресуицидальные и антисуицидальные сигналы. Эта методология описывает процесс создания инструкций и таблиц классов, процесс аннотирования, проверки и исправления после аннотирования. Руководствуясь этой методологией, был собран и размечен большой русскоязычный набор данных, содержащий более 50 тысяч текстов из социальных сетей. В работе предоставлена статистика количества данных в наборе данных, а также общие проблемы с разметкой, которые возникли в процессе. Показаны результаты базовых экспериментов по построению классификационных моделей, чтобы продемонстрировать работоспособность на разных уровнях аннотации. Кроме того, набор данных, код и все материалы были сделаны общедоступными.

Ключевые слова: создание набора данных, суицид, методология, разметка

Язык публикации: английский

DOI: 10.15514/ISPRAS-2025-37(6)-29