RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 6(2), страницы 191–210 (Mi tisp1083)

The methodology of constructing the large-scale dataset for detecting presuicidal and anti-suicidal signals in social media texts in Russian

[Методология создания большого русскоязычного набора данных для обнаружения пресуицидальных и антисуицидальных сигналов в текстах социальных сетей]

I. O. Buyanova, D. V. Yaskovab, D. S. Serenkoa, D. N. Shkeredaa, A. D. Yaskovc, I. V. Sochenkovade

a Federal Research Center "Computer Science and Control" of Russian Academy of Sciences
b MTS
c Company "Yandex"
d Institute for Information Transmission Problems of the Russian Academy of Sciences (Kharkevich Institute)
e Ivannikov Institute for System Programming of the RAS

Аннотация: Самоубийство – это ужасающий поступок человека, которого вводит в заблуждение его собственное психическое состояние. Эта проблема актуальна для многих странах и в России в том числе. К счастью, некоторые из этих людей пишут о своих проблемах в социальных сетях, что позволяет найти их и помочь справиться с их проблемами. Однако эти значимые тексты теряются среди большего количества нерелевантных текстов, что значительно замедляет процесс принятия решения о суицидальном риске человека. Чтобы помочь справиться с этой проблемой, в этой работе представлена подробная методология создания набора данных для обнаружения текстов, содержащих пресуицидальные и антисуицидальные сигналы. Эта методология описывает процесс создания инструкций и таблиц классов, процесс аннотирования, проверки и исправления после аннотирования. Руководствуясь этой методологией, был собран и размечен большой русскоязычный набор данных, содержащий более 50 тысяч текстов из социальных сетей. В работе предоставлена статистика количества данных в наборе данных, а также общие проблемы с разметкой, которые возникли в процессе. Показаны результаты базовых экспериментов по построению классификационных моделей, чтобы продемонстрировать работоспособность на разных уровнях аннотации. Кроме того, набор данных, код и все материалы были сделаны общедоступными.

Ключевые слова: создание набора данных, суицид, методология, разметка

Язык публикации: английский

DOI: 10.15514/ISPRAS-2025-37(6)-29



© МИАН, 2026