RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2024, выпуск 4, страницы 45–54 (Mi iipr606)

Вычислительный интеллект

Распознавание особых участков генома методами машинного обучения

А. П. Дюкова, Е. В. Дюкова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Аннотация: В статье изучаются вопросы распознавания особых структурных сегментов геномов, называемых промотерами. Для решения задачи распознавания промотера впервые применены методы машинного обучения, основанные на логическом анализе и классификации данных. Эти методы базируются на поиске информативных фрагментов в признаковых описаниях прецедентов и ориентированы на обработку целочисленной информации низкой значности. Искомые фрагменты хорошо интерпретируемы и позволяют отличать промотеры от других областей генома, однако их поиск требует больших временных затрат. Приведены результаты экспериментов на несбалансированной выборке большого объема, при этом рассмотрен как традиционный способ формирования признаков, использующий $k$-меры, так и методика прямого применения классификатора к исходным данным. Показано, что во втором случае качество логической классификации существенно выше и составляет 94,3% по ROC-AUC с использованием ансамблевого подхода. Наилучший результат, а именно, точность по ROC-AUC равную 95,1%, показал классификатор Catboost при прямом применении к исходной выборке. При традиционном способе формирования признаков точность Catboost равна 94,8%.

Ключевые слова: распознавание промотера, машинное обучение, классификация по прецедентам, логический классификатор, логический анализ и классификация данных, ансамбль классификаторов, $k$-мера, модельный организм, дрозофила фруктовая.

DOI: 10.14357/20718594240404



Реферативные базы данных:


© МИАН, 2026