RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 6(2), страницы 211–222 (Mi tisp1084)

Оптимизация выравнивания коротких прочтений с инделями при полногеномном секвенировании

Н. А. Колтунов, Е. П. Гугучкин, Е. А. Карпулевич

Институт системного программирования им. В.П. Иванникова РАН

Аннотация: Представлен новый метод выравнивания прочтений для задач полногеномного секвенирования (WGS), ориентированный на повышение точности и практической эффективности этого этапа геномного анализа. В отличие от графовых подходов, предложенный алгоритм интегрирует информацию об известных генетических вариантах напрямую в процесс выравнивания, что позволяет улучшить сопоставление последовательностей с эталонным геномом без строительства сложных графовых структур. Метод продемонстрировал высокую эффективность на реальных данных: наблюдается устойчивый прирост качества выравнивания на участках с высоким уровнем изменений между разными людьми, а также участках, которые сложны для однозначного выравнивания даже при отсутствии изменений в этом месте у конкретного человека. В частности, использование информации о вариантах позволяет точнее выравнивать короткие последовательности (прочтения), содержащие альтернативные аллели, снижая число ошибок в указанных регионах. При этом требуемые вычислительные ресурсы остаются на приемлемом уровне, что делает решение применимым в стандартных WGS-пайплайнах без существенного увеличения нагрузки. Скорость работы алгоритма сопоставима с традиционными решениями, что упрощает его интеграцию в существующие аналитические программные конвейеры. Практическая ценность метода заключается в улучшении точности выравнивания, что напрямую влияет на качество последующего обнаружения вариантов и других анализов. Предлагаемый подход способен служить эффективной альтернативой современным графовым методам выравнивания, обеспечивая сопоставимое повышение качества результатов выравнивания при меньшей сложности реализации. Перспективы дальнейшего развития включают оптимизацию производительности алгоритма, расширение набора учитываемых генетических вариантов и проведение углубленного сравнения с другими инструментами. Эти шаги призваны еще более повысить эффективность и надежность метода, укрепляя его значимость для практического применения в геномике.

Ключевые слова: выравнивание коротких прочтений, инделы, альтернативные контиги, преобразование координат, определение вариантов

DOI: 10.15514/ISPRAS-2025-37(6)-30



© МИАН, 2026