Аннотация:
Данное исследование подчеркивает важность выравнивания коротких прочтений (ридов) в анализе данных полногеномного секвенирования человека. Процесс выравнивания состоит в определении позиций коротких генетических последовательностей относительно заранее известной референсной последовательности генома человека. Традиционные методы выравнивания используют линейную референсную последовательность, но это может привести к некорректному выравниванию, особенно если в ридах присутствуют генетические варианты. В данной работе была проведена модификация индексного файла референсной последовательности инструмента minimap2. В результате экспериментов было показано, что добавление в индекс инструмента minimap2 информации о часто встречающихся генетических вариантах приводит к повышению количества верно выявленных генетических вариантов, что влияет на качество последующего анализа данных.
Ключевые слова:
конвейер обработки данных, секвенирование ДНК, вычислительная биология, методы выравнивания последовательностей, анализ данных NGS, вычислительные методы