Модификация алгоритма выравнивания коротких прочтений для повышения качества пайплайна обработки данных полногеномного секвенирования человека


Модификация алгоритма выравнивания коротких прочтений для повышения качества пайплайна обработки данных полногеномного секвенирования человека

Егор Павлович ГУГУЧКИН, Евгений Андреевич КАРПУЛЕВИЧ

Аннотация

Данное исследование подчеркивает важность выравнивания коротких прочтений (ридов) в анализе данных полногеномного секвенирования человека. Процесс выравнивания состоит в определении позиций коротких генетических последовательностей относительно заранее известной референсной последовательности генома человека. Традиционные методы выравнивания используют линейную референсную последовательность, но это может привести к некорректному выравниванию, особенно если в ридах присутствуют генетические варианты. В данной работе была проведена модификация индексного файла референсной последовательности инструмента minimap2. В результате экспериментов было показано, что добавление в индекс инструмента minimap2 информации о часто встречающихся генетических вариантах приводит к повышению количества верно выявленных генетических вариантов, что влияет на качество последующего анализа данных.

Ключевые слова

конвейер обработки данных, секвенирование ДНК, вычислительная биология, методы выравнивания последовательностей, анализ данных NGS, вычислительные методы

Издание

Труды Института системного программирования РАН, том 35, вып. 2, 2023, 235-248

ISSN 2220-6426 (Online), ISSN 2079-8156 (Print).

DOI: 10.15514/ISPRAS-2023-35(2)-17

Для цитирования

Егор Павлович ГУГУЧКИН, Евгений Андреевич КАРПУЛЕВИЧ Модификация алгоритма выравнивания коротких прочтений для повышения качества пайплайна обработки данных полногеномного секвенирования человека. Труды Института системного программирования РАН, том 35, вып. 2, 2023, 235-248 DOI: 10.15514/ISPRAS-2023-35(2)-17.

Полный текст статьи в формате pdf Вернуться к содержанию тома