Большинство из примерно 40 триллионов клеток вашего тела имеют почти идентичные копии вашего генома - ДНК, унаследованной от родителей и содержащей инструкции для всего - от преобразования пищи в энергию до борьбы с инфекциями.
Здоровые клетки становятся раковыми из-за вредных мутаций в геноме. Например, если геном клетки поврежден ультрафиолетовым светом, это может привести к мутациям, которые предписывают клетке бесконтрольно расти и образовывать опухоль. Выявление генетических изменений, которые приводят к превращению здоровых клеток в злокачественные, может помочь врачам подобрать терапию, направленную именно на опухоль. Например, около 25 % случаев рака молочной железы являются HER2-положительными, то есть клетки этого типа опухоли имеют мутации, заставляющие их производить больше белка HER2, который помогает им расти. Лечение, направленное на HER2, значительно повысило выживаемость при этом типе рака молочной железы.
В настоящее время ученые могут легко прочитать ДНК клеток, чтобы выявить мутации. Проблема заключается в том, что геном человека огромен, а мутации являются нормальной частью эволюции. Геном человека достаточно длинный, чтобы заполнить книгу объемом 1,2 миллиона страниц, а два человека могут иметь около 3 миллионов генетических различий. Найти одну мутацию, вызывающую рак, в опухоли - все равно что найти иголку в стоге иголок.
Я - ученый-компьютерщик, который исследует большие и сложные массивы генетических данных, чтобы ответить на фундаментальные вопросы о биологии и болезнях. Недавно я и моя научная группа опубликовали исследование, в котором использовалась ДНК тысяч здоровых людей, чтобы помочь выявить мутации, вызывающие заболевания, используя принцип естественного отбора.
Использование больших данных для поиска раковых мутаций
При определении типа раковой мутации у пациента золотым стандартом является сравнение двух образцов пациента: одного из опухоли и одного из здоровой ткани (обычно крови). Поскольку оба образца получены от одного и того же человека, большая часть их ДНК идентична; выделение только тех генетических областей, которые отличаются друг от друга, резко сужает область возможной мутации, вызывающей рак. Проблема в том, что здоровые ткани не всегда берутся у пациентов по разным причинам - от клинических затрат до узких исследовательских протоколов.
Один из способов обойти эту проблему - обратиться к массивным публичным базам данных ДНК. Поскольку мутации, вызывающие рак, вредят выживанию, естественный отбор стремится устранить их со временем в последующих поколениях. Из всех мутаций в опухоли те, которые встречаются реже в данной популяции, с большей вероятностью окажутся вредными, чем изменения, которые встречаются у многих людей. Подсчитывая, как часто мутация встречается в этих базах данных, исследователи могут различать генетические изменения, которые встречаются часто и, скорее всего, являются доброкачественными, и те, которые встречаются редко и являются потенциально раковыми.
Учитывая возможности такого подхода, в последнее время наблюдается всплеск проектов по сбору и совместному использованию сиквенсов ДНК от сотен до тысяч людей. К таким проектам относятся 1000 Genomes Project, Simons Genome Diversity Project, GnomAD и All of Us. Вероятно, в будущем их будет гораздо больше.
Оценка вероятности возникновения заболевания по частоте появления мутации в геноме характерна для небольших генетических изменений, называемых однонуклеотидными вариантами (SNV). SNV влияют всего лишь на одну позицию в геноме человека, состоящем из 3 миллиардов нуклеотидов. Это может, например, замена одного тимина Т на цитозин С.
Большинство исследователей и клинических патологов используют каталог вариантов, которые были обнаружены в тысячах образцов. Если SNV, обнаруженный в опухоли, не указан в каталоге, можно предположить, что он редкий и, возможно, вызывает рак. Это хорошо работает для SNV, потому что обнаружение этих мутаций обычно точное, с небольшим количеством ложноотрицательных результатов.
Однако этот процесс нарушается в случае генетических изменений в более длинных нитях ДНК, изменений называемых структурными вариантами (SVs). SVs являются более сложными, поскольку они включают добавление, удаление, инверсию или дублирование последовательностей. По сравнению с гораздо более простыми SNV, SV имеют более высокий процент ошибок при обнаружении. Ложноотрицательные результаты встречаются довольно часто, что приводит к неполноте каталогов, затрудняющей сравнение мутаций. Обнаружение опухолевого SV, не включенного в каталог, может означать, что он редок и является кандидатом на развитие рака, или что он был пропущен при создании каталога.
Фокусируясь на верификации
Мы с коллегами решили эти проблемы, перейдя от процесса, ориентированного на обнаружение, к процессу, ориентированному на проверку. Обнаружение является сложной задачей - оно требует обработки сложных данных, чтобы определить, достаточно ли доказательств для существования мутации. С другой стороны, проверка ограничивает процесс принятия решений только тем, подтверждают ли имеющиеся доказательства существование конкретного события. Вместо того чтобы искать иголку в стопке иголок, мы просто рассматриваем, является ли имеющаяся у нас иголка той, которая нам нужна.
Наш метод использует эту стратегию, осуществляя поиск необработанных данных из тысяч образцов ДНК в поисках любых доказательств, подтверждающих существование конкретного SV. В дополнение к преимуществам эффективности, которые дает просмотр только данных, касающихся целевого варианта, если таких доказательств нет, мы можем с уверенностью заключить, что целевой вариант является редким и потенциально вызывающим заболевание.
Используя наш метод, мы просканировали SV, выявленные в предыдущих исследованиях рака, и обнаружили, что тысячи SV, которые ранее ассоциировались с раком, встречаются и в нормальных здоровых образцах. Это указывает на то, что эти варианты скорее всего, являются доброкачественными, наследуемыми последовательностями, а не вызывающими заболевания. Самое главное, что наш метод работает так же хорошо, как и традиционная стратегия, требующая как опухолевых, так и здоровых образцов, открывая возможность снижения стоимости и повышения доступности высококачественного анализа раковых мутаций.
Мы с командой изучаем возможность расширения наших поисков, чтобы включить большие коллекции опухолей из различных типов рака, таких как рак молочной железы и легких. Определение того, из какого органа исходит опухоль, имеет решающее значение для прогноза и лечения, поскольку может показать, метастазировал ли рак или нет. Поскольку большинство опухолей имеют специфические мутационные сигнатуры, обнаружение признаков SV в конкретном образце опухоли может помочь определить тип опухоли пациента и ускорить лечение.
Автор: Райан Лайер - доцент кафедры компьютерных наук в Университете Колорадо.