El 14 de abril de 2003 es una fecha importante en la historia de la ciencia. En ese día hace poco más de 20 años el final Proyecto Genoma Humano: La secuencia básica de nuestro ADN ha sido decodificada después de muchos años de esfuerzo.
Sin embargo, ese “mapa”, que costó $3.000 millones y que empezaba a ser utilizado como referencia del genoma humano, no estaba completo. Tenía lagunas en varias regiones genéticas y se basaba principalmente en el ADN de unos pocos individuos de ascendencia europea. Y aunque ha habido desarrollos tecnológicos en esas dos décadas que han permitido “mapear” estas brechas —la secuencia completa se obtuvo en 2022— y abaratar el proceso, aún falta una referencia más global y diversa.
A partir de ahora, gracias a un consorcio internacional financiado por el Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos, este recurso, un referencia pangenoma– estará disponible.
Presentado como un primer borrador, el nuevo «mapa» incluye: La secuencia genética completa de 47 individuos de diferentes orígenes, que proporciona información detallada sobre 94 genomas porque cada individuo lleva en su ADN dos copias de genes «heredados» de su madre y de su madre. El objetivo del proyecto es seguir añadiendo datos al ‘mapa’, por lo que se espera que a mediados de 2024 incluya información genética de 350 personas de diversas etnias.
«Hasta ahora, la referencia utilizada por la comunidad científica ha sido incompleta y carente de diversidad», dijo en una conferencia de prensa. Benedicto Patten, director asociado del Instituto de Genómica de Santa Cruz en la Universidad de California y uno de los líderes del proyecto. Por otra parte, este nuevo recurso brinda un panorama más completo y permitirá realizar análisis más precisos a la hora de caracterizar la variación genética de las poblaciones humanas, independientemente de su origen, explicó.
De hecho, el nuevo pangenoma ya ha arrojado luz sobre más de 100 millones de nuevas bases, cada una de las letras que componen el genoma, y ha revelado nuevos alelos en regiones estructuralmente complejas del genoma que hasta ahora no estaban incluidas en el genoma. Los detalles de la investigación se publican en cuatro artículos en el último número de las revistas. naturaleza Y Naturaleza Biotecnología.
Usando las últimas técnicas computacionales, los investigadores pudieron construir un recurso, en lugar de que fuera único y lineal, como ha sido el caso hasta ahora. Referencia GRCh38 utilizados, brindan diferentes versiones de la misma secuencia al mismo tiempo, brindando a los investigadores una mayor variedad de opciones para sus análisis. En el proyecto ha participado un equipo del Barcelona Supercomputing Center (BSC) liderado por Santiago Marco Sola.
¿Qué significa el nuevo pangenoma para la investigación?
«Hasta ahora nos hemos conformado con una sola secuencia del genoma determinada arbitrariamente como la secuencia de referencia, que consta de partes de la secuencia de un puñado de personas de ascendencia principalmente europea. Si bien esto ha sido de gran beneficio, también tiene varias limitaciones. » Jorge FerrerInvestigador del Centro de Regulación del Genoma de Barcelona (CRG). «Por ejemplo, podría ser sorprendente que a cada uno de nosotros le falten o le queden algunas piezas muy grandes del genoma. Si el fragmento del genoma elegido como referencia es de alguien que no tiene esa pieza (o ha sido alterada suficiente), el mapa de referencia que estamos usando actualmente no funcionará para alguien que tenga una mutación que afecte esta parte», explica. Para aumentar la complejidad, continúa, “el genoma puede variar mucho en diferentes partes del mundo. Y si el mapa de referencia está formado por variantes europeas, es menos útil para interpretar el genoma de alguien de Camerún o China”.
El trabajo actual, dice Ferrer, “es el primer paso para solucionar estos problemas”. «Han creado un sistema complejo que permite que la secuencia genética de una sola persona se compare con todas estas secuencias humanas potenciales, en lugar de solo una, y el consorcio planea avanzar en esta estrategia contra las secuencias de muchos individuos».
Un recurso para la medicina.
a José Manuel Castro TobíoEste nuevo recurso ayudará, ante todo, a “conocer mejor quiénes somos, a descubrir qué es lo que nos diferencia genéticamente unos de otros”. Y el hecho de que “saber qué nos hace diferentes, qué secuencias de material genético nos hacen diferentes, nos permitirá saber cosas sobre nuestra evolución y también nos permitirá Saber cosas sobre las enfermedades genéticas que nos afectan«.
«La variación genética está asociada con los rasgos biológicos y también con la susceptibilidad a las enfermedades», explica. “Estos nuevos genomas que ahora se están publicando permitirán descubrir muchas variantes que aún no sabemos a qué se asocian”.
«Todas las personas que secuencian genomas ahora podrán comparar secuencias con estos genomas de referencia muy bien caracterizados. Esto nos dará mucha más información de la que obteníamos ahora con el genoma humano de referencia logrado a principios de la década de 2000», afirma el investigador. quien señala que el nuevo recurso supone “un salto cuantitativo más que un salto cualitativo”.
Señala que «en los últimos 20 años ha habido importantes avances tecnológicos que han hecho posible pasar de un genoma de referencia único e incompleto a un genoma completo de 47 con un muy buen nivel de precisión de secuenciación». fue posible gracias Tecnologías de secuenciación de segunda y tercera generación. que anteriormente permitía, por ejemplo, obtener lecturas muy largas de ADN.
En el genoma de referencia que ha existido hasta ahora, ha habido importantes lagunas de conocimiento. Había secuencias que no se podían juntar.Tobio explica. «Pero el desarrollo de la tecnología de secuenciación de tercera generación ha hecho posible obtener lecturas de secuencias muy largas, lo que permite eludir esas regiones complejas y reconstruir toda la estructura de los cromosomas. El año pasado, se publicó por primera vez el primer genoma completo. gracias a estos avances y a la continuación de este trabajo”. Ahora se está introduciendo este pangenoma”, subraya la investigadora.
Aunque la nueva referencia provista todavía es un primer borrador y representa solo a unas pocas personas, contiene información que será muy útil para seguir adelante. Investigación biomédicaEl investigador concluye.
¿Qué papel jugaron las supercomputadoras BSC?
“Construir un pangenoma es complejo y conlleva diferentes etapas de análisis y procesamiento (unas manuales, otras automatizadas). De hecho, se han utilizado diferentes métodos para entender qué métodos y herramientas son las más adecuadas para su construcción y posterior análisis”, explica Santiago Marco , Algorithms, Bioinformatics and High-Performance Computing, quien destaca su contribución «Enfocado en desarrollar algoritmos y herramientas de software de alto rendimiento, no en observaciones o hallazgos biológicos/genómicos».
“Debe entenderse que si la reconstrucción de una referencia genética lineal (como el primer genoma humano) requiere el alineamiento y ensamblaje de cientos de miles de millones de bases de ADN, la creación de una referencia pangenómica puede requerir procesar una mayor cantidad de información. Además, los pipelines de ensamblaje y procesamiento constan de Múltiples etapas de procesamiento que requieren el uso de algoritmos complejos y costosos, por lo que este proyecto no sería posible sin las supercomputadoras, ya que solo las supercomputadoras como Marenostrum4 tienen la capacidad de procesar y almacenar cantidades tan grandes de datos, “, explica Marco, quien también destaca que “los métodos que son propuestos/investigados por nuestro grupo de investigación y han sido desarrollados y evaluados gracias a la fuerza de Marenostrum4. Así, estos métodos se han combinado y utilizado en este proyecto de pangenoma. el cómputo y procesamiento de los resultados finales para esta publicación en particular, se han implementado en otras infraestructuras gigantes (fuera de España)”.