¿Qué es y para que nos sirve el pangenoma humano? | por Julio Rozas

Opinión

Después de poco más de 20 años en que se publicó el primer borrador del Genoma Humano, el consorcio Internacional “Human Pangenome Reference Consortium” (HPRC) liderado por investigadores de la University of California en Santa Cruz (UCSC) acaba de presentar un nuevo mapa genómico, el denominado pangenoma humano, que contiene información genética de 47 personas procedentes de diferentes áreas geográficas. La finalidad última del proyecto es la de generar un recurso que pueda ser utilizado libremente por los investigadores y clínicos y que beneficie a toda la sociedad de forma más equitativa, y que ayude a disminuir las desigualdades existentes en el acceso a la sanidad, y en concreto a la nueva medicina de precisión.

Antes de comentar el significado de esta investigación es importante repasar algunos conceptos biológicos. El genoma de un organismo es el conjunto de todo el ADN que está presente en cada una de sus células y contiene instrucciones para su desarrollo y funcionamiento. El ADN se encuentra dentro de los cromosomas y está formado por una secuencia de grupos químicos, las letras genéticas A, T, C o G por las iniciales de los 4 grupos químicos que lo componen (nucleótidos o bases nitrogenadas). La información genética del genoma reside precisamente en el orden de estas 4 letras, sería como el libro de instrucciones del organismo. En la especie humana este libro contiene unos 3.000 millones de letras genéticas. Los genes son regiones del ADN que proporcionan las instrucciones precisas para fabricar las proteínas, las principales moléculas responsables de la estructura y función de células del organismo. El genoma humano contiene unos 20.000 genes, aunque ocupan únicamente un 1,5% de todo el ADN del genoma. El resto del genoma lo constituyen regiones del ADN responsables de que los genes funcionen correctamente, y un conjunto muy amplio de función desconocida, denominado impropiamente como ADN basura.

Desde hace ya unos 50 años que se puede determinar el orden preciso de las letras de las moléculas de ADN, proceso que se denomina secuenciación. Al principio este proceso era muy laborioso, lento y costoso; de hecho, no fue hasta el año 2001 que se obtuvo la primera secuencia del genoma humano, con un coste aproximado de unos 3.000 millones de dólares. Las metodologías de secuenciación del ADN se han optimizado enormemente, y actualmente permiten la secuenciación masiva, muy automatizada, y a bajo coste. Este desarrollo tecnológico es el que ha permitido tanto la obtención del pangenoma humano, como la publicación de otros 240 genomas de especies de mamíferos, el denominado proyecto Zoonomia.

Las tecnologías de secuenciación del ADN de hace 2 décadas, hoy en día completamente obsoletas, permitieron generar un mapa genómico (un genoma de referencia) de muy baja calidad, y con muchos errores. Este genoma ha sido actualizado y mejorado con los años, hasta llegar a la versión actual, también denominada como del genoma completo, realizada por el consorcio internacional Telomer-to-Telomer (T2T). Se trata de un mapa genómico de alta calidad, pero no es representativo de la variación genética presente en las poblaciones humanas; a pesar de ser construido con información de unos 20 individuos, un 70% del ADN derivaba de una única persona.

Los niveles de diversidad genética en las poblaciones humanas son reducidos, de hecho el ADN de dos individuos es idéntico en un 99,9% de las letras, pero el 0,1% restante abarcan unos 3.000.000 de letras genéticas diferentes. Es decir, cada uno de nosotros tiene un genoma distinto, y no existe por lo tanto un único genoma de referencia. Y son esas “pequeñas” diferencias las que explican la singularidad de las personas, incluyendo información sobre su salud. La información genómica, además, es un recurso muy útil para identificar genes responsables de enfermedades, desarrollo de terapias, o guiar tratamientos médicos.

Por lo tanto, es muy interesante disponer de un mapa genómico que sea lo más preciso y exhaustivo posible, o sea con pocos errores y que incluya individuos representativos de diferentes áreas geográficas. Este último aspecto es de especial relevancia. De hecho, muchas de las investigaciones genéticas se basan en la comparación de la información genómica de uno o varios individuos sobre un genoma de referencia (que es usado como standard), y para ello se utilizan potentes y sofisticadas herramientas bioinformáticas. Pero si el genoma que usamos como referencia es poco representativo de la variación genética de la humanidad, ciertos análisis que incluyan individuos con genomas algo diferentes al de referencia, podrían ser sesgados o erróneos.

El pangenoma humano

Para soslayar estos problemas de representatividad hace unos pocos años se propuso el proyecto del pangenoma humano, que se acaba de publicar. El proyecto tenía como objetivo obtener un mapa genómico muy preciso y con pocos errores, y que fuera mucho más representativo de la variación genética compartida por la humanidad: el pangenoma de referencia. Para la investigación se han utilizado las metodologías más modernas de secuenciación del ADN, las denominadas de secuenciación de lectura larga (ya utilizadas por el consorcio T2T), pero en un panel amplio y diverso de personas (47 individuos de Africa, las Américas, Asia y Europa) para incorporar mucha de la diversidad genética global. Como resultado del trabajo es la generación de un recurso genético, el pangenoma de referencia que contiene información genómica de alta calidad, de cada una de las 47 personas seleccionadas. Es decir, el pangenoma no es más que un conjunto amplio y diverso de genomas de referencias de alta calidad.

En el estudio se han llegado a identificar (e incluir) 119 millones de nuevas variantes (letras genéticas) a la referencia genómica anterior. Pero mucho más importante es que la mayoría de estas variantes (unos 90 millones) corresponden a las denominadas variantes estructurales, variantes genéticas que implican pérdidas o ganancias de fragmentos de ADN relativamente grandes, de más de 50 letras genéticas. Esta identificación e inclusión de este tipo de variantes es una de las aportaciones importantes del proyecto, y ha sido posible ya que el ADN ha sido secuenciado mediante los métodos de lectura larga y con una tasa de error muy baja, metodologías bastante más caras pero que generan una información de mucha más calidad. Un aspecto muy relevante es que estas nuevas tecnologías de secuenciación permiten obtener separadamente la información genómica materna y paterna. Como es sabido en las células tenemos los cromosomas por parejas, con un total de 46 cromosomas, 23 de origen materno y otros tantos paternos, cuyo ADN se secuencia conjuntamente. Es decir, el pangenoma de referencia no incluye únicamente 47 genomas de alta calidad, sino 94 (dos por cada individuo). Es muy importante destacar para que esta investigación haya sido posible, se han tenido que desarrollar varios métodos computacionales y bioinformáticos, tanto para los análisis como para la visualización de los datos.

El pangenoma de referencia impulsará investigaciones que aporten nuevo conocimiento o tengan utilidad en la medicina personalizada. Así, cualquier investigador podrá utilizar el recurso tanto para realizar investigación básica como aplicada, como puede ser en la identificación de variantes genéticas asociadas a ciertas enfermedades, en la comprensión del funcionamiento de los genes, en el diagnóstico genético de enfermedades raras, en el desarrollo de nuevos medicamentos, o en el tratamiento de enfermedades como el cáncer. Como el recurso incorpora información de personas de distintas áreas geográficas, las utilidades y tratamientos no solo serán mejores, sino que podrán beneficiar a un conjunto más amplio de personas que los actuales, independientemente de su origen poblacional.

Es importante destacar que todos los datos e información generados en el proyecto son de acceso público, sin restricciones y de forma gratuita, tal como ocurre en la inmensa mayoría de proyectos genómicos. Aquí se incluyen tanto los datos de las propias secuencias del ADN del pangenoma (los 94 genomas completos, cada uno de unos 3,000 millones de letras), como la información de la localización de los genes en los cromosomas, sobre su función (en caso de que se conozca), así como de otros metadatos relevantes. Todo el software y herramientas bioinformáticas desarrolladas también son de accesibilidad pública y de código abierto. Es decir, el recurso generado por el proyecto del pangenoma de referencia podrá ser utilizado por cualquier investigador.

Futuro y cuestiones éticas

La información genética es muy sensible, y puede comportar problemas discriminatorios. Todos los aspectos relacionados con la compartición de los datos tienen que regirse por aspectos éticos y legales, y sujetos a normativas que pueden diferir entre diferentes países. De hecho, los datos generados en el proyecto del pangenoma pueden ser de acceso público ya que, entre otras consideraciones, los individuos participantes han prestado su consentimiento para que todos los investigadores utilicen estos datos sin restricción.

Pero esta libertad de acceso no está exenta de problemas. Existen varios estudios donde también se ha incluido datos de grupos étnicos cuya información genómica puede ser muy valiosa. Estos individuos pueden haber desarrollado adaptaciones a sus ambientes y disponer de variantes genéticas que pueden ser de utilidad para el desarrollo de nuevos métodos diagnósticos y medicamentos. De hecho, existen muchos ejemplos de fármacos desarrollados usando información genética de grupos o comunidades indígenas o aisladas. A pesar de los beneficios que han podido lograr estas comunidades, su reparto ha sido poco equitativo. Así como los individuos que participan en el estudio pueden beneficiarse personalmente del desarrollo de un nuevo tratamiento, a veces su precio es tan elevado que no es accesible a otros miembros de la comunidad. Además, hay varios ejemplos de cómo la industria farmacéutica se ha beneficiado de esta política de acceso libre y sin restricciones a los datos, al comercializar pruebas diagnósticas o fármacos. Paradójicamente, muchos de los individuos participantes en el estudio, que son de poblaciones con gran diversidad genética, son precisamente los que menos acceso tienen a la medicina. Por eso algunos grupos indígenas ante la potencial mercantilización de su información genómica que no les reporta un claro beneficio, son reacios a participar en los estudios. Claramente es necesario un cambio de paradigma y replantear el cómo se comparte la información y los beneficios; para ello es importante que las comunidades participantes tengan el control de los datos, y puedan participar directamente en los beneficios en forma de royalties o derechos de propiedad intelectual.

Para abordar estos problemas, en el consorcio del pangenoma se ha creado un comité para analizar los aspectos éticos, sociales y legales del proyecto o de sus aplicaciones, y dar directrices en cuanto al consentimiento informado, priorizar el estudio de diferentes muestras, o para anticiparse a los nuevos problemas que puedan surgir. Y obviamente para evitar repetir ciertas prácticas éticamente reprobables que se realizaron en anteriores proyectos de diversidad genética a gran escala; y por supuesto, no incluir muestras de personas que sean miembros de comunidades indígenas, u otros grupos étnicos, que tengan políticas que prohíban la donación de las mismas.

De momento lo que se presentado es el denominado primer borrador del pangenoma, y es solo un primer paso. El objetivo último del proyecto, que se espera finalizar para mediados del 2024, es aumentar el tamaño de la muestra, hasta unos 350 individuos (700 genomas), incluyendo otras poblaciones, e incrementar aún más la calidad de la información del pangenoma. El incremento en cantidad y diversidad de las poblaciones en el estudio permitirá además acceder a información de los denominados alelos raros, variantes genéticas presentes a baja frecuencia en ciertas poblaciones y que pueden conferir ventajas adaptativas o ser los causantes de enfermedades genéticas.


Julio Rozas es catedrático de Genética de la Universitat de Barcelona; director del grupo de investigación Genómica Evolutiva & Bioinformática. Ha participado en la secuenciación y análisis de varios proyectos genómicos en animales y plantas, y ha desarrollado herramientas bioinformáticas para el análisis de la variabilidad del ADN.