¿Qué es el genoma humano?
El genoma humano es la totalidad del material genético de un ser humano: todas las secuencias de ADN presentes en sus células. El genoma haploide —el contenido de un único juego de cromosomas— contiene aproximadamente3.000 millones de pares de bases de ADN distribuidos en 23 cromosomas. Las células somáticas diploides tienen el doble (6.000 millones de pares de bases en 46 cromosomas). Además del genoma nuclear, existe el genoma mitocondrial: una molécula circular de solo 16.569 pares de bases con 37 genes, heredado exclusivamente de la madre.
El Proyecto Genoma Humano
El Proyecto Genoma Humano (HGP) fue un consorcio científico internacional que se propuso secuenciar y mapear la totalidad del genoma humano. Comenzó oficialmente en 1990, coordinado por el Departamento de Energía y los Institutos Nacionales de Salud de Estados Unidos, con la participación de laboratorios en el Reino Unido, Francia, Alemania, Japón y China.
El proyecto utilizó el método de Sanger (secuenciación clásica) a gran escala y se desarrolló en paralelo con la empresa privada Celera Genomics (liderada por Craig Venter), que usó un enfoque diferente llamado «shotgun» genómico. La competencia entre el consorcio público y la empresa privada aceleró enormemente el calendario del proyecto. En junio de 2000, los dos grupos anunciaron conjuntamente la finalización del borrador del genoma. En abril de 2003, el consorcio público declaró completada la secuencia de referencia —coincidiendo con el 50° aniversario del descubrimiento de la doble hélice por Watson y Crick.
• ~3.000 millones de pares de bases (haploides)
• ~20.000-22.000 genes codificantes de proteínas
• Solo el ~1.5-2% del genoma codifica proteínas
• ~45% del genoma son elementos transponibles (transposones)
• Dos personas cualesquiera difieren en ~4-5 millones de SNPs
Hallazgos sorprendentes
Menos genes de lo esperado
Antes del HGP, las estimaciones del número de genes humanos oscilaban entre 50.000 y 100.000. La sorpresa fue monumental: el genoma humano contiene solo unos 20.000-22.000 genes codificantes de proteínas. El gusano C. elegans tiene ~19.000 y la mosca Drosophila ~14.000. La cebolla tiene más genes que el ser humano. Claramente, la complejidad biológica no se mide en número de genes.
El «ADN basura» no es basura
Solo el ~1.5-2% del genoma codifica proteínas. El resto fue etiquetado durante décadas como «ADN basura» (junk DNA) — una denominación que resultó profundamente equivocada. El proyecto ENCODE (Encyclopedia of DNA Elements), publicado en 2012 y ampliado posteriormente, demostró que al menos el 80% del genoma tiene algún tipo de actividad bioquímica: elementos reguladores (enhancers, silencers, insulators), genes de ARN no codificantes (ARNt, ARNr, miARN, lncARN), pseudogenes con funciones reguladoras insospechadas, y elementos transponibles que han moldeado la evolución del genoma.
Repeticiones y elementos transponibles
Sorprendentemente, aproximadamente el 45% del genoma humano consiste en elementos transponibles — secuencias que en algún momento de la evolución fueron capaces de «saltar» de una posición a otra del genoma (retrotransposones SINE y LINE, y transposones DNA). La mayoría están inactivos hoy, pero han dejado su huella en la evolución del genoma: algunos han sido «domesticados» por el organismo para nuevas funciones reguladoras. Las repeticiones SINE (Alu) son las más abundantes —hay más de un millón de copias Alu en el genoma humano.
Del HGP a la medicina de precisión
SNPs y la era del GWAS
Un SNP (Single Nucleotide Polymorphism) es una variación de un solo nucleótido que se encuentra en al menos el 1% de la población. El genoma humano cuenta con millones de SNPs que explican gran parte de la variación entre individuos. Los estudios de asociación genómica amplia (GWAS) comparan la frecuencia de SNPs entre pacientes y controles sanos para identificar variantes genéticas asociadas con enfermedades complejas (diabetes, cardiopatía coronaria, esquizofrenia). Han identificado miles de loci de riesgo, aunque la mayoría explican solo una pequeña fracción del riesgo total.
Secuenciación de nueva generación (NGS)
La caída exponencial en el costo de la secuenciación (de los ~3.000 millones de dólares del HGP original a menos de 1.000 dólares por genoma en la actualidad, gracias a la secuenciación de nueva generación — NGS — e Illumina, PacBio, Oxford Nanopore) ha democratizado la genómica. Hoy se secuencian genomas completos en días en hospitales para diagnóstico de enfermedades raras o para guiar tratamientos oncológicos.
El genoma de referencia T2T
La secuencia de referencia del HGP original tenía «huecos» en regiones difíciles de secuenciar: los centrómeros (ricos en repeticiones satelitales) y los telómeros. En 2022, el consorcio T2T (Telomere-to-Telomere) publicó la primera secuencia verdaderamente completa del genoma humano, resolviendo los ~8% de secuencia que faltaban. Descubrieron cientos de nuevos genes y miles de nuevas variantes en regiones antes inaccesibles, incluyendo una nueva familia de genes de resistencia a enfermedades.
Implicaciones éticas, legales y sociales
El HGP dedicó el 5% de su presupuesto a investigar las implicaciones éticas, legales y sociales (ELSI). Las preguntas siguen siendo urgentes: ¿Quién tiene acceso a los datos genómicos? ¿Pueden las compañías de seguros discriminar por predisposición genética? ¿Debe la información genómica compartirse con familiares que podrían portar las mismas variantes de riesgo? La Ley de No Discriminación por Información Genética (GINA) en EE.UU. y la regulación del GDPR en Europa intentan abordar algunos de estos problemas, pero la legislación avanza más lento que la tecnología.
🗺️ Poner a prueba mi conocimiento sobre el genoma humano