ENCODE – Enciclopedia de los elementos del ADN

ResearchBlogging.org

En 1958, en el simposio de la Sociedad de Biología Experimental, Francis Crick [i] (descubridor junto con James Watson de la estructura molecular del ADN, la famosa “doble hélice”) propuso el dogma central de la biología molecular basado en el flujo unidireccional de información del ADN a la proteína: del ADN la información pasa por transcripción al ARN, y de éste, por traducción, a la proteína, elemento que realiza la acción celular.  Si bien fue reformulado más tarde en la revista Nature [ii], no debemos olvidar que la ciencia no es amiga de los dogmas por muy claros que parezcan algunos procesos.

La ciencia ya ha conocido un intento de estudiar a fondo nuestro código genético.  El objetivo del Proyecto Genoma Humano era conocer en profundidad nuestros genes ya que cuando se decidió acometer la empresa, se pensaba que sobre ellos gravitaba la esencia de lo que somos: conociendo los genes ―se afirmaba―, las funciones que desempeña cada uno, se sabría todo lo que se precisa para entender la vida humana o, al menos, sus patologías.

De esta forma, en el año 2000 se presentó con gran bombo político y mediático por el entonces Presidente de los EE.UU. Bill Clinton y el Primer Ministro británico Tony Blair, un borrador de resultados que se completó en 2003 con la secuenciación completa del genoma humano.

Sin embargo, como sucede a menudo, las expectativas fueron más allá de unos hechos que suelen ser muy tozudos una vez se estudian en profundidad.  Cuando se analizaron los resultados, los científicos se toparon con un número inferior de genes de lo previsto: tenemos alrededor de 20.000 genes codificadores de proteínas, una suma muy pequeña para la gran cantidad de información que se les atribuía.  Además de esta circunstancia, nos percatamos de que no hay una relación lineal entre el número de genes y la complejidad del organismo: es cierto que las bacterias tienen alrededor de 5.000 genes, pero el ser humano tiene más o menos el mismo número de genes que los erizos de mar, y una cantidad notablemente inferior que una salamandra, el arroz (que posee 57.000 genes) u otros vegetales.  Para complicar aún más el panorama, estos genes codificadores de proteínas representan únicamente el 1% de los 30.000 millones de nucleótidos que encontramos en el ADN humano.

INTRODUCCIÓN GENÉTICA

Para comprender en su justa medida los avances que ha supuesto el Proyecto ENCODE, se hace necesario contar con unos conocimientos genéticos básicos.  Para todos aquellos que ya los posean, pueden continuar leyendo el siguiente bloque.

Para nuestros propósitos, definimos un gen desde el punto de vista molecular como una secuencia de ADN que influye en la función y forma de un organismo al codificar y dirigir la síntesis de una proteína.  Por otro lado, una proteína es una molécula formada por aminoácidos (una proteína de tamaño medio puede tener 150 aminoácidos) con funciones muy variadas y que resultan esenciales para la vida.  A modo de ejemplo, entre ellas se incluyen las enzimas (que actúan como catalizadores), los componentes estructurales de las células, de los tejidos (como las que forman parte de los músculos, del cartílago, el pelo etc.) así como factores controladores de la expresión del gen.

¿Cómo se forma una proteína? Para sintetizar una proteína se hace necesario contar con unas instrucciones: el código genético.  Un gen está constituido por una sucesión de nucleótidos.  El lenguaje genético se distingue de cualquier idioma moderno en que las letras no son nucleótidos únicos, sino combinaciones de tres de ellos.  Ya que el ADN posee cuatro tipos de nucleótidos (A, C, G y T por adenina, citosina, guanina y timina) existen 64 combinaciones distintas de tripletes (que llamamos codones porque codifican aminoácidos).  Estas 64 combinaciones o tripletes forman las 21 letras del alfabeto genético entre las que se incluyen los signos de puntuación (hay algunos tripletes que son redundantes, es decir, sinónimos): 61 tripletes codifican los 20 aminoácidos existentes necesarios para formar una proteína, mientras que los tripletes restantes son señales que indican cuando termina la secuencia.

Como hemos dicho, existen un total de veinte aminoácidos, diez de los cuales se denominan “esenciales” porque el ser humano no los puede sintetizar: debemos obtenerlos a través de la alimentación ya que su ausencia provoca daños graves en el organismo.

Pues bien, Crick definió el mecanismo básico a través del cual la información contenida en la secuencia de un gen pasa a sintetizar una proteína concreta: primero la “transcripción” y luego la “traducción”.  La transcripción es un proceso por el que la información contenida en la secuencia de bases (A, C, G y T) se transforma en una secuencia de ARN complementaria (llamada ARN mensajero).  Acto seguido entra en juego la traducción, que es el proceso por el que una vez formados los ARN mensajeros, éstos se encargan de tomar los aminoácidos que constituirán la proteína (esto sucede así porque el ADN no sale nunca del núcleo celular: las “fábricas” de las proteínas, los ribosomas, se encuentran fuera de él de modo que el ARN mensajero debe llevar ese “mensaje” al exterior).

En resumen, la secuencia de nucleótidos (a través de los codones o grupo de tres nucleótidos) determina el orden de los aminoácidos que formarán la proteína.  El ARN mensajero se encarga de trasladar esa secuencia a los ribosomas que fabricarán la proteína con esa sucesión concreta de aminoácidos.

Para que nos hagamos una idea de lo complejo que resulta nuestro código genético, las alrededor de 30.000 proteínas diferentes del cuerpo humano están constituidas por 20 aminoácidos, y es la molécula de ADN la que debe especificar el orden concreto en que unen esos aminoácidos.

Una vez comprendido el mecanismo básico de síntesis de proteínas, ahondemos un poco más en nuestro genoma.  En los seres humanos, como en otros animales y plantas, solo una fracción del ADN (aproximadamente un 1% en humanos) codifica la síntesis de proteínas: son los llamados genes estructurales.  El resto está implicado en tareas como regular la expresión del ADN, separar unos genes de otros y otras funciones: se trata de los genes reguladores, que determinan en qué tejidos, en qué momento o en qué cantidad se ha de sintetizar una proteína determinada.  Sin embargo, los investigadores observaron que la mayor parte del ADN parecía no tener función ninguna: de ahí que recibiera el nombre de “ADN basura” (“junk DNA” en inglés).

Fue el genetista japonés Susumu Ohno quien acuñó este término en 1972 [iii].  El llamado ADN basura o ADN no codificante, representa secuencias de nucleótidos que no parecen contener genes o tener ninguna función.  Porqué la evolución había mantenido una gran cantidad de ADN “inútil” era un misterio (llamado enigma o paradoja del valor de C), y parecía un despilfarro, algo que se ha desvelado en parte gracias a este proyecto de investigación que aún sigue en curso.

PROYECTO ENCODE

El Proyecto ENCODE (enciclopedia de los elementos del ADN) ha sido diseñado para continuar los trabajos donde terminó el Proyecto Genoma Humano.  Aunque este proyecto reveló el diseño de la biología humana, quedó claro que el manual de instrucciones para leer ese diseño era, en el mejor de los casos,  impreciso.  Los investigadores pudieron identificar en sus treinta mil millones de letras muchas de las regiones que codificaban proteínas, aunque éstas constituyen, como hemos señalado, poco más del 1% del genoma en alrededor de 20.000 genes.

Ya antes de acometerse el proyecto, muchos biólogos sospechaban que la información responsable de la maravillosa complejidad de los humanos estaba en algún lugar de los “desiertos” entre los genes:

Aún hoy, mucho después del descubrimiento de secuencias repetitivas y los intrones, señalar que el 25 por ciento de nuestro genoma consiste en millones de copias de una secuencia aburrida no causa ninguna conmoción.  Todos encuentran convincente el argumento de que si este ADN fuera totalmente inútil, la selección natural ya lo habría eliminado.  En consecuencia, debe de tener una función aún por descubrir.  Algunos incluso piensan que podría estar ahí en previsión de una evolución futura (esto es, para permitir la creación de nuevos genes).  Si así se hizo en el pasado, argumentan ¿por qué no en el futuro?

Brenner, S. (1998), “Refuge of spandrels”. Current Biology, vol. 8, núm. 19, p. R669.

Además de para la biología molecular, la especial configuración de nuestro genoma ha supuesto y sigue siendo un reto para la antropología evolutiva:

De los tres mil millones de letras que componen el genoma humano, sólo quince millones, menos de un 1%, han sufrido algún cambio desde que el linaje de los chimpancés y el de los humanos divergieron hace unos seis millones de años.  La teoría evolutiva sostiene que el efecto de la inmensa mayoría de estos cambios es pequeño o nulo en nuestra biología.  Sin embargo, entre estos 15 millones de bases se encuentran las diferencias que nos hacen humanos.  La evolución desde un ancestro de humanos y chimpancés hasta un ser humano no resulta de que se acelere el tic-tac del reloj molecular en su conjunto; el secreto radica en que se den cambios rápidos en lugares donde se producen cambios sustanciales en el funcionamiento del organismo.

Pollard, K. S. (2009), “¿Qué nos hace humanos?”. Investigación y Ciencia, núm. 394, p. 24-29.

Por ello, tras una fase piloto entre los años 2003 y 2007, el estudio, financiado con 80 millones de dólares por EE.UU., se propuso como meta cartografiar este terreno que se creía baldío.  El objetivo es catalogar las secuencias funcionales de ADN que están escondidas ahí, enterarse de cuándo y en qué células están activas, y rastrear sus efectos en la forma de empaquetar, regular y leer el genoma.

El proyecto ha combinado los esfuerzos de 442 científicos de 32 laboratorios en Reino Unido, EE.UU., Singapur, Japón, Suiza y España (se incluyen el Centro de Regulación Genómica en Barcelona y el Centro Nacional de Investigaciones Oncológicas (CNIO) en Madrid).  Los investigadores se han centrado en 24 tipos de experimentos estándar y aunque el genoma es el mismo en la mayoría de las células humanas, la forma en que este actúa no (el ADN contenido en las células de nuestros ojos por ejemplo, no necesita formar pelos o uñas).  Por este motivo, se han llevado a cabo estos experimentos en múltiples tipos celulares ―al menos 147― dando lugar a los 1.648 experimentos que ENCODE ha hecho públicos.

Por este motivo, precisamente porque el ADN se comporta de forma distinta en diferentes tipos de células, el proyecto de investigación continúa en marcha: faltan por estudiar muchas más células y tejidos para conocer mejor cómo funciona nuestro ADN y qué hace para producir unos órganos u otros.

Los resultados obtenidos hasta ahora son, en cualquier caso, sorprendentes: el 80% del genoma contiene elementos vinculados a funciones bioquímicas, dando al traste con la visión generalmente aceptada de que el genoma humano era en su mayor parte “ADN basura”.  Se han detectado más de 70.000 regiones promotoras ―los lugares donde las proteínas se unen para controlar la expresión de los genes― y cerca de 400.000 regiones potenciadoras ―que regulan la expresión de genes distantes (se trata de controladores que no tienen porqué estar localizados cerca de los genes sobre los que actúan, ni siquiera en el mismo cromosoma. La estructura tridimensional de nuestro genoma está formada de un modo que, aunque el controlador esté lejos de los genes si leemos la secuencia linealmente, geométricamente está próximo al promotor y al gen ya que se encuentran envueltos alrededor para contactar con ellos).

Hemos encontrado que una gran parte del genoma ―de hecho, una cantidad sorprendente― está implicada en controlar cuándo y dónde se producen las proteínas más allá de su simple fabricación.

Ewan Birney, coordinador de análisis del proyecto

La imagen de un interruptor es perfectamente válida para comprender estos mecanismos.  Determinadas secuencias dicen cuándo y dónde deben encenderse o apagarse determinados genes, así como la intensidad del funcionamiento.

Los elementos reguladores son responsables de garantizar que las proteínas del cristalino estén en las lentes de tus ojos y que la hemoglobina esté en tu sangre, y no en cualquier otro lugar. Es muy complejo. El procesamiento de la información y la inteligencia del genoma reside en los elementos reguladores. Con este proyecto, probablemente hemos podido pasar de comprender menos del 5% a cerca del 75% de ellos.

Jim Kent, director del Centro de Coordinación de los Datos (UCSC) de ENCODE.

Con estos datos en la mano comenzamos a entender cómo los relativamente pocos genes que codifican proteínas bastan para proporcionar la complejidad biológica necesaria para hacer crecer y funcionar un ser humano.  Como propugnaba Katherine Pollard, «el secreto radica en que se den cambios rápidos en lugares donde se producen cambios sustanciales en el funcionamiento del organismo».

Gracias a esta visión más completa del funcionamiento de nuestro código genético, se ha creado la oportunidad para comprender cómo afectan las variaciones genéticas a los distintos rasgos humanos y las enfermedades.  Características como la altura y la inteligencia, o enfermedades como el Alzheimer van a poder ser analizadas desde un nuevo paradigma.  Desde 2005, los estudios a gran escala del genoma humano (GWAS, genome-wide association studies) que asocian variaciones en la secuencia del ADN con rasgos específicos y enfermedades han mostrado miles de puntos del genoma donde la diferencia en un simple nucleótido parece estar asociada con el riesgo de padecer una enfermedad.  Pero dado que casi el 90% de estas variaciones caen fuera de los genes que codifican proteínas, hasta ahora los investigadores tenían pocas pistas en la forma en que podían causar o afectar a una enfermedad o rasgo fenotípico.

Pero asociación no es causalidad, y la identificación de estas variantes y la comprensión de la forma en que ejercen esa influencia ha sido difícil.

Por ejemplo, las variantes de ADN asociadas a la diabetes se producen en la parte del genoma ahora estudiada, pero no en cualquier punto, sino en la zona que regula los genes que controlan aspectos del metabolismo del azúcar o de la secreción de insulina. Otro ejemplo son las variantes que se dan en las zonas que regulan en sistema inmunológico y que han podido vincular a enfermedades como la esclerosis múltiple, el asma o el lupus.

El proyecto Genoma Humano fue como viajar a la Luna, se hizo con una tecnología primitiva y a base de mucha fuerza bruta.  Encode, sin embargo, es como un viaje a Marte.

Alfonso Valencia, investigador del Centro Nacional de Investigaciones Oncológicas (CNIO).

Del mismo modo, la exploración del gran número de elementos reguladores revelados por el proyecto y la comparación de sus secuencias con las de otros mamíferos promete cambiar la forma de pensar de los científicos acerca de la evolución del ser humano.

Esto es así porque uno de los grandes desafíos de la biología evolutiva es comprender cómo las diferencias en la secuencia del ADN entre especies determinan las diferencias en sus fenotipos.  El cambio evolutivo puede tener lugar tanto a través de cambios en las secuencias de codificación de proteínas como por cambios en la secuencia que alteran la regulación genética.

Se ha argumentado que los potenciales cambios adaptativos en las secuencias que codifican proteínas pueden ser impedidos por la selección natural porque, aun cuando pueden ser beneficiosas para un tipo celular u órgano, pueden ser perjudiciales en algún otro lugar del organismo.  Por el contrario, dado que las secuencias reguladoras de genes frecuentemente se hayan asociadas con patrones temporal y espacialmente específicos de expresión, los cambios en estas regiones pueden modificar la función sólo de determinados tipos celulares en momentos concretos, haciendo que sea más probable que confieran una ventaja evolutiva.

En definitiva, costará un gran trabajo identificar los cambios críticos en la secuencia de los nuevos elementos reguladores que han sido identificados y que suponen las diferencias entre los humanos y otras especies.

A pesar de la gran cantidad de información ofrecida por ENCODE, aún estamos lejos del objetivo final: comprender el funcionamiento del genoma en cada célula de cada persona, así como a través del tiempo en esa misma persona.  Serán necesarios muchos años más de investigación para completar el nuevo cuadro que se ha abierto ante nosotros.

REFERENCIAS

Maher, B. (2012). ENCODE: The human encyclopaedia Nature, 489 (7414), 46-48 DOI: 10.1038/489046a

Ecker, J., Bickmore, W., Barroso, I., Pritchard, J., Gilad, Y., & Segal, E. (2012). Genomics: ENCODE explained. Nature, 489 (7414), 52-55 DOI: 10.1038/489052a

Frazer, K. (2012). Decoding the human genome. Genome Research, 22 (9), 1599-1601 DOI: 10.1101/gr.146175.112

Para facilitar la labor de los investigadores, la revista Nature ha creado un portal específico para explorar los 30 artículos publicados mediante un sistema que complementa los documentos al poner de relieve los temas que son tratados sólo en las subsecciones de los trabajos individuales. Cada hilo o trama (thread en inglés) consta de los párrafos pertinentes, las figuras y las tablas de todos los artículos, unidos en torno a un tema específico.

Por mi parte, os dejo un listado de los artículos publicados con accesos directos para leer su contenido (su acceso es libre).

NOTAS

[i]Crick, F. H. (1958), “On protein synthesis”. Symposia of the Society for Experimental Biology, vol. 12, p. 138-163.

[ii]Crick, F. H. (1970), “Central dogma of molecular biology”. Nature, vol. 227, núm. 5258, p. 561-563.

[iii]Ohno, S. (1972), “So much “junk” DNA in our genome”. Brookhaven Symposia in Biology, vol. 23, p. 366-370.

Licencia Creative Commons
ENCODE – Enciclopedia de los elementos del ADN por Afán por saber, a excepción del contenido de terceros y de que se indique lo contrario, se encuentra bajo una Licencia Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International Licencia.

8 pensamientos en “ENCODE – Enciclopedia de los elementos del ADN

  1. Hacía años que no leía algo tan coherente, bien expresado e interesante y de tal extensión, todo a la vez. Dicho de otro modo, enhorabuena por la elevada tasa de interés por unidad de tiempo leído de artículo. Muy buena revisión bibliográfica y perfectamente simplificado, pero sin perder la coherencia.

    La regulación genética no es más que en enorme y complejisimo bucle, sin fin (desde la formación de un óvulo y la fecundación, hasta la muerte) de retroalimentaciones negativas y positivas que inciden, con distinto peso, en la expresión de distintos genes, así como la degradación se sus productos intermediarios y finales. El problema es que nosotros humanos, nunca tendremos la capacidad mental suficiente para analizar un volúmen de información tan absoutamente abrumador, menos aún de llegar a ser capaces de cuantificar en términos numéricos la influencia de cada factor (incluidos los ambientales) en la expresión de una enfermedad u otra, para ser capaces a su vez de corregir ese disbalance con las interacciones moleculares necesarias, necesarias éstas para reestrablecer el equilibrio de expresión génica normal, según tipo celular; administrando los fármacos adecuados, para los pacientes adecuados, en el momento y dosis adecuada, lo cual es complejísmo. Aún así, prosigamos, pero necesitaremos de inteligencia artificial para llegar modelizar y cuantificar todo con exactitud de cara a poder manejar el resultado final a nuestro antojo.

    Enhorabuena por el artículo y muchas gracias,
    Josep Duato Botam

    • Me alegra enormemente que te haya parecido interesante esta aportación, sobre todo viniendo de alguien con tu preparación…

      Ciertamente, el reto que tienen por delante los científicos es inmenso, y creo que la típica expresión de que sólo vemos la punta del iceberg se queda realmente corta. Comparto tu criterio de que el método de investigación deberá dar un salto espectacular antes de poder siquiera comprender mínimamente el caudal de información y nuevos interrogantes que se van a ir planteando a lo largo del camino, por eso me parece un error la forma de publicitar estos descubrimientos: unas cuantas entrevistas y numerosos titulares en los periódicos que quedan en el olvido a los pocos días. Considero fundamental ahondar en el tema porque resulta de una trascendencia poco comprendida, así como informar paulatinamente no solo de los avances, sino de los problemas que se plantean y la forma de afrontarlos.

      Gracias por tu comentario. Me hace seguir adelante con esta tarea…

  2. Buena editorial. Es cierto que, no ya para los profanos, también para los que saben del tema, es complicado definirlo alegremente y no hay solución definitiva. Pero al fin y al cabo es un tema nominalista, por eso te decía que era un detalle menor, pero que me interesaba matizar ;)

  3. Muy buen artículo. La descripción de “gen” sí se tambalea un poco, por haber una pequeña imprecisión: Un gen no codifica necesariamente UNA proteína, sino para UNA cadena polipeptídica. Proteínas oligoméricas como la hemoglobina, por ejemplo, están formadas por varias cadenas alfa y beta codificadas por distintos genes.

    • Muchas gracias por tu comentario. Es cierto que he empleado una definición de “gen” un tanto básica (me he basado en el Diccionario Akal de términos biológicos) ya que mi propósito ha sido ofrecer una introducción lo más sencilla posible para los legos en la materia. Definir un “gen” se está convirtiendo en algo cada vez más complicado (como demuestran los resultados preliminares del proyecto ENCODE) y seguro que la tarea se convertirá en campo abonado para la discusión, como ya ocurrió en el pasado. Tendremos que seguir los progresos de cerca. Un cordial saludo.

Deje un comentario