Cartografías genómicas | |
Secuenciación | |
El papel de la informática | |
Las "tres culturas" de la investigación genómica |
Tras las propuestas iniciales, que partieron del ministerio de energía de los EEUU (DOE), al que enseguida siguieron los Institutos Nacionales de la Salud (NIH), quedó claro que este magno proyecto no podía consistir en la secuenciación pura y dura, sino que habría de constar de varias etapas encadenadas, comenzando por la elaboración de mapas genéticos y físicos de resolución cada vez mayor. Además, la secuenciación habría de centrarse en principio en las zonas de ADN más interesantes a priori, como las regiones génicas codificadoras, dejando para una etapa ulterior el análisis del enorme contenido de ADN repetitivo de distintas clases que existe en el genoma. Simultáneamente había que ir desarrollando toda una infraestructura de técnicas instrumentales y de análisis de la información generada (programas informáticos potentes para gestionar las secuencias y extraer sentido biológico de ellas, nuevos algoritmos, redes de ordenadores interconectados, bases de datos entrelazados, etc.).
El PGH hace uso de dos tipos de cartografía para caracterizar el genoma, aunque en última instancia los mapas emanados de los distintos métodos han de ser correlacionados e integrados: cartografía genética de ligamiento, y cartografía física.
La cartografía genética se basa en el cálculo de la frecuencia a la que se co-heredan formas alternativas (alelos) de dos loci genéticos que están ligados formando parte de un mismo cromosoma. Hasta el advenimiento de las técnicas moleculares, los mapas genéticos de ligamiento en humanos eran bastante rudimentarios, ya que en su elaboración no puede intervenir (por obvios motivos éticos) la experimentación de laboratorio que se usa en animales, y porque los datos habían de basarse casi exclusivamente en la comparación de fenotipos normales y los mutantes correspondientes a determinadas enfermedades genéticas, y en el recurso a análisis de familias, a ser posible con registros de varias generaciones y con gran número de individuos.
La revolución de la cartografía genética de ligamiento sobrevino cuando a finales de los años 70 se recurre al análisis molecular de zonas de ADN no codificadoras y que son muy polimórficas: existen varios tipos de secuencias (algunas de ellas de naturaleza repetitiva, como los VNTR, los microsatélites, etc.), dispersos por el genoma, cada uno de ellos con varios alelos en el ámbito poblacional. Entre las ventajas de los microsatélites se cuentan: contenido informativo muy alto, con lo que los análisis estadísticos mejoran en fiabilidad; distribución abundante y relativamente uniforme por todo el genoma; y que se pueden ensayar fácilmente mediante PCR. Además, estos loci genéticos sirven en genética clínica como marcadores útiles para localizar genes relacionados con enfermedades. Los polimorfismos moleculares han permitido que en la actualidad el PGH haya generado detallados mapas genéticos del genoma humano a un nivel de resolución en torno a 1 centimorgan (cM) o incluso menos. Esto ya se logró en 1994, un año antes de lo previsto, y en buena parte con resoluciones mejores (0.7 cM).
Los mapas físicos tienen como objetivo especificar distancias físicas mensurables en pares de bases (pb) o alguno de sus múltiplos. Obviamente, el mapa físico de mayor detalle es la propia secuencia del genoma. Pero antes de llegar a obtenerla, hay que elaborar mapas físicos partiendo de resoluciones bajas y avanzando hacia las resoluciones cada vez mayores. En cierta manera, los mapas físicos de menor resolución son los propios cariotipos: la visualización microscópica de la dotación cromosómica haploide humana teñida con colorante de Giemsa nos muestra un patrón alternante de bandas claras y oscuras, en el que cada banda tiene una media de unos 7 millones de pares de bases. Si bien los métodos citogenéticos tienen sus limitaciones, no hay que olvidar que actualmente existen novedosas herramientas de citogenética molecular (como las sondas fluorescentes in situ o FISH, la "pintura de cromosomas", etc.) que permiten un mayor detalle y que, unidas a otras técnicas aumentan el arsenal de enfoques para el estudio de los genomas, de su dinámica y de sus alteraciones.
Los mapas físicos de mayor resolución se suelen elaborar a partir de genotecas (bibliotecas de genes) en las que el genoma a estudiar se encuentra fragmentado en multitud de trozos aleatorios y desordenados, cada uno de ellos clonado por separado en un vector adecuado: plásmido, cósmido, cromosomas artificiales de levadura (YAC), cromosomas artificiales de bacteria (BAC), etc.. La idea para elaborar los mapas físicos es en cierto modo similar a la de ensamblar un rompecabezas: consiste en ordenar los fragmentos del genoma a base de buscar grupos de fragmentos que tienen alguna zona en común, es decir, ir hallando conjuntos de pares de fragmentos parcialmente solapados. Ello conduce al concepto de contig: un contig (o cóntigo, como algún autor español ha traducido) es un conjunto de fragmentos de un genoma que se han clonado por separado, pero que son contiguos y que están parcialmente solapados. Los actuales mapas físicos han de recurrir pues al ensamblaje de esos fragmentos dentro de un contig, y ulteriormente, los distintos contigs correspondientes al mismo grupo de ligamiento han de ser ensamblados entre sí: el objetivo final (ideal) sería obtener un gran contig por cada cromosoma, que describiera detalladamente la posición y distancia física (en bases) de y entre distintos marcadores (representados, p. ej. , por dianas para enzimas de restricción).
La cartografía de contigs se puede realizar buscando la "huella dactilar" común a distintos clones de una genoteca de ADN humano. Dicha huella puede consistir en un patrón compartido de dianas de enzimas de restricción (que se puede indagar ayudándose de algoritmos y programas computacionales adecuados). Las estrategias más recientes hacen uso de ADN humano en forma de unos 20.000 trozos independientes clonados en los llamados cromosomas artificiales de levadura (YAC, de sus iniciales inglesas), y buscando la "huella dactilar común" entre clones a base de la detección de determinadas secuencias repetitivas. Todo el procedimiento está altamente automatizado, como en el famoso laboratorio francés del Génethon, provisto de varios robots especializados en procesar y analizar las muestras.
El último gran hito en cuanto a metodología de mapas físicos ha sido el desarrollo de una especie de "marcadores físicos universales", fácilmente generables, que permiten que los datos obtenidos en un laboratorio sean rápidamente compartidos y asumidos por toda la comunidad investigadora: se trata de los llamados "lugares etiquetados por su secuencia" (STS en inglés). Consisten en trechos cortos de ADN (de entre 100 y 1000 pb) cuya secuencia exacta se conoce y se sabe que es única en todo el genoma. Su facilidad de uso y su aceptación como "lenguaje común" estriba en que una vez que un investigador descubre una STS, cualquier otro puede obtenerla por sí mismo (ni siquiera hace falta el envío físico de muestras), simplemente fabricando in vitro los cebadores correspondientes a sus extremos y amplificando la STS por reacción en cadena de la polimerasa (PCR). Los STS definen puntos concretos únicos del mapa físico, y constituyen magníficos "mojones" o balizas fácilmente detectables.
Uno de los objetivos iniciales del PGH era la obtención de mapas físicos con unas 30.000 balizas repartidas de modo más o menos uniforme, de modo que cada dos marcadores consecutivos estén separados una media de 100 kb. Este objetivo se acaba de cumplir, en buena parte debido al empleo de los STS, que permiten elaborar mapas de contigs según el contenido de STS de los clones solapados. Estos mapas de STS permiten la integración de los mapas genéticos y físicos, hacen accesible la fase de secuenciación y facilitan la clonación de genes implicados en enfermedades mediante la llamada estrategia del candidato posicional.
Una vez que se construyen los mapas, hay que refinarlos y purgarlos de posibles errores. Los errores suelen tener dos fuentes principales: algunos clones YACs son en realidad híbridos o quimeras producidas por artefactos durante el proceso de elaboración de la genoteca, y por lo tanto su mapa no refleja el orden genómico auténtico; y por otro lado, los programas de ensamblado de los mapas no son fiables al 100%. De ahí la importancia de confirmar normalizar los datos mediante estrategias aceptadas por todos los investigadores.
Dentro del PGH se está abordando un enfoque paralelo y complementario consistente en secuenciar los denominados EST (lugares etiquetados expresables). Se parte de muestras de ARN mensajero aisladas de los distintos tipos de células y tejidos del cuerpo humano, se realiza por transcripción inversa (con reversotranscriptasa) copias de ADN, y se procede a su secuenciación. Ello rinde versiones no genómicas, desprovistas de las porciones intrónicas, de los distintos genes que se expresan en los diferentes tejidos. Los datos obtenidos se integran en "mapas funcionales" que muestran el patrón de expresión diferencial según su localización anatomo-histológica.
Método químico de Maxam y Gilbert (actualmente poco usado). | |
Método enzimático de Sanger (terminación de cadena, o de los didesoxinucleótidos, ddNTP) | |
Secuenciación automática según el método de Sanger |
Cada ddNTP se marca con un colorante fluorescente diferente. Ello permite hacer la electroforesis en el mismo callejón del gel. Las bandas de ADN son detectadas por su fluorescencia según pasan delante del detector. Si el detector lo hacemos mover en horizontal, podrá leer varias secuenciaciones al mismo tiempo. Los datos pasan a un sistema computerizado.
Microscopías de efecto túnel (STM) y de fuerza atómica (AFM)
Microscopía de barrido (scanning) de efecto túnel (STM). Una fina sonda se mantiene muy cerca del objeto (en este caso ADN), por medio de un sistema de control basado en la detección de una minúscula corriente inducida por el efecto túnel entre la punta de la sonda y el ADN. Una técnica muy parecida es la microscopía de fuerza atómica (AFM), en la que el control se debe a la medida de las fuerzas de van der Waals entre la sonda y la muestra. En cualquiera de los dos casos, la punta se mueve a lo largo del objeto, de modo que sus desplazamientos en vertical se miden y se registran, generando una imagen de la superficie del objeto. Aunque se han obtenido imágenes del esqueleto azúcar-fosfato de ADN de cadena sencilla y de cadena doble, está por ver si se pueden "ver" las bases nitrogenadas. Si es así, la técnica podría secuenciar del orden de 1 Mb cada día.
Secuenciación por hibridación: chip de hibridación
Secuenciación por hibridación en chips con oligonucleótidos. Se basa en sintetizar distintas sondas de oligonucleótidos, y unirlas en disposiciones ordenadas (arrays) a una fina pastilla de nylon o vidrio. Este chip se prueba frente a un ADN marcado fluorescentemente, de modo que el patrón y cantidad de fluorescencia suministra información sobre la secuencia del ADN en cuestión. La última generación de este enfoque es la combinación de técnicas folitográficas (como la de los chips de silicio para computadores) con síntesis química en fase sólida, que logra chips con ordenaciones de decenas e incluso centenares de miles de oligos distintos, que pueden usarse para identificar secuencias marcadas fluorescentemente en cuestión de minutos, por medio de un microscopio confocal de fluorescencia totalmente automatizado, que registra los datos.
A modo de estudio piloto sobre sus posibilidades, la empresa Affimetrix ha logrado re-secuenciar por este método las 16 kb de ADN mitocondrial humano, con un dispositivo formado por 135.000 oligonucleótidos. Con la tecnología actual se puede llegar a sintetizar en un día 400.000 oligos de 20 bases cada uno, dispuestos en un chip de 1,6 cm2. Pero el objetivo final es lograr un chip con los 4 millones de sondas necesarias para secuenciar todo el genoma humano en una sola hibridación (!).
Secuenciación genómica clásica
Hasta hace muy poco, la secuenciación genómica dependía de la previa disponibilidad de mapas físicos detallados, para que los fragmentos secuenciados puedan ser ensamblados correctamente. Necesita manejar una gran cantidad de datos (a título de ejemplo, para generar 1 kb de secuencia final, hay que secuenciar 10 kb en total), y no es totalmente automatizable.
Resumamos brevemente (recapitulando algo de lo dicho para los mapas) cuál es la estrategia habitual para secuenciar genomas:
Por cada cósmido hay que secuenciar unos 800 clones de fago M13, con un tamaño medio de inserto de 400 pb, y la secuencia de 40 kb del inserto del cósmido original se ensambla computacionalmente. Este enfoque de secuenciación aleatoria (shotgun) obliga a secuenciar muchas veces (unas 8 o 10) el mismo segmento de secuencia, lo que tiene la ventaja de que asegura una mayor fiabilidad de los datos obtenidos. Sin embargo, como ya dijimos, presenta varios inconvenientes: hay que disponer previamente de buenos mapas; los YACs son inestables y muchos de ellos son quimeras, artefactos de clonación que no reflejan el orden genómico (identificarlos y descartarlos es una tarea que lleva tiempo y esfuerzo); y como ya sabemos, esta metodología no se puede automatizar totalmente.
Un tema importante es tener tasas de errores lo más bajas posibles: del orden de 0.02-0.2%.
Secuenciación de ADN complementario (ADNc)
No es una alternativa, sino un complemento a la secuenciación genómica. No es el gen lo que estamos secuenciando, sino la "retrocopia" de su ARNm obtenida por reversotranscripción, desprovisto de intrones y secuencias reguladoras no traducidas.
Si bien la secuenciación de ADNc no nos da información de la estructura del gen, sí nos la puede dar sobre su expresión: en qué tejidos se expresa, bajo qué condiciones, etc., lo que permite iniciar mapas funcionales del genoma humano.
Nuevas estrategias de secuenciación genómica
Recientemente (véase Venter et al., 1996) se ha propuesto una estrategia de secuenciación genómica que no depende de previos mapas físicos, y que en lugar de YACs emplea otro tipo de vectores, los cromosomas artificiales de bacteria (BACs), que aunque permiten insertos de entre 100 y 350 kb, tienen la gran ventaja de aceptar insertos genómicos con gran fidelidad (sin quimerismos ni apenas reordenaciones del material insertado). La estrategia consiste en lo siguiente:
Aunque la estrategia es muy atractiva por su aparente rapidez y menor costo (se estima que en dos años 30 secuenciadores de última generación podrían obtener esas 600.000 STCs, con un desembolso de menos de 10 millones de dólares), tiene varios incovenientes, entre ellos el que obliga a mantener uno o varios centros depositarios de las placas con los clones BACs, y al envío de clones entre laboratorios. Dado que el PGH ha funcionado muy bien hasta ahora de modo descentralizado, es posible que haya reticencias en grupos que vean amenazada la actual cuasi-democracia investigadora. (No se puede olvidar quién hace la propuesta: el director de uno de los centros privados más "agresivos" en investigación genómica).
La informática ha sido uno de los objetivos esenciales del PGH, debido a la gigantesca cantidad de datos que hay que recoger, analizar, comparar, interpretar y distribuir. La informática aplicada a la biología presenta dos subdisciplinas (véase Benton, 1996): la bioinformática en sentido estricto, que se puede definir como el trabajo de investigación y desarrollo que se necesita como infraestructura de información de la actual biología; y la biología computacional, que es la investigación dependiente de computación dedicada a entender cuestiones biológicas básicas. El término bioinformática, en sentido lato, comprende estos dos grandes aspectos. Estamos ante un nuevo campo interdisciplinario, en la interfase entre ciencias de la computación, matemáticas y biología.
Las cuestiones de gestión de datos que plantea el PGH suponen un auténtico "revulsivo" para la informática. Aunque para algunas de las tareas se puede recurrir a enfoques tradicionales, con sólo aumentar la escala del procesamiento, para otros problemas se necesitan arquitecturas y programas informáticos totalmente diferentes.
La adquisición de datos experimentales por métodos digitales está espoleando a la industria a diseñar y fabricar aparatos cada vez más sofisticados, que mejoran y aceleran la parte más rutinaria de la investigación. Para ello los aparatos incorporan sistemas computerizados de análisis y tratamiento de imagen visible. Piénsese en los secuenciadores automáticos de ADN o en la tecnología del chip de ADN.
El ensamblaje automático de mapas y secuencias es otra tarea que plantea numerosos e interesantes problemas a las ciencias de la computación, que han de hacer uso de nuevos algoritmos y estrategias en las que tener en cuenta los posibles errores.
Predicción de secuencias codificadoras, dominios funcionales y otras zonas interesantes del genoma: Aunque disponemos de programas a tal efecto (GRAIL, FASTA, etc.), se requieren nuevos algoritmos capaces de predecir patrones especiales de secuencia dentro de genomas completos. Se están ensayando aproximaciones derivadas de las redes neurales (neuromiméticas).
Construcción de árboles filogenéticos: En principio se viene realizando a base de comparar determinados genes entre pares de organismos, mediante algoritmos de alineamiento de secuencia, pero habrá que mejorar los métodos, incluyendo una adecuada evaluación del grado de fiabilidad de los árboles.
La gigantesca cantidad de datos generados en los proyectos genoma obliga a abandonar la "Galaxia Gutenberg" a la hora de publicar los datos: su difusión se hace por medios electrónicos, depositándolos en bases de datos públicos. El ritmo de acumulación de datos es vertiginoso, y actualmente se duplican en menos de un año. Los biólogos del siglo XXI usarán esas bases de datos como un recurso indispensable de su trabajo cotidiano. En la actualidad funcionan principalmente dos tipos de bases de datos genómicos:
El Consorcio Internacional de Bases de Datos de Secuencias está formado por GenBank, el Banco de datos de ADN de Japón (DDBJ) y el del EMBL. Alberga los datos de secuencias. Las tres bases comparten y complementan la información. En España existe un nodo de EMBL residente en el Centro Nacional de Biotecnología (CNB) de Madrid. | |
La Genome Data Base (GDB) se estableció para albergar los datos de mapas y relacionados (sondas, marcadores, etc.). |
Actualmente la base de datos bibliográfica MEDLINE (mantenida por la NML estadounidense) está vinculada con las bases de datos genéticos y de secuencias. Por ejemplo, se puede hacer una búsqueda desde MEDLINE con palabras clave de una enfermedad, lo que da acceso a OMIM (Herecia mendeliana on-line), con referencias bibliográficas, y de ahí se puede saltar a los mapas genéticos, físicos y las secuencias, si están disponibles.
En 1993, un taller recomendó profundizar en la coordinación entre los distintos bancos informatizados. Las diferencias en la estructura de las bases de datos y en su nomenclatura hacen que un investigador que trabaje con un gen o una proteína de una especie tenga difícil acceder a la información de genes homólogos de otras especies. Los expertos en bioinformática están tratando de desarrollar estándares y nombres comunes, y de establecer vínculos entre ellos, de modo que cuando los investigadores busquen información en una base de datos, automáticamente la encuentren vinculada con otras bases depositarias de otros datos. Internet y los lenguajes informáticos dedicados al WWW pueden venir a ayudar, al hacer fácil crear vínculos entre bases de datos diferentes ha abierto el camino a la diseminación del enfoque basado en "federaciones de pequeñas bases de datos". Basta definir hipervínculos activos (hipertexto) para vincular datos relevantes entre distintas bases. Pero para hacer frente al diluvio de datos tales hipervínculos tendrán que ser creados automáticamente por el software de la base de datos. Ello obliga a ponerse de acuerdo sobre la nomenclatura y los formatos compatibles. El famoso lenguaje Java, creado para Internet, parece que puede desarrollarse en una buena herramienta para entrecruzar de modo inteligente todas las bases de datos biológicos.
En la biomedicina de la era genómica y postgenómica se requiere, como se está viendo, un alto grado de interdisciplinariedad e integración entre distintos profesionales. Es lo que Benton (1996) ha llamado -parafraseando a C.P. Snow- el problema de las tres culturas: los biólogos querrán que los informáticos les suministren soluciones a sus problemas de gestión de datos, los matemáticos y expertos en computación andarán detrás de problemas intelectualmente llamativos, y los ingenieros pedirán a los dos grupos anteriores que les suministren especificaciones bien concretadas para que ellos puedan desarrollar su trabajo. Los distintos expertos habrán de acostumbrarse a emplear vocabularios y lenguajes comunes y a entender (sin minusvalorar) los problemas de los demás. En numerosas universidades empiezan a impartirse enseñanzas (de pregrado o postgrado) de bioinformática y biocomputación. En muchos casos se trata de que los estudiantes o profesionales de especialidades tradicionales completen su formación con la parte con la que no están familiarizados.
Por lo que respecta a los biólogos, habrán de trabajar en entornos tremendamente ricos en información, manejarán con soltura las bases de datos, y extraerán conocimiento biológicamente significativo. Los nuevos datos obligarán a elaborar nuevas hipótesis en muchos ámbitos de las ciencias de la vida, que sugerirán nuevos tipos de experimentos, estableciéndose una retroalimentación fructífera entre la biología in silico y la tradicional biología in vtvo e in vitro. Las Ciencias Biológicas darán un salto no sólo cuantitativo, sino que probablemente entraremos en un nuevo paradigma de investigación, en el que contemplaremos los fenómenos vitales no sólo desde un punto de vista molecular, sino de integración entre sus diversos niveles de complejidad.
Ir al siguiente apartado:
[VOLVER AL ÍNDICE DE ESTE ARTÍCULO]
Ó 1997 ENRIQUE IAÑEZ PAREJA. Permitida la reproducción para uso educativo