Bioinformática

En la actualidad, la cantidad de información de secuencias (ya sean de nucleótidos o de proteínas) y metadatos asociadas a las mismas es enorme, lo que genera un problema de accesibilidad y de organización de la información. La bioinformática es la disciplina que adapta herramientas computacionales (ya sean algoritmos o bases de datos) para obtener y organizar información biológica, con la idea de solucionar los problemas mencionados.

En esta práctica se verán las principales bases de datos y herramientas que nos ofrecen información biológica sobre secuencias de ADN y proteínas. Las secuencias se pueden encontrar en varios formatos:

  • FASTA: Formato muy básico que consta de un encabezado precedido por '>' donde se da información, y tras un salto de carro la secuencia de ADN o aminoácidos. Un ejemplo de secuencia en formato FASTA: http://www.uniprot.org/uniprot/Q4JFS1.fasta
  • GENBANK: Formato más completo que presenta tres secciones: Definición, Características y Secuencia. En definición podemos ver información acerca de la longitud, número de acceso, anotación y referencias bibliográficas donde aparece. En características tenemos información sobre la secuencia codificante, secuencia de aminoácidos y otras características (como dominios proteicos, exones e intrones). En la de secuencia aparecen las coordenadas iniciales de cada línea seguida por la secuencia nucleotídica. El formato acaba en //. Un ejemplo de secuencia en formato GenBank: https://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

A partir de aquí ya podemos obtener información biológica sobre las secuencias, bien rastreando sus identificadores en bases de datos como Genome Browser o GenBank, o bien buscando secuencias homólogas mediante el algoritmo BLAST. BLAST ("Basic Local Alignment Sequence Tool") es una herramienta que realiza alineamientos locales entre una secuencia problema ("query sequence") y todas las secuencias de la base de datos que queramos, obteniendo a partir de la calidad del alineamiento puntuaciones ("scores") para los alineamientos. Cuanto mejor puntuado salga un alineamiento más similitud habrá entre esas dos secuencias. Además de la puntuación, un valor E nos mostrará si el alineamiento se ha podido producir al azar o no, indicando valores bajos de valor E que muy probablemente no se habrá producido al azar. Hay distintos tipos de algoritmos BLAST: BLASTn busca en bases de datos de nucleótidos con queries de nucleótidos, BLASTp busca en bases de datos de aminoácidos con queries de aminoácidos, BLASTx busca en bases de datos de aminoácidos con secuencias nucleotídicas, tBLASTx busca en bases de datos nucleotídicas con queries de aminoácidos ...