Genetica Humana

Page 287

CAPITULO 20

5/12/06

07:37

Página 275

La Figura 20.2 incluye algunos tutoriales para ilustrar el uso de Entrez y de SRS.

Entrez Gene es otra base de datos del NCBI, que podríamos calificar de secundaria ya que contiene infromación derivada de GenBank. Se trata de una base de datos centrada en genes, más que en secuencias, y por eso reúne todas las secuencias (además de información de otro tipo) sobre un gen concreto, en todos los genomas en los que existen secuencias correspondientes a dicho gen. De hecho, Entrez Gene es un interfaz único con gran cantidad de información descriptiva sobre loci genéticos (nomenclatura, nombres alternativos, números de acceso de las secuencias, información sobre la posición y enlaces a otros recursos). Entrez Gene se basa en un tipo especial de secuencias llamadas RefSeq, generadas por el propio NCBI a partir de secuencias contenidas en GenBank. RefSeq pretende ser una colección integrada, completa y no redundante de secuencias de ADN genómico, ARN y proteínas, para los principales organismos. El NCBI genera secuencias RefSeq para más de 1 100 virus y 150 bacterias además de organismos superiores (humano, ratón, rata, zebrafish, etc.). Las principales características de la colección RefSeq son la no-redundancia, la conexión entre secuencias nucleotídicas y sus correspondientes secuencias proteicas, un formato constante, números de acceso específicos y mantenimiento (curation en inglés) a cargo del personal del NCBI y colaboradores externos. Los números de acceso de RefSeq tienen el formato: XX_123456 (dos letras, guión bajo y seis números). Las dos letras iniciales indican el tipo de secuencia. Por ejemplo, en el caso de secuencias que han sido revisadas manualmente podemos encontrar números de acceso de estos tipos:

www.FreeLibros.me

275

Bases de datos en Genética Humana: bases de datos de secuencias

Las tres principales bases de datos primarias de secuencias de nucleótidos son EMBL-Bank (en el EBI), DDBJ (en el CIB de Mishima, Japón) y GenBank (en el NCBI). Desde hace unos años, estas bases de datos firmaron un convenio de colaboración por el que constituyeron el INSDC (International Nucleotide Sequence Database Collaboration), de modo que se sincronizan entre ellas cada 24 horas y contienen exactamente la misma información. Además, son accesibles gratuitamente por Internet, y contienen todas las secuencias de nucleótidos que son de dominio público. En febrero de 2006 estas bases de datos contenían unos 54 millones de registros, con unos 60 000 millones de nucleótidos en total, y su crecimiento en los últimos años ha sido exponencial. Están divididas en varias secciones que reflejan grupos taxonómicos, además de otros grupos no taxonómicos como por ejemplo las secuencias protegidas por patente. En estas bases de datos prima la cantidad sobre la calidad, en el sentido de que contienen todo lo que los investigadores depositan en ellas, y por tanto son bastante heterogéneas en cuanto al tipo de secuencias, su calidad, su anotación, etc. Por este motivo son también redundantes, ya que la misma secuencia puede encontrarse repetida en distintos registros procedentes de distintos autores. Cada entrada en estas bases de datos es un registro que debe tener un identificador único, formado por letras y/o números, conocido como «número de acceso» (accession number), que es estable (nunca cambiará en sucesivas versiones de ese registro). Por tanto, otro código indicará las sucesivas versiones de cada número de acceso, por lo que es importante conocer ambos. En febrero de 1999, el consorcio GenBank/Embl/DDBJ acordó un formato de versión consistente en el número de acceso seguido de un punto y un número. Además, GenBank incluye el indicador «GI».


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.