Base de datos biológica

Una base de datos biológica es una colección de información sobre ciencias de la vida, recogida de experimentos científicos, literatura publicada, tecnología de experimentación de alto rendimiento, y análisis computacional.^[1] Contiene información de áreas de investigación incluyendo genómica, proteómica, metabolómica, expresión génica mediante microarrays, y filogenética.^[2] La información contenida en bases de datos biológicas incluye funciones, estructura y localización (tanto celular como cromosómica) de genes y efectos clínicos de mutaciones, así como similitudes de secuencias y estructuras biológicas.

En los últimos años, debido a la rápida evolución de las técnicas experimentales de alto rendimiento (Secuenciación del ADN, Cristalografía de rayos X, Microarreglo de ADN) se generó un crecimiento exponencial en la cantidad de datos biológicos (secuencias genómicas y de proteínas, estructuras de proteínas, expresión génica, mutaciones, etc) que generaron la necesidad de contar con formas eficientes de almacenar la información.

Descripción

Las bases de datos biológicas constituyen una herramienta esencial para almacenar, estructurar, organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su rápido crecimiento, hacen a las bases de datos una herramienta clave. Se han convertido en un instrumento indispensable para los científicos experimentales del campo de la biología, como para aquellos científicos del área de la bioinformática que desarrollan experimentos in silico.

Las bases de datos biológicas surgen a partir de los conceptos de bases de datos relacionales de las ciencias de la computación, y los conceptos de recuperación de información de las bibliotecas digitales. El diseño de estas bases de datos, su desarrollo y su gestión a largo plazo, forman un área nuclear dentro de la bioinformática.^[3] El contenido de los datos incluye secuencias génicas, descripciones textuales, atributos y clasificaciones ontológicas, estructuras de proteínas, anotaciones, entre otras. Estos son descritos a menudo como datos semi-estructurados, y se pueden representar como tablas, registros delimitados por claves y estructuras XML. Son comunes las referencias cruzadas entre las diferentes bases de datos biológicas usando los números de acceso (identificadores únicos de los registros en una base de datos, o también conocidos como Clave primaria).

Las bases de datos para ayudan a los científicos a comprender y explicar una serie de fenómenos biológicos desde la estructura biomolecular de una proteína y su interacción, hasta el metabolismo completo de los organismos y a la comprensión de la evolución de las especies.

Un recurso importante para la búsqueda de bases de datos biológicos es la edición anual de la revista Nucleic Acids Research (NAR). Una edición de bases de datos en NAR está disponible gratuitamente todos los años, donde se publican nuevas base de datos y algunas actualizaciones de las ya conocidas. Se encuentran clasificadas de acuerdo a su temática y están en línea a disposición de toda la comunidad científica.

Clasificación de bases de datos biológicas

Las bases de datos biológicas se han desarrollado para diversos propósitos, almacenan varios tipos de datos heterogéneos y son curadas a distintos niveles con diferentes métodos, por lo tanto hay diferentes criterios para su clasificación.^[4]^[5]

Alcance y cobertura de los datos

Según este criterio, las bases de datos pueden clasificarse en exhaustivas o especializadas:

Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Ejemplos típicos son GenBank la base de datos moleculares mantenidos por el European Bioinformatics Institute European Molecular Biology Laboratory (EMBL-EBI) y DNA Data Bank of Japan (DDJB). Estas tres bases de datos fueron establecidas como una Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos en 1988, para colectar y compartir secuencias de ADN y ARN
Especializadas: contienen información específica o de especies particulares. Por ejemplo WormBase que contiene información biológica y genómica de nemátodos.

Según la fuente de los datos

De acuerdo a este criterio, las bases de datos pueden clasificarse como primarias, secundarias y combinadas:

Primarias: Contienen información solamente de la secuencia o la estructura, es decir que los datos experimentales son directamente subidos a la base de datos. En esta categoría encontramos las bases de datos GenBank, DNA Data Bank of Japan (DDJB)], UniProtKB/TrEMBL y Protein Data Bank (PDB)
Secundarias: Contienen información derivada de las bases de datos primarias. Una base de datos secundaria de secuencia contiene información de la conservación de la secuencia, patrones de secuencia y residuos del sitio activo de familias de proteínas derivados de alineamientos múltiples entre secuencias evolutivamente relacionadas. Una base de datos secundaria de estructuras organiza las entradas de PDB clasificándolas, por ejemplo, de acuerdo a su estructura como todas alfa, todas beta, alfa-beta, etc. Algunos ejemplos de éstas bases de datos son: CATH y SCOP
Compuestas: combinan una variedad de fuentes primarias de datos, como por ejemplo, el National Center for Biotechnology Information (NCBI) que alberga un conjunto de bases de datos de secuencia, taxonomía, genomas, mutaciones, entre otras y además herramientas como BLAST para búsquedas por similitud de secuencia.

Nivel de curación

De acuerdo al nivel de curación, pueden clasificarse en bases de datos primarias, secundarias o derivadas:

Primarias: contienen datos “crudos” a modo de repositorio de archivos como NCBI Sequence Read Archive (SRA)
Secundarias o derivadas: almacena información que tiene un valor agregado por ser curada, por ejemplo NCBI RefSeq

Método de conservación

El crecimiento explosivo de la cantidad de datos disponibles requiere de curación, integración y anotación, que se logra mediante la colaboración colectiva. Desde este punto de vista, las bases de datos biológicas pueden clasificarse como:

Conservadas por expertos, por ejemplo RefSeq y The Arabidopsis Information Resource (TAIR)
Conservadas por una comunidad de investigadores, de forma colectiva y colaborativa, por ejemplo LncRNA Wiki y GeneWiki

Tipo de datos almacenados

De acuerdo al tipo de datos almacenados en cada base de datos, las bases de datos biológicas pueden clasificarse de forma genérica en alguna de las siguientes categorías (se listan algunos ejemplos de bases de datos):

Secuencias nucleotídicas (ADN y ARN): la colaboración de las tres bases de datos más importantes hace posible acceder a casi toda la información de secuencias de nucleótidos desde cualquiera de sus tres sedes

Bases de datos de EMBL en el European Bioinformatics Institute (EMBL-EBI). Enlace externo base de datos de nucleótidos de EMBL-EBI

DNA Data Bank of Japan (DDJB). Enlace externo DDJB

GenBank en el National Center for Biological Information (NCBI). Enlace externo GenBank

Si bien son mantenidas por distintos organismos en distintos países, existe una coordinación entre las distintas bases. Una secuencia enviada a cualquiera de las bases se verá reflejada en las otras dos en aproximadamente una semana, ya que esa es la frecuencia de actualización entre las distintas bases genéticas. Por este motivo es indistinto que base se use para enviar nuevas secuencias, aunque normalmente los europeos utilizan EMBL y los americanos GenBank.

Proteínas: bases de datos de secuencias, estructuras, e información relacionada

UniProtKB/Swiss-Prot contiene secuencias anotadas o comentadas, es decir, cada secuencia ha sido revisada, documentada y enlazada a otras bases de datos. Enlaces externos UniProtKB, Swissprot en el EBI UniProtKB/TrEMBL por Translation of EMBL Nucleotide Sequence Database incluye la traducción de todas las secuencias codificantes derivadas del (EMBL) y que todavía no han podido ser anotadas en Swiss-Prot. Enlaces externos TrEMBL, UniProtKB 'PIR por Protein Information Resource está dividida en cuatro sub-bases que tienen un nivel de anotación decreciente. Enlace externo PIR

'ENZYME enlaza la clasificación de actividades enzimáticas completa a las secuencias de Swiss-Prot. Enlace externo ENZYME

'PROSITE contiene información sobre la estructura secundaria de proteínas, familias, dominios, etc. Enlace externo PROSITE

'InterPro integra la información de diversas bases de datos de estructura secundaria como PROSITE, proporcionando enlaces a otras bases de datos e información más extensa. Enlace externo INTERPRO

'Protein Data Bank (PDB) es la base de datos de estructura terciaria 3D de proteínas que han sido cristalizadas. Enlace externo PDB

Expresión

El portal de EMBL-EBI ofrece una variedad de bases de datos de expresión génica. Enlace externo a bases de datos de expresión de EMBL-EBI

Interactomas, reactomas y rutas metabólicas

Reactome es una base de datos curada y revisada de EMBL-EBI de rutas de interacción y reacción de proteínas y enzimas. Enlace externo a Reactome

APID^[6] es una base de datos de interacciones proteína-proteína que incluye interactomas completos para múltiples especies. Enlace externo a APID

Variación genética (SNPs) y enfermedad

dbSNP de NCBI, ofrece un repositorio central de variaciones genéticas que comprenden sustituciones simples de nucleótidos y polimorfismos de inserciones y deleciones cortas. Enlace a dbSNP

COSMIC es un catálogo de mutaciones somáticas en cáncer, mantenida por el Wellcome Trust Sanger Institute. Enlace externo a COSMIC

'OMIM por Online Mendelian Inheritance in Man es un catálogo de genes humanos relacionados con desórdenes genéticos. Enlace externo OMIM

Literatura

Pubmed da acceso gratuito al índice de publicaciones de la Biblioteca Nacional de Medicina (NLM), con enlaces a artículos completos. Enlace externo PubMed

Ontología

El proyecto de Ontología Génica (GO) es un esfuerzo colaborativo que surgió de la necesidad de tener descriptores consistentes de los productos de genes depositados en distintas bases de datos. Enlace externo a Gene Ontology Consortium

genomas

Ensembl integra genomas eucariotas grandes, por el momento contiene genoma humano, ratón, rata, fugu, zebrafish, mosquito, Drosophila, C. elegans, y C. briggsae. Enlace externo Ensembl

Genomes server y TIGR son portales con información o enlaces de todos los genomas secuenciados por el momento, desde virus a humanos. Enlace externo Genome Server, enlace externo TIGR

Wormbase es el portal del genoma de gusano C. elegans. Enlace externo Wormbase

Flybase es el portal de la mosca de la fruta Drosophila melanogaster. Enlace externo Flybase

Otras

Taxonomy es el portal de clasificación taxonómica de organismos. Enlace externo Taxonomy Browser

Xenobase es el portal del organismo modelo Xenopus laevis. Enlace externo: Xenbase

TAIR (The Arabidopsis Information Resource) es el portal de la planta modelo Arabidopsis thaliana. Enlace externo Arabidopsis

GYPSY, base de datos de elementos genéticos móviles. Enlace externo The GYPSY Database of Mobile Genetic Elements

Fuentes de bases de datos biológicas

Existen varios catálogos e índices que registran bases de datos de biociencias estos son algunos que se pueden consultar, en muchos casos también contienen ontologías y herramientas para procesar la información de las sbases de datos.

Biodiversity Information Projects of the World TDWG
Identifiers.org	El servicio de resolución de Identifiers.org da acces a datos de ciencias de la vida por medio de identificadores compactos.
Wikidata	En la base de datos de internet Wikidata existen registradas cerca de mil bases de datos biológicas y médicas
Catalog of life datasets
Re3data
Scicrunch	https://scicrunch.org/resources/Tools/source/nlx_144509-1/search?q=Database&l=Database&facet[]=Resource%20Type%3Adatabase
Linked Open Data Life Sciences	https://lod-cloud.net/
Fairsharing	https://fairsharing.org/search?fairsharingRegistry=Database
Bioregistry	https://bioregistry.io/
Nucleic Acid Research Database	Esta base de datos es mantenida por la revista Nucleic Acids Research (NAR)
Biotools	https://bio.tools/t?page=1&q=database&sort=score
Biomappings	https://biopragmatics.github.io/biomappings/
Biodnet	https://biodbnet.abcc.ncifcrf.gov/

Problemas por los formatos de entrada

Un problema fundamental en todas las grandes bases de datos genómicas es que los registros provienen de una gran variedad de fuentes, desde investigadores individuales hasta grandes centros de secuenciación. Como resultado, las secuencias mismas y principalmente las anotaciones biológicas adjuntas a estas secuencias, varían notablemente en calidad. También hay mucha redundancia ya que muchos laboratorios ingresan a menudo secuencias que son idénticas o muy similares a otras en la base de datos.

Muchas anotaciones no están basadas en experimentos de laboratorio sino en resultados de búsquedas de secuencias similares de secuencias previamente anotadas. Por supuesto, una vez que una secuencia es anotada basándose en su similitud con otra, puede servir como base para futuras anotaciones. Esto conduce al problema de las anotaciones transitivas, porque puede haber varias de esas secuencias transferidas por similitud de secuencia entre una base de datos de registro real y la información experimental de laboratorio. Por lo tanto, siempre hay observar el sentido biológico de las anotaciones en las principales bases de datos de secuencias con un considerable grado de escepticismo, a menos que pueda ser verificada por referencias a artículos publicados con la descripción de la alta calidad de los datos experimentales, o al menos por referencia a una secuencia de la base de datos arreglada por un humano.

Véase también

Referencias

↑ Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). «Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective». Bioinformatics - Trends and Methodologies. InTech. Archivado desde el original el 25 de enero de 2012. Consultado el 8 de enero de 2012.
↑ Altman RB (marzo de 2004). «Building successful biological databases». Brief. Bioinformatics 5 (1): 4-5. PMID 15153301.
↑ Bourne P (agosto de 2005). «Will a biological database be different from a biological journal?». PLoS Comput. Biol. 1 (3): 179-81. PMID 16158097. doi:10.1371/journal.pcbi.0010034.
↑ Zou, Dong; Ma, Lina; Yu, Jun; Zhang, Zhang (1 de febrero de 2015). «Biological databases for human research». Genomics, Proteomics & Bioinformatics 13 (1): 55-63. ISSN 2210-3244. PMC 4411498. PMID 25712261. doi:10.1016/j.gpb.2015.01.006. Consultado el 4 de diciembre de 2015.
↑ «Copia archivada». Archivado desde el original el 4 de marzo de 2016. Consultado el 5 de diciembre de 2015.
↑ Alonso-López, Diego; Gutiérrez, Miguel A.; Lopes, Katia P.; Prieto, Carlos; Santamaría, Rodrigo; De Las Rivas, Javier (30 de abril de 2016). «APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks». Nucleic Acids Research (en inglés): gkw363. ISSN 0305-1048. PMID 27131791. doi:10.1093/nar/gkw363. Consultado el 25 de mayo de 2016.

Enlaces externos

Genome Proteome Search Engine para buscar a través de las bases de datos biológicas
DBD: Database of Biological Databases/Bioinformatics Databases
CAMERA Cyberinfrastructure for Metagenomics, repositorio libre de datos y herramientas bioinformáticas para metagenómica
European Bioinformatics Institute databases
genomas completamente secuenciados en NCBI
Base de datos de Standford con el genoma de Saccharomyces

Datos: Q4117139
Multimedia: Bioinformatics databases / Q4117139

[1] Attwood T.K., Gisel A., Eriksson N-E. and Bongcam-Rudloff E. (2011). «Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective». Bioinformatics - Trends and Methodologies. InTech. Archivado desde el original el 25 de enero de 2012. Consultado el 8 de enero de 2012.

[2] Altman RB (marzo de 2004). «Building successful biological databases». Brief. Bioinformatics 5 (1): 4-5. PMID 15153301.

[3] Bourne P (agosto de 2005). «Will a biological database be different from a biological journal?». PLoS Comput. Biol. 1 (3): 179-81. PMID 16158097. doi:10.1371/journal.pcbi.0010034.

[4] Zou, Dong; Ma, Lina; Yu, Jun; Zhang, Zhang (1 de febrero de 2015). «Biological databases for human research». Genomics, Proteomics & Bioinformatics 13 (1): 55-63. ISSN 2210-3244. PMC 4411498. PMID 25712261. doi:10.1016/j.gpb.2015.01.006. Consultado el 4 de diciembre de 2015.

[5] «Copia archivada». Archivado desde el original el 4 de marzo de 2016. Consultado el 5 de diciembre de 2015.

[6] Alonso-López, Diego; Gutiérrez, Miguel A.; Lopes, Katia P.; Prieto, Carlos; Santamaría, Rodrigo; De Las Rivas, Javier (30 de abril de 2016). «APID interactomes: providing proteome-based interactomes with controlled quality for multiple species and derived networks». Nucleic Acids Research (en inglés): gkw363. ISSN 0305-1048. PMID 27131791. doi:10.1093/nar/gkw363. Consultado el 25 de mayo de 2016.

[1]

[2]

[3]

[4]

[5]

[6]