La biología actual tiene un enfoque sistémico, es decir, se centra en el estudio de complejos sistemas como la medición de la actividad de miles de genes o la realización de modelos computacionales. En las últimas décadas y gracias a las investigaciones realizadas especialmente en el área de la genética, los investigadores han generado y acumulado grandes cantidades de información cuantitativa. Se han logrado descifrar, por ejemplo, las secuencias genéticas enteras o parciales de diversos organismos.
El avance de estos conocimientos ha creado la necesidad de desarrollar maneras de almacenar, analizar y compartir grandes cantidades de datos de forma relativamente sencilla y eficiente. Esto es posible gracias a enormes bases de datos.
Una base de datos es un cuerpo de información discreta, estructurada de una manera organizada y de acuerdo con principios matemáticos, de manera que permite un acceso fácil a la información.
En la década de los 70, cuando los investigadores empezaron a estudiar la información genética de diversos organismos, surgió la idea de crear repositorios de información públicos. El primero de ellos fue EMBL Data Library, en Alemania (European Molecular Biology Laboratory), cuya sede se encuentra actualmente en Inglaterra. Luego se creó GenBank, que estuvo inicialmente en el Laboratorio Nacional de Los Alamos (EE.UU.) pero hoy forma parte del Centro Nacional de Información Biotecnológica de los EE.UU. Finalmente, en 1987 se creó el International Nucleotide Sequence Database Collaboration, una gigantesca base de datos internacional formada por las dos primeras más una tercera creada en Japón. El propósito de esta megabase de datos es hacer accesibles todas las secuencias de ADN o ARN conocidas a la comunidad científica de la manera más rápida posible (recordemos que el ADN o código genético está formado por secuencias de bases y que un gen de un organismo, como un elefante, un árbol o una mosca, puede medir entre cien y varios miles de bases y el genoma de un organismo puede llegar a contener hasta un billón de bases). Esta cantidad astronómica de bases (o letras, si consideramos al ADN como un alfabeto) representa genes individuales y secuencias parciales o completas de alrededor de 165.000 organismos.
Esta gigantesca colección de datos ha alcanzado ya los 100 gigabases y sigue sumando más de 3 millones de secuencias nuevas por mes. Esta es una cifra demasiado grande como para visualizarla, pero si la comparamos con cantidades conocidas podemos decir que 100 gigabases o cien millones de bases equivalen a la cantidad de células nerviosas del cerebro humano, o a un poco menos que la cantidad de estrellas de la Vía Láctea.
Acerca de educ.ar | Ministerio de Educación de la Nación Argentina