Mineria de datos en Redes Sociales: Ensamblaje de secuencias

En palabras de Perezleo y sus colegas, en el artículo escrito el año 2003 titulado “Impacto de la bioinformática en las ciencias biomédicas”, el desarrollo de la ingeniería genética y las nuevas tecnologías de la información durante la última década del siglo veinte, ha condicionado el surgimiento de una disciplina que ha generado vínculos indisolubles entre la informática y las ciencias biológicas: la bioinformática. Según Martin, en el libro escrito el año 1999 titulado “Impacto de la bioinformática en las ciencias biomédicas”, la bioinformática se encuentra en la intersección de las ciencias de la vida y las ciencias de la información. Es un campo científico interdisciplinario que se propone investigar y desarrollar sistemas que faciliten la comprensión del flujo de información desde los genes a las estructuras moleculares, su función bioquímica, su conducta fisiológica y finalmente su influencia en las enfermedades y la salud. Entre los principales factores que han favorecido el desarrollo de esta disciplina, se encuentra el impresionante volumen de datos sobre secuencias generadas por los distintos proyectos genoma, tanto el humano como los de otros organismos; los nuevos enfoques experimentales, basados en biochips que permiten obtener datos genéticos a gran velocidad, bien de genomas individuales, mutaciones, polimorfismos, o de enfoques celulares, expresión génica; así como el desarrollo de Internet y la World Wide Web, que permite el acceso mundial a las bases de datos de información biológica.

Los mecanismos de secuenciación actuales generan gran cantidad de información en pequeños fragmentos desordenados que hay que unir correctamente para obtener la secuencia original. Según Hormigo, en el libro escrito el año 2011 titulado “Estudio y evaluación de algoritmos y programas de ensamblaje de secuencias”, las técnicas utilizadas para resolver el problema se basan principalmente en dos líneas de trabajo complementarias entre sí: (1) La búsqueda de un modelo matemático mediante el que controlar una solución óptima; en este sentido, las aproximaciones se basan en utilizar combinatoria y teoría de grafos, tales como algoritmos de superposición-trazado consenso, basado en grafos de intersección, o algoritmos de Euler, basados en el concepto de “grafo de De Brujin” reportado en el artículo de Bateman y Quackenbush titulado “Bioinformática para el secuenciamiento de la siguiente generación”. (2) El uso de hipótesis que reduzcan la complejidad del problema, tales como que dos fragmentos son adyacentes si se solapan de alguna manera, es decir, si la parte final de una secuencia coincide con la inicial de la siguiente. Estas hipótesis, a su vez, no tienen por qué ser totalmente válidas ya que, por ejemplo, pueden existir secuencias repetitivas y también debido a que la superposición parcial de dos fragmentos puede deberse simplemente al azar y no a que dichos fragmentos sean realmente adyacentes en la secuencia original. Además, la secuencia original no aparece cubierta en su totalidad por el conjunto de fragmentos y, por otra parte, se producen errores experimentales en la lectura de cada fragmento. Estos errores hacen que dar con la secuencia original correcta sea una tarea muy compleja.

Según Chen y sus colegas, en el artículo escrito el año titulado “Un sistema de alto nivel para resolver lecturas inconsistentes de predicciones estructurales acerca de secuencias expresas”, se puede definir el ensamblaje de secuencias en Bioinformática como la superposición de varios fragmentos de una secuencia de ácido desoxirribonucleico para alinearlos y reconstruir la secuencia original. La necesidad de realizar un ensamblaje de secuencias viene dada porque resulta bastante complicado secuenciar un genoma completo mediante una sola lectura, sino que es necesario realizar este proceso mediante pequeños trozos de la secuencia original con una longitud de entre veinte y mil bases, según la tecnología que se utilice. Normalmente, los fragmentos cortos, llamados “lecturas” vienen dados por una secuenciación genómica por el método de perdigonada o una transcripción de genes. Se aclara que el método de perdigonada es aquel mediante el cual el genoma se parte en multitud de pequeños fragmentos o lecturas, que posteriormente se alinean obteniendo la secuencia original.

Mineria de datos en Redes Sociales

lunes, 24 de febrero de 2014

Ensamblaje de secuencias

No hay comentarios:

Publicar un comentario

Colaboradores