lunes, 4 de marzo de 2013

Mineria de datos en Bioinformática

La tecnología moderna permite la creación de grandes almacenes de datos que requieren ser explorados en búsqueda de información refinada o conocimiento. Según los estudios de Norton, en el artículo escrito el año 1999 titulado “Descubrimiento del conocimiento en bases de datos”, y apoyado en el libro de Berthold, publicado el año 2000 titulado “Análisis de datos inteligentes”, desarrollar agentes que permitan procesar estos grandes volúmenes de datos y convertirlos en conocimiento útil para la toma de decisiones, constituye un reto colosal. Nuevas disciplinas han emergido para abordar este problema: Descubrimiento de Conocimiento, Minería de Datos, Análisis Inteligente de Datos, Análisis Exploratorio de Datos. Estas disciplinas se basan en métodos de la matemática y de la inteligencia artificial para acometer esta nueva problemática. Las tecnologías desarrolladas para el procesamiento de la información han tenido un impacto revolucionario en la industria y en el mundo de los negocios. Hoy en día existe una gran variedad de sistemas de software comerciales que se basan en las técnicas del análisis inteligente de datos para llevar a cabo tareas como: planeación económica, vigilancia e inteligencia empresarial, análisis financiero, análisis de mercados y análisis de perfiles de clientes. En palabras de Bhaskar y sus colegas, en el artículo escrito el año 2006 titulado “Aprendizaje automático en bioinformática: Un breve recorrido y recomendaciones para los practicantes”, el crecimiento ingente de datos biológicos disponibles en la actualidad ha provocado dos problemas: por un lado, el almacenamiento y manejo eficiente de información y, por otro, la extracción de información útil a partir de dichos datos. El segundo de ellos es uno de los principales desafíos en la biología computacional, el cual requiere el desarrollo de herramientas y métodos capaces de transformar todos esos datos heterogéneos en conocimiento biológico sobre los mecanismos subyacentes. Según Larrañaga y sus colegas, en el artículo escrito el año 2006 titulado “Aprendizaje automático en bioinformática”, estas herramientas y métodos deben proporcionar una descripción más allá de los datos y el conocimiento suministrado en forma de modelo demostrable. A partir de esta abstracción simplificada que constituye un modelo, es posible obtener predicciones de sistemas. Existen distintos dominios biológicos donde las técnicas de minería de datos son aplicadas a la extracción de conocimiento. Estos problemas han sido clasificados por Larrañaga y sus colegas, en seis dominios diferentes: genómicos, proteómicos, microarrays, biología de sistemas, evolución y minería de textos. La categoría denominada “otras aplicaciones” agrupa al resto de problemas. Estas categorías deberían ser entendidas de una forma general, especialmente la genómica y la proteómica, las cuales podrían ser consideradas como el estudio de cadenas de nucleótidos y proteínas, respectivamente. La genómica es uno de los dominios más importantes en la bioinformática. Según Mathé y sus colegas, en el artículo escrito el año 2002 titulado “Métodos actuales para predicción de genes sus fortalezas y debilidades”, el número de secuencias disponibles se incrementa exponencialmente haciendo que estos datos necesiten ser procesados para obtener información útil. A partir de la secuencias del genoma, se pueden extraer la localización y estructuras de genes. Recientemente, la identificación de elementos reguladores, en el artículo de Won y sus colegas escrito el año 2004 titulada “Entrenando estructuras hmm con algoritmos genéticos para el análisis de secuencias biológicas”, y genes no codificadores de acido ribonucleico, identificada en el artículo de Careter y sus colegas del año 2001 titulado “Enfoque computacional para identificar genes para acido ribonucleico funcional en secuencias genómicas”, son también abordados desde un punto de vista computacional. La información secuencial es también usada para la predicción de funciones genéticas y de la estructura secundaria del acido ribonucleico. Si los genes contienen la información, las proteínas son los trabajadores que transforman esta información en vida. Las proteínas juegan un papel muy importante en los procesos de la vida, y su estructura tridimensional es una característica fundamental en su funcionalidad. En el dominio de la proteómica, la principal aplicación de los métodos computacionales es la predicción de la estructura de proteínas. Las proteínas son macromoléculas muy complejas con miles de átomos y ligaduras. Por ello, el número de posibles estructuras es inmenso. Esto hace que la predicción de estructura de proteínas sea un problema computacional muy complicado donde las técnicas de optimización son requeridas. En la proteómica, como en el caso de la genómica, las técnicas de minería de datos son aplicadas a la predicción de la función proteínica.

No hay comentarios:

Publicar un comentario en la entrada