martes, 12 de marzo de 2013

Mineria de datos en Bioinformática (II)

Otra aplicación interesante de los métodos computacionales en biología es el manejo de datos experimentales complejos. Según Bower y Bolouri, en el libro publicado el año 2004 titulado “Modelado computacional de redes bioquímicas y genéticas”, los microarrays son los dominios más conocidos donde este tipo de información es almacenada. Estos datos experimentales provocan dos problemas diferentes. Primero, los datos necesitan ser preprocesados, es decir, modificados para ser usados adecuadamente por algoritmos de aprendizaje automático. Segundo, al análisis de los datos, que a su vez, depende de lo que se esté buscando. En el caso de los microarrays, la aplicación más típica es la identificación de patrones, clasificación e inducción de redes reguladoras genéticas. La biología de sistemas es otro dominio donde la biología y la minería de datos trabajan en conjunto. Es muy complejo modelar los procesos de la vida que tienen lugar dentro de la célula. Por ello, las técnicas computacionales son extremadamente prácticas cuando se desea modelar redes biológicas, especialmente redes genéticas o rutas metabólicas. La evolución, y especialmente la reconstrucción de árboles filogenéticos, también aprovechan las técnicas de minería de datos. En palabras de Baldi y Brunak, en el libro publicado el año 2001 titulado “Bioinformática: Enfoque de aprendizaje automático”, los árboles filogenéticos son representaciones esquemáticas de la evolución de los organismos. Tradicionalmente, éstos eran construidos de acuerdo con diferentes características morfológicas, metabólicas, etc., pero, actualmente, con el gran crecimiento de secuencias de genomas disponibles, los algoritmos de construcción de árboles filogenéticos están basados en la comparación entre diferentes genomas. Esta comparación es realizada mediante el alineamiento de secuencias múltiples, donde las técnicas de optimización son muy útiles. Según Krallinger y sus colegas, en el artículo escrito el año 2005 titulado “Enfoques de minería de texto en biología molecular y biomedicina”, el efecto de la aplicación de técnicas computacionales al incremento de datos se ve reflejado en el aumento de publicaciones disponibles. Esto provee una nueva fuente de información valiosa, donde las técnicas de minería de textos son requeridas para la extracción de conocimiento. De este modo, la minería de textos se está haciendo más y más interesante en la biología computacional, y está siendo aplicada en anotaciones funcionales, predicción de localización celular y el análisis de interacción entre proteínas. Además de estas aplicaciones, las técnicas computacionales son usadas para resolver otros problemas, tales como el análisis de imágenes biológicas o el preprocesado de datos provenientes de la espectrometría. Según Norberto Díaz, en la tesis doctoral publicada el año 2012 titulada “Similitud funcional de genes basada en conocimiento biológico”, la minería de datos es la fase crucial del proceso de descubrimiento del conocimiento y consiste en el desarrollo de algoritmos computacionales que optimicen un cierto criterio usando ejemplos o experiencias pasadas. El criterio de optimización puede ser la precisión de un determinado modelo para un problema de modelado, o el valor de la función de evaluación para uno de optimización. En un problema de modelado, el término “aprendizaje” se refiere a la ejecución de un programa computacional que induzca un modelo basándose en datos de entrenamiento y experiencias pasadas. La minería de datos, a veces, usa teoría estocástica para construir modelos computacionales, ya que el objetivo es realizar inferencias a partir de ejemplos. Las dos principales etapas en este proceso son, inducir el modelo procesando la gran cantidad de datos, y representar el modelo y realizar eficientes inferencias. Nótese que la eficiencia del algoritmo de aprendizaje, al igual que sus espacios, complejidad y su transparencia e interpretabilidad, puede ser tan importante como su precisión predictiva. El proceso de transformación de datos a conocimiento es iterativo e interactivo. La fase iterativa se divide en varias subfases. La primera de ellas tiene el objetivo de integrar y combinar fuentes de información diferente en un único formato. El uso de técnicas de “almacenes de datos” soluciona la detección y resolución de outliers e inconsistencia.

lunes, 4 de marzo de 2013

Mineria de datos en Bioinformática

La tecnología moderna permite la creación de grandes almacenes de datos que requieren ser explorados en búsqueda de información refinada o conocimiento. Según los estudios de Norton, en el artículo escrito el año 1999 titulado “Descubrimiento del conocimiento en bases de datos”, y apoyado en el libro de Berthold, publicado el año 2000 titulado “Análisis de datos inteligentes”, desarrollar agentes que permitan procesar estos grandes volúmenes de datos y convertirlos en conocimiento útil para la toma de decisiones, constituye un reto colosal. Nuevas disciplinas han emergido para abordar este problema: Descubrimiento de Conocimiento, Minería de Datos, Análisis Inteligente de Datos, Análisis Exploratorio de Datos. Estas disciplinas se basan en métodos de la matemática y de la inteligencia artificial para acometer esta nueva problemática. Las tecnologías desarrolladas para el procesamiento de la información han tenido un impacto revolucionario en la industria y en el mundo de los negocios. Hoy en día existe una gran variedad de sistemas de software comerciales que se basan en las técnicas del análisis inteligente de datos para llevar a cabo tareas como: planeación económica, vigilancia e inteligencia empresarial, análisis financiero, análisis de mercados y análisis de perfiles de clientes. En palabras de Bhaskar y sus colegas, en el artículo escrito el año 2006 titulado “Aprendizaje automático en bioinformática: Un breve recorrido y recomendaciones para los practicantes”, el crecimiento ingente de datos biológicos disponibles en la actualidad ha provocado dos problemas: por un lado, el almacenamiento y manejo eficiente de información y, por otro, la extracción de información útil a partir de dichos datos. El segundo de ellos es uno de los principales desafíos en la biología computacional, el cual requiere el desarrollo de herramientas y métodos capaces de transformar todos esos datos heterogéneos en conocimiento biológico sobre los mecanismos subyacentes. Según Larrañaga y sus colegas, en el artículo escrito el año 2006 titulado “Aprendizaje automático en bioinformática”, estas herramientas y métodos deben proporcionar una descripción más allá de los datos y el conocimiento suministrado en forma de modelo demostrable. A partir de esta abstracción simplificada que constituye un modelo, es posible obtener predicciones de sistemas. Existen distintos dominios biológicos donde las técnicas de minería de datos son aplicadas a la extracción de conocimiento. Estos problemas han sido clasificados por Larrañaga y sus colegas, en seis dominios diferentes: genómicos, proteómicos, microarrays, biología de sistemas, evolución y minería de textos. La categoría denominada “otras aplicaciones” agrupa al resto de problemas. Estas categorías deberían ser entendidas de una forma general, especialmente la genómica y la proteómica, las cuales podrían ser consideradas como el estudio de cadenas de nucleótidos y proteínas, respectivamente. La genómica es uno de los dominios más importantes en la bioinformática. Según Mathé y sus colegas, en el artículo escrito el año 2002 titulado “Métodos actuales para predicción de genes sus fortalezas y debilidades”, el número de secuencias disponibles se incrementa exponencialmente haciendo que estos datos necesiten ser procesados para obtener información útil. A partir de la secuencias del genoma, se pueden extraer la localización y estructuras de genes. Recientemente, la identificación de elementos reguladores, en el artículo de Won y sus colegas escrito el año 2004 titulada “Entrenando estructuras hmm con algoritmos genéticos para el análisis de secuencias biológicas”, y genes no codificadores de acido ribonucleico, identificada en el artículo de Careter y sus colegas del año 2001 titulado “Enfoque computacional para identificar genes para acido ribonucleico funcional en secuencias genómicas”, son también abordados desde un punto de vista computacional. La información secuencial es también usada para la predicción de funciones genéticas y de la estructura secundaria del acido ribonucleico. Si los genes contienen la información, las proteínas son los trabajadores que transforman esta información en vida. Las proteínas juegan un papel muy importante en los procesos de la vida, y su estructura tridimensional es una característica fundamental en su funcionalidad. En el dominio de la proteómica, la principal aplicación de los métodos computacionales es la predicción de la estructura de proteínas. Las proteínas son macromoléculas muy complejas con miles de átomos y ligaduras. Por ello, el número de posibles estructuras es inmenso. Esto hace que la predicción de estructura de proteínas sea un problema computacional muy complicado donde las técnicas de optimización son requeridas. En la proteómica, como en el caso de la genómica, las técnicas de minería de datos son aplicadas a la predicción de la función proteínica.