martes, 12 de marzo de 2013

Mineria de datos en Bioinformática (II)

Otra aplicación interesante de los métodos computacionales en biología es el manejo de datos experimentales complejos. Según Bower y Bolouri, en el libro publicado el año 2004 titulado “Modelado computacional de redes bioquímicas y genéticas”, los microarrays son los dominios más conocidos donde este tipo de información es almacenada. Estos datos experimentales provocan dos problemas diferentes. Primero, los datos necesitan ser preprocesados, es decir, modificados para ser usados adecuadamente por algoritmos de aprendizaje automático. Segundo, al análisis de los datos, que a su vez, depende de lo que se esté buscando. En el caso de los microarrays, la aplicación más típica es la identificación de patrones, clasificación e inducción de redes reguladoras genéticas. La biología de sistemas es otro dominio donde la biología y la minería de datos trabajan en conjunto. Es muy complejo modelar los procesos de la vida que tienen lugar dentro de la célula. Por ello, las técnicas computacionales son extremadamente prácticas cuando se desea modelar redes biológicas, especialmente redes genéticas o rutas metabólicas. La evolución, y especialmente la reconstrucción de árboles filogenéticos, también aprovechan las técnicas de minería de datos. En palabras de Baldi y Brunak, en el libro publicado el año 2001 titulado “Bioinformática: Enfoque de aprendizaje automático”, los árboles filogenéticos son representaciones esquemáticas de la evolución de los organismos. Tradicionalmente, éstos eran construidos de acuerdo con diferentes características morfológicas, metabólicas, etc., pero, actualmente, con el gran crecimiento de secuencias de genomas disponibles, los algoritmos de construcción de árboles filogenéticos están basados en la comparación entre diferentes genomas. Esta comparación es realizada mediante el alineamiento de secuencias múltiples, donde las técnicas de optimización son muy útiles. Según Krallinger y sus colegas, en el artículo escrito el año 2005 titulado “Enfoques de minería de texto en biología molecular y biomedicina”, el efecto de la aplicación de técnicas computacionales al incremento de datos se ve reflejado en el aumento de publicaciones disponibles. Esto provee una nueva fuente de información valiosa, donde las técnicas de minería de textos son requeridas para la extracción de conocimiento. De este modo, la minería de textos se está haciendo más y más interesante en la biología computacional, y está siendo aplicada en anotaciones funcionales, predicción de localización celular y el análisis de interacción entre proteínas. Además de estas aplicaciones, las técnicas computacionales son usadas para resolver otros problemas, tales como el análisis de imágenes biológicas o el preprocesado de datos provenientes de la espectrometría. Según Norberto Díaz, en la tesis doctoral publicada el año 2012 titulada “Similitud funcional de genes basada en conocimiento biológico”, la minería de datos es la fase crucial del proceso de descubrimiento del conocimiento y consiste en el desarrollo de algoritmos computacionales que optimicen un cierto criterio usando ejemplos o experiencias pasadas. El criterio de optimización puede ser la precisión de un determinado modelo para un problema de modelado, o el valor de la función de evaluación para uno de optimización. En un problema de modelado, el término “aprendizaje” se refiere a la ejecución de un programa computacional que induzca un modelo basándose en datos de entrenamiento y experiencias pasadas. La minería de datos, a veces, usa teoría estocástica para construir modelos computacionales, ya que el objetivo es realizar inferencias a partir de ejemplos. Las dos principales etapas en este proceso son, inducir el modelo procesando la gran cantidad de datos, y representar el modelo y realizar eficientes inferencias. Nótese que la eficiencia del algoritmo de aprendizaje, al igual que sus espacios, complejidad y su transparencia e interpretabilidad, puede ser tan importante como su precisión predictiva. El proceso de transformación de datos a conocimiento es iterativo e interactivo. La fase iterativa se divide en varias subfases. La primera de ellas tiene el objetivo de integrar y combinar fuentes de información diferente en un único formato. El uso de técnicas de “almacenes de datos” soluciona la detección y resolución de outliers e inconsistencia.

No hay comentarios:

Publicar un comentario en la entrada