lunes, 30 de noviembre de 2015

Evolución de herramientas de minería de datos Guillermo Choque Aspiazu

El investigador Jasso, en la tesis de maestría en ciencias de la computación escrita el año 2008 con el título “Sistema para explotar servicios de minería de datos a través de la Web”, menciona que algunas de las herramientas de segunda generación son: IlliMine, Rattle, Rapid Miner y Knime. El grupo de investigación en minería de datos de la Universidad de Illinois, el año 2006 libera la versión 1.1.0 de IlliMine, la cual constituye otra herramienta de minería de datos de segunda generación, IlliMine es un paquete libre, implementado en el lenguaje de alto nivel C++ y desarrollada por el Departamento de Ciencias Computacionales de la Universidad de Illinois en conjunto con el Laboratorio de Investigación de Datos y Sistemas de Información de la universidad citada. IlliMine incluye: (1) Algoritmos de cubos de datos, que constituyen una técnica de manipulación de datos utilizando estructuras de matrices multidimensionales, (2) asociación, (3) minería de patrones secuenciales, la cual es una técnica de extracción de patrones en eventos o sucesos secuenciales donde el factor tiempo juega un papel principal, (4) minería de patrones gráficos, la que constituye una técnica de extracción de patrones de datos representados a través de grafos, y (5) clasificación.

La herramienta analítica para el aprendizaje fácil “Rattle”, fue liberada por Williams en su versión 2.2.74 el año 2007, Rattle es una herramienta libre de minería de datos usada para analizar colecciones de datos muy grandes. Rattle presenta resúmenes estadísticos y visuales de datos, transforma los datos en formas que pueden ser fácilmente modeladas, construye modelos supervisados y no supervisados a partir de los datos, presenta el rendimiento de los modelos gráficamente y da una puntuación a los conjuntos de datos nuevos. A través de una interfaz de usuario simple y lógica basada en Gnome puede ser usado para realizar proyectos de minería de datos. Es posible también realizar proyectos de minería de datos más sofisticados haciendo uso del lenguaje estadístico de licencia libre “R”.

Mierswa y sus colegas, en el artículo publicado el año 2006 con el título “Yale: Prototipado rápido para tareas complejas de minería de datos”, mencionan que Rapid Miner, más formalmente conocido como Yale, es una de las principales herramientas para prototipado y minería de datos de licencia pública a nivel mundial. Desarrollado puramente en Java, contiene una extensión para su fácil uso desde programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y métodos los cuales pueden ser combinados de manera flexible y anidada arbitrariamente. Yale abstrae sus métodos bajo el concepto de operadores contando con más de cuatrocientos y ofreciendo un enfoque de combinación de operadores como un grafo dirigido para representar el proceso de descubrimiento del conocimiento. En este enfoque cada vértice del árbol corresponde a un operador sencillo, permitiendo a los usuarios la fácil incorporación de ciclos dentro de sus experimentos. Los ciclos son esenciales para muchas tareas como optimización de parámetros, selección de características o la aplicación de métodos de aprendizaje iterativos. Knime, en su versión 1.3.1, liberado por la universidad alemana de Konstanz el año 2007, es una plataforma modular de datos que permite al usuario crear visualmente flujos de datos. Permite ejecutar selectivamente algunas o todas los pasos del análisis para posteriormente consultar los resultados a través de vistas interactivas sobre datos y modelos. La versión base de Knime incorpora más de cien nodos de procesamiento para entrada y salida de datos, preprocesamiento y limpieza, modelado, análisis y minería de datos entre otras cosas. Incluye todos los módulos de análisis de Weka y plugins adicionales que permiten que scripts en el lenguaje R sean ejecutados, ofreciendo vasto acceso a bibliotecas de rutinas estadísticas.

De manera subsecuente, aparecieron las herramientas de tercera generación, que se enfocan en resolver las limitantes de trabajar sobre un modelo cerrado, esto es localmente, como lo hacen las herramientas de la segunda generación. Algunos ejemplos de herramientas de la tercera generación son los siguientes: (1) Grid Weka, reportado por Khoussainov y sus colegas, en el artículo publicado el año 2004 titulado “Weka de rejilla habilitada: Un juego de herramientas para el aprendizaje automático en la rejilla”, es una herramienta desarrollada en la Universidad de Dublín que modifica Weka para permitir el uso de múltiples recursos computacionales mientras se ejecuta el análisis de datos. En este sistema, un conjunto de tareas de minería de datos pueden ser distribuidas a través de muchas computadoras en un ambiente ad-hoc o cerrado. (2) Guo y sus colegas, en el artículo publicado el año 2002 con el título “Red de descubrimiento: Hacia una rejilla para el descubrimiento de conocimiento”, proponen una arquitectura, denominada “Red de descubrimiento”, para construir un sistema colaborativo y distribuido de descubrimiento de conocimiento dentro de un ambiente de cómputo en rejilla. Este es un enfoque genérico originado de la necesidad de procesos de descubrimiento de conocimiento en la industria bioinformática, donde procesos complicados de análisis de datos son construidos usando un enfoque basado en tuberías. (3) En el artículo publicado el año 2003 con el título “Hacia una arquitectura de servicio abierto para minería de datos en la rejilla”, Tjoa y sus colegas presentan una arquitectura de software basada en servicio para minería de datos distribuida y de alto rendimiento en ambientes de rejilla y su implementación llamada GridMiner. En este trabajo presentan dos modelos de ejecución para el servicio de minería de datos. El primero es una adaptación a la rejilla de la herramienta Weka a la que llamaron minería de datos centralizada y el segundo es una versión distribuida del mismo que hace uso de los recursos de hardware y software distribuidos unificados dentro de la rejilla.