jueves, 15 de agosto de 2013

Software para mineria de datos

Interesante trabajo que se realizo en la Universidad Nacional del Nordeste, se los dejo aca para que lo revisen




lunes, 12 de agosto de 2013

Minería de secuencias contínuas de datos

La mayoría de las secuencias continuas liberan datos en orden arbitrario, los cuales están intrínsecamente relacionados con un aspecto temporal, esto quiere decir que los patrones que son descubiertos en ellos siguen una tendencia dinámica, y por lo tanto son diferentes a los conjuntos de datos estáticos tradicionales que son muy grandes. Tales secuencias de datos se refieren a secuencias continuas de datos de desarrollo y por esta razón, las técnicas que son dimensionables para conjuntos de datos enormes no pueden ser la respuesta para minar las secuencias de datos o secuencias continuas de desarrollo, ya que estas técnicas siempre se esfuerzan en el trabajo de conjuntos de datos sin hacer distinción entre datos nuevos y datos viejos, y así esperar manipular la noción de patrones emergentes y obsoletos. La investigación de minería de secuencias continuas de datos ha sido activada en los primeros años del siglo veintiuno. Dentro de los estudios realizados en esta área se pueden mencionar los trabajos realizados desde un punto de vista general, los cuales pueden ser observados en el artículo escrito el año 2001 por los investigadores Babu y Widom titulado “Consultas continuas sobre secuencias continuas de datos”, además del artículo escrito por Babcock y sus colegas el año 2002 titulado “Modelos y ejemplos en sistemas de secuencias continuas de datos”. Otros estudios relacionados con la administración de las secuencias continuas de datos y el procesamiento de búsqueda continua de dichas secuencias es posible encontrar en el artículo escrito por Gibbons y Matias el año 1998 titulado “Nuevo resumen estadístico basado en muestreo para la mejora de respuestas a consultas aproximadas”. En palabras de Golab y Ozsu, en el artículo escrito el año 2003 titulado “Resultados en la gestión de secuencias continuas de datos”, dos cambios producidos a principios del presente siglo motivan la necesidad de los sistemas de procesamiento de secuencias continuas de datos: (1) La generación automática de altas tasas de secuencias de datos en diferentes aplicaciones científicas y comerciales. Por ejemplo: El satélite, el radar, y aplicaciones científicas de las corrientes de datos astronómicas, la bolsa de valores y las transacciones Web de secuencias continuas de datos en las aplicaciones comerciales. (2) La necesidad para el análisis de estos datos de alta velocidad de las secuencias continúas como el agrupamiento y la detección de valores atípicos, la clasificación y el cálculo de conjuntos de ítems frecuentes. Algunos algoritmos que se utilizan en el área de la minería de secuencias continuas están relacionados con proyectos de negocios y también en aplicaciones científicas. Estos algoritmos han sido desarrollados y debatidos por los investigadores Babu y Widom, en el artículo mencionado anteriormente, además del artículo escrito el año 2002 por Garofalakis y sus colegas titulado “Consultas y minado de secuencias continuas de datos”. Existen diferentes y recientes proyectos que estimulan la necesidad para las técnicas en vías de desarrollo que analizan datos de secuencias continuas en tiempo real, entre los cuales se puede mencionar a: (1) Burt y sus colegas, en el artículo escrito el año 1999 titulado “Ojo de diamante: Una arquitectura distribuida para la minería de datos de imágenes”, se encuentran desarrollando un proyecto que apunta a permitir que sistemas alejados puedan analizar objetos espaciales de imágenes de secuencias continuas en tiempo real. El proyecto enfoca la atención en facultar una nueva era de exploración espacial usando naves espaciales, exploradores y sensores altamente autónomos. (2) Kargupta, en el artículo escrito el año 2003 titulado “Vehículo para el minado de secuencias continuas de datos”, ha desarrollado un sistema de minería de datos ubicua que permite un monitoreo continuo y la extracción de patrones de datos de secuencias continuas generados por un vehículo de traslado. (3) Los investigadores Srivastava y Stroeve desarrollan un proyecto en la Agencia Espacial de los Estados Unidos, reportado en el artículo escrito el año 2003 titulado “Detección de nieve, hielo, nubes y otros procesos geofísicos utilizando métodos de núcleo”. El proyecto consiste en la detección de procesos geofísicos como nieve, hielo y nubes usando métodos de agrupamiento para la compresión de datos, conservando el ancho de banda limitado necesario, para enviar imágenes de secuencias continuas de datos a los centros terrestres. Estos proyectos y otros demuestran la necesidad de contar con las técnicas de análisis de secuencias continuas de datos y las estrategias que pueden hacer frente a la alta tasa de datos, y así proporcionar los resultados de análisis en tiempo real.

lunes, 5 de agosto de 2013

Minería de secuencias contínuas de datos

La minería de datos, según Frawley y sus colegas, en el artículo escrito el año 1992 titulado “Descubrimiento de conocimiento en bases de datos”, se define formalmente como “un conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o comportamientos y descubrir modelos previamente desconocidos”. Desde el punto de vista empresarial, en palabras de Molina, reportadas en el artículo escrito el año 2001 titulado “Torturando a los datos hasta que confiesen”, los términos minería de datos y extracción del conocimiento son tratados como sinónimos, y se lo define como: “La integración de un conjunto de áreas que tienen como propósito la identificación de conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones”. Según Pautsch, en la tesis de grado escrita el año 2009 titulada “Minería de datos aplicada al análisis de la deserción en la carrera de analista en sistemas de computación”, no se debe confundir a la minería de datos con un gran software ya que durante el desarrollo de un proyecto de este tipo, deben utilizarse diferentes aplicaciones para cada etapa. Las mismas pueden ser aplicaciones estadísticas, de visualización de datos o de inteligencia artificial. Actualmente existen aplicaciones comerciales muy poderosas que facilitan el desarrollo de un proyecto, pero es muy probable que deban complementarse con otras herramientas. El objetivo de la minería de datos es extraer la información oculta en las profundidades de las base de datos para luego intentar predecir futuras tendencias y comportamientos. De esta forma permiten a las organizaciones tomar decisiones proactivas y así adaptarse a un entorno permanentemente cambiante y sumamente competitivo. Las técnicas utilizadas en la minería de datos son el resultado de un largo proceso de investigación y desarrollo de productos que comenzó cuando los datos de negocio fueron almacenados por primera vez en computadoras y luego, con varias tecnologías, permitieron que los usuarios naveguen entre los datos en tiempo real. La minería de datos engloba todas estas técnicas para brindar información prospectiva y proactiva. Según Fayyad y sus colegas, en el artículo escrito el año 1996 titulado “De la minería de datos al descubrimiento del conocimiento en bases de datos”, la minería de datos está lista para su aplicación ya que está sostenida por cuatro tecnologías que ya se encuentran suficientemente maduras: (1) Recolección masiva de datos. (2) Potentes computadoras con multiprocesadores. (3) Almacenes de datos. (4) Algoritmos de minería de datos. En términos estrictamente académicos, las palabras minería de datos y descubrimiento de conocimiento en bases de datos no deben utilizarse de manera indistinta. La minería de datos es un paso esencial en el descubrimiento de conocimiento en bases de datos que utiliza algoritmos para generar patrones a partir de los datos procesados de manera antelada. El investigador Daniel Barbara, en el artículo escrito el año 2002 titulado “Requisitos para la agrupación de datos de secuencias”, menciona que en los primeros años del siglo veintiuno, los investigadores en bases de datos y las comunidades que se preocupan en minar datos, enfocaron su atención en un modelo nuevo de procesamiento de datos, donde los datos llegan en forma de streams o una secuencia continúa de datos. Estos datos que llegan de forma continua y rápida presentan un gran desafío para la minería de datos tradicional, ya que es realmente desafiante realizar las operaciones que habitualmente se usan en el análisis de enormes cantidades de datos. Chen y sus colegas, en el artículo escrito en año 2002 titulado “Análisis de regresión multidimensional de secuencias continuas de datos en series de tiempo” complementan mencionando que este nuevo modelo de análisis es denominado “minería de secuencias continuas” y se puede definir como un proceso de extracción del conocimiento de estructuras de registros rápidos y continuos de datos. Los ejemplos de secuencias continuas de datos incluyen tráfico de la red de computadoras, conversaciones telefónicas, transacciones de cajeros automáticos, búsquedas Web y datos de sensores.