lunes, 6 de enero de 2014

Retos de la minería de datos

La revolución digital ha hecho posible que la información digitalizada sea fácil de capturar, procesar, almacenar, distribuir, y transmitir. En palabras de los investigadores Mitra y Acharya, en el libro publicado el año 2003 bajo el titulo “Minería de datos: Multimedia, computación blanda y bioinformática”, con el importante progreso en informática y en las tecnologías relacionadas y la expansión de su uso en diferentes aspectos de la vida, se continúa recogiendo y almacenando en bases de datos gran cantidad de información. Descubrir conocimiento de este enorme volumen de datos es un reto en sí mismo. La minería de datos es un intento de buscarle sentido a la explosión de información que actualmente puede ser almacenada. En los primeros años del siglo veintiuno, los datos no están restringidos a tuplas representadas únicamente con números o caracteres. El avance de la tecnología para la gestión de bases de datos hace posible integrar diferentes tipos de datos, tales como imagen, video, texto, y otros datos numéricos, en una base de datos sencilla, facilitando el procesamiento multimedia. Como resultado, la mezcla tradicional ad hoc de técnicas estadísticas y herramientas de gestión de datos no son adecuadas por más tiempo para analizar esta vasta colección de datos desiguales.

Según Riquelme y sus colegas, en el artículo escrito el año 2006 titulado “Minería de datos: Conceptos y tendencias”, la tecnología de Internet y su creciente demanda necesita el desarrollo de tecnologías de minería de datos más avanzadas para interpretar la información y el conocimiento de los datos distribuidos por todo el mundo. En este siglo la demanda continuará creciendo, y el acceso a grandes volúmenes de datos multimedia traerá la mayor transformación para el global de la sociedad. Por tanto, el desarrollo de la tecnología de minería de datos avanzada continuará siendo una importante área de estudio, y en consecuencia se espera gastar muchos recursos en esta área de desarrollo en los próximos años. Existen diversos dominios donde se almacenan grandes volúmenes de información en bases de datos centralizadas y distribuidas, como por ejemplo librerías digitales, archivos de imágenes, bioinformática, cuidados médicos, finanzas e inversión, fabricación y producción, negocios y marketing, redes de telecomunicación, etc. Es conocida la frase “los datos en bruto raramente son beneficiosos de manera directa”. Su verdadero valor se basa en: (a) la habilidad para extraer información útil la toma de decisiones o la exploración, y (b) la comprensión del fenómeno gobernante en la fuente de datos. En muchos dominios, el análisis de datos fue tradicionalmente un proceso manual. Uno o más analistas familiarizados con los datos, con la ayuda de técnicas estadísticas, proporcionaban resúmenes y generaban informes. En efecto, el analista hacía de procesador de preguntas sofisticado. Sin embargo, tal enfoque cambió como consecuencia del crecimiento del volumen de datos.

Según Vallejos, en el trabajo de adscripción escrito el año 2006 titulado “Minería de datos”, el nombre de minería de datos deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de minería de datos puede generar nuevas oportunidades de negocios al proveer estas capacidades: (1) Predicción automatizada de tendencias y comportamientos. La minería de datos automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. La minería de datos utiliza datos en correos electrónicos promocionales anteriores para identificar posibles objetivos que maximicen los resultados de la inversión en futuros correos. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados. (2) Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de minería de datos barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de transcripción en la carga de datos. Las técnicas de minería de datos pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y pueden ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de minería de datos son implementadas en sistemas de procesamiento paralelo de alto rendimiento, pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Pero el éxito de los negocios depende por lo general de la habilidad para ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de la minería de datos pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no muy evidentes.

Kargupta y sus colegas, en el libro escrito el año 2004 titulado “Minería de datos: Desafíos para la siguiente generación y direcciones futuras”, además de los investigadores Yang y Wu, en el artículo escrito el año 2005 titulado “Problemas de cambio en la investigación en minería de datos”, mencionan que existen algunos retos que superar antes de que la minería de datos se convierta en una tecnología de masas. Se señalan algunos de tales retos: El primer reto relacionado con los aspectos metodológicos. Sería muy útil la existencia de una interfaz de programación de aplicaciones estándar, de forma que los desarrolladores puedan integrar sin dificultad los resultados de los diversos algoritmos de minería. Esto podría facilitar también la tarea de automatizar y simplificar todo el proceso, integrando aspectos como muestreo, limpieza productos de minería de datos estuvieran orientados al programador para fomentar su uso y ampliación. Sería asimismo necesario unificar la teoría sobre la materia: Así de datos, minería, visualización, etc. En este mismo sentido sería deseable que los se puede observar que los estados del arte no son generalizables, no existe un estándar para la validación de resultados y, en general, la investigación se realiza demasiado aislada. Asimismo se necesitaría mejorar la formación en esta área entre los titulados universitarios, que sería la mejor manera de expandir su uso, y finalmente, sigue siendo un asunto pendiente la integración del conocimiento del dominio en el algoritmo, y viceversa, es decir, mejorar la interpretabilidad y facilidad de uso del modelo hallado.

Kargupta, en el libro mencionado, señala que el segundo reto relacionado con la escalabilidad. La escalabilidad de la minería de datos hacia grandes volúmenes de datos es y será siempre una de las tendencias futuras, ya que el volumen de información que se ha de tratar crece de manera exponencial, con lo que los avances en esta área quedan siempre superados por las necesidades crecientes. Datos con miles de atributos es ya algo habitual, pero es probable que las técnicas no estén preparadas aún para centenares de miles o incluso millones de características. Dentro de esta línea también se localiza la minería de flujos de datos de muy alta velocidad con posibles cambios de estructura, dimensión o modelo de generación dinámico durante la fase de entrenamiento. Esto obliga a contar con un modelo de conocimiento en todo momento. El tercer reto está relacionado con la simulación, integración en la toma de decisiones y la minería de datos. Los modelos extraídos para un ámbito de interés de una organización. Básicamente se trata de utilizar las salidas de unos modelos como entradas de otros y maximizar el beneficio del conjunto de modelos. Además, pueden añadirse al modelo global restricciones de valores máximos o mínimos, saturación, etc. Las técnicas tradicionales de combinación de modelos, no pueden aplicarse directamente. Las técnicas de simulación en minería de datos, más relacionadas con el problema de una maximización global no han recibido la atención suficiente desde el área de la minería de datos.
TITULARES

No hay comentarios:

Publicar un comentario en la entrada