Mineria de datos en Redes Sociales: enero 2014

lunes, 20 de enero de 2014

Taxonomía de la incertidumbre

Álvaro Torres, en los apuntes de clases publicado en año 1998 titulado “Procesos estocásticos”, menciona que en la taxonomía de la incertidumbre se pueden encontrar los siguientes tipos de incertidumbre: (1) el determinismo; (2) la aleatoriedad; (3) la ambigüedad o no especificidad; (4) la vaguedad y por último (5) la confusión. Comenzando con el menor grado de incertidumbre, el determinismo corresponde con el conocimiento perfecto de los resultados y de la ocurrencia de los eventos. Por tanto el determinismo es la no existencia o consideración de incertidumbre. Aumentando el grado de incertidumbre, la incertidumbre aleatoria se presenta cuando los posibles eventos resultantes de un experimento son conocidos, por ejemplo en el lanzamiento de un dado o de una moneda. También aparece en situaciones de conflicto como en el caso de una afirmación que puede ser verdadera o falsa. Este tipo de incertidumbre se ha modelado con la teoría de las probabilidades aunque la probabilidad deba establecerse de manera empírica, subjetiva o experimental y puede darse en términos de rangos en lugar de valores absolutos. La ambigüedad proviene de la existencia de diferentes significados de una palabra o de una expresión. En este caso los eventos no están especificados o definidos claramente. Corresponde a la falta de información y se da cuando existe una relación de uno a muchos. La vaguedad hace imposible establecer la verdad o falsedad de una afirmación. La vaguedad difiere en general de la ambigüedad en que esta última envuelve diferentes significados incompatibles y puede resolverse con mayor información. Una mayor cantidad de información no ayuda en general a resolver el problema de vaguedad como sí sucede en el caso de la ambigüedad. Por último la confusión es un tipo de incertidumbre de conflicto, que reúne características tanto ambiguas como vagas.

En palabras de Laviolette & Seaman, en el artículo publicado el año 1994 titulado “La eficacia de las representaciones difusas de la incertidumbre”, cuando la incertidumbre es de tipo aleatorio, desde el punto objetivista de la probabilidad, es posible en muchos casos modelar los problemas de incertidumbre asignando probabilidades a los distintos eventos a través de la frecuencia relativa y el análisis estadístico; estos posibles resultados están claramente definidos y de esta manera es posible obtener una medida muy concreta de la probabilidad de que esos eventos ocurran. Sin embargo si esto no es posible, desde el punto subjetivista, la probabilidad puede ser considerada como una medida personal de la incertidumbre o de creencia sobre un evento o un objeto y la probabilidad como tal no existe como algo concretamente definido. Esto permite modelar algunos problemas en los cuales no se tienen datos estadísticos sobre la ocurrencia de ciertos eventos, por ejemplo cuando es imposible repetir un experimento en varias ocasiones, pero su probabilidad puede ser asignada con base en la creencia de las personas sobre esa ocurrencia. Algunos autores afirman que cualquier tipo de incertidumbre puede ser tratado con la teoría subjetivista de la probabilidad, reduciendo las características imprecisas de los eventos. Así entonces, es posible asignar las probabilidades en un grado altamente práctico, sin la necesidad de tener una precisión absoluta de esa probabilidad. La ventaja de estos procedimientos es que los cálculos matemáticos no son altamente complejos, aunque el costo computacional puede que sí. Entre las técnicas más conocidas para modelar la incertidumbre están las redes Bayesianas y las cadenas de Markov. En el caso de la ambigüedad y la vaguedad en donde no es posible definir de manera precisa la verdad o falsedad de una afirmación, el modelado de la incertidumbre se puede hacer bajo la teoría de la lógica difusa, donde se usan elementos del lenguaje que asocian “grados” de pertenencia de una forma natural a los eventos o procesos en cuestión.

lunes, 13 de enero de 2014

Taxonomía de la incertidumbre

En la investigación realizada por Klir y Folger, en el libro escrito el año 1988 titulado “Conjuntos difusos, incertidumbre e información”, es posible diferenciar dos etapas en la evolución del conocimiento: Un esfuerzo orientado a conocer aspectos del mundo y un posterior esfuerzo por conocer aspectos del propio conocimiento. Se puede suponer que ésta segunda etapa, en la que las personas se encontraban a fines del siglo veinte, surge a consecuencia de los fallos de la primera, para delimitar el alcance y validez del conocimiento adquirido previamente. La preocupación no se centra en la mera adquisición de conocimiento, sino que, además, se intenta determinar en qué medida se conoce algo, qué grado de certeza se puede asignar al conocimiento de las personas. Se han desviado los problemas desde cómo manipular el mundo a cómo manipular el conocimiento. Se ha calificado a la actual sociedad como la sociedad de la información, y se destinan gran cantidad de recursos a la adquisición, manejo, procesado, selección, almacenamiento, distribución, protección, recopilación, análisis y clasificación de la información, para lo cual la computadora resulta una herramienta de gran ayuda. La gran cantidad de información de que se dispone, unida al grado de incertidumbre que lleva asociada, constituye la base de muchos de los problemas actuales: La complejidad.
En palabras de Gómez Flechoso, en la tesis doctoral publicada el año 1998 titulada “Inducción del conocimiento con incertidumbre en bases de datos relacionales borrosas”, el estudio de la información basada en su incertidumbre asociada ha dado lugar a diferentes teorías matemáticas. La primera de ellas fue la conocida teoría de la información de Shannon, reportada el año 1948, construida a partir de la teoría clásica de conjuntos y de la teoría de la probabilidad. Desde comienzos de los años 1980 se han realizado diferentes avances orientados a la construcción de una teoría general de la información. Dentro de ésta se incluyen, además de la teoría clásica de conjuntos y de la teoría de la probabilidad, otras como la teoría de conjuntos difusos, la teoría de la posibilidad y la teoría de la evidencia. Con las nuevas teorías se ha conseguido romper la relación única que existía entre incertidumbre y teoría de la probabilidad, y se ha pasado a considerar la incertidumbre en los términos mucho más genéricos de la teoría de conjuntos difusos y de medidas difusas. Además, ha quedado demostrado que la incertidumbre puede manifestarse en diferentes formas o, dicho de otro modo, que existen diferentes tipos de incertidumbre y que en la teoría de la probabilidad sólo se manifestaba una de ellas. Los tres tipos de incertidumbre identificados con estas cinco teorías incluidas en la teoría general de la información son los siguientes: (1) Borrosidad. Resultante de la existencia de conjuntos difusos, con límites vagamente definidos. (2) Imprecisión o falta de especificidad. Relacionada con el tamaño de conjuntos de alternativas. (3) Discordia. Producida por conflictos entre varios conjuntos de alternativas. La imprecisión y la discordia pueden considerarse como diferentes modos de ambigüedad, asociando esta última con cualquier situación en la que no quede clara la alternativa correcta de un conjunto de ellas. Ésta puede deberse a una defectuosa caracterización de un objeto o a distinciones conflictivas. Por otro lado, la borrosidad es diferente de la ambigüedad, y se produce cuando existen conceptos cuyos límites no están perfectamente determinados.
Según Torres y Tranchita, en el artículo escrito el año 2005 titulado “¿Inferencia y razonamiento probabilístico o difuso?”, no existe, prácticamente, ningún problema de ingeniería en donde se tenga la información total sobre todas las variables y en donde esta información no tenga ningún grado de incertidumbre o imprecisión. Un problema de ingeniería, con todos los datos y completamente determinístico no es un problema real. La principal dificultad en el tratamiento o modelado de la incertidumbre es precisamente sus características inciertas. Todo intento de determinar estas características es reducir el nivel de incertidumbre. En general, se manejan situaciones en las cuales se cuenta con diferentes tipos o niveles de incertidumbre. Tradicionalmente, la incertidumbre ha sido modelada a través de la teoría de la probabilidad, sin embargo, debido a que la incertidumbre no es igual en todos los casos, se han formulado otras formas de manejar la incertidumbre de las variables, tales como la teoría de las posibilidades, la lógica difusa y la teoría de Dempster-Shafer, entre otras. Esta idea es complementada por los investigadores King y Keohane, en el libro escrito el año 2003 titulado “La ciencia en las ciencias sociales”, quienes mencionan que en los problemas de la vida real se utiliza información inmediata: Datos, experiencia, razonamiento a priori, para hacer inferencias que conduzcan a algo más amplio que no se observa directamente. A través de la inferencia se utilizan observaciones del mundo para revelar otros hechos que no se han observado o se pueden conocer efectos causales a partir de los datos observados. El término inferencia se utiliza como sinónimo de ilación. En un sentido amplio la inferencia va desde la implicación hasta el proceso mental operativo mediante el cual, partiendo de determinada información, se llega por implicación o también por inducción a una conclusión. Bajo incertidumbre la inferencia utiliza diferentes técnicas para el tratamiento de las características inciertas. De esta manera, es importante diferenciar el tipo de incertidumbre que se está tratando para determinar la técnica más conveniente a utilizar.

lunes, 6 de enero de 2014

Retos de la minería de datos

La revolución digital ha hecho posible que la información digitalizada sea fácil de capturar, procesar, almacenar, distribuir, y transmitir. En palabras de los investigadores Mitra y Acharya, en el libro publicado el año 2003 bajo el titulo “Minería de datos: Multimedia, computación blanda y bioinformática”, con el importante progreso en informática y en las tecnologías relacionadas y la expansión de su uso en diferentes aspectos de la vida, se continúa recogiendo y almacenando en bases de datos gran cantidad de información. Descubrir conocimiento de este enorme volumen de datos es un reto en sí mismo. La minería de datos es un intento de buscarle sentido a la explosión de información que actualmente puede ser almacenada. En los primeros años del siglo veintiuno, los datos no están restringidos a tuplas representadas únicamente con números o caracteres. El avance de la tecnología para la gestión de bases de datos hace posible integrar diferentes tipos de datos, tales como imagen, video, texto, y otros datos numéricos, en una base de datos sencilla, facilitando el procesamiento multimedia. Como resultado, la mezcla tradicional ad hoc de técnicas estadísticas y herramientas de gestión de datos no son adecuadas por más tiempo para analizar esta vasta colección de datos desiguales.

Según Riquelme y sus colegas, en el artículo escrito el año 2006 titulado “Minería de datos: Conceptos y tendencias”, la tecnología de Internet y su creciente demanda necesita el desarrollo de tecnologías de minería de datos más avanzadas para interpretar la información y el conocimiento de los datos distribuidos por todo el mundo. En este siglo la demanda continuará creciendo, y el acceso a grandes volúmenes de datos multimedia traerá la mayor transformación para el global de la sociedad. Por tanto, el desarrollo de la tecnología de minería de datos avanzada continuará siendo una importante área de estudio, y en consecuencia se espera gastar muchos recursos en esta área de desarrollo en los próximos años. Existen diversos dominios donde se almacenan grandes volúmenes de información en bases de datos centralizadas y distribuidas, como por ejemplo librerías digitales, archivos de imágenes, bioinformática, cuidados médicos, finanzas e inversión, fabricación y producción, negocios y marketing, redes de telecomunicación, etc. Es conocida la frase “los datos en bruto raramente son beneficiosos de manera directa”. Su verdadero valor se basa en: (a) la habilidad para extraer información útil la toma de decisiones o la exploración, y (b) la comprensión del fenómeno gobernante en la fuente de datos. En muchos dominios, el análisis de datos fue tradicionalmente un proceso manual. Uno o más analistas familiarizados con los datos, con la ayuda de técnicas estadísticas, proporcionaban resúmenes y generaban informes. En efecto, el analista hacía de procesador de preguntas sofisticado. Sin embargo, tal enfoque cambió como consecuencia del crecimiento del volumen de datos.

Según Vallejos, en el trabajo de adscripción escrito el año 2006 titulado “Minería de datos”, el nombre de minería de datos deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de minería de datos puede generar nuevas oportunidades de negocios al proveer estas capacidades: (1) Predicción automatizada de tendencias y comportamientos. La minería de datos automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. La minería de datos utiliza datos en correos electrónicos promocionales anteriores para identificar posibles objetivos que maximicen los resultados de la inversión en futuros correos. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de población que probablemente respondan similarmente a eventos dados. (2) Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de minería de datos barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de transcripción en la carga de datos. Las técnicas de minería de datos pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y pueden ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de minería de datos son implementadas en sistemas de procesamiento paralelo de alto rendimiento, pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Pero el éxito de los negocios depende por lo general de la habilidad para ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de la minería de datos pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamientos que no muy evidentes.

Kargupta y sus colegas, en el libro escrito el año 2004 titulado “Minería de datos: Desafíos para la siguiente generación y direcciones futuras”, además de los investigadores Yang y Wu, en el artículo escrito el año 2005 titulado “Problemas de cambio en la investigación en minería de datos”, mencionan que existen algunos retos que superar antes de que la minería de datos se convierta en una tecnología de masas. Se señalan algunos de tales retos: El primer reto relacionado con los aspectos metodológicos. Sería muy útil la existencia de una interfaz de programación de aplicaciones estándar, de forma que los desarrolladores puedan integrar sin dificultad los resultados de los diversos algoritmos de minería. Esto podría facilitar también la tarea de automatizar y simplificar todo el proceso, integrando aspectos como muestreo, limpieza productos de minería de datos estuvieran orientados al programador para fomentar su uso y ampliación. Sería asimismo necesario unificar la teoría sobre la materia: Así de datos, minería, visualización, etc. En este mismo sentido sería deseable que los se puede observar que los estados del arte no son generalizables, no existe un estándar para la validación de resultados y, en general, la investigación se realiza demasiado aislada. Asimismo se necesitaría mejorar la formación en esta área entre los titulados universitarios, que sería la mejor manera de expandir su uso, y finalmente, sigue siendo un asunto pendiente la integración del conocimiento del dominio en el algoritmo, y viceversa, es decir, mejorar la interpretabilidad y facilidad de uso del modelo hallado.

Kargupta, en el libro mencionado, señala que el segundo reto relacionado con la escalabilidad. La escalabilidad de la minería de datos hacia grandes volúmenes de datos es y será siempre una de las tendencias futuras, ya que el volumen de información que se ha de tratar crece de manera exponencial, con lo que los avances en esta área quedan siempre superados por las necesidades crecientes. Datos con miles de atributos es ya algo habitual, pero es probable que las técnicas no estén preparadas aún para centenares de miles o incluso millones de características. Dentro de esta línea también se localiza la minería de flujos de datos de muy alta velocidad con posibles cambios de estructura, dimensión o modelo de generación dinámico durante la fase de entrenamiento. Esto obliga a contar con un modelo de conocimiento en todo momento. El tercer reto está relacionado con la simulación, integración en la toma de decisiones y la minería de datos. Los modelos extraídos para un ámbito de interés de una organización. Básicamente se trata de utilizar las salidas de unos modelos como entradas de otros y maximizar el beneficio del conjunto de modelos. Además, pueden añadirse al modelo global restricciones de valores máximos o mínimos, saturación, etc. Las técnicas tradicionales de combinación de modelos, no pueden aplicarse directamente. Las técnicas de simulación en minería de datos, más relacionadas con el problema de una maximización global no han recibido la atención suficiente desde el área de la minería de datos.
TITULARES