Mineria de datos en Redes Sociales: 2012

lunes, 31 de diciembre de 2012

Metadatos

Desde hace ya varios años y a raíz de la popularización de Internet y sobre todo, de su colección distribuida de recursos multimedia, se viene hablando, con cierta espontaneidad, de bibliotecas digitales o virtuales. En palabras de Eva Méndez, en el artículo escrito el año 2000 titulado “RDF: Un modelo de metadatos flexible para las bibliotecas digitales del próximo milenio”, si bien es cierto que existe una tendencia incipiente hacia el acceso universal a la información a través de Internet, la falta de una infraestructura sólida y estable ha hecho de la Web un sistema de información complejo y no muy bien desarrollado, donde la gestión, mantenimiento y recuperación de información se han convertido en un problema para los gestores de la información y para el usuario de información electrónica. La relevancia en la recuperación resulta cada vez más difícil desde que el conocimiento humano ya no está sólo determinado por unidades físicas de información, sino que se ha convertido en un acervo distribuido de textos, imágenes, sonidos, publicaciones electrónicas, etc., con formatos heterogéneos y heteróclitos, que conforman nuevas representaciones de conocimiento. Esa idea espontánea y previsora de un nuevo espacio digital entendido como biblioteca puede defraudar a las personas. Para evitar la desilusión de ese nuevo entorno electrónico como sistema de información, se están impulsando diferentes soluciones para mejorar la recuperación de información en Internet. Una de esas soluciones es el desarrollo de modelos de metadatos, estructuras de base para describir distintos objetos de información distribuidos en la Web, de tal forma que la búsqueda basada en estos metadatos mitigue el problema de la recuperación de información. Por su parte Orozco menciona, en el artículo escrito el año 2006 titulado “La construcción de metadatos en el proceso de organización, análisis documental y recuperación de la información en los archivos de imágenes en movimiento”, un archivo de imágenes en movimiento, es un sistema de información que se caracteriza por estar estructurado mediante una serie de áreas de trabajo esenciales para su administración, gestión y desarrollo. Entre ellas, las de (1) Análisis documental. Que comprende la catalogación, descripción de contenidos e indización. (2) Sistematización. Que interaccionan entre sí mediante un conjunto de operaciones, unas de orden intelectual y otras mecánicas y repetitivas, destinadas a identificar y describir los documentos de imágenes en movimiento, entre las cuales se menciona al cine, videograbaciones, y similares. Ese conjunto de operaciones permiten representar la forma y el contenido de estos documentos de valor primario y por lo tanto, desentrañar la información en ellos contenida reelaborándolos y representándolos en otros de carácter instrumental o secundarios, tales como las bases de datos catalográficas y de descripción de contenido, que facilitan al usuario la identificación, recuperación y difusión de los mismos. Y es precisamente, en esa dinámica que genera el archivo entre sus acervos y los usuarios, donde se resalta la importancia de la construcción de metadatos, como fuentes electrónicas disponibles en red, ya sea para su consulta en entornos de Intranet o Internet. Los metadatos, en sí, no suponen algo completamente nuevo dentro del mundo bibliotecario. Según Howe, en el diccionario en línea publicado el año 1993, el término fue acuñado por Jack Myers en la década de los años 1960 para describir conjuntos de datos. La primera acepción que se le dio, y actualmente la más extendida, fue la de dato sobre el dato, ya que proporcionaban la información mínima necesaria para identificar un recurso. En este mismo trabajo se afirma que puede incluir información descriptiva sobre el contexto, calidad y condición o características del dato. La evolución del término desde esta fecha hasta 1997 ha sido descrita por Lange y Winkler, en el artículo titulado “Domando Internet: Metadatos, un trabajo en progreso”, revelando que no existen demasiadas novedades. Atendiendo a la definición antes mencionada, podría considerarse la catalogación como un proceso de generación de metadatos. Teniendo en cuenta que la mayoría de sistemas de metadatos ha sido creada no sólo por profesionales de la información sino también por informáticos, diseñadores de programas, técnicos de sistemas, etc., la utilización de este término puede conllevar una carga excesiva. Según Caplan, en el artículo publicado el año 1995 titulado “Metadatos independientes de la sintaxis para objetos como documentos”, el concepto de metadato se utiliza como un término neutral, que permite alejarse de posibles prejuicios por parte de todas aquellas personas menos cercanas al mundo bibliotecario, y que coloca a todos los grupos profesionales implicados en su desarrollo en una condición de igualdad.

lunes, 29 de octubre de 2012

La metodología PEIC, creada por Chapman

La metodología PEIC, creada por Chapman y sus colegas, en la guía escrita el año 1999 titulada “Guia de minería de datos CRISP DM 1.0 paso a paso”, consta de cuatro niveles de abstracción, organizados de forma jerárquica en tareas que van desde el nivel más general hasta los casos más específicos. A nivel más general, el proceso está organizado en seis fases, estando cada fase a su vez estructurada en varias tareas generales de segundo nivel. Las tareas generales se proyectan a tareas específicas, donde se describen las acciones que deben ser desarrolladas para situaciones específicas. Así, si en el segundo nivel se tiene la tarea general “limpieza de datos”, en el tercer nivel se dicen las tareas que tienen que desarrollarse para un caso específico, como por ejemplo, “limpieza de datos numéricos”, o “limpieza de datos categóricos”. El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados sobre el proyecto de minería de datos específico. La metodología PEIC proporciona dos documentos distintos como herramienta de ayuda en el desarrollo del proyecto de minería de datos: el del modelo de referencia y la guía del usuario. El documento del modelo de referencia describe de forma general las fases, tareas generales y salidas del proyecto de minería de datos. La guía del usuario proporciona información más detallada sobre la aplicación práctica del modelo de referencia al proyecto de minería de datos específico, proporcionando consejos y listas de comprobación sobre las tareas correspondientes a cada fase. La metodología PEIC estructura el ciclo de vida de un proyecto de minería de datos en seis fases, que interactúan entre ellas de forma iterativa durante el desarrollo del proyecto. Las flechas indican relaciones más habituales entre las fases, aunque se pueden establecer relaciones entre cualquier fase. La primera fase análisis del problema, incluye la comprensión de los objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el fin de convertirlos en objetivos técnicos y en una planificación. La segunda fase de análisis de datos comprende la recolección inicial de datos, en orden a que sea posible establecer un primer contacto con el problema, identificando la calidad de los datos y estableciendo las relaciones más evidentes que permitan establecer las primeras hipótesis. Una vez realizado el análisis de datos, la metodología establece que se proceda a la preparación de los datos, de tal forma que puedan ser tratados por las técnicas de modelado. La preparación de datos incluye las tareas generales de selección de datos a los que se van a aplicar la técnica de modelado (variables y muestras), limpieza de los datos, generación de variables adicionales, integración de diferentes orígenes de datos y cambios de formato. La fase de preparación de los datos, se encuentra muy relacionada con la fase de modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de preparación y modelado interactúan de forma sistemática. En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para el proyecto de Minería de datos específico. Las técnicas a utilizar en esta fase se seleccionan en función de los siguientes criterios: (1) Ser apropiada al problema. (2) Disponer de datos adecuados. (3) Cumplir los requerimientos del problema. (4) Tiempo necesario para obtener un modelo. (5) Conocimiento de la técnica. En palabras de Fayyad y sus colegas, en el libro escrito el año 1996 titulado “De la minería de datos al descubrimiento del conocimiento en bases de datos”, antes de proceder al modelado de los datos se debe de establecer un diseño del método de evaluación de los modelos, que permita establecer el grado de bondad de los modelos. Una vez realizadas estas tareas genéricas se procede a la generación y evaluación del modelo. Los parámetros utilizados en la generación del modelo dependen de las características de los datos. En la fase de evaluación, se evalúa el modelo, no desde el punto de vista de los datos, sino del cumplimiento de los criterios de éxito del problema. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos para repetir algún paso en el que a la vista del desarrollo posterior del proceso se hayan podido cometer errores. Si el modelo generado es válido en función de los criterios de éxito establecidos en la primera fase, se procede a la explotación del modelo. Normalmente los proyectos de minería de datos no terminan en la implantación del modelo, sino que se deben documentar y presentar los resultados de manera comprensible en orden a lograr un incremento del conocimiento. Además en la fase de explotación se debe de asegurar el mantenimiento de la aplicación y la posible difusión de los resultados.

viernes, 26 de octubre de 2012

Metodologías de la minería de datos

La revolución digital ha hecho posible que la información digitalizada sea fácil de capturar, procesar, almacenar, distribuir y transmitir. Según los investigadores Mitra y Acharya, en el libro escrito el año 2003 titulado “Minería de datos: Multimedia, computación blanda y bioinformática”, con el importante progreso en informática y en las tecnologías relacionadas y la expansión de su uso en diferentes aspectos de la vida, se continua recogiendo y almacenando en bases de datos gran cantidad de información. Según Moine y sus colegas, en el artículo escrito el año 2011 titulado “Estudio comparativo de metodologías para minería de datos”, los esfuerzos en el área de la minería de datos se han centrado en su gran mayoría en la investigación de técnicas para la explotación de información y extracción de patrones, tales como árboles de decisión, análisis de conglomerados y reglas de asociación. Sin embargo, se ha profundizado en menor medida el hecho de cómo ejecutar este proceso hasta obtener el “nuevo conocimiento”, es decir, en las metodologías. Las metodologías permiten llevar a cabo el proceso de minería de datos en forma sistemática y no trivial. Ayudan a las organizaciones a entender el proceso de descubrimiento de conocimiento y proveen una guía para la planificación y ejecución de los proyectos. Algunos modelos conocidos como metodologías son en realidad un modelo de proceso: un conjunto de actividades y tareas organizadas para llevar a cabo un trabajo. La diferencia fundamental entre metodología y modelo de proceso radica en que el modelo de proceso establece qué hacer, y la metodología especifica cómo hacerlo. Una metodología no solo define las fases de un proceso sino también las tareas que deberían realizarse y cómo llevar a cabo las mismas. Las metodologías de minería de datos más importantes son: (1) “Extracción, Selección, Exploración, Modelado y Valoración (ESEMV). (2) Proceso Estándar para la Industria Cruzada (PEIC) y (3) Metodología Microsoft. En palabras de Flores, en la tesis de maestría escrita el año 2009 titulada “Detección de patrones de daños y averías en la industria automotriz”, el Instituto SAS fue el desarrollador de la metodología ESEMV, a la cual define como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. El nombre de esta terminología es el acrónimo correspondiente a las cinco fases básicas del proceso. El proceso se inicia con la extracción de la población muestral sobre la que se va a aplicar el análisis. El objetivo de esta fase consiste en seleccionar una muestra representativa del problema en estudio. La representatividad de la muestra es indispensable ya que de no cumplirse invalida todo el modelo y los resultados dejan de ser admisibles. La forma más común de obtener una muestra es la selección aleatoria, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Este método de muestreo se denomina muestreo aleatorio simple. La metodología ESEMV establece que para cada muestra considerada para el análisis del proceso se debe asociar el nivel de confianza de la muestra. Una vez determinada una muestra o conjunto de muestras representativas de la población en estudio, la metodología ESEMV indica que se debe proceder a una exploración de la información disponible con el fin de simplificar en lo posible el problema para optimizar la eficiencia del modelo. Para lograr este objetivo se propone la utilización de herramientas de visualización o de técnicas estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta forma se pretende determinar cuáles son las variables explicativas que van a servir como entradas al modelo. La tercera fase de la metodología consiste en la manipulación de los datos, con base en la exploración realizada, de forma que se definan y tengan el formato adecuado los datos que serán introducidos en el modelo. Una vez que se han definido las entradas del modelo con el formato adecuado para la aplicación de la técnica de modelado, se procede al análisis y modelado de los datos. El objetivo de esta fase consiste en establecer una relación entre las variables explicativas y las variables objeto del estudio, que posibiliten inferir el valor de las mismas con un nivel de confianza determinado. Las técnicas utilizadas para el modelado de los datos incluyen métodos estadísticos tradicionales, tales como análisis discriminante, métodos de agrupamiento, y análisis de regresión, así como técnicas basadas en datos tales como redes neuronales, técnicas adaptativas, lógica difusa, árboles de decisión, reglas de asociación y computación evolutiva. Finalmente, la última fase del proceso consiste en la valoración de los resultados mediante el análisis de bondad del modelo o modelos contrastados con otros métodos estadísticos o con nuevas poblaciones muestrales.

sábado, 28 de julio de 2012

Minería de Datos en las Redes Sociales - Que es

¿Qué son las Redes Sociales? Las redes sociales son estructuras sociales compuestas de grupos de personas, las cuales están conectadas por uno o varios tipos de relaciones, tales como amistad, parentesco, intereses comunes o conocimientos que comparten. Este tipo de relaciones se lleva a cabo a través de la transmición informática de datos entre los diferentes individuos que conforman a la red social, estos datos pueden ser públicos (Todos lo ven, sea dentro o fuera de la red) o privados. El auge actual de estas redes sociales ha revolucionado la forma de comunicarnos que tenemos las personas, la cantidad de datos que se comparten a diario (Imagenes, texto, conversaciones, videos y demás) es desorbitante y las posibilidades a la hora de analizar esos datos para obtener información es igualmente inmensa. Se sabe que aproximadamente el 67 por ciento de los millones de usuarios de Internet a nivel mundial usan redes sociales como Facebook, Twitter y Linkedin, pero existen miles de redes sociales diferentes, e incluso existen plataformas donde cada uno puede crear su propia red social. ¿Qué es la Minería de Datos en las Redes Sociales? La minería de datos (Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información es previamente desconocida y se espera que resulte útil para algún proceso. En resumen, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en los datos. Básicamente existen 2 modelos de Minería de Datos: Predictivos. Estiman valores futuros de variables denominadas “variables objetivo” o “variables dependientes”, utilizando información histórica u otras variables las cuales se denominan “variables independientes” o “variables predictivas”. Por ejemplo; estimar el volumen de ventas de un nuevo punto de venta (variable objetivo), según su ubicación o volumen de ventas de locales próximos (variable independiente). Descriptivos. Identifican patrones que explican o agregan los datos, facilitando la exploración y análisis, no predicen nuevos datos. Por ejemplo; identificación de públicos objetivos para campañas de marketing. ¿Cuál es el fin de la Minería de Datos en las Redes Sociales? El fin noble que se enarbola tras la minería de datos en las redes sociales es la idea de incrementar la satisfacción de la experiencia de los usuarios, que reciben ofertas de mayor interés al haber sido diseñadas previamente en función de los datos obtenidos, los usuarios pueden contactarse con personas más similares a ellos, les llegan promociones más acordes a sus gustos, necesidades y posibilidades y mejoras del servicio en varios aspectos. Por ejemplo el análisis demográfico basado en edad, sexo o nivel de educación a un análisis de comportamiento multidimensional permite a las entidades crediticias extraer conclusiones sobre qué tipo de cliente puede ser cada persona y qué tipo de oferta puede ser de mayor interés en cada caso. Las redes sociales venden esta infomación a las diferentes empresas, constituyendo esto un eje principal en su modelo de negocio. ¿Cómo se realiza? Esto depende de las características de las diferentes redes sociales. En Facebook los datos pueden configurarse para ser públicos o privados, el acceso a todo el gigantesco volúmen de datos que esta red moviliza lo tiene solamente la empresa misma de forma interna. Organizaciones externas a Facebook pueden conseguir datos de las personas por diferentes medios utilizando la api (interfaz de programación de aplicaciones), con la que es posible el desarrollo de diferentes aplicaciones, como juegos y variados servicios que la plataforma ofrece, que aunque parecen ser gratuitos, tienen como objetivo principal el recolectar datos personales de los usuarios. También se pueden hacer scripts que vayan almacenando información que los usuarios tengan como pública hasta formar inmensas Bases de Datos. O por medios menos legales como el caso del Hacker que ofrecía vender 1,5 millones de cuentas con sus contraseñas. Actualmente están surgiendo empresas especializadas en la vigilancia de medios de comunicación social, aplicables a Twitter y otras redes sociales, cuyo objetivo es capturar y recolectar la información de los usuarios, desarrollando posteriormente los llamados “gráficos sociales” que sintetizan toda esa información. De la minería de datos en las redes sociales se puede obtener cualquier tipo de información, alguna hasta un tanto particular, como por ejemplo información sobre los estados de ánimo de la gente, que día del año es el cumpleaños de más personas, que épocas del año son más comunes las rupturas de parejas (Las rupturas aumentan en primavera y unas semanas antes de navidad y disminuyen en verano y durante las vacaciones..), cual fue la película más vista y todo lo que se nos pueda ocurrir, es inferible a través de esta técnica. También se pueden predecir cuestiones indirectas, por ejemplo, a través de un estudio de Twitter, la universidad de Indiana en EEUU, ha descubierto una correlación estadística directa entre el estado de ánimo de los usuarios extraído de twitter y el índice de de cotización de diferentes acciones en la Bolsa. Además gracias a las mejoras en las apis de programación de twitter y facebook que permiten el acceso a una gran cantidad de datos, irán apareciendo nuevas aplicaciones que funcionen por encima de estas plataformas, como por ejemplo el análisis de sentimiento.