lunes, 24 de febrero de 2014

En 15 años, Google sabrá la respuesta antes de la consulta

En 15 años las computadoras superarán a sus creadores en inteligencia, obtendrán la capacidad de contar historias y chistes, acercando así la era de la "singularidad” entre el hombre y la máquina, predice un experto en inteligencia artificial.
Google "sabrá la respuesta a la pregunta antes de que usted la formule”, aseveró el director de ingeniería del gigante informático, Ray Kurzweil. Añadió que el momento en que los ordenadores se liberarán de sus amos llegará muy pronto, informa The Guardian, citado por RT en su página web.
Además, "Google leerá cada correo electrónico que se escriba, cada documento... Le conocerá mejor que su compañero íntimo”, predijo el futurista.
Para el año 2029 las computadoras y los robots no sólo superarán sus capacidades en términos de inteligencia, sino que nos van a entender mejor de lo que nos entendemos a nosotros mismos, señala el futurista conocido por su idea de alcanzar la inmortalidad.
Además, Kurzweil y su equipo de profesionales están trabajando con avidez para hacer realidad una coexistencia entre la máquina y el hombre, un fenómeno que se ha denominado popularmente como "la singularidad”: la fusión de la inteligencia artificial y el cerebro humano para formar un superhombre que nunca tendría que buscar en Google otra molesta pregunta de nuevo.
El siguiente paso al amparo de este proyecto ambicioso del directivo de Google es diseñar unos programas que permitirán a los ordenadores entender lo que los humanos están diciendo.
"Queremos que las computadoras lean todo en la web y cada página de cada libro, para ser capaz de entablar un diálogo inteligente con el usuario, para ser capaz de responder a sus preguntas”, explicó el futurista.
Ahora, Google está mostrando un marcado interés en alta tecnología, comprando las empresas robóticas y desarrollando las tecnologías que en última instancia podrían espiar a sus suscriptores.

Para destacar
Futuro "Queremos que las computadoras lean todo en la web y cada página de cada libro, para ser capaz de entablar un diálogo inteligente con el usuario, para ser capaz de responder a sus preguntas”, explica el director de ingeniería del gigante informático Google, Ray Kurzweil.
Apuesta Google "lo conocerá mejor que su compañero íntimo”.

Ensamblaje de secuencias

En palabras de Perezleo y sus colegas, en el artículo escrito el año 2003 titulado “Impacto de la bioinformática en las ciencias biomédicas”, el desarrollo de la ingeniería genética y las nuevas tecnologías de la información durante la última década del siglo veinte, ha condicionado el surgimiento de una disciplina que ha generado vínculos indisolubles entre la informática y las ciencias biológicas: la bioinformática. Según Martin, en el libro escrito el año 1999 titulado “Impacto de la bioinformática en las ciencias biomédicas”, la bioinformática se encuentra en la intersección de las ciencias de la vida y las ciencias de la información. Es un campo científico interdisciplinario que se propone investigar y desarrollar sistemas que faciliten la comprensión del flujo de información desde los genes a las estructuras moleculares, su función bioquímica, su conducta fisiológica y finalmente su influencia en las enfermedades y la salud. Entre los principales factores que han favorecido el desarrollo de esta disciplina, se encuentra el impresionante volumen de datos sobre secuencias generadas por los distintos proyectos genoma, tanto el humano como los de otros organismos; los nuevos enfoques experimentales, basados en biochips que permiten obtener datos genéticos a gran velocidad, bien de genomas individuales, mutaciones, polimorfismos, o de enfoques celulares, expresión génica; así como el desarrollo de Internet y la World Wide Web, que permite el acceso mundial a las bases de datos de información biológica.

Los mecanismos de secuenciación actuales generan gran cantidad de información en pequeños fragmentos desordenados que hay que unir correctamente para obtener la secuencia original. Según Hormigo, en el libro escrito el año 2011 titulado “Estudio y evaluación de algoritmos y programas de ensamblaje de secuencias”, las técnicas utilizadas para resolver el problema se basan principalmente en dos líneas de trabajo complementarias entre sí: (1) La búsqueda de un modelo matemático mediante el que controlar una solución óptima; en este sentido, las aproximaciones se basan en utilizar combinatoria y teoría de grafos, tales como algoritmos de superposición-trazado consenso, basado en grafos de intersección, o algoritmos de Euler, basados en el concepto de “grafo de De Brujin” reportado en el artículo de Bateman y Quackenbush titulado “Bioinformática para el secuenciamiento de la siguiente generación”. (2) El uso de hipótesis que reduzcan la complejidad del problema, tales como que dos fragmentos son adyacentes si se solapan de alguna manera, es decir, si la parte final de una secuencia coincide con la inicial de la siguiente. Estas hipótesis, a su vez, no tienen por qué ser totalmente válidas ya que, por ejemplo, pueden existir secuencias repetitivas y también debido a que la superposición parcial de dos fragmentos puede deberse simplemente al azar y no a que dichos fragmentos sean realmente adyacentes en la secuencia original. Además, la secuencia original no aparece cubierta en su totalidad por el conjunto de fragmentos y, por otra parte, se producen errores experimentales en la lectura de cada fragmento. Estos errores hacen que dar con la secuencia original correcta sea una tarea muy compleja.

Según Chen y sus colegas, en el artículo escrito el año titulado “Un sistema de alto nivel para resolver lecturas inconsistentes de predicciones estructurales acerca de secuencias expresas”, se puede definir el ensamblaje de secuencias en Bioinformática como la superposición de varios fragmentos de una secuencia de ácido desoxirribonucleico para alinearlos y reconstruir la secuencia original. La necesidad de realizar un ensamblaje de secuencias viene dada porque resulta bastante complicado secuenciar un genoma completo mediante una sola lectura, sino que es necesario realizar este proceso mediante pequeños trozos de la secuencia original con una longitud de entre veinte y mil bases, según la tecnología que se utilice. Normalmente, los fragmentos cortos, llamados “lecturas” vienen dados por una secuenciación genómica por el método de perdigonada o una transcripción de genes. Se aclara que el método de perdigonada es aquel mediante el cual el genoma se parte en multitud de pequeños fragmentos o lecturas, que posteriormente se alinean obteniendo la secuencia original.

lunes, 17 de febrero de 2014

Conjuntos imbalanceados

Kubat y Matwin proponen, en el artículo escrito el año 1997 titulado “Direccionando el curso de conjuntos de entrenamiento imbalanceados”, la media geométrica de las precisiones de cada caso para tener un indicador de medida del grado de precisión alcanzado por un método de clasificación. Su fórmula se puede describir como la media geométrica igual a la raíz cuadrada de la precisión de positivos por la precisión de negativos. Los valores de precisión de positivos se obtienen de la ecuación: Verdaderos positivos dividido entre verdaderos positivos más falsos negativos. Por su parte los valores de precisión de negativos se obtienen de la ecuación: Verdaderos negativos dividido entre verdaderos negativos más falsos positivos; ambos valores corresponden a la precisión en la clasificación de los elementos positivos y la de los negativos respectivamente. Normalmente, los métodos clásicos tienden más a clasificar bien la clase-mayor y mal la clase-menor. Si se supone un ejemplo como el que se da en el Síndrome de Down en el que se encuentran tres mil sesenta casos negativos y once positivos, un método que simplemente se dedique a clasificar correctamente los negativos y a obviar los positivos, tendría una precisión de cero punto noventa y nueve, pero en cambio sería un mal método para usar en este problema. En este caso, la media geométrica daría un valor de cero. Es por ello que el índice obtenido por la media geométrica es una buena medida de la precisión alcanzada por un algoritmo sobre un conjunto imbalanceado y, además, es el más utilizado en este tipo de problemas.

El análisis de la curva de “Características de operación del receptor (ROC)”, descrito en el artículo escrito por Swets el año 1988 titulado “Medición de la precisión en los sistemas de diagnóstico”, proporciona herramientas para distinguir clasificadores que son óptimos en alguna de las clases con respecto a clasificadores que no son tan óptimos, dependiendo del valor de algunos de sus parámetros. Las curvas de ROC para dos clases están basadas en una representación visual entre dos parámetros: Sensibilidad y especificidad. La sensibilidad es igual a la precisión de positivos, los valores de precisión de positivos se obtienen de la ecuación: Verdaderos positivos dividido entre verdaderos positivos más falsos negativos. Por su parte la especificidad es igual a la precisión de negativos, los valores de precisión de negativos se obtienen de la ecuación: Verdaderos negativos, dividido entre verdaderos negativos más falsos positivos. Algunas características de las curvas ROC son: (1) Una curva de ROC o punto de la curva es independiente de la distribución de clases, según Provost y sus colegas en el artículo escrito el año 1998 titulado “El caso en contra de la estimación de precisión para la comparación de algoritmos de inducción”. (2) Una curva de ROC encapsula toda la información contenida en la matriz de confusión, ya que el valor de los falsos negativos es el complemento de verdaderos positivos y verdaderos negativos lo es de los falsos positivos, en palabras de Swets, en el artículo citado anteriormente. (3) Las curvas de ROC ofrecen una herramienta visual para examinar la habilidad de un clasificador de identificar correctamente los casos positivos con respecto al número de casos que son incorrectamente clasificados. Se destaca el trabajo desarrollado por Fawcett, reportado en el artículo escrito el año 2003 con el título “Grafos de ROC: Notas y consideraciones practicas para investigadores en minería de datos”, quien realizó un estudio de la aplicación de las curvas de ROC al campo de la minería de datos.

Como se ha comentado anteriormente, la precisión no es una buena medida para saber lo bueno que es un método de clasificación usando un conjunto imbalanceado. El valor F fue propuesto por Van Rijsbergen, en el libro escrito el año 1979 titulado “Recuperación de información”, y para calcularlo, primero se deben calcular dos valores: Precisión, que no tiene nada que ver con la precisión descrita en las ecuaciones anteriores y Recuerdo, respectivamente. La manera de calcularlos es la siguiente: (1) El valor de precisión se calcula como verdaderos positivos dividido entre verdaderos positivos mas falsos positivos. Este valor proporciona la medida de cuántos patrones positivos clasifica correctamente con respecto al número total de patrones que clasifica como positivos. Es decir, cuántos positivos son ciertos con respecto a los que predice que son positivos. (2) Recuerdo se calcula como verdaderos positivos dividido entre verdaderos positivos mas falsos negativos. Este valor proporciona la medida de cuántos patrones positivos clasifica correctamente con respecto al número total de patrones positivos. Así pues, el valor F, viene dado por la siguiente ecuación: Dos por recuerdo por precisión dividido entre recuerdo más precisión, que corresponde a la media armónica de precisión y recuerdo. El valor F es alto cuando recuerdo y precisión son altos. Esto implica que el valor F puede medir la “bondad” de un algoritmo de aprendizaje sobre el problema propuesto, es decir, su precisión en la clasificación.

lunes, 10 de febrero de 2014

Conjuntos imbalanceados


Los conjuntos de datos imbalanceados, en palabras de Soler, en la tesis doctoral escrita el año 2007 titulada “Lógica difusa aplicada a conjuntos imbalanceados: Aplicación a la detección del síndrome de Down”, concretamente los conjuntos imbalanceados por clases, son conjuntos de datos cuya característica principal es que hay mucha diferencia entre el número de casos de cada categoría. Cada uno de los datos usados para trabajar pertenecen a una categoría, y el hecho de que existan muchos más casos de una categoría que de otra puede dar lugar a problemas al intentar hallar métodos de aprendizaje. A cada categoría se le denomina clase y este tipo de conjunto de datos se puede presentar en problemas como la detección de intrusos, fraude bancario y, un caso bastante comentado es la detección del síndrome de Down en fetos, donde se tienen muchos más casos de fetos que no tienen esta trisomía que de los que sí la tienen. El problema del imbalanceo y, en concreto, el imbalanceo por clases, es uno de los problemas planteados en los temas de aprendizaje automático y minería de datos. Los métodos de aprendizaje que se conocen tales como las redes neuronales o los árboles de decisión, necesitan aprender con tantos ejemplos como sea posible de cada clase, para luego generalizar de la mejor manera. Sin embargo, el problema en el aprendizaje viene dado cuando hay una clase o más, con un número muy superior de ejemplos con respecto al resto de clases. Este es el caso del problema del imbalanceo que se focaliza en un problema de dos clases: La clase mayor que es la que contiene un número superior de ejemplos, que por lo general corresponde a los patrones negativos, y la clase menor, con un número muy inferior, generalmente de patrones positivos.

Soler, en la tesis doctoral citada, continua mencionando que el hecho de que un conjunto de datos se encuentre imbalanceado no supone por sí mismo un problema para el aprendizaje. Todo depende de las características del conjunto de datos. Para entender mejor este hecho, imagine una situación en la que existe un gran imbalanceo entre la clase-mayor, de valores negativos, y la clase-menor, de conjuntos positivos, y el conjunto de datos presenta un cierto grado de solapamiento entre clases. Una situación mucho más cómoda para el aprendizaje se encuentra en la situación en la que las clases se encuentran en zonas muy bien definidas, con la posibilidad de establecer fácilmente una frontera entre ellas. Existen diferentes métricas que permiten evaluar cómo de buena ha sido una clasificación. Algunas de estas métricas, que se usan normalmente para evaluar clasificaciones genéricas, no son válidas para conjuntos imbalanceados, pues darían, como se verá en los párrafos siguientes, resultados irreales. Por consiguiente, a continuación se describen las métricas usadas y propuestas en la literatura de conjuntos imbalanceados.

Según An y sus colegas, en el artículo escrito el año 2001 titulado “Un caso de estudio para el aprendizaje a partir de conjuntos de datos imbalanceados”, una matriz de confusión muestra la cantidad de individuos bien o mal clasificados por un método dado, según la clase a la que pertenezcan. La matriz de confusión es una tabla de doble entrada en la cual se ubican los valores de la clase actual en las filas, con las entradas negativas y positivas, y los valores de las hipótesis en las columnas, con las entradas negativas y positivas; la interacción en las cuatro celdas que conforman las entradas se describen de la siguiente manera: (1) La celda uno uno, contiene el número de verdaderos negativos, es decir, patrones negativos que han sido clasificados como negativos. (3) La celda uno dos hace referencia al número de falsos positivos, es decir, patrones negativos que han sido clasificados como positivos. (3) La celda dos uno contiene el número de falsos negativos, es decir, patrones positivos que han sido clasificados como negativos. (4) La celda dos dos contiene el número de verdaderos positivos, es decir, patrones positivos que han sido clasificados como positivos. La precisión del método clasificador es la división del número de aciertos dividido por el número total de patrones. En la ecuación mencionada los valores de precisión se encuentran en el intervalo cerrado cero, uno, puesto que, a medida que los valores no clasificados correctamente, falsos positivos y falsos negativos tienden a cero, la precisión aumenta de valor, siendo uno en el caso en que se tenga una clasificación perfecta, es decir los falsos positivos y los falsos negativos con el valor de cero.

lunes, 3 de febrero de 2014

Nanotecnología en la inteligencia ambiental

Cuando se manipula la materia a una escala tan minúscula de átomos y moléculas, se obtienen fenómenos y propiedades totalmente nuevas. Por lo tanto, los científicos utilizan la nanotecnología para crear materiales, aparatos y sistemas novedosos y poco costosos con propiedades únicas y muy útiles. Para comprender el potencial de esta tecnología es clave saber que las propiedades físicas y químicas de la materia cambian a escala nanométrica, debido a efectos cuánticos. La conductividad eléctrica, el calor, la resistencia, la elasticidad, la reactividad, entre otras propiedades, se comporta de manera diferente que en los mismos elementos a mayor escala. Estas nuevas estructuras con precisión atómica, tales como los nanotubos de carbono, o pequeños instrumentos para el interior del cuerpo humano, pueden ser instrumentos que introduzcan a las personas en una nueva era. Un concepto que aclara un poco las dimensiones a las que se hace referencia, es el de las nanoparticulas. Según Fanet, en el artículo citado anteriormente, las nanopartículas son tan pequeñas como los glóbulos rojos; un nanómetro es equivalente a diez elevado a la menos nueve metros. Esta es la unidad maestra de la nanociencia y la nanotecnología, donde se utiliza el prefijo nano. Existe un gran consenso de que la nanotecnología conducirá a las personas a una segunda revolución industrial en el siglo veintiuno. Supondrá numerosos avances para muchas industrias y nuevos materiales con propiedades extraordinarias, desarrollar materiales más fuertes que el acero pero con solamente el diez por ciento de su peso, nuevas aplicaciones informáticas con componentes increíblemente más rápidos o sensores moleculares capaces de detectar y destruir células cancerígenas en las partes más delicadas del cuerpo humano como el cerebro, entre otras muchas aplicaciones.

Por su parte la inteligencia ambiental pretende cambiar sustancialmente la vida diaria de las personas en su relación con el entorno. Según la ISTAG, en el artículo escrito el año 2001 titulado “Escenarios para la inteligencia ambiental en 2010”, la inteligencia ambiental se trata de un paradigma de la tecnología de la información en el cual las personas quedan inmersas en un espacio digital que es consciente de su presencia, sensible al contexto y adaptativo a sus necesidades, hábitos y emociones. Puede entenderse como un paraguas que abarca la computación ubicua, reportada en el artículo escrito por Weiser el año 1993 titulado “Algunos resultados de la ciencia de las computadoras en computación ubicua”, las Interfaces Naturales, reportada en el artículo escrito por Coen el año 1998 bajo el titulo “Principios del diseño para medios inteligentes” y las Comunicaciones Ubicuas, reportado en el artículo escrito el año 2000 titulado “Un estudio de contexto interactivo de la investigación en computación móvil”. En ella se encuentran otras muchas áreas de investigación como por ejemplo las interfaces de usuario multimodales o los agentes inteligentes artificiales, entre otras. La inteligencia ambiental, más allá de su componente teórico, tiene un claro objetivo práctico, esperando aplicarse de forma real y eficaz en el día a día de la vida de las personas. Una de las principales líneas de investigación se centra en obtener nuevas formas de interacción con los dispositivos computacionales de forma más simple y, sobre todo, más natural. En este sentido se está trabajando en el campo de la computación ubicua, que, según la visión inicial de Weiser, en el artículo escrito el año 1991 titulado “La computadora del siglo veintiuno”, representa la “desaparición” de la actual computadora como una herramienta de todos y para todo. Weiser propuso distribuir la computadora en pequeños dispositivos de funcionalidad reducida y omnipresente en el entorno que rodea a las personas.

Venturini, en el artículo mencionado anteriormente, continúa indicando que las actuales interfaces hombre-máquina son pobremente adaptables a las unidades móviles del futuro. Las pantallas consumen mucha energía y los teclados no son cómodos. Las nuevas interfaces deben ser concebidas, incorporando imágenes de retina, reconocimiento de voz y enlaces directos a la actividad neuronal. Las nanotecnologías ofrecen ventajas obvias en dichos campos, y especialmente en la biología. Estas interfaces precisan nuevas arquitecturas y mayor sinergia entre el software y el hardware. Es bueno saber que cuando el consumo de energía de un sistema tiene que ser reducido, el ahorro más importante de energía se consigue al llevar el procesamiento al nivel del sistema, es decir, reduciendo el intercambio de datos y el ajuste dinámico de parámetros funcionales.