lunes, 10 de febrero de 2014

Conjuntos imbalanceados


Los conjuntos de datos imbalanceados, en palabras de Soler, en la tesis doctoral escrita el año 2007 titulada “Lógica difusa aplicada a conjuntos imbalanceados: Aplicación a la detección del síndrome de Down”, concretamente los conjuntos imbalanceados por clases, son conjuntos de datos cuya característica principal es que hay mucha diferencia entre el número de casos de cada categoría. Cada uno de los datos usados para trabajar pertenecen a una categoría, y el hecho de que existan muchos más casos de una categoría que de otra puede dar lugar a problemas al intentar hallar métodos de aprendizaje. A cada categoría se le denomina clase y este tipo de conjunto de datos se puede presentar en problemas como la detección de intrusos, fraude bancario y, un caso bastante comentado es la detección del síndrome de Down en fetos, donde se tienen muchos más casos de fetos que no tienen esta trisomía que de los que sí la tienen. El problema del imbalanceo y, en concreto, el imbalanceo por clases, es uno de los problemas planteados en los temas de aprendizaje automático y minería de datos. Los métodos de aprendizaje que se conocen tales como las redes neuronales o los árboles de decisión, necesitan aprender con tantos ejemplos como sea posible de cada clase, para luego generalizar de la mejor manera. Sin embargo, el problema en el aprendizaje viene dado cuando hay una clase o más, con un número muy superior de ejemplos con respecto al resto de clases. Este es el caso del problema del imbalanceo que se focaliza en un problema de dos clases: La clase mayor que es la que contiene un número superior de ejemplos, que por lo general corresponde a los patrones negativos, y la clase menor, con un número muy inferior, generalmente de patrones positivos.

Soler, en la tesis doctoral citada, continua mencionando que el hecho de que un conjunto de datos se encuentre imbalanceado no supone por sí mismo un problema para el aprendizaje. Todo depende de las características del conjunto de datos. Para entender mejor este hecho, imagine una situación en la que existe un gran imbalanceo entre la clase-mayor, de valores negativos, y la clase-menor, de conjuntos positivos, y el conjunto de datos presenta un cierto grado de solapamiento entre clases. Una situación mucho más cómoda para el aprendizaje se encuentra en la situación en la que las clases se encuentran en zonas muy bien definidas, con la posibilidad de establecer fácilmente una frontera entre ellas. Existen diferentes métricas que permiten evaluar cómo de buena ha sido una clasificación. Algunas de estas métricas, que se usan normalmente para evaluar clasificaciones genéricas, no son válidas para conjuntos imbalanceados, pues darían, como se verá en los párrafos siguientes, resultados irreales. Por consiguiente, a continuación se describen las métricas usadas y propuestas en la literatura de conjuntos imbalanceados.

Según An y sus colegas, en el artículo escrito el año 2001 titulado “Un caso de estudio para el aprendizaje a partir de conjuntos de datos imbalanceados”, una matriz de confusión muestra la cantidad de individuos bien o mal clasificados por un método dado, según la clase a la que pertenezcan. La matriz de confusión es una tabla de doble entrada en la cual se ubican los valores de la clase actual en las filas, con las entradas negativas y positivas, y los valores de las hipótesis en las columnas, con las entradas negativas y positivas; la interacción en las cuatro celdas que conforman las entradas se describen de la siguiente manera: (1) La celda uno uno, contiene el número de verdaderos negativos, es decir, patrones negativos que han sido clasificados como negativos. (3) La celda uno dos hace referencia al número de falsos positivos, es decir, patrones negativos que han sido clasificados como positivos. (3) La celda dos uno contiene el número de falsos negativos, es decir, patrones positivos que han sido clasificados como negativos. (4) La celda dos dos contiene el número de verdaderos positivos, es decir, patrones positivos que han sido clasificados como positivos. La precisión del método clasificador es la división del número de aciertos dividido por el número total de patrones. En la ecuación mencionada los valores de precisión se encuentran en el intervalo cerrado cero, uno, puesto que, a medida que los valores no clasificados correctamente, falsos positivos y falsos negativos tienden a cero, la precisión aumenta de valor, siendo uno en el caso en que se tenga una clasificación perfecta, es decir los falsos positivos y los falsos negativos con el valor de cero.

No hay comentarios:

Publicar un comentario en la entrada