Issuu on Google+

Introducción Técnicas de Clasificación Árboles de decisión Modelo estadístico

APRENDIZAJE SUPERVISADO


QuĂŠ es una manzana?


Estรกs son Manzanas?


APRENDIZAJE Como los humanos, se aprende de experiencias pasadas.  Un computador no tiene ‘experiencias’  Un sistema computacional aprende de los datos, que representan algunas ‘experiencias pasadas’ sobre un dominio de aplicación específico 


APRENDIZAJE SUPERVISADO La idea es aprender una función objetivo que pueda ser usada para predecir los valores de un atributo de clase discreto, por ejemplo, aprobar o no aprobar, alto riesgo o bajo riesgo, etc.  Esta tarea es llamada comúnmente aprendizaje supervisado, clasificación o aprendizaje inductivo. 


PROCESO DE APRENDIZAJE SUPERVISADO Aprender(training): aprender un modelo usando los datos de entrenamiento  Prueba(testing): Probar el modelo usando datos no vistos previamente para evaluar su exactitud al predecir. 

DATOS ENTRENAMIENTO

Algoritmo de Aprendizaje

Modelo

DATOS PRUEBA

Precisión


UN EJEMPLO …  

Datos: Solicitudes de crédito Tarea: Predecir cuando una solicitud de crédito debe ser aprobada o no. Medida de ejecución: precisión. Accuracy = Numero de clasificaciones correctas Numero total de casos de prueba

No aprendizaje: clasificar todas las futuras solicitudes (set prueba) (ej., Si): Accuracy = 9/15 = 60%. Se puede hacer mejor que 60% con aprendizaje.


TECNICAS DE CLASIFICACIÓN


QUÉ ES CLASIFICACIÓN? BINARIO

CATEGORICO

CONTINUOS

CLASES

ID

CASA

ESTADOCIVIL

1

SI

SOLTERO

600,000

NO

2

NO

CASADO

1,000,000

NO

3

NO

SOLTERO

700,000

NO

4

SI

CASADO

1,200,000

NO

5

NO

DIVORCIADO

950,000

SI

6

NO

CASADO

600,000

NO

7

SI

DIVORCIADO

2,200,000

NO

8

NO

SOLTERO

850,000

SI

9

NO

CASADO

750,000

NO

10

NO

SOLTERO

900,000

SI

INGRESOSANUALES

DEUDORENMORA

Conjunto de entrenamiento de clientes, para predecir quién incumple los pagos de préstamos.


QUÉ ES CLASIFICACIÓN? 

Clasificación es la tarea de aprender una función objetivo f, que mapee un set de atributos x aun set de clases predefinidas y. Entrada Set Atributos (X)

Modelo de Clasificación

Salida Set Atributos (X)

Clasificación como la tarea de asignación de un atributo de entrada x en su conjunto y etiqueta de la clase


ARBOLES DE DECISIÓN


DEFINICIÓN 

Una de las técnicas de clasificación más ampliamente utilizadas: Su precisión de clasificación es competitiva con respecto a otras técnicas más avanzadas  Es muy eficiente 

Utiliza la técnica de divide y vencerás  Procedimiento inductivo 


INICIO El modelo de clasificación es un árbol, llamado árbol de decisión.  Desarrollado y refinado por Rose Quinland de la universidad de Sidney, Australia  • C4.5, ID3, J48 


ELEMENTOS Los nodos internos denotan un test o prueba sobre un atributo  Los brazos representan una salida del test  Los nodos hoja representan etiquetas de clase 


EJEMPLO – DATA SET EDAD

TRABAJA

VIVIENDA

CREDITICIO

PRESTAMO

JOVEN

NO

NO

MALO

NO

JOVEN

NO

NO

BUENO

NO

JOVEN

SI

NO

BUENO

SI

JOVEN

SI

SI

MALO

SI

JOVEN

NO

NO

MALO

NO

ADULTO

NO

NO

MALO

NO

ADULTO

NO

NO

BUENO

NO

ADULTO

SI

SI

BUENO

SI

ADULTO

NO

SI

EXCELENTE

SI

ADULTO

NO

SI

EXCELENTE

SI

VIEJO

NO

SI

EXCELENTE

SI

VIEJO

NO

SI

BUENO

SI

VIEJO

SI

NO

BUENO

SI

VIEJO

SI

NO

EXCELENTE

SI

VIEJO

NO

NO

MALO

NO


EJEMPLO – ARBOL DE DECISIÓN 

Nodos de decisión y nodos con etiquetas de clase EDAD

TRABAJA

CASA

CREDITICIO


PROCEDIMIENTO - RECURSIVO   

Seleccionar un atributo Colocar una rama para cada valor del atributo Dividir las instancias en subconjuntos, uno por cada valor Repetir el proceso para cada rama utilizando el subconjunto apropiado Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.


ANÁLISIS EDAD

TRABAJA

CASA

CREDITICIO

JOVEN

NO

NO

BUENO

EDAD

TRABAJA

CASA

CREDITICIO

PRESTAMO


EL ÁRBOL DE DECISIÓN ES ÚNICO? NO. Hay arboles de diferente complejidad.  La idea es escoger árboles más pequeños y más precisos CASA 

TRABAJA


MEJOR ATRIBUTO Intuitivamente, cualquier hoja con instancias de solo una clase no tendrá que dividirse después.  Se desea que quede un árbol pequeño.  Medida de la pureza de cada nodo.  Escoger el atributo que produzca los nodos con hijos más puros. 


MEDIDA DE PUREZA  

Información. Se mide en fracciones de bit, y frecuentemente es menor a 1. Se asocia a cada nodo y se calcula con base al número de instancias de cada clase en él. Representa la cantidad de información esperada que sería necesaria para especificar la clase de una instancia dada.


INFORMACIÓN 

Propiedades esperadas Cuando queda una sola clase, la información debe ser cero  Cuando el número de instancias de cada clase es igual, la información alcanza su máximo valor 

La función que satisface estas propiedades es conocida como entropía


ENTROPÍA 


EJEMPLO ESTATURA

CABELLO

OJOS

CLASE

ALTO

NEGRO

AZUL

A

BAJO

NEGRO

AZUL

A

ALTO

RUBIO

AZUL

O

ALTO

ROJO

AZUL

O

ALTO

RUBIO

CAFE

A

BAJO

RUBIO

AZUL

O

BAJO

RUBIO

CAFE

A

ALTO

NEGRO

CAFE

A


EJEMPLO – INFORMACIÓN 


EJEMPLO - INFORMACIÓN 

Ganancia de información al probar la característica cabello. CABELLO NEGRO

BAJO,NEGRO,AZUL: A ALTO,NEGRO,AZUL: A ALTO,NEGRO,CAFÉ: A

RUBIO ROJO

ALTO,ROJO,AZUL: O

BAJO,RUBIO,AZUL: O ALTO,RUBIO,CAFÉ: A ALTO,RUBIO,AZUL: O BAJO,RUBIO,CAFÉ: A


EJEMPLO - VALORES 


EJEMPLO - CABELLO Ganancia al evaluar cabello:  Entropía del sistema – Entropía (Sistema, cabello): = 0,954 – 0,5 = 0,454 bit 


EJERCICIO – GANANCIA OJOS OJOS

BAJO,NEGRO,AZUL: A ALTO,NEGRO,AZUL: A ALTO,ROJO,AZUL: O BAJO,RUBIO,AZUL: O ALTO,RUBIO,AZUL: O

ALTO,RUBIO,CAFÉ: A BAJO,RUBIO,CAFÉ: A ALTO,NEGRO,CAFÉ: A


MODELO ESTADÍSTICO


CARACTERÍSTICAS Todos los atributos contribuyen  Los atributos se consideran: 

Iguales en importancia  Independientes 

Se toma en cuenta la frecuencia del par atributo‐valor por clase  No realista, ¡pero funciona 


CARCTERÍSTICAS Está basado en la regla de probabilidad condicional de Bayes.  Si se tiene una hipótesis H, y una evidencia entonces: 

P[H|E] = P[E|H] P[H]/ P[E]

H : Play=Yes  E : Combinación de valores del nuevo día 


NAIVE BAYES P[H|E] = P[E1|H] P[E2|H] P[E3|H] P[E4|H] P[H] P[E]  Los números encontrados se convierten en probabilidades normalizándolos de forma que sumen 1. P[H1|E] = P[E1|H] … P[En|H] P[H] P[E|H1]+ … +P[E|Hm]


EJEMPLO - JUEGO PERPSPECTIVA

JUEGA

TEMPERATURA

JUEGA

HUMEDAD

JUEGA

VIENTO

JUGAR

Soleado

NO

Caliente

NO

Alta

NO

Falso

NO

Soleado

NO

Caliente

NO

Alta

NO

Verdadero

NO

Nublado

SI

Caliente

SI

Alta

SI

Falso

SI

Lluvioso

SI

Suave

SI

Alta

SI

Falso

SI

Lluvioso

SI

Frio

SI

Normal

SI

Falso

SI

Lluvioso

NO

Frio

NO

Normal

NO

Verdadero

NO

Nublado

SI

Frio

SI

Normal

SI

Verdadero

SI

Soleado

NO

Suave

NO

Alta

NO

Falso

NO

Soleado

SI

Frio

SI

Normal

SI

Falso

SI

Lluvioso

SI

Suave

SI

Normal

SI

Falso

SI

Soleado

SI

Suave

SI

Normal

SI

Verdadero

SI

Nublado

SI

Suave

SI

Alta

SI

Verdadero

SI

Nublado

SI

Caliente

SI

Normal

SI

Falso

SI

Lluvioso

NO

Suave

NO

Alta

NO

Verdadero

NO


FRECUENCIA PERSPECTIVA Yes

TEMPERATURA

No

Yes

HUMEDAD

No

Yes

VIENTO

No

Yes

Soleado

Caliente

Alta

Verdadero

Nublado

Suave

Normal

Falso

Lluvioso

Frio

JUEGA Yes

No

Propiedades Observadas Propiedad a Priori

No


EJEMPLO PERSPECTIVA Yes

No

Soleado

2

3

Nublado

4

Lluvioso

3

TEMPERATURA Yes

No

Caliente

2

2

0

Suave

4

2

2

Frio

3

1

HUMEDAD Yes

No

Alta

3

4

Normal

6

1

VIENTO Yes

No

Verdadero

3

3

Falso

6

2

PERSPECTIVA

TEMPERATURA

Soleado

2/9

3/5

Caliente

2/9

2/5

Alta

3/9

4/5

Verdadero

3/9

3/5

Nublado

4/9

0/5

Suave

4/9

2/5

Normal

6/9

1/5

Falso

6/9

2/5

Lluvioso

3/9

2/5

Frio

3/9

1/5

JUEGA

JUEGA

Yes

No

Yes

No

9

5

9/14

5/14

HUMEDAD

VIENTO


EJEMPLO 

Nuevo día

Perspectiva Temperatura Humedad Soleado Frio Alta Pos. Si=2/9*3/9*3/9*3/9*9/14 = 0,0053 Pos. No = 3/5*1/5*4/5*3/5*5/14 = 0,0206 Prob. Si= 0,0053 = 20,5% 0,0053 + 0,0206 Prob. No= 0,0206 = 79,5% 0,0053+0,0206

Viento Si

Juega ?


EJERCICIO EDAD

TRABAJA

VIVIENDA

CREDITICIO

PRESTAMO

JOVEN

NO

NO

MALO

NO

JOVEN

NO

NO

BUENO

NO

JOVEN

SI

NO

BUENO

SI

JOVEN

SI

SI

MALO

SI

JOVEN

NO

NO

MALO

NO

ADULTO

NO

NO

MALO

NO

ADULTO

NO

NO

BUENO

NO

ADULTO

SI

SI

BUENO

NO

ADULTO

NO

SI

EXCELENTE

SI

ADULTO

NO

SI

EXCELENTE

SI

VIEJO

NO

SI

EXCELENTE

SI

VIEJO

NO

SI

BUENO

SI

VIEJO

SI

NO

BUENO

SI

VIEJO

SI

NO

EXCELENTE

SI

VIEJO

NO

NO

MALO

NO


EJERCICIO Realizar las propiedades observadas y las propiedades a priori.  Evaluar la clase de la nueva instancia: 

EDAD

TRABAJA

VIVIENDA

CREDITICIO

PRESTAMO

JOVEN

SI

SI

MALO

?

ADULTO

SI

NO

BUENO

?

ADULTO

NO

SI

EXCELENTE

?


Tema