Indizacion de terminos

Page 1

PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

PRÁCTICA

INDIZACIÓN DE TÉRMINOS CURSO 2010

FACULTAD DE DOCUMENTACIÓN ASIGNATURA: SISTEMAS AVANZADOS DE RECUPERACIÓN DE LA INFORMACIÓN PROFESOR: ALFONSO LÓPEZ BACA ALUMNO: ROBERTO CARLOS ÁLVARE DELGADO AÑO: 2009/2010


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

ÍNDICE

I. EJERCICIO 1. PONDERACIÓN DE LOS TÉRMINOS a. Normalización según el número máximo de apariciones. b. Normalización según la frecuencia inversa. c. Ponderación de la señal y normalización. II. EJERCICIO 2. SELECCIÓN DE LOS ÍNDICES MÁS SIGNIFICATIVOS a. Términos más significativos según la Ley de Zipf. b. Términos más significativos según la frecuencia inversa. c. Términos más significativos según el principio de entropía. III. EJERCICIO 3. CLUSTERING a. Valores sin normalización. b. Normalización según la frecuencia inversa.


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

I. EJERCICIO 1. PONDERACIÓN DE LOS TÉRMINOS Según el conjunto de documentos descritos en la tabla DxT, comprueba la efectividad de los siguientes métodos de ponderación de términos: a. Normalización según el número máximo de apariciones. b. Normalización según la frecuencia inversa. c. Ponderación de la señal y normalización. No olvides indicar los fundamentos y los objetivos de normalización empleados así como los valores en los que se refleja. Muéstralos en gráficos que ayuden a representar y argumentar los razonamientos expresados, elaborando una pequeña memoria con los resultados y las conclusiones.

a. Normalización según el número máximo de apariciones. FÓRMULA: TFij / MAX (TFij) Frecuencia de aparición de un término en el documento, en relación con el valor máximo de la frecuencia obtenida.  Método: 

Calcular el número máximo de cada término:

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

MÁXIMO 60 30 15 75 10 45 25 20 36 25


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Cálculo del inverso  1/MAX

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

MÁXIMO 60 30 15 75 10 45 25 20 36 25

1/MÁX 0,01666667 0,03333333 0,06666667 0,01333333 0,1 0,02222222 0,04 0,05 0,02777778 0,04

Normalización según el número máximo de apariciones  TF* 1/MAX

T

D1

D2

D3

D4

D5

1

1,0

0,5

0,3

0,1

0,1

2

1,0

0,5

0,3

0,1

0,1

3

0,3

0,3

0,7

1,0

1,0

4

1,0

0,1

0,0

0,1

0,1

5

1,0

1,0

1,0

1,0

1,0

6

0,0

1,0

0,2

0,0

0,2

7

0,0

1,0

0,8

0,0

0,2

8

0,0

0,1

0,0

1,0

0,5

9

0,3

0,3

0,0

0,6

1,0

10

0,2

0,4

0,6

0,1

1,0

Norm alización según núm m áx de apariciones 1,2 1,0 0,8 0,6 0,4 0,2 0,0

D1 D2 D3 D4 D5 1

2

3

4

5

6

7

8

9

10

TF*1/MAX estamos normalizando los términos por el máximo de apariciones que aparecen.


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

 Conclusiones: -

Al realizar el proceso de normalización, los datos que en un primer momento podrían destacar por su, puntual, elevada frecuencia de aparición, como el Término 4 en el Documento 1 y 75 repeticiones, se equiparan e igualan en importancia con otros, como el Término 1 o el Término 2, atenuando las diferencias.

-

Si observamos los datos y comparamos las tablas destacan el descenso de las diferencias y el aumento del valor por aparición en varios documentos, frente al valor por aparición puntual en un solo documento.  

El término 1 y 2 con valores dobles, se igualan tras la normalización. El término 5 es el más representativo, por aparecer en todos los documentos. La constancia se valora más que la frecuencia de aparición puntual. Por eso el término 4 apenas dispone de presencia, tras la normalización.

-

En definitiva este proceso de normalización prima la presencia repetida de los términos en diferentes documentos, frente a la aparición destacada en uno sólo, es decir, relativiza las frecuencias en función del valor máximo de la frecuencia del término alcanzado en los Documentos, lo que hace más representativa la palabra, dotándola de mayor importancia a la hora de formalizarla como término para la indización de los contenidos.

-

Por otro lado, en este tipo de normalización será determinante la extensión de los documentos. Estableciendo un umbral máximo de extensión sobre el que comparar los valores. Por el contrario los documentos de poca extensión quedarán penalizados por este motivo.

-

Analizando el gráfico de normalización según el número máximo de apariciones podemos ver que el documento 1 queda mejor representado por los términos 1, 2, 4 y 5. El documento 2 por los términos 5, 6 y 7. El documento 3 por los términos 5, 3, 7, y 10. El documento 4 por los términos 3, 5, 8 y 9. Y por último el documento 5 por los términos 3, 5, 9 y 10.

b. Normalización según la frecuencia inversa.

FÓRMULA:

 n  Peso ij  TFij * Log 2    IF   j


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

 Método: 

Calcular el total de los documentos donde aparece el término. (IFj)

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

MÁXIMO 60 30 15 75 10 45 25 20 36 25

1/MÁX 0,01666667 0,03333333 0,06666667 0,01333333 0,1 0,02222222 0,04 0,05 0,02777778 0,04

IFj 5 5 5 4 5 4 3 3 4 5

Se calcula el Índice de Frecuencia Inversa (IDF) IDF = Log2(N) – Log (IF) +1

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

MÁXIMO 60 30 15 75 10 45 25 20 36 25

1/MÁX 0,01666667 0,03333333 0,06666667 0,01333333 0,1 0,02222222 0,04 0,05 0,02777778 0,04

Calculamos el peso. Multiplicar el TFij por el vvalor del IDF

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 99 10 0 0 0 13 5

D2 30 15 5 13 10 59 43 2 15 10

D3 20 10 10 0 10 13 35 0 0 15

D4 6 3 15 7 10 1 0 35 30 2

D5 6 3 15 13 10 13 9 17 48 25

IFj

IDF 5 5 5 4 5 4 3 3 4 5

1 1 1 1,32192809 1 1,32192809 1,73696559 1,73696559 1,32192809 1


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Norm alización según frecuencia inversa 120 100 80 60 40 20 0

D1 D2 D3 D4 D5 1

2

3

4

5

6

7

8

9

10

 Conclusiones: -

A diferencia del proceso anterior, en este sí se tienen en cuenta las frecuencias puntuales, siendo estas inversamente proporcionales al número de apariciones del término en el conjunto de documentos, y directamente proporcional al número de apariciones en el documento.

-

Los valores, ahora, vuelven a ser reforzados por el número original de apariciones del término por documento.

-

Por el contrario se hace más complicado el determinar que términos son más representativos del conjunto documental (cosa que anteriormente habíamos conseguido). Si tuviéramos los mismos términos repetidos en una gran mayoría de documentos, apenas se podría discriminar y la recuperación sería bastante complicada.

c. Ponderación de la señal y normalización Definición: La ponderación se realiza, por tanto, en función: - de si un término aparece o no en un documento - del nº de veces que el término en cuestión aparece en el documento Peso = TF*Señal Señal = [Log2 (TOTF) - Información] Información o Entropía = –∑ (Pk Log2Pk) TF= es la frecuencia de aparición del término en documento. TOTF = es el nº total de veces que aparece cada término Para poder realizar la normalización tenemos que calcular en primer lugar la tabla de valores de Pk: TF / TOTF


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Calcular los valores TOTF

T 1 2 3 4 5 6 7 8 9 10

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

TOTF 122 61 50 100 50 66 50 31 80 57

Calculamos el Log2 de TOFT

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

TOTF 122 61 50 100 50 66 50 31 80 57

LOG TOTF 6,93073734 5,93073734 5,64385619 6,64385619 5,64385619 6,04439412 5,64385619 4,95419631 6,32192809 5,83289001

Calculo de la información: -1*[(TFij/TFj) * Log2 (TFij/TFj)]

T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

TOTF 122 61 50 100 50 66 50 31 80 57

LOG TOTF Información 6,93073734 1,85632533 5,93073734 1,85632533 5,64385619 2,17095059 6,64385619 1,19176015 5,64385619 2,32192809 6,04439412 1,29330395 5,64385619 1,36096405 4,95419631 1,0942659 6,32192809 1,80402492 5,83289001 1,94642185


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

T 1 2 3 4 5 6 7 8 9 10

Encontramos el valor de la señal. Log2 TOTF – Información

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

TOTF 122 61 50 100 50 66 50 31 80 57

LOG TOTF Información señal 6,93073734 1,85632533 5,07441201 5,93073734 1,85632533 4,07441201 5,64385619 2,17095059 3,4729056 6,64385619 1,19176015 5,45209604 5,64385619 2,32192809 3,32192809 6,04439412 1,29330395 4,75109017 5,64385619 1,36096405 4,28289214 4,95419631 1,0942659 3,85993041 6,32192809 1,80402492 4,51790317 5,83289001 1,94642185 3,88646816

Se normalizan los términos según el peso de la señal.

T 1 2 3 4 5 6 7 8 9 10

D1 304 122 17 409 33 0 0 0 45 19

D2 152 61 17 55 33 214 107 4 50 39

D3 101 41 35 0 33 48 86 0 0 58

D4 30 12 52 27 33 5 0 77 104 8

D5 152 61 17 55 33 214 107 4 50 39

Ponderación de la Señal 500 400

Serie1

300

Serie2

200

Serie3

100

Serie4

0

Serie5 1

2

3

4

5

6

7

8

9

10


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

 Conclusiones - A través de esta normalización, aumenta sensiblemente la precisión en la recuperación de información. La ponderación de los términos en relación con el conjunto de documentos se aproxima más a la realidad de cada término y a su significación en el conjunto documental. - A diferencia de la normalización por frecuencia inversa, la de la señal aún precisa más sobre la importancia de los términos en los documento porque ofrece valores menos generales y más exactos. - Por ejemplo, el termino 5 que aparecía con valores altos en la normalización del máximo de apariciones, en cambio en la normalización por frecuencia inversa y en la de la señal queda representado con unos valores menos significativos.

II. EJERCICIO 2. SELECCIÓN DE LOS ÍNDICES MÁS SIGNIFICATIVOS Dado el conjunto de documentos del ejercicio anterior el alumno seleccionará los tres términos más representativos haciendo uso de la Ley de Zipf, la frecuencia inversa, y la entropía o cantidad de información.   

Los valores obtenidos han ser analizados, determinado los índices con mayor poder de discriminación. En cada caso se han de seleccionar los dos y tres términos más discriminativos para ser empleados en la realización de las gráficas ilustrativas de los resultados. Los resultados obtenidos han de ser discutidos y reflejados en una breve memoria

a. Términos más representativos según la Ley de Zipf La ley de Zypf analiza los términos y su frecuencia de aparición. Los términos más representativos son aquellos que menos aparecen en el documento y viceversa. Para ello, tomamos los términos cuyos valores, según la teoría de la señal, son menos elevados, por lo que constituirán los términos que consideramos más representativos ya que aparecen menos. En este caso, podrían ser los términos 5 y 8 Zipf + 5 8

10 0

10 1

10 0

10 20

10 10


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

En cuanto a los términos menos representativos, es decir, los que más aperecen tomamos por ejemplo los valores 1 y 4. 1 4

60 75

20 0

30 10

6 5

6 10

Ley de Zipf: relación de las palabras y su presencia en la representación de los documentos. A mayor numero de aparición menor relevancia. ZIPF 80 60 Zipf +

40

Zipf -

20 0 0

10

20

30

40

50

60

70

Los términos más representativos según la ley de Zipf se mantienen más conectados que los términos menos representativos que aparecen más dispersos. b. Términos más significativos según la frecuencia inversa Este proceso de normalización consiste en estimar el número de veces que aparecen los términos en el conjunto total de documentos. Frecuencia inversa, frecuencia de concurrencia de los términos en el conjunto de documentos. Capacidad de recuperación de un término, será inversamente proporcional a la frecuencia en la colección de documentos. Los más relevantes serán aquellos que menos aparezcan en los documentos como pueden ser 7 y 8. IDF+ 7 8

0 0

25 1

20 0

0 20

5 10

Los términos menos relevantes serán los que aparezcan en más documentos, como son 5 y 10. IDF5 10

10 5

10 10

10 15

10 2

10 25


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

La representación gráfica sería:

IDF 30 25 20

IDF +

15

IDF -

10 5 0 0

5

10

15

20

25

30

En este caso vemos que los documentos menos relevantes se concentran en la gráfica y los términos más relevantes están más dispersos.

c. Términos más significativos según el principio de entropía Entropía o cantidad de información: el valor informativo de un término es inversamente proporcional a la probabilidad de ocurrencia de ese término dentro del documento. Los más representativos: Info + 1 4

60 75

30 10

20 0

6 5

6 10

5 10

10 10

15 10

15 10

Y los menos representativos: Info 3 5

5 10


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Entropía 80 60 Info +

40

Info -

20 0 0

10

20

30

40

50

60

70

En el gráfico, los puntos más dispersos muestran los términos más representativos del conjunto de documentos por el contrario, los que presentan un aspecto más homogéneo son los que representan menos al conjunto.

IV. EJERCICIO 3. CLUSTERING Proceso de obtención de los clusters: Objetivo: agrupar términos dotados de las mismas características a. Valores sin normalización.

CLUSTERING T 1 2 3 4 5 6 7 8 9 10

D1 60 30 5 75 10 0 0 0 10 5

D2 30 15 5 10 10 45 25 1 11 10

D3 20 10 10 0 10 10 20 0 0 15

D4 6 3 15 5 10 1 0 20 23 2

D5 6 3 15 10 10 10 5 10 36 25

Agrupación de los términos similares

D escalar (Ti , Tj )   Tk,i Tk, j Representación de los términos en torno al eje y la aproximación de los términos


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Matriz documento a documento:

D1 D1 D2 D3 D4 D5

D2 3285

D3 1725 2000

D4 1240 788 440

D5 1860 1731 975 1508

D3 1 1

D4 0 0 0

D5 1 1 0 1

D3 0 1

D4 0 0 0

D5 0 0 0 0

Valores umbrales, para 1500 y 2000 D1

UMBRAL 1500 D2 1

D1

UMBRAL 2000 D2 1

D1 D2 D3 D4 D5

D1 D2 D3 D4 D5

Representamos los valores umbrales y sus clases: D1

Umbral para 1500: D1: D2, D3, D5 D2: D3, D5

D3

D2

D4: D5 D4

D5

Umbral para 2000: D1

D1:D2 D2:D1

D3

D2

Según las reglas de clustering en una clase determinada no se deben agrupar el 90% de los elementos de la colección.


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Link de estrella: (umbral para 1500)

D1

D2

D5 D3 D4

Dos clases Clase1: D1, D2, D3, D5 Clase2: D4 ,D5 Cada elemento actúa de semilla para crear la categoría formada por los elementos que le son similares.

Máximo Cliqué: (umbral para 1500)

D1

D2

D5 D3 D4


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

C1= D1, D2, D3 C2= D5, D1, D2 C3= D5, D4 Todos los términos están relacionados entre sí.

b. Normalización según la frecuencia inversa. Normalización de la frecuencia inversa T

D1

D2

1 2 3 4 5 6 7 8 9 10

D3

60 30 5 99 10 0 0 0 13 5

D4

30 15 5 13 10 59 43 2 15 10

D5

20 10 10 0 10 13 35 0 0 15

6 3 15 7 10 1 0 35 30 2

6 3 15 13 10 13 9 17 48 25

Aplicamos la fórmula de clustering:

D escalar (Ti , Tj )   Tk,i Tk, j Matriz documento a documento:

D1 D1 D2 D3 D4 D5

D2 3928

D3 1725 3345

D4 1692 1088 447

D5 2690 2710 1251 2575

D3 1 1

D4 1 0 0

D5 1 1 0 1

Valores umbrales para 1500 y 2000:

D1 D1 D2 D3 D4 D5

UMBRAL 1500 D2 1


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ D1 D1 D2 D3 D4 D5

UMBRAL 2000 D2 1

D3 0 1

D4 0 0 0

D5 1 1 0 1

D1

Umbral para 1500: D1: D2, D3, D4, D5 D3

D2: D3, D5

D2

D4: D5 D4

D5

Umbral para 2000: D1

D1: D2, D5 D2: D3, D5

D3

D4: D5

D2

D4

D5

Las clases obtenidas ahora por normalización a través de la frecuencia inversa, se aprecian más homogéneas.

Link de estrella: (umbral para 1500)

D1

D2

D5 D3 D4


PRÁCTICA SARI: INDIZACIÓN DE TÉRMINOS CURSO 2009/2010

ROBER C. ÁLVAREZ

Una clase Clase1: D1, D2, D3, D4, D5

Máximo Cliqué: (umbral para 1500)

D1

D2

D5 D3 D4

C1= D1, D2, D3 C2= D1, D2, D5 C3= D1, D4 Todos los términos están relacionados entre sí.


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.