Issuu on Google+

Métodos Multivariantes

Dr. Luis Felipe Figueroa

Métodos Multivariantes ( Borrador)

Luis Felipe Figueroa Lic. Cs. c.m. Matemática – Univ. de Chile Magister en Estadística Matemática - CIENES Univ. de Chile D. Cs. Ingeniería Industrial, Área P.O.Mod. Est. – UFRJ Brasil

2007 1


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Santiago- Chile Curso: MÉTODOS MULTIVARIANTES

Profesor: Luis Felipe Figueroa

Capítulo 1: Gráficos de Información Multivariante

1

1.1.- Gráficos de Caras o de Chernoff

3

1.2.- Estrellas y Rayos

6

1.3.- Gráficas de Andrews

8

1.4.- Gráficas de dispersión lado a lado

10

Capítulo 2: ANOVA y Análisis de Contrastes

11

2.1.- Análisis de Varianza

13

2.1.1.- Estimación de Parámetros

16

2.1.1.1.- Estimación Puntual

16

2.1.1.2.- Estimación por Intervalos Confidenciales

18

2.2.- Comparaciones Múltiples

21

2.3.- Análisis de Contrastes

22

Capítulo 3: Distribución Normal Multivariante

25

3.1.- Propiedades de la Distribución Normal-Multivariada

26

3.2.- Ejes Principales

27

3.2.1.- Determinación del Primer Eje Principal

28

3.2.2.- Determinación de los Ejes Principales

29

3.3.- Coeficiente de Correlación

31

3.3.1.- Coeficientes de Correlación Parcial

31

3.3.2.- Correlación Múltiple

37

3.4.- Estimación de Parámetros

41

3.5.- Distribuciones de Formas Cuadráticas de v.a. Normales

45

3.5.1.- La varianza muestral es independiente de la media

45

3.5.2.- Distribución de Wishart

45

3.6.- Intervalos de Confianza para Coeficientes de Correlación

49

3.6.1.- Caso ρ=0

49

3.6.2.- Caso ρ arbitrario

50

3.6.2.1.- Región crítica y su respectiva función de potencia

51

2


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.6.2.2.- Intervalo confidencial

51

3.6.2.3.- Distribución de r

51

3.6.2.4.- Momentos centrales de la transformación z

52

3.7.- Dócimas y Regiones Confidenciales bajo el supuesto de Normalidad Multivariante

53

3.7.1.- Caso: una muestra aleatoria

53

3.7.1.1.- Dócima para el vector de medias

53

3.7.1.2.-Dócimas para transformaciones lineales del vec.a.

56

3.7.2.- Caso: dos muestras aleatorias homogéneas e independientes.

60

3.7.2.1.- Dócimas para comparaciones de medias

60

3.7.2.2.- Transformaciones de vector de diferencias medias

61

3.7.3.- Caso: muestras repetidas. Dócimas para comparaciones de medias

62

3.7.3.1.- Dócimas para comparaciones medias

62

3.7.3.2.- Dócimas para transformaciones lineales de medias

64

3.7.4.- Caso : K- muestras aleatorias independientes.

66

3.7.4.1.-Dócimas para comparación de matrices de varianzas -covarianzas

66

3.7.4.2.-Análisis Multivariado de la varianza- MANOVA

67

Capítulo4: Componentes Principales

75

4.1.- Formalización de los propósitos de las componentes principales

76

4.2.-- Obtención de las Componentes

78

4.2.1.- Primera componentes principales

78

4.2.2.- Segunda componentes principal

80

Capítulo 5: Análisis de Conglomerados

83

5.1.- Procedimientos Gráficos de agrupación

85

5.2.- Procedimientos jerárquicos de agrupación

85

5.2.1.-Medidas de similitud

86

5.2.2.-Criterios de agrupación

87

5.2.2.1.- Criterios basados en distancias

87

5.2.2.2.- Criterios no basados en distancias

89

5.2.3.- Dendograma

90

5.2.4.- Algoritmos

93

5.3.- Procedimientos de aglomeración no jerárquicos

93

3


Métodos Multivariantes

Dr. Luis Felipe Figueroa

5.3.1.- Método de la matriz de dispersión total

93

5.3.1.1.- Criterio de Agrupación basado en la matriz de dispersión total

93

5.3.1.2.- Procedimiento matriz de dispersión total versus combinada

94

5.3.2.- Método de las k-medias

96

5.3.2.1.- Criterios de las k-medias

96

5.3.2.2.- Procedimiento de las k-medias

96

Capítulo 6: Análisis Discriminante

99

ˆ 6.1.- Método para la obtención de β

100

6.2.- Criterio de discriminación opcionales al establecido

102

6.3.- Evaluación del criterio de discriminación

103

6.4.- Extensión a k-Poblaciones

105

Capítulo7: Análisis Factorial

107

7.1.- Modelo Ortogonal

107

7.1.1.- Supuestos Estructurales

108

7.1.2.- Descomposición de Σ

108

7.1.3.- No Unicidad de solución

109

7.2.- Restricciones para determinación de matriz de cargas

110

7.2.1.- Ortogonalidad de vectores de cargas

110

7.2.2.- Factores comunes independientes para cada valor

110

7.3.- Determinación de factores

110

7.3.1.- Número de factores a determinar

110

7.3.1.1.- Análisis de verosimilitud de la descomposición de la varianza

111

7.3.1.2.- Criterios de selección

112

7.3.2.- Estimación de Factores

113

7.3.2.1.- Factores no aleatorios

113

7.3.2.2.- Factores Aleatorios

113

7.4.- Estimación de la matriz de cargas

114

7.4.1.- Método Factor Principal

114

7.4.2.- Método de Máxima Verosimilitud

114

7.5.- Diagnóstico del Modelo

115

7.5.1.- Análisis de Residuos

115

7.5.2.- Medidas de bondad de ajuste

115 4


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Capítulo 8: Análisis de Correspondencia

120

8.1.- Geometría de la información disponible

120

8.2.- Métodos para análisis de correspondencia

122

8.2.1.- Método de Descomposición básico (Chi-cuadrado)

123

8.2.2.- Método en términos de proyecciones bajo restricciones

124

8.2.2.1.- Problema de optimización asociado

124

8.3.- Obtención de factores

125

8.3.1.- Factores para líneas

125

8.3.2.- Factores para columnas

126

8.3.3.- Sobreposición de representaciones

127

5


Métodos Multivariantes

Dr. Luis Felipe Figueroa

PREFACIO El contenido del presente texto, aborda diferentes tópicos conducentes a la forma de disponer, registrar, comparar, agrupar, discriminar, reducir complejidad y detección de asociación de

conductas de múltiples componentes en

información multivariante.

Información disponible, que ha de ser resultado de la observación a una colección de objetos de un particular universo, donde se ha registrado diversas mediciones a cada uno de ellos; por esto es que se habla, de disponer de información multivariante. Esta información disponible, que comúnmente en lasa empresas está almacenada en bases de datos, construidas

muy al parecer de motivos originales como son una necesidad de

almacenar información, para guardar con el propósito de una posterior utilización no diseñada, puede ser de carácter cualitativo o cuantitativo, por tal motivo es que para una comprensión primaria de ella, se presentarán las diversas formas de representaciones gráficas a que habitualmente se recurre.

Debido a que la distribución normal es el sustento de importantes dócimas, se efectuarán diversas interpretaciones de los elementos que la componen para el logro y cabal interpretación de las reglas de decisión que también sean presentadas. Posteriormente, en el caso de disponer de datos paramétricos procederemos a agrupaciones con interpretaciones geométricas en espacios multidimensionales. Lo que constituye los procedimientos de aglomeración o clusters. De mucha utilidad en análisis de mercados, área donde se les conoce como procedimientos de segmentación de mercado. Procediendo luego a insertar nuevas observaciones a agrupaciones existentes o construidas por procedimientos como el reciente mencionado. Esto es lo que llamamos discriminación. Procedimientos de fuerte aplicación en evaluación de clientes que solicitan servicios, donde por ejemplo, los casos mas emblemáticos ejemplos son aquellos de evaluación de clientes para sancionar otorgamiento de créditos y diagnóstico clínico de pacientes.

6


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Mas adelante, nos orientaremos hacia la configuración de nuevas variables, llamadas componentes principales, obtenidas como arreglos o transformaciones de las variables originales, para lograr un nuevo conjunto de variables tan representativo como el original, con componentes independientes, pero en el que puede considerarse un menor número de variables componentes. Esto se efectúa buscando que la concentración de la variabilidad de las nuevas y ojalá en pocas variables, sea casi tanta como la que guardan las variables originales. Con lo cual, para análisis de conductas, ya no sería necesario trabajar con tantas variables como la base de datos que se nos presente. Finalizando con la determinación de asociaciones en variables cualitativas y cuantitativas a través de las frecuencias de repetición de conductas o los valores de ellas según sea el caso, pudiéndose extraer vinculaciones inmersas en dicha base de datos, respectivamente a través de análisis de correspondencia y análisis factorial respectivamente.

Luis Felipe Figueroa F. PROFESOR

7


Métodos Multivariantes

Dr. Luis Felipe Figueroa

CAPÍTULO 1

GRÁFICOS MULTIVARIANTES La conveniencia de utilizar gráficos para representar información, queda de manifiesto cuando se requiere de una primera apreciación o descripción que permita un cierto grado de entendimiento o familiarización con el estado de la información disponible. Esta estrategia básica, se encuentra entre los tres principios fundamentales de estadística descriptiva: resumir, graficar, transformar información. Lo que conocemos como tablas de resumen, gráficos estadísticos según tipo de información y objetivo de la representación y estadísticas. Cabe señalar, el tener presente algunas consideraciones, como las siguientes: - En estudios de base científica, no se dispone de una técnica estadística que sea tan poderosa y sencilla como una bien escogida representación gráfica. Lo reveladora, sugerente y muchas veces claramente orientadora en lo determinante de procedimientos a seguir para el logro de conclusiones. - Se dispone de métodos gráficos que permiten la exploración de datos en profundidad, inspeccionar posibles relaciones o patrones, confirmar o rechazar lo esperado, y descubrir nuevos fenómenos. Estos métodos pueden utilizarse también como respectivos medios de apoyo, complementario a análisis muy específicos. - La reciente proliferación de hardware gráfico (terminales, plotters,...) ha acompañado un desarrollo sostenido de software para el análisis gráfico de datos. Afortunadamente hoy en día, es fácil acceder a diversos tipos de herramientas graficas en los softwares estadístico que habitualmente se encuentran en el mercado. Tales software proporcionan gráficos en que se nos muestra toda la información acerca de los datos, medidas de tendencia central, dispersión y asociación, junto con otras estadísticas; para que nuestra opinión se ilustre con los gráficos pero nuestras decisiones sean en base a procedimientos cuantitativos que consideren tales estadísticas. Por que un gráfico es ilustrativo, intuitivo, pero permite la adopción de decisiones, lo que descansa en los procedimientos estadísticos que contemplan significancia. - Naturalmente que al igual que en todo tipo de representación gráfica como lo apreciado en estadística descriptiva, modelos lineales u otra área estadística los gráficos permiten fijar ideas respecto del proceder cuando estamos ante la presencia de errores, outliers o atípicos y observaciones missing. Pero en unformación multivariante lo que se desea es graficar de alguna manera esta tipo de información que nos refleja todas las características medidas a los objetos muestrales de una manera no sólo representativa si no que tales gráficos además tengan una lectura que permita comprender toda esta información de una manera simple que permita una adecuada discusión de la base de datos disponible posible. A continuación se darán a conocer diversos procedimientos para la realización de gráficos de datos multivariados. Casi siempre, las presentaciones visuales de los datos, mas que 8


Métodos Multivariantes

Dr. Luis Felipe Figueroa

una ilustración, son informativas de las estructuras de las referidas bases o conductas de los sujetos en estudio. Aunque hay muchas razones para considerar las presentaciones visuales de datos multivariados, dos de las mas importantes, son el ayudar a: • Localizar e identificar anormalidades que podrían existir en los datos. • Estructurar conjeturas (hipótesis) que pueden requerirse, así como el conducirnos hacia los procedimientos más apropiados para proceder a los respectivos análisis que se requieran, que nos conduzcan hacia los objetivos del estudio. Como un ejemplo sencillo de porque se trazan graficas de datos, consideremos los ejes cartesianos (X1 ,X2 ) en el plano IR2, en el cual realizamos una grafica de dispersión donde hay un punto (x1,x2) que es el resultado de la medición a una observación, que aparenta ser un outlier, es decir, un punto que parece no ser coherente con los otros puntos. Si se fueran a examinar solo los valores x1 para estos puntos-datos, el punto sospechoso no llamaría la atención, pues varios de estos puntos tienen valores x1 mayores que el punto en cuestión del mismo modo, si se fueran a examinar los valores x2 para estos puntos – datos, el punto sospechoso todavía no se vería como excepcional, porque varios de los puntos tienen valores x2 menores que el. Lo único que en realidad es excepcional acerca de este punto no es su valor x1 o su valor x2 , si no la combinación de estos dos valores al mismo tiempo, que ha sido registrada en la señalada observación. La combinación de x1 y x2 dada por (x1,x2) aparece muy atípica en el señalado gráfico en el plano; pero es muy difícil de descubrir esta clase de anormalidad en un conjunto grande de datos sin situarlos en una grafica de dispersión, a la cual ya es natural recurrir. Además de localizar las anormalidades en un conjunto de datos y sugerir las hipótesis que se pueden hacer acerca de estos, hay otras razones para hacer graficas de datos multivariantes. A menudo, las técnicas de trazado de las graficas son útiles para ayudar a verificar y validar los resultados de los programas de agrupación. Algunas técnicas de trazado de graficas pueden ayudar formular posibles relaciones entre las variables que se están midiendo entre las unidades experimentales de las que se están reuniendo datos.

9


Métodos Multivariantes

Dr. Luis Felipe Figueroa

El procedimiento GPLOT que contiene el programa SAS, es un caso muy especial de representación, que permite reducir la dimensión de una base de datos, haciéndola muy comprensible, ya que permite al usuario combinar las características de una grafica de burbujas con las de un gráfico tridimensional. Esto se logra, diseñando burbujas cuyos tamaños sean proporcionales a una cuarta variable en una grafica tridimensional. Ejemplos:

En la figura se ilustra una grafica de este tipo para las variables : Ingreso, Deuda, Inversión, y Edad. El tamaño de la burbuja para cada sujeto es proporcional a los años del entrevistado. Posiblemente los dos círculos encerrados en un cuadrado son datos outliers.

La figura muestra la grafica tridimensional, usando las mismas observaciones, en las variables Ingreso, Deuda, Inversión

1.1.- Gráficos de Caras o de Chernoff Hacia la mitad del siglo XX, el matemático Hermann Chernoff, profesor emérito de la Universidad de Harvard, propuso que, dado que nosotros los humanos podemos reconocer y clasificar características faciales de manera rápida y sencilla, una cara sería una manera conveniente de presentar un conjunto de varias variables distintas provenientes de un muestreo estadístico. Así fue que Chernoff recomendó asociar características faciales diferentes con variables diferentes.

10


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Una variable se podría asociar con el ancho vertical del ojo, la segunda con el ancho horizontal, la tercera con el tamaño del iris, y las otras se podrían asociar con el esparcimiento de los ojos, la altura de los ojos, el ancho de la nariz, el ancho de las cejas, el ancho de las orejas, etc. En la figura 1 se muestra un conjunto de caras de Chernoff, para cada uno de los objetos de un conjunto de observaciones. Caras que en este caso fueron creadas con el programa NCSS. Figura 1.-

Las caras de Chernoff son muy útiles para identificar datos outliers en un conjunto de datos multivariados. Por ejemplo en la Figura 1, los posibles candidatos a datos outliers son las observaciones: 28, 29, 41, 42, 47, 48. También estas caras son muy adecuadas para validar los resultados de los programas de agrupación, con los que se intenta dividir las unidades experimentales de un conjunto de datos en subgrupos, llamados agrupamientos , de modo que los individuos dentro de un agrupamiento sean semejantes entre si y diferentes a los de otros agrupamientos. Si un programa para computacional cumple con éxito esta meta, entonces las caras de Chernoff para los individuos dentro de un agrupamiento deben ser semejantes entre si. En la Figura 2, se puede advertir la semejanza entre las caras asociadas a las observaciones 7 y 8, 10 y 11, 22, 23 y 24, y posibles outliers en las observaciones 27, 12, 32.

Figura 2.11


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Figura 3.-

En la Figura3 los posibles datos outliers son los encerrados en un cuadrado azul. Cada punto se representa por una cara, que se describe mediante diez características faciales, excentricidad de la cara, del ojo, tamaño de la pupila, ángulo de las cejas, tamaño de la nariz, forma de la boca, etc. Cada una de ellas se representa por un número entre 0 y 1. (Caras generadas con el programa Statistica de Statsoft Imagen cortesía de Statsoft, Inc.) Lo simple y de impacto que puede ser una gráfico de esta naturaleza, se puede apreciar por ejemplo, si deseamos determinar la calidad del agua en una cierta región, al medir diferentes características que nos permitan evaluar dicha calidad, como lo son: cantidad de bacterias, grasas y aceites, detergentes y nutrientes, entre algunas de las más importantes características observar en el agua. Si asignamos una variable a cada una de una serie de características faciales y establecemos que la cantidad de bacterias se traducirá en tamaño de la cabeza, la concentración de grasas y aceites en el tamaño del ojo; la de detergentes, en la curvatura de la boca; la de nutrientes, en el tamaño de las pupilas y así sucesivamente, obtendremos una cara de Chernoff en la que habrá cierta armonía dependiendo del equilibrio que en tamaño guarden cada uno de los rasgos con el todo. De esta manera, aunque la cantidad de información 12


Métodos Multivariantes

Dr. Luis Felipe Figueroa

presente en cada cara es grande, nuestra facilidad para percibir la expresión facial mostrada por ella nos permite tomar decisiones al respecto de manera intuitiva -en el caso ejemplificado, una elección muy importante para nosotros: entrar a nadar o no en cierta playasin tener que ser expertos en estadística multivariada. Si alguien que visite el Centro Universitario de la Costa, a mediano plazo, nota que un investigador se encuentra absorto viendo lo que a primera vista parece ser una caricatura, antes de concluir que sus impuestos se desperdician en doctores ociosos, quizás sea bueno que verifique si no se trata de una caricatura animada de las caras de Chernoff, pues el próximo gran paso a seguir, en nuestra aquí hipotética semblanza sobre la bahía, sería animar la cara correspondiente a cada muestro para observar la evolución de la calidad del agua a lo largo del año. En "Computers, Pattern, Chaos and Beauty" ("Computadoras, pautas, caos y belleza"), Clifford Pickover explica una de las aplicaciones de las caras de Chernoff, a la caracterización del sonido. Pickover relaciona fonemas con características faciales, de manera que el aspecto de las caras permite que personas sordas puedan modificar y mejorar sus vocalizaciones al imitar la expresión de las caras de Chernoff que corresponden a cada fonema. 1.2.- Estrellas y Rayos Al disponer de un conjunto de datos multivariados almacenados matricialmente, de manera habitual, en que las filas corresponden a las observaciones, y las columnas una por cada variable o característica (cuantitativa) registradas a cada observación; se pueden construir círculos en el plano (es decir en dos dimensiones) ,uno por cada observación multivariada, de un radio prefijado, con p rayos igualmente espaciados emanado del centro de cada circulo, donde longitudes de los rayos son proporcionales a los valores (cuantitativos) de las variables en cada observación. Los extremos de los rayos pueden conectarse con segmentos de líneas rectas para formar una estrella. Con cada observación representada por una estrella, estas pueden ser agrupadas según sus similitudes. Las graficas de estrellas, también llamadas graficas de rayos, se construyen al representar la distancia a la que se encuentra cada variable del cero ejes que irradian de un punto central. Así se logra cada rayo para las respectivas variable respuesta. Generalmente tal representación se hace en el setido que lo muestra la Figura 4, donde la primera variable del vector observado se traza a lo largo del eje que apunta hacia arriba y la otras variables se representan sobre los otros ejes en el orden del sentido del movimiento de las manecillas del reloj. Figura 4.-

Utilizando el software R, se logra para tal propósito la siguiente figura: Figura 5.13


Métodos Multivariantes

Dr. Luis Felipe Figueroa

En la Figura 5, se muestra un conjunto de graficas de estrellas para las observaciones que también se presentó en la Figura 1. Los dibujos que están dentro de los rectángulos azules representan supuestos datos outliers. Al tratar de identificar observaciones que se alejen de las demás siendo de mayores repuestas, para las 5 componentes así representadas en cada sujeto; en la grafica de estrellas esto se manifestaría en aquellas de polígonos con las áreas mas grandes, estos son los polígonos numero 7 y 8. Las gráficas de rayos y de estrellas también son útiles para la identificación de datos outliers multivariados de dimensión superior al caso reciente, que también permiten verificar agrupamientos. Figura 6.-

En esta figura se muestran las graficas de estrellas para las mismas observaciones ya consideradas pero ahora para 15 de las características en estudio. Donde se distinguen como posibles outliers a las observaciones: 42, 29, 28, 41.

Por lo habitual las caras de Chernoff y las gráficas de estrellas se construyen después de la estandarización de datos. En este caso, el punto central en las gráficas de estrellas corresponde a los mínimos para cada una de las variables que se están representando.

1.3.-Graficas de Andrews

14


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Este es un caso muy especial de representación, aplicable a información (cuantitativa) multivariada de cualquier orden, basado en una transformada de Fourier del conjunto de datos multivariable. Básicamente una transformación de Fourier es una representación funcional dada por combinaciones de senos y cosenos, idea que en 1972 Andrews sugirió adoptar de la siguiente manera: para cada observación p-variada, por ejemplo la r-ésima unidad experimental, x r = x r1 , x r 2 , . . . , x rp , podría representarse como la función

(

)

f r (t ) = x r1 / 21 / 2 + x r 2 ⋅ sen(t ) + x r 3 ⋅ cos(t ) + x r 4 ⋅ sen(2t ) + x r 5 ⋅ cos(2t ) + . . .

Para − π < t < π . De este modo, los datos correspondientes a un individuo dan lugar a una función única para esa persona. Entonces, se pueden trazar las graficas de estas funciones, cuando t va de − π a π . Las curvas resultantes no solo presentan la imagen de la relación entre las variables, sino que son útiles para hallar o validar agrupamientos que podrían existir entre los datos. También son útiles para localizar datos outliers en un conjunto dado. Cualquier persona que produce una curva que es muy diferente a las que representan otros individuos correspondería a un dato outliers. También se pueden efectuar representaciones opcionales de esta índole, al considerar polinomios de Chebychev o Legendre, trabajos desarrollados por Hembrechts y Herzberg (1991) Al construir graficas de Andrews, es importante que las variables respuestas se midan en unidades semejantes, o bien se proceda a una estandarización previa de ellos. Las interpretaciones resultan afectadas por el orden en que se nombran las variables. Si se creen que algunas variables son mas importantes que otras, la mas importante debe tomarse como x1, la segunda en importancia debe tomarse como x2, y así sucesivamente. En los casos en que se tiene un gran numero de variables repuesta las graficas de Andrés se pueden construir después de la realización de un análisis de componentes principales en los datos. En este caso, x1 se toma como la primera calificación de una componente principal, x 2 como la segunda clasificación, etc. Figura 7.- grafico de datos multivariantes usando NCSS, aplicando y el método de Andrews.

En la figura se muestra un conjunto de curvas de Andrews, esta grafica se creo con el NCSS y las variables se estandarizaron automáticamente antes de crear la grafica.

Figura 8.- Grafica de Andrews realizado con el procedimiento GPLOT de SAS. 15


Métodos Multivariantes

Dr. Luis Felipe Figueroa

(2) Las líneas marcadas en azul indican supuestos conjuntos de datos outliers.

En la Figura 7, los datos fueron estandarizados antes de hacer la grafica, lo que no se hizo en la Figura 8, donde la grafica fue construida con los datos originales. La estandarización no parece ser necesaria para estas variables, porque todas las variables originales se midieron en unidades similares. A continuación se presenta a modo de ejemplo, otros tipos de gráficos de esta índole, que en la actualidad se obtienen mediante softwares de la especialidad:

1.4.- Graficas de dispersión lado a lado Existen muchos paquetes graficadotes que producen simultáneamente graficas de dispersión entre diversos pares de variables. Estas graficas son útiles para explorar las relaciones que podrían existir entre las variables medidas. 16


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Figura 9.- una grafica de dispersión lado a lado para pares de variables

Se podría entre diversas opciones, trazar una regresión lineal simple a cada pareja de variables: entonces, esta eventual recta, se podría sobreponer sobre cada grafica por pares, interpretando visualmente lo pertinente de dicho ajuste, pero cuya pertinencia debe verificarse por un procedimiento cuantitativo, como los citados en modelos lineales. En caso, lo que si se aprecia y su correspondiente indicador lineal (coeficiente de Pearson) lo debería confirmar, es que en este ejemplo hay una correlación positiva entre todas las parejas de variables en cada una de estas graficas. RESUMEN En el presente informe se presentaron los tipos de gráficos para datos multivariados más relevantes y efectivos que se pueden encontrar en los distintos programas estadísticos como por ejemplo el programa SAS. La importancia de graficar datos multivariados finalmente, es la facilidad pro ejemplo de detectar conjunto de datos outliers, ya que siempre a sido mas fácil analizar o interpretar distintas cosas, observando lo que en estas esta pasando con ellas de una forma animada. Ejercicio. Considerar una base de datos de 40 observaciones de dimensión 6. Graficar según los procedimientos descritosy comentar dicha información. BIBLIOGRAFIA • • •

Barnett V., y Lewis T. (1998) Johnson Wichern (1998) Dallas E. Johnson, Datos multivariados aplicados al análisis de datos (1998).

Capítulo 2

ANOVA y ANÁLISIS DE CONTRASTES 17


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Los procedimientos que se identifican con este nombre, son aquellos que se basan en una descomposición de la varianza de la variable en estudio, respecto de los diversos criterios de clasificación implementados en el experimento y/o sus interacciones. Esta particular metodología fue necesaria desarrollar, ya que los procedimientos de análisis para comparar dos tratamientos (resultados de una variable en dos situaciones), no pueden ser generalizados a un mayor número de tratamientos, sin perjudicar el Error Tipo I en las decisiones involucradas. Ejemplo: Se miden las respuestas de cinco tratamientos ( o condicionamientos) bajo estudio. Asumiendo que en cada tratamiento las respuestas obedecen a una media µi ; i = 1,2,3,4,5. Al estudiar: H0 : µ1= µ2 = µ3 = µ4 = µ5 v/s H1 : µi ≠ µj ∀ i≠j, significa que en: H0. se afirma que los tratamientos arrojan coincidencia de respuestas medias. H1 se afirma que los tratamientos no arrojan respuestas coincidentes. Al intentar analizar este problema de docimasia en términos de comparación de dos medias en forma recursiva, tenemos las siguientes dificultades: -La cantidad

de problemas de docimasia de comparaciones de a dos tratamientos que 5 

deberíamos enfrentar es   = 10 . 2  

- Considerando un valor razonable de Error Tipo I : α=0.05 . Entonces, α = P(rechazar H0 / H0 es verdadero) 1-α= P(aceptar H0 / H0 es verdadero) . Si cada uno de estos diez problemas se efectúa y resuelve de manera independiente, entonces la probabilidad de aceptar la hipótesis nula siendo cierta: P(aceptar H0: µ1= µ2 = µ3 = µ4 = µ5 / H0 : µ1= µ2 = µ3 = µ4 = µ5 es verdadero) 10

= Π (1 − α ) i =1

= (1 − α )10 ∴ P(rechazar H0 / H0 es verdadero) = 1- (1-α)10 Valores que numéricamente crecen ostensiblemente respecto de α . Puesto que por ejemplo, si consideramos un α=0.05, es decir de un 5% de Error Tipo I en cada dócima, al considerar los diez casos en forma independiente, esto se transforma en un valor 1- (1-α)10 que en tal caso resulta del orden del 40%. Motivo por el cual se abandona esta estrategia, debido a lo incierto de la decisión a adoptar ya que nos conduce fácilmente a descartar la propuesta de H 0 cuando ella es cierta. Debido a lo cual se implementa el análisis de varianza donde se tenga pleno control del nivel de significancia desde el inicio de este tipo de enfoque. Consideremos: m : condiciones, situaciones o tratamientos. nj : mediciones o respuestas en cada tratamiento. Yij : variable respuesta i-esima en el j.esimo tratamiento. 18


Métodos Multivariantes

Dr. Luis Felipe Figueroa

yij : observación i-esima en el j-esimo tratamiento.  y11 ....      yn1 1 ....

yij yn j j

 

y1m    : matriz  ynm m 

de inf ormación o base

de

datos

NOTA: Computacionalmente, para los efectos de utilizar software de la especialidad, esto en 1  y11      y 1  n1 1   . términos de identificación se archiva de la siguiente forma:    y   1m m        yn m m m  Puesto que, cada observación debe registrarse en cada línea, indicando en alguna columna el grupo al cual pertenece junto a otras columnas que contengan las restantes características que se han registrado para cada sujeto en el estudio. Consideremos que cada respuesta es el resultado provocado por una respuesta común que todos los individuos de la población presentan frente a estos m tratamientos, sumando al reflejo del aporte o efecto que el respectivo tratamiento provoque e incorporando un capture lo no contemplado por el modelo. Por esta razón se presenta el siguiente modelo para analizar los efectos o impactos de cada tratamiento. Modelo: Yij = µ + τj + εij i =1,…,n , j=1,…,m donde : Yij : variable de respuesta µ : efecto principal general de la población τj : efecto de cada tratamiento j εij : componente de error aleatorio, el cual no debe depender del tratamiento, e independiente para cada sujeto, así la conducta de εij puede ser interpretada como similar a la de cada εi. Los supuestos a considerar, involucran hacer uso de una distribución clásica para disponer de posteriores transformaciones según sean necesarias con distribuciones conocidas. Por lo cual, se adoptan los siguientes supuestos para la componente de error: εi ~ N(0,σ2) , ∀ i = 1,…,n , cov(εi , εj ) = 0 para i≠j , conjuntamente normal. σ 2  ε1     2 2  Lo cual significa que el vec. a.    ~ N (0,σ ),σ I =   0 ε   n 

19

0   =Σ 2 σ 


Métodos Multivariantes

Dr. Luis Felipe Figueroa

En términos prácticos los τj se definen como distorsiones o desviaciones respecto de la media y en este modelo al analizar su expectativa, nos refleja que puede considerarse: τ1 +...+ ��j +...+ τm =0

2.1.- Análisis de Varianza El análisis de varianza es un análisis que revela la relación entre la variabilidad total y la explicada por un modelo en particular. Lo que contempla un espectro muy amplio y diverso de procedimientos para diferentes tipos de modlamientos y por ende de problemáticas a analizar. Tal es su alcance que ya en el texto de Modelos Lineales éste se utiliza tanto para comparación de tratamientos como para la calidad del grado de ajuste de un modelo de regresión. Sin embargo, este tipo de análisis ANOVA comúnmente es reconocido como el procedimiento mediante el cual se pueden efectuar comparciones múltiples entre las respuestas de una conducta (cuantitativa y de comportamiento normal) ante varios tratamientos, (mas de dos muestras independientes). Que es el caso que presentamos en esta sección. Para plantearnos, en estos términos el problema de comparación entre estos tratamientos, lo hacemos como bien se dijo en la referencia al texto e modelos lineales, mediante el siguiente problema de docimasia. Problema:

H0 : τ1 =...= τj =...= τm =0

v/s

H1 : τi ≠ τj

∀ j=1,…,m

a resolver bajo significación α. Solución: A continuación haremos los desarrollos necesarios para determinar una región crítica para el problema de docimasia propuesto. Notaciones: Para simplificar la identificación y utilización de expresiones que sean necesarias consideremos las siguientes notaciones:

20


Métodos Multivariantes

yi• = ∑ j= 1 yij m

y• j = ∑ i= 1 yij nj

Dr. Luis Felipe Figueroa

1 m yi • yi• = ∑ j= 1 yij = m m 1 n j y• j y• j = ∑ i= 1 yij = nj nj

∑ ∑ y=

m nj

y •• = ∑ j= 1∑ i= 1 yij m nj

••

y y = •• = y N N

j = 1 i= 1 ij

Donde:

nm , si  m N = ∑ j = 1 n j = n1 + ... + n j =   n1 + ... + n j , en

n j = n j ' , ∀ j, j' otro

caso

Si nos fijamos como referente de la variabilidad en las respuestas, a la varianza , que dispondremos una vez efectuados los N ensayos, podemos referirnos a: 2 m n ( y − y) Varianza Muestral: S y2 = ∑j =1 ∑i =1 ij , su numerador es identificado como la suma N de cuadrados total de observaciones. 2 m n ( y − y) Varianza Muestral Insesgada: s y2 = ∑j =1 ∑i =1 ij N −1 j

j

Suma de Cuadrados Total: m n m n 2 2 2 SCT= NS = ∑ j =1 ∑i =1 ( yij − y ) = ∑ j =1 ∑i =1 ( yij + y• j − y• j − y ) j

j

= ∑j =1 ∑i =j1 ( yij − y• j ) + ∑j =1 ∑i =j1 ( y• j − y ) , m

n

2

m

n

2

descomposición, cuyos términos se identifican y denotan de la siguiente manera: 2 Suma de Cuadrados de Modelo: SCM = ∑j =1 ∑i =1 ( y• j − y ) m

Suma de Cuadrados de Error:

SCE =

nj

∑ ∑ m

nj

j =1

i =1

( yij − y• j ) 2

Entonces, la expresión clave para analizar la pertinencia del modelo es: SCT = SCM +SCE Desde lo cual, ya podemos decir en términos de la relación proporcional de tales sumas de cuadrados, lo que aportan sus términos como fuente de tratamientos, asignación al error; en el total de esta variabilidad así considerada. 21


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Nuestra dócima o conjetura inicial , se traduce ahora en docimar a un nivel de significación α, el problema: H0 : τ1 =...= τm =0

H1 : τj ≠ j

v/s

∀ j =1,…,m, bajo el supuesto de εi ~ N(0,σ2 I)

Este supuesto de normalidad, es el que permite deducir que las siguientes v.a. tienen el comportamiento que se indica: SCT SCM SCE ~ χ(2N −1) , ~ χ(2m −1) , ~ χ (2N − m ) , 2 2 2 σ σ σ Además, las v.a. SCM, SCE son independientes. Motivos por los cuales, la transformación T de a continuación tiene el comportamiento que se señala y pasa a ser un indicador con significancia evaluable para resolver el problema de docimasia que hemos presentado.

SCM m − 1 SCM 2 σ m −1 ~ F T= = ( m−1, N − m ) SCE SCE N − m N−m σ2

Debido a los grados de libertad que se han aludido en las respectivas v.a., se definen las respectivas medias para: la suma de cuadrados del modelo (también llamada suma de cuadrados medios), y la suma de cuadrados de error: MSCM =

SCM m −1

,

MSCE =

SCE , N −m

entonces T =

MSCM ~ F( m −1, N −m ) MSCE

TABLA: Suma de cuadrados y Grados de libertad Suma de cuadrados Total Modelo Error Grados de Libertad N-1 m-1 N-m Finalmente, para resolver el presente problema de docimasia, podemos diponer de la Región Crítica C = { m. a.(N) / T > F1-α (m-1,N-m) } Ahora; resumiendo lo desarrollado en la siguiente tabla, podemos tener a la vista loe elementos que y como aportan a nuestra toma redecisiones así implementada: TABLA: ANOVA Fuente de Variación

Suma de Cuadrados

Grados de Libertad

Media de Suma de Cuadrados

Estadística

T = Modelo Error Total

SCM SCE SCT

m -1 N -m N -1

MSCM MSCE MSCT

Distribución

MSCM F( m −1, N −m ) MSCE

Tabla que además, es concordante con lo que nos arrojan los procedimientos computacionales; pero cuya última columna es reemplazada por el valor de probabilidad a la derecha de la estadística T una vez evaluada con los resultados muestrales. Tal valor, se denomina p-value y formalmente corresponde a : p − value = P(T >

MSCM ), MSCE

T ~ F( m −1, N −m ) .

22


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Naturalmente que un valor p-value grande indica que la MSCE es pequeña en relación a MSCM. Lo cual se considera grande o significativo (significativamente grande), si el p-value es inferior al valor α de nivel de significación deseado. NOTA: En SAS los procedimientos pertinentes son: -Caso Balanceado: es cuando el tamaño muestral en cada tratamiento es el mismo, nj = n ,j = 1,...,m , entonces aplicar proc ANOVA En tal caso, la Matriz de Información para n observaciones por tratamiento, para los m tratamientos, puede ser dispuesta como:  y11  y1 j  y1m        y  yij  yim   i1      y   n1  ynj  ynm  Con lo cual , algunos cálculos pueden efectuarse de manera mas abreviada: m Tamaño muestral: N= ∑j =1 n j = nm , entonces N-m=nm-m=m(n-1) Suma de Cuadrados del Modelo:

2 SCM = n∑j =1 ( y • j − y ) , m

-Caso No Balanceado: caso contrario del anterior, cuando los tamaños muestrales por tratamiento no son los mismos en todos los tratamientos (nj ≠n, para algún j), aplicar proc GLM. Se deja al lector los desarrollos algebraicos de este caso, así como la elaboración de la región crítica y correspondiente tabla ANOVA.

2.1.1.- Estimación de Parámetros En esta sección, determinaremos una aproximación estadística o estimación de los parámetros desconocidos con que hemos diseñado nuestro modelo incluyendo sus supuestos estructurales. Por simplicidad, abordaremos el Caso Balanceado, dejando el Caso No Balanceado al lector para que se familiarice con estas expresiones efectuando los desarrollos que corresponda.

2.1.1.1.-Estimación Puntual: A continuación procederemos a estimar los aportes de cada tratamiento y sus efectos en el señalado modelo de análisis de varianza balanceado a un factor: nj = n, ∀ j = 1,...,m. El modelo es: Yij = µ + τj + εij Al observar los resultados del experimento, tenemos que :

µ + τj es el efecto neto del tratamiento 23


Métodos Multivariantes

Dr. Luis Felipe Figueroa

ˆ +τˆ j ) es el residuo i-ésimo bajo el tratamiento j-ésimo, según este modelo eij =yij- ( µ en estudio.

Nuestro propósito es obtener estimaciones de parámetros que nos arrojen residuos menores posibles en algún sentido a considerar. Para tal efecto en este caso consideraremos el Método de Mínimos Cuadrados (MMC). El cual considera una particular función objetivo (de tipo cuadrática) a minimizar. τ = (τ1 ,...,τ j ,...,τ m ) , los parámetro a estimar: En términos globales, contemplando todos Siendo µ , los

elementos

a

aproximar,

podemos

reunir

este

propósito

en

el

parámetro

multidimensional

θ =( µ,τ1 ,...,τ j ,..., τm ) , considerando la restricción τ1 + ... +τ j + ... +τ m = 0 , y plantearnos el  m +1 determinar un solo propósito, mediante el estimador: θˆ = ( µ ˆ ,τˆ1 ,...,τˆ j ,...,τˆm ) = ( µˆ ,τˆ ) ∈ Θ = IR .

Procederemos mediante el Método de Mínimos Cuadrados, el cual considera una función objetivo en términos del parámetro a determinar, especificada mediante: m n  L(θ ) = L( µ;τ ) = ∑j =1 ∑i =1 eij2 . Esta función nos resume todas las discrepancias en términos cuadráticos , entre los valores observados yij , con los que sean estimados o aproximados utilizando el modelo μ + τj que este caso en estudio ha considerado. Nuestro propósito es que las referidas diferencias sean lo menor posible. Lo que formalmente consiste en :  { L( θ ) / θ ∈ Θ } determinar θˆ = ( µˆ ,τˆ ) ∈ Θ = IR m +1 tal que : L(θˆ ) = mín θ Para tal efecto calcularemos puntos críticos:

(

)

∂L ∂ m n ( yij − µ −τ j )2 = 2∑mj=1 ∑in=1 ( yij − µ −τ j )( −1) = ∑ j =1 ∑i =1 ∂µ ∂µ ∂L ∂ m n ( yij − µ −τ j )2 = ∂ ∑in=1 ( yij − µ −τ j )2 = 2∑in=1 ( yij − µ −τ j )( −1) 0= = ∑ j =1 ∑i =1 ∂τ j ∂τ j ∂τ j 0=

(

)

Entonces:

− 2∑ j =1 ∑ i =1 ( yij − µ − τ j ) = 0  => n − 2∑ i =1 ( yij − µ − τ j ) = 0  m

n

 ∑ m ∑ n ( yij − µ − τ j ) = 0  j= 1 i= 1  n  ∑ i= 1 ( yij − µ − τ j ) = 0

De la primera ecuación se obtiene: m n m n m n m n 0= ∑j =1 ∑i =1 ( yij − µ −τ j ) = ∑j =1 ∑i =1 ( yij ) −∑j =1 ∑i =1 ( µ ) − ∑j =1 ∑i =1 (τ j )

0 = y• • − nmµ − n∑ j = 1 τ j = y• • − Nµ , ya que m

τ1 +...+ τj +...+ τm =0.

24


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Que al despejar, logramos y anotamos el respectivo estimador como

µˆ = y• • ,

puesto que

y• • y• • = N Al reescribir la segunda ecuación se logra : m m m 0 = ∑ j =1 ( yij ) − ∑ j =1 ( µ ) − ∑ j =1 (τ j ) = yij − nµ − nτ j , entonces τj =

y • j − nµ n

= y• j − µ ,

luego

ˆj τ

ˆ =y •j − µ

El efecto neto del comportamiento es: µ j = µ +τ j , entonces µ ˆj =µ ˆ +τˆ j

µ ˆj =µ ˆ + y• j − µ ˆ , en consecuencia

µ ˆj

=y•j

SCT SCM SCE ~ χ(2N −1) , ~ χ(2m −1) , ~ χ (2N − m ) , 2 2 2 σ σ σ todas en función de σ 2 , se pueden obtener diferentes estimadores insesgados para este SCT SCM SCE SCM 2 2 2 2 , σˆ 2 = , σˆ 3 = parámetro, σˆ 1 = . De ellos, σˆ 2 = es un m −1 N −1 m −1 N −m recurso para disponer de una v.a. para la toma de decisiones en el problema de docimasia que 2 2 hemos abordado, pero tanto σˆ1 , como σˆ 3 tienen una interpretación directa a partir de lo siguiente: - Respecto la forma del modelo, que para el tratamiento j debería obedecer a una respuesta de la forma : Yj = µ + τj + ε , cuya componente de error ε es una v.a. con varianza σ2 Lo que induce a que Y es una v.a. con varianza σ2. Por ende una muestra aleatoria de Y que emane de todos los tratamientos sería lo más representativo para configurar un estimador como el mencionado en primer caso - Al aplicar el modelo, obtenemos los residuos eij, que pueden ser interpretados como una 2 realización de la v.a. ε componente de error y con ellos estimar mediante el estimador σˆ 3 tal parámetro. En adición a ello, recordando su independencia con SCM, se puede apreciar que Además de las expresiones:

σˆ

2

= σˆ 3 = 2

SCE , se considera en este tema como el más apropiado. N −m

2.1.1.2.-Estimación por Intervalos Confidenciales Recordemos que estamos considerando el Caso Balanceado y que nuestro modelo µj = µ + τj corresponde al efecto neto del tratamiento j . En esta sección procederemos a determinar intervalos de confianza para cada una de estas medias en particular mediante estimación a un nivel de confianza α, del efecto de cada tratamiento y también para la comparación de tales efectos entre dos de estos tratamientos. Como: µˆ j = µˆ + τˆ j = y• j , entonces: 25


Métodos Multivariantes

Dr. Luis Felipe Figueroa

[ ] [

]

E µˆ j = E µˆ + τˆ j = µ j  → efecto _ neto

 n y  1 ˆ j = V y • j = V ∑i =1 ij  = 2 V µ n  n 

[ ]

pero:

[ ]

n

i =1

[ ]

V y ij

y ij = µ + τ j + ε ij

ε ij ~ N ( 0, σ 2 ) , ε ij , ε ij índependientes

[ ]

luego: V µˆ j =

1 n2

∑i =1σ 2 = n

nσ 2 σ 2 . = n2 n

ˆ j es una combinación lineal de y ij en que cada y ij es una v.a.normal, Debido a que µ

 σ2 ˆ  µ ~ N µ , entonces j  j n 

T1 =

µˆ j − E [ µˆ j ] V ( µˆ j )

entonces donde:

T=

=

  , y considerando: 

µˆ j − µ j

V ( µˆ j )

T1 T2 N −m

~ N ( 0,1) , además que T2 = SCE ~ χ (2N −m ) , 2

σ

~ t ( N −m )

µˆ j − µ j

µˆ j − µ j σ2 1 n ( µˆ j − µ j ) ( µˆ j − µ j ) n n T= = = = σˆ SCE 2 SCE σˆ 2 n σ N−m N−m

= > T ~ t (N − m)

a) Intervalos Confidenciales para efectos netos (µ j) Dado un valor real α ∈ (0,1), podemos considerar el hecho que: P ( T ≤ t1−α ( N − m) ) = 1- α Entonces con un nivel de confianza 1- α, podemos decir que : - t1−α / 2 ( N − m) ≤ T ≤ t1−α / 2 ( N − m)

− t1−α / 2 ( N − m) ≤ − t1−α / 2 ( N − m)

σˆ

µˆ j − µ j ≤ t1−α / 2 ( N − m) σˆ n

n

≤ µˆ j − µ j ≤ t1−α / 2 ( N − m)

σ σ ˆ ˆ µ ≤µj ≤µ ˆ j −t1−α/ 2 ( N −m) ˆ j +t1−α/ 2 ( N −m) n

n

26

σˆ n


Métodos Multivariantes

Dr. Luis Felipe Figueroa

b) Intervalos Confidenciales para diferencias de efectos netos (µ j - µ j’) ˆ j,µ ˆ j ' son variables aleatorias normales , tal que Sabemos que µ

(

µˆ j ' ~ N µ j ' , σ

2

n

)

(

µˆ j ~ N µ j , σ

2

n

)

y

entonces µj - µj’ también es normal.

[

]

[ ]

[ ]

[

]

[ ]

[ ]

ˆ j −µ ˆ j' = E µ ˆ j −E µ ˆ j' = µj − µ j' Eµ ˆ j −µ ˆ j' =V µ ˆ j −V µ ˆ j ' − 2 cov( µ ˆ j,µ ˆ j' ) V µ

donde:  n y ij n ˆ j,µ ˆ j ' ) = cov( y • j , y • j ' ) = cov cov( µ  ∑i =1 n , ∑h =1 y hj 

pero

 1   = n2 

∑ ∑ n

n

i =1

h =1

yij = µ + τ j + ε ij yij ' = µ + τ j ' + ε ij '

entonces:

cov( y ij , y ij ' ) = cov( µ + τ j + ε ij , µ + τ j ' + ε ij ' ) = cov(ε ij , ε ij ' ) = 0

[

]

[ ]

[

]

ˆ j −µ ˆ j ' =V µ ˆ j −V µ ˆ j' = ∴V µ

T = luego: 1

µˆ j − µˆ j ' − E [ µˆ j − µˆ j ' ]

[

V µˆ j − µˆ j '

]

=

σ2 n

µˆ j − µˆ j ' − ( µ j − µ j ' ) 2σ

2

+

σ2 n

~ N ( 0,1)

n

Pero el estimador: 2 σˆ 2 = 2MSCE , nos permite disponer de

µˆ j − µˆ j ' − ( µ j − µ j ' ) 2σˆ 2

=

µˆ j − µˆ j ' − ( µ j − µ j ' ) σˆ 2

n

~ t( N −m )

n

luego, para un nivel de confianza de 1- α , se tiene : P ( T ≥ t ( N −m ,1−α / 2 ) ) = 1 − α ˆ j −µ ˆ j ' −t ( N −m ,1−α/ 2 )σ ˆ µ

2 2 ˆ j −µ ˆ j ' +t ( N −m ,1−α/ 2 )σ ˆ ≤µj −µj ' ≤µ n n

27

cov( y ij , y ij ' )


Métodos Multivariantes

Dr. Luis Felipe Figueroa

ˆ y •j −y •j ' −t ( N −m ,1−α/ 2 )σ

2 2 ˆ ≤µj −µj ' ≤ y •j −y •j ' +t ( N −m ,1−α/ 2 )σ n n

Cabe señalar, que las respectivas dócimas de comparaciones, quedan establecidas a partir de estas regiones de confianza. Siendo uno de los aspectos mas importantes, el considerar la inclusión o no del “0” en una región o intervalo resultante. De ello dependerá el ratificar el tratamiento que es superior a otro; motivo por el cual la dócima de comparaciones múltiples en la ANOVA ya presentada debería indirectamente haber detectado esto, rechazado con alta significancia la respectiva hipótesis nula. Ahora veremos dos generalizaciones de este caso que respectivamente destacaremos en las siguientes dos secciones.

2.2.- Método de comparaciones múltiples Si se rechaza la hipótesis nula, claro está que se debe investigar cuál es el o los tratamientos cuyos efectos son distintos, para este tipo de problema. Dos métodos son los más utilizados para resolver conjeturas de manera simultánea: uno es el de Tukey, para múltiples comparaciones simples (de a pares de medias) , no de un solo par de medias como el caso anterior, que es el caso que se describe en la presente sección y otro que se aborda en la siguiente sección que corresponde al de comparaciones compuestas o contrastes.

METODO DE TUKEY: Se puede afirmar con un nivel α % de significancia, para un diseño balanceado (nj=n, para todo j=1,..,r); entre r medias, ningún par de ellas es significativamente diferente entre sí; a menos que existan i,j tales que : y.j - y.j´ > q (1 −α)( r , r ( n −1)) MSE / n

Una vez calculadas todas las comparaciones se ordenan de mayor a menor, cuan ostensible son las diferencias medias entre tratamientos.

y apreciamos

Veamos una interpretación desde una óptica mas general de este método que permite hacer comparaciones entre las medias de r tratamientos cuando el experimento es balanceado. Esto consiste en formar intervalos múltiples de confianza, para r pares de diferencias medias entre tratamientos, mediante la siguiente representación: Lˆ − q (1 −α)(r , r ( n −1)) MSCE / n ≤ L ≤ Lˆ + q (1 −α)(r , r ( n −1)) MSCE / n

donde: L es lo que en la sección siguiente reconoceremos como un particular tipo de contraste entre dos medias, que en el actual caso corresponde como modo de comparación al expresarse mediante L= µi - µj=0. Entonces como instrumento de estimación de ˆ sería su estimación mediante la diferencia entre las respectivas diferencias L medias muestrales. 28


Métodos Multivariantes

Dr. Luis Felipe Figueroa

q(1-α)(r, r(n-1)) es el valor del rango estudientizado (Tukey) de nivel α, con r y n-r grados de libertad, (cuya tabla de valores se encuentra en Douglas C. Montgomery, Diseño y Análisis de Experimentos, Grupo, Editorial Iberoamérica. pág. 557-558), σˆ =MSCE media de suma de cuadrados de error, o estimación de la desviación del modelo presentado en 2.1.1.2.

2.3.- Análisis de Contrastes Estos son métodos especialmente adecuados para comparar contrastes compuestos, esto es, entre dos o más medias, o una con varias, o varias de estas apreciacions de manera simultánea; representados mediante relaciones dadas por transformaciones lineales de los r

parámetos de interés. Como lo son expresiones de la forma L = ∑c j µ j . j =1

r

Asi una relación L = ∑c j µ j = 0 , establece una comparación de similitud de uno de los j =1

parámetros respecto de los restantes. Mas claramente, el caso particular L = µ1 − µ2 − µ3 = 0 , constituye una afirmación (verdadera o falsa, que hay que docimar), e indica que la respuesta media del grupo 1 es similar a la respuesta media acumulada entre los otros dos grupos. Veamos las condiciones y el cómo se docima un contraste y luego para k contrastes.

MÉTODO DE SHEFFÉ: r

Para un contraste

L = ∑c j µ j , con la restricción j =1

r

∑c j =1

j

= 0 , conocida como de pesos

equilibrados, en 1959 el referido autor desarrolló una región crítica de nivel α, para detectar r

discrepancia con la respectiva conjetura L = ∑ c j µ j = 0 . Siendo ésta dada por: j =1

r

r

j =1

j =1

Lˆ > ( r − 1) F1−α (r − 1, n − r ) MSE ∑c 2j / n j , con Lˆ = ∑c j y j

Así también desarrolló intervalos confidenciales para tal contraste, dados por la siguiente expresión en su habitual forma de expresarse: r

r

r

r

r

j =1

j =1

j =1

j =1

j =1

∑c j y• j −σˆ (r −1) Fα / 2 (r −1, n − r )∑c 2j / n j ≤ ∑c j µ j ≤ ∑c j y• j + σˆ (r −1) F1−α / 2 (r −1, n − r )∑c 2j / ˆ =MSCE=SCE/(n-r) con σ

Un caso particulasr de este tipo de conjeturas, es el caso en que se afirme que una respuesta media pueda darse como el resultado medio entre dos tipos de respuestas; esto es 29


Métodos Multivariantes

Dr. Luis Felipe Figueroa

c1=1=-0,5(c2 + c3).

MÉTODO DE BONFERRONI: Este método es para analizar m contrastes sin restricciones simultáneamente. Es decir por este r

método, un valor crítico para las m conjeturas de la forma

Lh = ∑c jh µ j = 0 , queda j =1

determinado mediante la expresión: r

r

j =1

j =1

Lˆ h > (n − r ) F1−α / 2 m (r − 1, n − r ) MSE ∑ c hj2 / n j , con Lˆh = ∑chj y j

Si esto ocurre, entonces a un nivel α, se detecta evidencia significativa para rechazar la hipótesis de similitud: Ho: Lh=0. Proponiendo a su vez, intervalos confidenciales de nivel α de la forma: r

r

r

r

r

j =1

j =1

j =1

j =1

j =1

∑chj y• j −σˆ t12−α / 2 m (n − r )∑chj2 / n j ≤ ∑chj µ j ≤ ∑chj y• j +σˆ t12−α / 2 m (n − r )∑chj2 / n j Como ilustración, si consideramos que la media del grupo 1 es como el promedio de los otros dos grupos y que la media del grupo 2 es 3 veces la de un cuarto grupo. Estos son dos contrastes que de esta manera se pueden analizar

Se sugiere prestar atención a estos últimos métodos, no sólo por ser los más utilizados para este propósito; ya que además constituyen la base en diversos tipos de diseño, para averiguar de que manera o cual es el tratamiento que difiere de los restantes con que se compara.

Ejercicio propuesto

30


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Se pretende estudiar el número de días de ausencia laboral mensual ocurridas en una empresa, en relación con los diferentes niveles de sus empleados: operarios, capataces o supervisores y administradores de funcionarios. Para tal efecto se seleccionan al azar 6 funcionarios de cada grupo y se observó el número de días de ausencia durante el mes. i Operarios (G1) Capataces(G 2) Administrativos (G 3) Supevisores (G4) 1 1 3 1 2 2 0 5 0 1 3 3 4 0 0 4 4 0 1 2 5 5 1 0 1 6 0 3 0 1

Determinar si el número de días de ausencia depende del tipo de funcionarios y efectué las estimaciones que estime pertinentes para interpretar y comparar tales grupos basándose en la citada muestra aleatoria así disponible.

31


Métodos Multivariantes

Dr. Luis Felipe Figueroa

CAPÍTULO 3

DISTRIBUCIÓN NORMAL MULTIVARIANTE

La generalización de la densidad normal para dos o más dimensiones desempeña un papel básico en el análisis multivariado. De hecho, la mayoría de técnicas multivariadas se basa en que los datos se comportan según una distribución normal. A pesar de que los datos originales casi nunca son normales, la densidad normal si constituye muchas veces un acercamiento adecuado y útil para analizar conductas o comportamientos de variables aleatorias en los mas diversos problemas prácticos. La distribución normal, más allá de su atracción debido a lo extenso y detallado de los de estudios que se han efectuado y de su sencillez del tratamiento matemático requerido, posee razones prácticas que justifican su utilidad. Puesto que diversas estadísticas pueden aproximarse a ella, independientemente de la forma que tenga la distribución de la población original, debido a la injerencia del teorema del Límite Central. Definición.Un vector aleatorio (vec.a) p dimensional X o también llamado variable aleatoria (v.a. multidimensional en IRp, X=(X1,…, Xp)t posee distribución normal p-variada de parámetros μ , Σ (vector de medias y matriz de varianzas-covarianzas pxp, de rango completo ) ssi su función de densidad tiene la forma:

32


Métodos Multivariantes

Dr. Luis Felipe Figueroa 1

t −1 f X ( x| µ , Σ )=  (2π ) p / 2 | Σ |1 / 2 e −1 / 2 { (x-µ) Σ (x-µ) }

con x є

ℜp

µ = ( µ1,…, µp )t es el vector de medias , cuyas componentes son las respectivas medias de las v.a. normales X1,…,Xp y Σ es la matriz de varianzas-covarianzas de las componentes del vector aleatorio X.

 σ 11 σ 1 p    Σ=  ... ......  σ ... σ   p1 pp 

donde σij = cov ( Xi ,Xj) .

3.1.PROPIEDADES DE LA DISTRIBUCIÓN NORMAL-MULTIVARIADA:

Como consecuencia de la definición se tiene que: 1.- X = SZ + µ ~ Np ( µ , Σ ) si Z ~ Np( 0, Ip) 2.- Si X ~ Np ( µ,Σ) entonces (x-µ)t Σ-1(x- µ) ~ χ2p

3.- Si X ~ Np (µ,Σ) y Y=ΒX + C, donde B es una matriz de kxp, de rango r ≤ p Y, C є ℜk entonces Y ~ Nk (Bµ + C , BΣΒ t ) 4.- Si disponemos de una m.a.(n) de X ~ Np ( µ,Σ) entonces 33


Métodos Multivariantes

Dr. Luis Felipe Figueroa el vector de medias X ~ Np ( µ, Σ/n)

 X (1) 

5.- Si X =  ( 2)  donde X(1) , X (2) son una partición del vector X de dimensiones q y X  (p-q) con q ≤ p , respectivamente. Entonces  µ (1)   Σ11

5.1.- X~Np (  ( 2)  ,   µ  Σ21

Σ12  ) Σ22 

5.2.- X(1)| X (2) ~ Nq (µ 1|2 , Σ1|2) , con µ 1|2 = µ (1) +Σ12Σ22−1(X (2) - µ (2)) y Σ1|2 = Σ11 − Σ12 Σ22−1Σ12 , 5.3.− X(1)| X (2)=x(2) , es vec.a. igual a : X1.2= X(1)+Σ12Σ22−1(x (2) - µ (2)) , la variable que representa el espacio residual . 5.4.- Cov(X(1), X1.2) = Σ1|2 , es decir la asociación del primer vector aletorio y el mismo bajo restricción a otro vector es tanta como la variabilidad de su transformación dada por el espacio residual. 5.4.- Cov(X (2), X1.2) = 0 , lo que sumado a la normalidad, nos indica que existe independencia entre las variaciones residuales y fijas.

3.2.- EJES PRINCIPALES

En esta sección , nos propondremos identificar la orientación e interpretación del comportamiento en términos de la forma del comportamieno aleatorio de los datos que se refleja en la forma de la matriz de varianzas covarianzas. Tal matriz es el elemento principal de la forma cuadrática definida positiva en el exponente de la distribución. El citado exponente está en función de H= ( x − µ) ' Σ−1 ( x − µ) . Al considerar una constante c entonces H(x)=c, representa un elipse en IRp, con centro en x=µ. Superficie que se caracteriza por p ejes denominados principales que a continuación veremos su determinación e interpretación. El Primer Eje Principal de cada elipsoide lo constituye la recta que une los puntos más lejanos dentro del elipsoide; es decir contempla a su eje mayor.

34


Métodos Multivariantes

Dr. Luis Felipe Figueroa

El Segundo Eje Principal: Es la recta que une los putos de la segunda mayor dimensión dentro del elipsoide. Así sucesivamente, hasta el último (p-ésimo) eje principal es el que pasa por su eje menor. Ahora obtengamos cada uno de estos ejes: 3.2.1.- Determinación del Primer Eje principal: Consideremos que un punto x0 pertenece al Primer Eje Principal, tal que sea un punto extremo; es decir un polo, entonces d(x0,µ)=

máximo { d ( x, µ ) p x∈ IR

tales

H ( x) = c} .

que

Lo que significa que x0 es solución del siguiente problema de optimización: Función objetivo : d ( x, µ) , restricción : x0 ∈ E= conjunto de puntos en IRp tales que H ( x ) = c . En forma equivalente, este problema se puede reescribir como: Encontrar solución x en IRp, tal que en tal punto se logre el máx d 2 ( x, µ) , sujeto a H(x) = ( x − µ) ' Σ−1 ( x − µ) = c. Para determinar dicha solución, procederemos por multiplicadores de Lagrange, teniendo presente que ahora la función objetivo es : d 2 ( x, µ) = ( x − µ)´(x − µ) . Así la función de Lagrange resulta ser: g ( x) = ( x − µ)´(x − µ) − λ(( x − µ) ' Σ−1 ( x − µ) − c)

; para nuestro propósito debemos obtener los correspondientes puntos críticos, mediante: ∂g = 2( x − µ ) − 2λΣ −1 ( x − µ ) ∂x ∂g ' 0= = −( x − µ ) Σ −1 ( x − µ ) + c ∂λ 0=

(1) ( 2)

De la ecuación (1) se obtiene: 0=

∂g = ( I − λΣ −1 )( x − µ ) ⇔ 0 = (Σ − λI )( x − µ ) . Lo que significa que el primer eje principal, ∂x

salvo desface , está determinado por un vector característico de la matriz de varianzas covarianzas.

35


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Ahora si consideramos nuevamente la ecuación (1): 0 = ( x − µ) − λΣ−1 ( x − µ ) , la multiplicamos por la izquierda por ( x − µ)´ , y ocupamos la restricción, se obtiene : 0 = ( x − µ)´(x − µ) − λ(( x − µ) Σ−1 ( x − µ) = ( x − µ)´(x − µ) − λH ( x) = ( x − µ)´(x − µ) − λc '

de lo cual se desprende que : ( x − µ)´(x − µ) − λc =0, entonces λc = ( x − µ)´(x − µ) = d 2 ( x, µ) ; en consecuencia

máx d 2 ( x, µ) = máx {λc} = c máx {λ} =: c λmáx , tales que λ es valor característico de Σ; en consecuencia, salvo desface a la media poblacional, x0 es el vector característico asociado al mayor valor característico de la matriz de varianzas covarianzas.

A partir de lo anterior, también s establece que la longitud del primer eje principal es 2 c

λmáx

3.2.2.- determinación de los restantes Ejes Principales Para el segundo eje principal, obviamente se concluye que está asociado al de segunda mayor dimensión y por ende determinado por el segundo mayor valor característico de Σ. Así sucesivamente, al disponer de los p valores característico ordenados de mayor a menor, los correspondientes vec, identifican los respectivos p ejes principales.

Propiedades de los Ejes Principales 1.- Queda de manifiesto que al tener presente que a valores característicos distintos corresponden diferentes vectores característicos, que además son ortogonales; entonces las direcciones de nuestros ejes principales resultan ser ortogonales entre sí y cada una de ellas se encuentra sobre su respectivo vector.

36


Métodos Multivariantes 2.- Cuando

Dr. Luis Felipe Figueroa

la matriz de varianzas covarianza contemple valores propios repetidos, se

provocarán idénticos vectores característicos y en consecuencia el elipsoide correspondiente tendrá proyecciones circulares en los ejes que constituyen tales vectores. 3.- Al considerar un vector aleatorio Y en el espacio p dimensional construido como una transformación lineal de la forma Y= A´ ( x − µ) , donde la matriz A es aquella conformada de tal manera que sus columnas la constituyen los vectores característicos normalizados de la matriz de varianzas covarianzas Σ. De esta manera, esta particular transformación asume valores en los ejes principales de los elipsoides de concentración. Por ser A una matriz ortogonal, esta transformación representa una rotación de los ejes cartesianos hacia los ejes principales del elipsoide donde además se ha efectuado una traslación, debido al desfase hacia la media. Veamos en las siguientes líneas como se vinculan las componentes de Y, en lo que nos puede entregar como información su correspondiente matriz de varianzas covarianzas: Cov(YY)= Cov (A´ ( x − µ) ,) A´ ( x − µ) )= A´ Cov ( ( x − µ) ,) ( x − µ) ) A=A´ ΣA. Donde los elementos de la diagonal de esta matriz de varianzas covarianza corresponden a las varianzas de los ejes principales. Como V(Yj): es el elemento j-ésimo de la diagonal de la matriz A´ ΣA, al apreciar los elementos de la matriz A en términos de sus vectores columnas: A=(aij) = (aj), resulta que el ´ ´ ´ número real Cov(Yi,Yj) = a´i ∑a j = Tr( a´i ∑a j ) = Tr( Σ a j a´i ) Tr (0)=0, ya que tales

columnas son ortogonales. Bajo el supuesto de normalidad que hemos establecido, resulta que las componentes de este vector aleatorio Y son v.a. conjuntamente independientes.

3.3.- Coeficiente de Correlación

37


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.3.1.-Coeficientes de Correlación Parcial

Con anterioridad, se ha estudiado el coeficiente de Correlación de Pearson, entre otros coeficientes, que constituyen indicadores del grado de asociación de una variable respecto de otra. En particular, este coeficiente (Pearson) se conoce simplemente como coeficiente de correlación cuando se trabaja bajo el supuesto de normalidad y según se describe en el texto de Modelos lineales, se aprecia a cabalidad su importancia junto al tamaño muestral, y número de variables explicativas; para caracterizar a una variable mediante un modelo explicativo de regresión lineal. En pocas palabras en términos empíricos, tal tipo de coeficiente nace del coeficiente de determinación ρ2 , al establecer la proporción de la variación explicada respecto de la variación total de la información que se desea modelar. Los casos extremos son: -variación explicada igual a 0, y por lo tanto el coeficiente también es 0, lo que indica que toda la variación no se explica con el modelo (lineal) en términos de una o más variables. - variación no explicada 0, por lo tanto el coeficiente es 1; entonces, toda la variación es explicada por el modelo (lineal). Pero ρ es lo que se denomina coeficiente de correlación (Pearson), que se demuestra que es el cuociente entre la covarianza de la variable dependiente con otra (explicativa) respecto del producto de las respectivas desviaciones estandard. En este análisis queda claro su sentido y rango de valores : −1 ≤ ρ ≤1 . Ahora el Coeficiente de Correlación Parcial consiste en medir la asociación, el grado de asociación, también llamado correlación entre una o más variables dependiente con una o más variables independientes o explicativas; cuando en particular, se asume que todas las restantes variables explicativas se suprimen (indicando con frecuencia con la frase “quedando fijas las restantes”). Entonces de alguna forma habrá que considerar que la variación explicada y la variación no capturada aparecerán en nuestro indicador contemplando o no la(s) prefijadas y particulare(s) variable(s) independiente(s). Considerando un vector aleatorio fragmentado en dos partes de dimensiones arbitrarias tales que: X = (X(1), X(2)) ~ N(µ,Σ); donde X(1)∈ Rp, X(2) ∈ Rq, entonces al ser evaluado X=x = (x(1), x(2)) = (x1, x2, x3,...,xp, xp+1,xp+2,...,xp+q).

38


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Como la varianza de X(1) , condicionada o sujeta a valores fijos en el segundo vector X(2) , está dada por : A= Σ11 - Σ12Σ-122Σ’12, sumado a los resultados del punto 5 de la sección 3.1; se define el coeficiente de Correlación Parcial entre dos componentes de X(1) dado valores fijos en las componentes de X( 2), mediante:

ρ ij. p+1,..., p+q =

σij . p +1,..., p +q σii . p +1,..., p +qσjj . p +1,..., p +q

En el caso X(/2) = ∅, δij es el clásico coeficiente de correlación (Pearson).

Al denotar:

D = diagonal(A) = diag(

σ 11.* ,.......,σ pp.* ),

entonces la matriz de

correlaciones también se puede obtener de la siguiente manera:  ρ ij.* = D-1/2 A D-1/2= D-1/2 (Σ11 - Σ12Σ-122Σ’12 )D-1/2 Cuando Σ-122 es de difícil obtención, se dificulta la obtención de la matriz de correlaciones parciales, entonces, podemos recurrir a un calculo recursivo de los elementos de la matriz de correlaciones de la siguiente manera: Anotemos como: ρ ij.c = ρ ij. p+1,..., h-1, h+1,..., p+q , que dando en claro que se ha excluido la componente h de ser considerada. Tal expresión, representa el coeficiente de correlación parcial de orden q-1 de X i y Xj respecto de todas las variables del vector X2 excluyendo su componente h, por lo cual, el coeficiente de correlación de Xi y Xj con el grupo completo de variables que componen el segundo vector es δij.hc, el que se puede obtener del anterior, mediante:

ρ ij.hc =

ρiij .c − ρih.c ρ jh.c (1 − ρih2 .c )(1 − ρ2jh.c )

En particular las correlaciones parciales de primer orden para el caso X(2)=Xh, con h=p+1, ……p+q, quedan establecidas mediante:

39


Métodos Multivariantes

Dr. Luis Felipe Figueroa

ρiij − ρih ρ jh

ρ ij.h =

(1 − ρih2 )(1 − ρ2jh )

Ejemplos: -

ρ 12.3 este corresponde a el coeficiente de correlación parcial entre X1 y X 2 manteniendo X3 constante, donde:

ρ 12.3 =

-

ρ12 − ρ13 ρ 23 (1 − ρ 213 )(1 − ρ 2 23 )

ρ 12.34 es el coeficiente de correlación parcial entre X1 y X2 manteniéndose X3 y X4 constantes, entonces:

ρ 12.34 =

ρ12.4 − ρ13.4 ρ 23.4 (1 − ρ

2 13.4

)(1 − ρ

2

23.4

)

=

ρ12.3 − ρ14.3 ρ 24.3 (1 − ρ 214.3 )(1 − ρ 2 24.3 )

Resultados son útiles porque por su mediación cualquier coeficiente de correlación parcial se puede hacer depender en última instancia de la secuencia de coeficientes que lo conforman:δ12, δ23, etc. (o sea de los coeficientes de correlación hasta de orden cero.

Ejemplo: La tabla que se presenta a continuación presenta los pesos X 1 redondeados en libras, las alturas X2 redondeadas en pulgadas y las edades X 3 redondeadas en años, de un grupo de niños que concurre regularmente a un centro de control de salud.

Peso X1 Altura X2 Edad X3

64 57 8

71 59 10

53 49 6

67 62 11

55 51 8

58 50 7

40

77 55 10

57 48 9

56 52 10

51 42 6

76 61 12

68 57 9


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Calcular los coeficientes de correlación muestrales que a continuación se señalan: a) b) c) d) e) f)

calcular r12 calcular r13 calcular r23 calcular r12.3 calcular r13.2 calcular r23.1

Solución: Matriz de medias:

 62.750    53.583   8.833    Matriz de Varianza-Covarianza:  80.75  43.795 13.136 

de la obtención de

a) r12 =

=

A= Σ11 - Σ12Σ-122Σ’12

cov( X 1 , X 2 ) Var ( X 1 ) * Var ( X 2 ) 43.795 80.75 − 35.356

= 0.8196

41

43.795 35.356 9.0151

13.136   9.0151 3.606  

se desprende:


Métodos Multivariantes

Dr. Luis Felipe Figueroa

cov( X 1 , X 3 ) Var ( X 1 ) * Var ( X 3 )

b) r13 =

=

13.136 80.75 * 3.606

= 0.7698

cov( X 2 , X 3 ) Var ( X 2 ) * Var ( X 3 )

c) r23 =

=

9.0151 35.356 * 3.606

= 0.7984

r12 − r13r23

d) r12.3 =

(1 − r 213 )(1 − r 2 23 ) =

0.7968 − 0.7698 * 0.7984 (1 − 0.76982 ) * (1 − 0.7984 2 )

= 0.5334

r13 − r12 r23

e) r13.2 =

(1 − r 212 )(1 − r 2 23 ) =

0.7698 − 0.8196 * 0.7984 (1 − 0.8196 2 ) * (1 − 0.7984 2 )

= 0.3346

f) r23.1 =

r23 − r12 r13 (1 − r 212 )(1 − r 213 ) 42


Métodos Multivariantes

=

Dr. Luis Felipe Figueroa

0.7984 − 0.8196 * 0.7698 (1 − 0.81962 ) * (1 − 0.76982 )

= 0.4580

3.3.2.- Correlación Múltiple El análisis de correlación múltiple pretende determinar la combinación lineal, de q variables agrupadas en un vector aleatorio X(2), que posea la mayor correlación con una variable aleatoria X1 en particular. A esta combinación lineal la denominaremos Y = β , X ( 2 ) Para tal propósito se trabaja bajo el supuesto de normalidad conjunta de las variables involucradas; es decir admitiremos que: X=(X1 , X(2)) es un vector aleatorio Normal N ( µ, ∑) ,

con µ = ( µ1 , µ 2 ) y

entonces

 ∑∑  σ ∑  ∑ = =  ∑∑ 21 2   21∑∑ 2  2 1 12 1 12

( 2) = ( X 2 ,......, X q +1 ) ~ N ( µ , ∑ ) X1 v. a. ~ N ( µ1 , σ1 ) , X 22 2

Notemos que:

∑11

es un número real,

∑ 12 = ∑ 21 = vector q - dimensional, ∑ 22

matriz de q*q . Es en este contexto, que pretendemos identificar aquella combinación lineal Y = β, X ( 2 ) que posea la mayor correlación posible con X1, es decir, se pretende determinar que transformación lineal de este vector q-dimensional explica mejor a la v. a X1. Teniendo presente que : 43


Métodos Multivariantes

Dr. Luis Felipe Figueroa

(

)

Cov ( X 1 , Y ) = Cov X 1 , β , X ( 2 )

(

Var (Y ) =Var β, X

( 2)

(

) = β Var ( X )β ,

)

,

= β ,Cov X 1 , X ( 2 ) = β , ∑ 12 = ∑ 12 β

( 2)

Entonces el correspondiente coeficiente de correlación entre dicha variable aleatoria y el vector q dimensional es:

Cov( X1,Y ) β , ∑ 12 β , ∑ 12 ρ X 1 ,Y = = = = l (β ) , , Var( X1 ) Var( Y ) ∑ 11 β ∑ 22 β σ 1 β ∑ 22 β ,

,

Es preciso recordar que este coeficiente de correlación es invariante frente a cambios de escala o precisión; por tal motivo podemos considerar restricciones que nos llevará al resultado que buscamos. Restricciones:

∑11 = 1 β , ∑ 22 β = 1

(es un cambio de escala para β)

Así nuestro problema se reduce a determinar βo talque:

L( β o ) = Máx{ L( β ) = β , ∑12 tal que ∑11 = 1, β , ∑ 22 β = 1, β ∈ R q }

Lo cual es equivalente a plantear, el siguiente problema de optimización: MáxL( β )

,

sujeto a

∑11 = 1

β , ∑22 β = 1 Utilizando multilicadores de Lagrange: podemos considerar la siguiente función f ( β ) = β , ∑12 − ,

λ 2

( β , ∑22 β −1)

∂f , = ∑12 −λ ∑22 β ∂β

∑ 22

−1

,

0 = ∑ 12 −λ ∑ 22 β

por la izq.)

−1

0 = ∑ 22 ∑12 −λβ 44

,

/

−1 ∑22 * ( multiplico


Métodos Multivariantes

Dr. Luis Felipe Figueroa

β=

1 −1 , ∑ 22 ∑ 12 λ

(1)

Notemos que el β encontrado depende de λ , que resulta ser desconocido, pero si fuese independiente de βentonces podría ser omitido, ya que se desea una solución básica o mejor dicho no afecta a cambios de escala.

∑ 12 −λ ∑ 22 β = 0 ,

Consideremos la ecuación: Así :

,

β , ∑ 12 − λβ , ∑ 22 β = 0

λ = β , ∑ 12

/

β,*

,

(2)

( )

1 −1 , , , λ = ∑ 22 ∑ 12 ∑ 12 λ

Al reemplazar (2) en (3), se obtiene:

−1

,

−1

λ 2 = ∑ 12 ∑ 22 ∑ 12 ⇒ λ = ∑ 12 ∑ 22 ∑ 12

,

, “lo que muestra a λ independiente de

β”.

Por lo tanto podemos prescindir en términos explícitos de −1

β o = ∑ 22 ∑ 12

λ en

(1); lográndose:

,

Así concluimos que este βo es tal que la ecuación con X1

Y = β o X 2 posee la mayor correlación ,

Podemos decir que hemos encontrado una estrategia para identificar la combinación lineal, de q variables, que componen un vector aleatorio X normal q+1 dimensional, que mayor correlación presenta con X1 la variable complementaria a esas q variables; con las que se constituye X. Además el valor de la correspondiente correlación se obtiene de la expresión:

45


Métodos Multivariantes

ρ X1,Y =

,

−1 ∑ ∑ (∑ ∑ )´∑ 12 22 ∑ 12 = = = σ 1λ σ 1λ −1 , , 22 12 12

, , 0 12

β∑ ,

σ 1 β 0 ∑ 22 β 0 ∑ 12 ∑ −221 ∑ 12

Dr. Luis Felipe Figueroa

,

−1 ,

∑ 12 ∑ 22 ∑ 12 = = −1 , σ 1 ∑ 12 ∑ 22 ∑ 12 σ 1 = : ρ 1,23. . q+ 1

indicador que se denomina , Coeficiente de Correlación Múltiple. Como la matriz de varianzas covarianzas parciales de X 1

A

−1

−1

respecto

X ( 2) , está dada por: ,

´ ´ = ∑11 − ∑12 ∑ 22 ∑12 = σ 12 − ∑12 ∑ 22 ∑12 == σ 12 − σ 12 ∑12 ∑ −221 ∑12 / σ 12 ,

= σ 12 (1 − ∑12 ∑ −221 ∑12 / σ 12 ) = σ 12 (1 − ρ1, 2,3,....q +1 ) Lo que evidencia que tal coeficiente de correlación múltiple nos permite expresar y vincular que proporción de la varianza puede ser atribuida a la relación de regresión de X 1 con aquella en términos de las variables que componen X(2) .

Ejemplo En una multi-tienda de Santiago, se ha podido constatar que sus clientes, en términos anuales, respecto de gasto en vestuario, electrodomésticos, y decoración se comportan normalmente, con gastos

(en $100.000), medios y matriz de varianzas y covarianzas según se detalla a

continuación:

46


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Gasto Medio Vestuario 1 Decoración 2 Electrodoméstico s 3

Matriz de Var - Cov 5 3 1 3 5 2 1

2

3

Se desea determinar cuan correlacionado está gasto en vestuario con los otros dos gastos.

Solución

5

−1

2 3  7    =  3  1 −1

βo = ∑22 −1 ∑12 , =  2

(2) Por lo tanto el modelo resultante Y = β o X es:

,

X2 

X 1 = [ 7 − 1]   = 7 X 2 − X 3 X3  Es decir, el gasto en vestuario está dado por un alto impacto del gasto en Decoración y un menor efecto en el gasto en Electrodomésticos. Con

X 1 : Gasto en Vestuario

47


Métodos Multivariantes

Dr. Luis Felipe Figueroa

X 2 : Gasto en Decoración X 3 : Gasto en Electrodomésticos

• ρ X ,Y =

β , ∑12 , ∑11 β ∑22 β ,

=

20 = 0.816 24.49

Con:

1. β , ∑ 12 = [ 7 ,

− 1]

3 1 = 20  

∑11 β , ∑22 β = 600 = 24.49

2.

Por lo tanto el correspondiente coeficiente de correlación es 0.81, es decir, gasto en vestuario presenta una vinculación (correlación) alta con las otras dos variables.

3.4.- Estimación de Parámetro en Poblaciones Normales Multidimensionales 

 Sea X =( X 1 ,......, X p ) vector aleatorio con distribución Normal de media µ , y matiz de  varianzas-covarianzas , basándonos en una muestra aleatoria tamaño n de X ,

determinaremos mediante el método de máxima verosimilitud, los estimadores de parámetros:

 µ y∑.

  Denotemos por ( X 1 ,......., X n ) ), la muestra aleatoria tamaño n de vectores p dimensionales, de que se dispone; entonces siendo el logaritmo de la función de verosimilitud igual a:

48


Métodos Multivariantes

L = ln( f

Dr. Luis Felipe Figueroa n

  ( X 1 ,.... X n )

( x1 ,...x n )) = ln(∏ f ( Xi ) ( x i )

)

i =1

n

= ln ∏

i =1

| ∑ | −1 / 2 −1 exp( ( x i − µ )`∑ −1 ( x i − µ ) P/2 2 (2π )

)

− np n 1 n   −1   −1 = ln(2π ) + ln | ∑ | − ∑ ( xi − µ )´∑ ( xi − µ ) 2 2 2 i =1 Donde la expresión: n n        −1  ( x − µ )´ ∑ ( x − µ ) = ∑ i ∑ ( xi − x + x − µ )`∑−1 ( xi − x + x − µ ) = Γ i i =1

, se encuentra en

i =1

términos de la correspondiente media muestral, de las n observaciones p-dimensionales que se dispone:  n   ∑xi1   i =1     x1    1   x =   =   x  n  n    p  ∑xip   i =1      n n       entonces Γ = ∑( xi − x )`∑−1 ( xi − x ) + ∑( x − µ)`∑−1 ( x − µ) + 2∑( xi − x ) ∑−1 ( x − µ) i =1

donde

∑( x

i

i =1

   − x ) ∑−1 ( x − µ) = ∑( xi − x )( ∑−1 ( x − µ)

Además:

49

) =0


Métodos Multivariantes

Dr. Luis Felipe Figueroa

n

n    −1  ( x − x ) ` ∑ ( x − x ) = Tr ( ∑ i ∑( xi − x)`∑−1 ( xi − x)) i i =1

i =1

n

  = ∑Tr (( xi − x)`∑−1 ( xi − x)) i =1

n   = ∑Tr (( xi − x)`(∑−1 ( xi − x))) i =1

n   = ∑Tr ( ∑−1 ( xi − x )( xi − x )`) i =1

n   = Tr (∑∑−1 ( xi − x )( xi − x)`) i =1

n   = Tr ( ∑−1 ∑( xi − x )( xi − x)`) i =1        A −1

= Tr ( ∑ A)

( A`= A)

−1

= Tr ( A ∑ )

− np n 1 1 n   −1 −1 L= ln(2π ) + ln | ∑ | − Tr ( A ∑ ) − ∑ ( x − µ )`∑ − 1 ( x − µ ) 2 2 2 2 i =1

A partir de esta expresión deberemos determinar los p(p+1)=p 2 +p, poblacionales,

parámetros

∂L 1 ∂ n   −1 =−  ∑( x −µ)´∑ ( x −µ) ∂µ 2 ∂µ i =1 1 n  )(−1) = − ∑2 ∑−1 ( x −µ 2 i =1 ∂L  =0 ⇔0 = n ∑−1 ( x −µ) ∂µ entonces :

^

 µ =x

Para la determinación de los restantes parámetros, debemos tener presente el siguiente resultado: Lema

50


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Sí una distribución poblacional depende de p parámetros y g es una función biyectiva, de : ℜp →ℜp , tal

que

λ = (λ1 ,......, λp )  θ = g (λ) = (θ1 ,......, θp ), biyección entonces : θˆi EMV de θi ⇔λˆi EMV de λi , ∀i =1,......, p; λˆ = g −1 (θˆ) EMV de λ ∂ ~ Sea (θij ) = ∑−1 ; θ ij = ~ ln | ∑−1 | ∂θij ^ ∂L n 1 ∂ 1 ∂ n   ˆ )) = θ ij − Tr ( A ∑−1 ) − ( ~ ∑( xi − µ) ∑−1 ( xi − µ ~ ~ ∂θij 2 2 ∂θij 2 ∂θij i =1             0

∂L n 1 ∂ −1 = θ ij − ~ ~ (Tr ( A ∑ )) ∂θij 2 2 ∂θ ij 0=

∂L ∂ ij −1 ~ = nθ −Tr ( ~ ( A ∑ )) ∂θij ∂θij

0 = nθ ij − aij ∴ aij

(

aij

)

~ ˆ ) −1 = A ⇔ (θ ij n n n Sea B = (bij ) ∈Μpxp (ℜ), espacio vectorial de todas las matrices pxp con coeficientes en ℜ.

θ ij =

;

~ ˆ ) −1 = (θ ij

Bij = Cofactor (i, j ) de B, el cual se obtiene como : (−1) i + j : Sub −det er min ante calculado sobre la matriz originada al e lim inar linea i, columna j. | B |: Deter min ante de B; | B | =bi1 Bi1 + +bij Bij + +bip Bip

entonces:

∂|B| = Bij ∂bij

B ~ ~ B` B −1 = (bij ), bij = ij = ij , |B| |B| Además,

si

B = B`,

B`ij : Cofactor ij de B

`

∂ ln | B | 1 ∂ | B | Bij ~ = * = = bij ∂bij | B | ∂bij |B|  ∂ ln | B |  ~   = (bij )i. j =1,.........., p = B −1  ∂bij   i , j =1,, p En nuestro caso : ∑ = (θ ij )

Usando el lema

.

∂L ∂ n 1 −1 −1  =  ln | ∑ | − Tr ( A ∑ )  ∂θ ij ∂θ ij  2 2 

~

−1 anterior, es conveniente considerar, ∑ = (θ ij ) y proceder a calcular:

51


Métodos Multivariantes

Dr. Luis Felipe Figueroa

∂L ∂ n 1  = ~  ln | ∑−1 | − TR ( A ∑−1 )  ~ ∂θij ∂θij  2 2  =

n ∂ 1 ∂ −1 −1 ~ (ln | ∑ |) − TR ( ~ ( A ∑ )) 2 ∂θij 2 ∂θij

∂ −1 ~ ( ∑ ) =Ιij , matriz de ceros, excepto en el lugar i,j cuyo valor es 1 ∂θ ij

Ahora: Tr

∂ −1 ~ ( A ∑ ) = aij ∂θij

∂L n 1 ~ = θij − aij = 0 ∂θij 2 2

∂L n 1 A ∴ ~ = ∑ − A = 0 ⇔ n ∑ˆ − A = 0 ⇒ ∑ˆ = ∂ (θ ij ) 2 2 n

()

^

µ = x es insesgado para µ .

donde,

−1

 ˆ A  µ ,∑  = x, n, esel EMV de(µ ,∑ ) par una población Normal(µ ,∑ )  ^

Por lo tanto :

 A y también ∑ˆ =    n −1

A ∑ˆ = es sesgado para ∑, n

A , es un estimador insesgado para ∑ n −1 3.5.- DISTRIBUCIÓN DE ALGUNAS FORMAS CUADRÁTICAS luego, S 2 =

En esta sección consideraremos k-grupos de respuestas normales multivariadas pdimensionales donde cada grupo tiene su vector de medias μ h, h= 1,….,k; matriz de varianzas–covarianzas común Σ, es decir, son grupos homogéneos en su variabilidad. 3.5.1.-La varianza muestral es independientes de la media Seleccionemos muestras tamaño nh en cada grupo respectivamente, h= 1,..,k, estimador de máxima verosimilitud de μh es x h Un estimador insesgado de Σ es: S2 =

Donde, k

Α = ∑ Ah h =1

52

A n −k

entonces el


Métodos Multivariantes

Dr. Luis Felipe Figueroa

nh

Ah = ∑ ( x ih − x h )( x ih − x h )

(Matriz de varianza-covarianzas del grupo h) '

ki =1

n = ∑ nh h =1

Observación: Para una forma cuadrática, originada por una matriz B=B mxm, entonces existen vectores normales yj de p-variantes con matriz de varianzas-covarianzas Σ, independientes, entre si tal que: m

B = ∑ y j y 'j j =1

Por tal motivo, es que tanto A

k

como Α = ∑ Ah

,

pueden descomponerse

h =1

respectivamente, como sumas de cuadrados de n-1 y n-k, vectores normales de media cero y matriz de varianzas-covarianzas Σ, de lo cual se desprende que tales representaciones son independientes con x .

3.5.2.- Distribución de Wishart Las formas cuadráticas que hemos estudiado están en términos de matrices que se clasifican de igual forma que A, cuadradas, simétricas de p x p. Tales matrices pertenecen a una clase denominadas matrices aleatorias. Debiendo ser claros en que es una clase diferente de matrices, respecto de aquella que se denomina matrices de transición o estocásticas, utilizadas en procesos Markovianos. Siendo A forma cuadrática p x p, n ' A = (n − 1) S = ∑ ( xi − x )( xi − x ) i =1 Donde, Xi = Vector p dimensional N(0, Σ), procedentes de una m.a (n). S = Matriz de varianzas-covarianzas muestral. Entonces

A ~ Wn −1 ( A, Σ)

y n− p − 1  −1  | A | 2 exp − 1 2 tr ( AΣ ) , para A definida positiva  p W ( A; Σ , n) = W =  2 np 2 π p( p− 1) 4 | Σ |1 2n Π Γ ( (n + 1 − i) 2) i= 1   0 e.o.c

{

}

con n grados de libertad. 53

Denominada distribución Wishart. W ( A; Σ, n ) =: W n ( A; Σ)

Nota: Wn( . |Σ) = Distribución Wishart


Métodos Multivariantes

Dr. Luis Felipe Figueroa n

∑y

= Distribución de

j =1

j

y 'j

donde yj ~ N(0, Σ), independientes. Propiedades:

En este tipo de poblaciones p-dimensionales N(0, Σ), siempre se verifica que:

1. x, A son independientes. Para el caso p=1, se deduce el conocido resultado, al disponer de una m.a.(n) de v.a. normales X de medias cero y varianzas σ 2 : n

Siendo X = ∑ X i ,

n

n

i =1

i =1

A = ∑ ( X i − X )( X i − X ) = ∑ ( X i − X ) 2 =( n − 1) s 2

i 01

Entonces X , ( n −1) s 2 son v.a. independientes 2 Además: (n −1) s 2 ~ Wn−1 ( A, σ ) , y en el caso particular σ 2 = 1 de esta distribución W:

χ 2 (n − 1) =Wn −1 ( A,1) =: W (1, n − 1) ,

(n −1) s 2 / σ 2 ~

2. Si C matriz constante,

(

CAC t ~ W n CAC t , CΣC t

)

3. Al considerar k poblaciones multivariantes p- dimensionales N(0, Σ) se dispone de: A1, A2,..., Ah,…, Ak cada una con distribución W(Σ,nh-1), independientes; en tal caso k

A = ∑ Ah ~ Wn − k ( A, Σ ) ; n = n1 + ... + n h + ... + n k h =1

Ejemplo: Si consideramos una m.a (n) N(0,1). En este caso, la muestra seria unidimensional por lo tanto p=1 y Σ=σ2=1, entonces se tendría que: A = (n − 1) S n

= ∑ ( x i − x )( x i − x )

'

i =1 n

Por lo

= ∑ ( xi − x )

2

i =1

n

A = ∑ n( xi − x ) 2 ( xi − x ) A =i =∑ 1 2

i =1 n

A =

∑(x i =1

i

− x)

~ W n −1 ( A | 1)

2

1 n

A =

, ya que ( x i − x ) ∈ ℜ

∑(x i =1

i

− x)

σ

2

54 2

~ χ n2−1

tanto,


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Por otra parte,

W n −1 ( A | 1) = χn2−1

En consecuencia, la distribución Wishart es la generalización de la distribución chi-cuadrado en p-dimensiones.

Comentario:

Una aplicación importante de la distribución Wishart es en la construcción de la estadística de Hotelling (T2), que permite la obtención de dócimas y regiones de confianza para la media de distribuciones normales multidimensionales. La estadística T2 puede ser escrita, en forma general, de la siguiente forma:

t

−1

 vectorale tori   MatrizA,ale toria,Wishart  vectorale tori        n ormalmultivari nte  gradosdelibertad eA   normalmultivari nte

que es análogo al caso univariado:

−1

( var iable aleatoria normal )  var iable aleatoria chi − cuadrado  

grados de libertad

55

( var iable aleatoria normal )


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Mas precisamente, al disponer de una m.a.(n) X 1 ,...., X n de una población N ( µ0 , ∑) , la transformación T 2 = n( X − µ 0 ) S −1 ( X − µ 0 )`

con

S = A /( n − 1)

es la clásica estadística de Hotelling, en análisis multivariantes, n−p

2 con p (n −1) T ~

F ( p, n − p ) .

3.7.- Dócimas y Regiones Confidenciales bajo el supuesto de Normalidad Multivariante

3.7.1.- Caso: una muestra aleatoria

 Consideremos una muestra aleatoria de tamaño n de un vector aleatorio X = ( X 1 ,..., X p )  con distribución normal N ( µ, ∑ ) , µ = ( µ1 ,..., µ p ) , ∑= ∑p* p

3.7.1.1.- Dócima para el vector de medias Para el problema:   H 0 : µ = µ0

  H 1 : µ ≠ µ0

v/s

Consideramos la estadística de Hotelling:  ′  T 2 = n( x − µ0 ) S −1 ( x − µ0 )

con S =

A n −1

,

x´= ( X 1 ,..., X p )

α , podemos disponer de la región crítica:  p ( n −1) F ( p, n − p )

A un nivel de significación

 C = m.a.(n) / T 2 > n−p 

1−α

 

Además podemos construir una región de confianza del (1-α)%, para µ:    p ( n − 1) n− p   IC1−α ( µ ) = µ ∈ IR p / T 2 ≤ F1−α ( p, n − p ) = µ ∈ IR p / T 2 ≤ F1−α ( p, n − p ) n− p p (n − 1)    

56


Métodos Multivariantes

Dr. Luis Felipe Figueroa

 p ( n − 1)    ′  IC1−α ( µ ) = µ ∈ IR p / n( x − µ ) S −1 ( x − µ ) ≤ F(1−α ) ( p, n − p )  , n− p  

que

representa

elipsoide en IRp.

Observación

La estadística de Hotelling es invariante bajo transformaciones lineales. Es decir:   T 2 ( x ) = T 2 ( ax + b )

Demostración: Consideremos la transformación

  y = ax + b

      T 2 ( ax +b) =T 2 ( y ) = n( y − E ( y ))´S y−1 ( y − E ( y ))      T 2 ( ax +b ) = n( ax +b − E ((ax +b)))´S y−1 ( ax +b − E ((ax +b)))     =n(a x +b −aE (( x ) −b)´S y−1 ( a x +b −aE (( x ) −b)     = na ( x − E ( x ))´S y−1a ( x − E ( x ))     = n( x − E ( x ))´a´S y−1a ( x − E ( x ))

además: S y−1 = ( S y ) −1 = ( S ax ) −1 = ( aS x a´) −1 = ( a´) −1 S x−1 (a´) −1

por lo cual:

57

un


Métodos Multivariantes

Dr. Luis Felipe Figueroa

     T 2 ( ax +b ) = n( x −E ( x ))´a´(a´)−1 S x−1 ( a´)−1 a ( x −E ( x ))     = n( x − E ( x ))´S x−1 ( x − E ( x ))  =T 2 ( x ).

Ejemplo 1: Consideremos una muestra aleatoria de tamaño n=10, p=2, con vector de medias y matriz de varianzas covarianzas como sigue:



_

µ = x = (1.2

0 .5 )

 0.17 7 0.1 1  ∑ = S =    0.1 1 2.32 6 ∧

La pregunta es: ¿Es posible que la media de nuestra población sea próxima a (1 Para responder esta interrogante, docimamos:

  1  H0 : µ =    2

v/s

58

  1  H1 : µ ≠    2

2)


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Se tendrá evidencia para H 0 (a favor de H 1 ) , cuando la muestra disponible satisfaga el pertenecer al conjunto: 2(10 − 1)   C = m.a.(10) / T 2 > F( 0.95 ) ( 2,10 − 2 )  = m.a.(10) / T 2 > 2.25 * 4.459 10 − 2   2 C = m.a.(10) / T > 10.03275

{

{

Con

}

}

  ′   T 2 = n x − µ0 S −1 x − µ0

(

)

(

)

2 1.2  −11.2  T=10 − S −  0 .5 2 0.5 2

T 2 = 63.584

Como T 2 >> 10.03275 Existe evidencia significativa a un nivel α=0.05 para rechazar H 0 , es decir la media se

diferencia ostensiblemente del vector

  1 µ =    2

.

59


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Ejemplo 2:  Considere una m.a. (101) de x = ( x1 , x 2 ) ∝ N ( u , ∑

 x1  5 .24 x=   =   x 2  34.97

)

 210.54 196.99  S =   196.99 119.68 

  Docimar u 0 = ( 60,50 ) y determinar región confidencial del 95% para u : H 0 : u = ( 60,50 ) H 1 : u ≠ ( 60,50 ) v/s

Con los datos:

 .0 0131 − .0 0139   S =   − .0 0139 .0 0232 −1

p=2

n=101

Se rechazará Ho a favor de H1 si:

60


Métodos Multivariantes

Dr. Luis Felipe Figueroa

2 ⋅100   C = m.a.(101) / T 2 > F( 0.95 ) ( 2 , 99 )  99  

Donde T 2 = n ( x − u 0 ) ′ S −1 ( x − u 0 ) 

=101

 5.24 60  .013 −0.139 5.24 60  −    −  3 4.97 50 −0.139 0.23  4.97 50

=357.4417 Ttab = 2*100 3.1111 = 6.2851 99 Como T2 >> 6.2851, entonces existe evidencia significativa a un nivel del 5% de significancia para rechazar la hipótesis nula. Ahora la región confidencial, está dada por :

61


{ }

Métodos Multivariantes

Dr. Luis Felipe Figueroa

  p  ′ −1  IC0.95(µ ) µ ∈= IR /n(x− µ ) (xS µ ) ≤− 6.2851  ′    p  5 .24  µ 1   0. 13 − 0. 139  5 .24  µ 1   µ ∈= IR /10   −       −   ≤ 6.2851 3 4 . 9 7 µ − 0 . 1 3 9 0 . 2 3 3 4 . 9 7 µ     2      2 

3.7.1.2.-Dócimas para transformaciones lineales del vector de medias. Consideremos un vector no aleatorio “a” tal que: a ' = ( a1 , a 2 ,..., a p ) Por determinar la región confidencial para a ' µ, disponiendo de una muestra aleatoria de tamaño n X = ( X 1 , X 2 ,..., X p ) ~ N ( µ, Σ)

y podemos calcular X ' = ( X 1 , X 2 ,..., Xp ) = X

62


Métodos Multivariantes

Dr. Luis Felipe Figueroa t =

a' X − a' µ V (a' X )

a' X − a' µ Vˆ ( a ' X )

Por lo tanto utilizaremos la aproximación de dicha v.a. dada por: t =

a' X − a' µ a'

S a n

y recurriremos a su comportamiento aleatorio par dar forma a la región que se pretende: t= n

t2 = n

a' X − a' µ a ' Sa

= n

a ' ( X − µ) a ' Sa

( a ' ( X − µ )) 2 ≤ n( X − µ )' S −1 ( X − µ ) = T 2 a ' Sa

T 2 1−α, p ,( n −p ) =

p (n −1) F1−α ( p.n − p ) n−p

Luego

t 2 ≤ n( X − µ )' S −1 ( X − µ ) = T 2 ≤ T 21−α , p ,( n − p ) −T

Por lo tanto :

1−α , p ,( n − p )

−T1−α, p ,( n −p ) ≤

≤t ≤T

1−α , p ,( n − p )

n ( a ' X −a ' µ) a ' Sa

a ' Sa T1−α, p ,( n −p ) ≤ a ' X −a ' µ ≤ n

a' X −

≤T1−α, p ,( n −p )

a ' Sa T1−α, p ,( n −p ) n

a ' Sa T1−α, p ,( n −p ) ≤ a ' µ ≤ a ' X + n

a ' Sa T1−α, p ,( n −p ) n

Además, una región crítica para el problema: H 0 : a ' µ = a ' µ0 Se establece a partir de: t=

n (a ' X − a ' µ0 ) a ' ( X − µ0 ) = n a ' Sa a ' Sa

concluyéndose con la región crítica

C = {m.a ( n) / t ≥ T1−α, p ,( n − p ) }

Ejemplo 3

63

H 1 : a ' µ = a ' µ0


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Considerando la información disponible en el Ejemplo 2; determine región confidencial del 95% para: - La media total que originan las componentes del vector de medias poblacional - La diferencia entre las medias que representan las respectivas componentes de la

media poblacional, para el caso en que

 210.54 196.99  S =   196.99 190.68 

Solución En ambos casos la región a determinar es un intervalo confidencial ya que el parámetro a estimar es univariado, con 1- α = 0.95 . Debiéndose entonces proceder a una estimación de esta naturaleza para los problemas en que el respectivo parámetro es de la forma: μ1 + μ2 , μ1 - μ2 i) Caso

θ = μ 1 + μ2

 µ1  μ1 + μ2 = a ' µ = a´  = (1  µ2 

1) X −

x1 + x 2 −

(1

1 a = 1   

con

a ' Sa T1−α, p ,( n −p ) ≤ a ' µ ≤ a ' X + n

a' X −

(1

µ  1)  1  ,  µ2 

a ' Sa T1−α, p ,( n −p ) n

1 1)' S  1   T 1) X + 1−α, p , ( n − p ) ≤ θ ≤ (1 n

S11 + 2 S12 + S 22 T1−α , p ,( n − p ) ≤ θ ≤ x1 + x 2 + n

(1

1 1)' S  1   T 1−α, p ,( n − p ) n

S11 + 2 S12 + S 22 T1−α , p ,( n − p ) n

x1 + x2 = 55.24+34.97 = 90.21

donde:

p (n −1) 2(n −1) F1−α, ( p, n − p ) = T 2 1−α, p ,( n − p ) = T 2 1−α, 2 ,( n −2 ) = F1−α, ( 2, n − 2) n−p n −2 200 200 = F0.95 ( 2,99) = 3.11 = 6.34 ⇒ T ≅ 2.5 99 99

Lográndose:

90.21-6.01 ≤ μ1 + μ2 ≤ 90.21+6.01 84.2 ≤ μ1 + μ2 ≤ 96.22

64


Métodos Multivariantes

Dr. Luis Felipe Figueroa 73.5 ≤ μ1 + μ2 ≤ 106.92

Si aproximamos F0.95(2,99)=3.088;

ii) Caso θ=μ 1 -μ 2;

pero con

 µ1  μ 1 - μ 2 = a' µ = a´  = (1  µ2 

(1

−1) X −

(1

 µ1  − 1)   , con  µ2 

1  a =    −1

1  −1) ' S   −1   T 1) X + 1−α , p , ( n − p ) ≤ θ ≤ (1 n

S11 − 2 S12 + S 22 T1−α , p ,( n − p ) ≤ θ ≤ x1 − x 2 + n

x1 − x 2 −

(1

1  −1)' S   −1   T 1−α , p , ( n − p ) n

S11 − 2 S12 + S 22 T1−α , p ,( n − p ) n

x1 − x 2 = 55.24 - 34.97 = 20,27

S11 − 2 S12 + S 22 = n

7.24 = 0.26 101

Considerando F0.95(2,99)=3.088, concluimos 18.6 ≤ μ1 - μ2 ≤ 22.94 3.7.2.- Caso: dos muestras aleatorias homogéneas e independientes. Consideremos muestras aleatorias procedentes de dos poblaciones normales p- dimensiónales, con matriz de varianzas covarianzas coincidente. Disponemos en IRp entonces de:

   X 1 ,..., X n1 ma(n1) de X ~ N ( µ1 Σ)   Y1 ,..., Yn21 ma(n2) de Y ~ N ( µ2 Σ) 1;

1;

con µ, µ ∈IR p independiente. 1

2

1

1

Σ 1 =Σ 2 =Σ pxp . Donde tales muestras son obtenidas de manera

3.7.2.1.- Dócimas para comparaciones de medias 65


Métodos Multivariantes Para docimar:

Dr. Luis Felipe Figueroa

H 0 : µ1 = µ2

H1 : µ1 ≠ µ2

v/s

La hipótesis nula de ser corroborada induce a la conclusión de que las poblaciones en estudio no se detectarían diferencias, al menos en términos de sus respectivas medias ya que estas podrían admitirse como idénticas, de lo contrario, se tendría que son poblaciones diferentes. Consideremos : 1

n1 * n 2 ( x − y ) ′S − ( x - y )

T2 =

n1 + n2

La estadística de Hotelling, por lo cual esta dócima recibe el nombre de dócima o teste d Hotelling para comparación de medias entre dos poblaciones mulktivariadas. Donde S =: Sx-y el cual esta calculado para la muestra, respecto del nuevo vector X-Y, S = (A1 + A2) /( n1 + n2 - 2) = (Ax + Ay) /( n1 + n2 - 2) nh

Ah =

∑( x

ih

i =1

También

 X , h = 1 − xh )( xih - xh )′ donde X h =   Y , h = 2 

( n1 + n 2 − p −1)T 2 ( n1 + n 2 − 2) p

~

F( p , n1 + n2-p-1)

La región critica para este problema es : ( n1 + n 2 − 2) p  C = ma(n1, n 2) T 2 > (n1 + n 2 − p − 1 ) 

 F 1 − α ( p, n1 + n 2 − p − 1) 

A partir de esto podemos construir regiones de confianza para θ = µ1 − µ2 : denotando por: T2 1-α,p , n1 + n2-p-1 =

{( n

1

+ n 2 − 2) p

F 1 − α ( p, n1 + n 2 − p −1)}

( n1 + n 2 − p −1 )

Podemos disponer de la siguiente región (elipsoide) confidencial del (1-α)% para θ = µ1 − µ 2 ( x − y −θ ) ′S −1 ( x − y −θ ) ≤ (n1 + n 2 )T 2 1 − α ( p , n1 + n 2 − p − 1) n1n 2

66


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.7.2.2.- Transformaciones del vector de diferencias medias Para representar transformaciones de las diferencias de nuestros parámetros centrales podemos considerar: a ′θ = a´(µ1 − µ 2 ) ⇒ a ′θˆ = a´(µˆ 1 − µˆ 2 ) = a´(x − y ) Un intervalo de confianza a nivel de significación α para a´ θ tiene extremos dados por :  n1 + n 2  a ′( x − y ) ± a ′Sa T  n1n 2 

1 − α / 2,

p , n1 + n 2 − p − 1

En particular, con esta última expresión podemos analizar una gran cantidad de conjeturas, dadas por las diversas relaciones de tal forma entre las medias.

3.7.3.- Caso: muestras repetidas. En este caso asumiremos que el vector aleatorio (respuesta), está constituido por p- registros para cada una de las unidades experimentales, siendo nuestro objetivo, el estudiar similitudes entre este tipo de respuestas. Para tal efecto, se configura una base de datos, donde almacenamos las p respuestas para cada uno de los n elementos abordados en la población en estudio, obteniéndose las observaciones, que constituyen un m.a.(n) p-dimensional. Para cada i=1,…,n ; la variable Xij denotará la correspondiente respuesta del elemento i-ésimo de la muestra, registrada bajo la condición j, según sea el caso j=1,2,…,p.

Unidad Muestral 1 . . . . n

1 X11 . . . . Xn1

2 X12 . . . . Xn2

Condiciones ………. ………… …… . .. ………

3.7.3.1.- Dócimas para comparaciones de medias 67

p X1p . . . . Xnp


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Para proceder a efectuar comparaciones, ente las medias poblacionales de las respectivas condiciones, estudiemos el modelo subyacente para los propósitos de este experimento. Consideremos la variable respuesta Xij. correspondiente al iésimo elemento bajo la condición j, descrita mediante : X ij = µ + µ j + ε ij , un diseño de experimento pareado, con respuesta común µ a este tipo de tratamiento secuencial, µj es la representación central del efecto específico de la condición j, εij la componente de error aleatorio que refleja lo no descrito por los mencionados términos centrales. Supuestos: hacen referencia las condiciones sobre el comportamiento aleatorio marco de las componentes de error, por ello por simplicidad se considera, que en lo que en esto términos corresponde a que cada observación: ε i = (ε i1 ,..., ε ip ) 

Satisfaga el ser un vec.a: - Normal p-dimensional,  - de media cero, E[ εi ]=0

∑ de varianzas covarianzas completamente arbitraria y sin restricciones,  E[ ε ε´ ]= ∑ , (descartándose la utilización de ANOVA abordada en el capítulo 2)

- con matriz i

i

- que entre (si tales vectores aleatorios) son conjuntamente independientes.

De esta manera el vector respuesta X posee distribución N (( µ + µ1 ,....., µ + µp )´, ∑) , pudiéndose plantear el resolver nuestro análisis de comparación entre los resultados bajo las distintas condiciones mediante:

H 0 : µ 1 = ..... = µ p

v/s

H 1 : µ j ≠ µ j´

para

a lg ún

j ≠ j´

Esta conjetura escalar, para llevarla a un contexto vectorial, podemos proceder de la siguiente manera: H0 : H1 :

 ( µ1 − µ2 ,.µ2 − µ3 ,...., µ p −1 − µ p )´= (0,0,....,0)´= 0

µ j − µ j +1 ≠

para

a lg ún

v/s

j ∈{1,....., p −1}

Ahora, identifiquemos al vector aleatorio cuyo vector de medias pueda asociarse a una conjetura como la ya planteada: µ j − µ j +1 = µ j − µ j +1 + µ − µ = µ + µ j − ( µ + µ j +1 ) = E[ X ij ] − E[ X ij +1 ] = E[ X ij − X ij +1 ] , Yij = X ij − X ij +1 , i = 1,..., n; j = 1,..., p −1 . con lo cual, podemos definir  Pudiéndose disponer de una ma.a.(n) del vec.a. Y = (Y1 ,....., Y p −1 )´ Normal p-1 j = 1,..., p −1 . dimensional, cuyas componentes están dadas por: Y j = X j − X j +1 ,

68


Métodos Multivariantes

Dr. Luis Felipe Figueroa

De esta manera para el vec. a Y podemos docimar: H 0 : µ Y = 0 v / s H 1 : µ Y ≠ 0 ; como respuesta al problema de comparar las medias de p réplicas univariadas, procediendo a calcular: 2 y´=(Y1 ,...., Y p −1 ) = ( X 1 − X 2 ,....., X p −1 − X p ) , S=Sy , T y = ny´S −1 y Fy =

n − ( p −1) 2 Ty , ( n −1)( p −1)

que posee distribución F(p-1,n-p+1), lográndose la siguiente

región crítica para nuestra última conjetura:

Fy > F1−α ( p −1, n − p + 1) }. C={m.a.(n) del vec.a. X , tal que 3.7.3.2.- Dócimas para transformaciones lineales de medias

Ahora en términos mas generales, nos pueden interesar  comparaciones simultáneas emanadas de transformaciones lineales vectoriales del vector X aleatorio p dimensional, siendo un caso particular el recientemente abordado.   En estos términos, el caso anterior puede ser vito como de la forma : Y = B0 X , donde 1  0 B0 =    

−1 1

0 −1 ...........

0...........0   0...........0  ..............0   0........1 −1 

reescribiendo el referido problema de docimasia como:  H 0 : B0 µ = 0

 H 1 : B0 µ ≠ 0

v/s

Que en tal caso, así como para una matriz B arbitraria,  el problema de docimasia H 0 : Bµ = 0 de cálculos de la siguiente manera: y = B x = B ( X 1 ,...., X p )

,

 H 1 : Bµ ≠ 0 , puede seguir el procedimiento

v/s

S=Sy =B Sx B ,

2

T y = ny´S −1 y = n( Bx )´(BS x B´)−1 ( Bx ) = nx´B´(BS x B ´) −1 Bx n − ( p 0 − 1) 2 T y , con (n − 1)( p 0 − 1) concluyendo con la región crítica: F =

 C={m.a.(n) del vec.a. X , tal que

p0: número de líneas linealmente independientes de B,

F > F1−α ( p0 , n − p0 ) }.

Ejemplos

69


Métodos Multivariantes

Dr. Luis Felipe Figueroa

1.- A un grupo de 15 pacientes, se les ha sometido a tres dosis de medicamentos y se les ha registrado su capacidad de su asimilación en la sangre luego de suministrada cada dosis de medicamento. Con la siguiente es información: x1 = 6.699,

x 2 = 2.178,

x 3 = 2.558

Sy

−1

 0.6636 =   0.4462

0.4462   2.2885 

determinar si tal asimilación no está influenciada por tales medicamentos, así suministrados. Solución La información, así disponible puede modelarse mediante X ij εij , i =1,...,15; J =1,2,3 especificado en 3.7.3.1.

=

µ + µ j + ε ij , con

Por el planteamiento del problema, se nos solicita docimar H 0 : µ 1 = µ 2 = µ 3 v / s H 1 : µ j ≠ µ j´ para a lg ún j ≠ j´ = 1,2,3 Lo que es equivalente a:  H 0 : ( µ 1 − µ 2 ,.µ 2 − µ 3 )´= (0,0)´= 0 v / s H1 : µ j − µ j +1 ≠ para a lg ún j ∈ {1,2} Siendo

1 B0 =  0

−1 1

0  , − 1

= ( y1 , y 2 ) = B0 x = B0 ( x1 , x 2 , x3 )

,

= ( x1 − x 2 , x 2 − x3 ) = ( 2.699 − 2.178,2.178 − 2.558) = (0.521,−0.38)

y´ 2

T y = ny´S −1 y = n( Bx )´(BS x B´) −1 ( Bx )  0.6636 = 15 * (0.521,−0.38)´  0.4462 

F=

0.4462  0.521      = 5.0084 2.2885   − 0.38 

n − ( p 0 − 1) 15 − 2 2 Ty = 5.0084 = 2.325, (n − 1)( p 0 − 1) 14 * 2

p0 = 2

 F > F1−α ( p 0 , n − p 0 ) = F0.95 ( 2,13) = 3.8056 }. C={m.a.(n) del vec.a. X , tal que Concluimos, que no existe evidencia significativa (a un nivel del 5%), para descartar la similitud de las dosis suministradas. Por lo que no se recomienda, más de una dosis como necesaria para tal efecto. 2.- para el caso p=4, cuando consideremos la matriz B dad por:

0  1 −1 0   B = 0 0 1 −1  0 1 − 1/ 2 1/ 2  

µ1 − µ 2  µ1        Bµ = B  µ 2  =  µ3 − µ4   µ   µ − (µ + µ ) / 2  3 4  3  2 

conduce a poder docimar el caso: µ1 = µ 2 , µ 3 = µ 4 , µ 2 = ( µ 3 + µ 4 ) / 2 .

3.7.4.- Caso : k- muestras aleatorias normales multivariantes e independientes (k≥3). 70


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.7.4.1.- Dócimas para comparación de matrices de varianzas -covarianzas , o Test de homogeneidad para k poblaciones. Bajo el supuesto de normalidad, de k vectores aleatorios asociados a sus correspondientes poblaciones Normales, de donde las respectivas muestras aleatorias proceden. Nos proponemos un test de homogeneidad para las k matrices de varianzas covarianza, diseñado para determinar la similitud de las matrices de varianzas covarianzas

∑h

de

estas respectivas poblaciones; lo cual se plantea como:

H 0 : ∑ 1 = ∑ 2 = ...... = ∑ k

v / s H1 : ∑ h ≠ ∑ h´

para

a lg ún

h ≠ h´

La propuesta para la región crítica, considera la siguiente estadística, denominada T- de Box, basada en : k

k

h =1

h =1

M = ∑( nh −1) ln | S | −∑( nh −1) ln | S h | ;

G −1

  k 1 1 =1 − ∑ − k  h =1 nh −1 nh  ∑ h =1 

  2  2 p + 3 p −1  6( p +1)( k +1)  

k: número de poblaciones nh: tamaño muestral en la población h Sh: matriz de varianzas co-varinzas de la muestra procedente de la población h Ah Sh = , con Ah la matriz A de la sección 3.4; asociada a la muestra nh − 1 obtenida desde la población h S:

matriz de varianzas-covarianzas total muestreada k

S=

∑ (nh − 1)S h h =1 k

∑ h =1

(nh − 1)

k

=

∑A h =1

k

∑ h =1

h

(nh − 1)

Siendo T = MG −1 ; la que bajo H0, posee distribución asintótica: obteniéndose

χ 2  ( k −1) p ( p +1)  

2

;

  C =  m.a.(n1 ,..., nh ,...nk ) / T > χ 12−α  ( k −1) p ( p +1)   2   

La estadística de Box resulta ser adecuada si los tamaños muestrales en de cada población son mayores que 20 y además si el n° de variables y el número de poblaciones no sean superior a 5. Si p es igual a 1 entonces este test se reduce al “test de Homogeneidad de Bartlett para k muestras univariadas”

71


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.7.4.2.- Dócima para comparación de k medias de poblaciones normales multivariantes Análisis Multivariado de la Varianza-MANOVA La dócima que presentaremos se denomina Λ de Wilks, también conocida como dócima de Razón de verosimilitud. La cual es una generalización para k-poblaciones del test de Hotelling descrito para dimensión p, en la sección 3.7.2. La actual dócima analiza la conjetura de igualdad de medias entre k-poblaciones multivariantes (p-dimensionales), bajo el supuesto de normalidad e igualdad de matrices de varianzas covarianzas; de aquí la relevancia de la sección anterior para despejar dudas respecto de este último supuesto. Disponiendo de: m.a.(nh) independientes, procedentes de respectivas poblaciones p-variantes N ( µh , ∑), para h=1,…..,k; donde k≥2, docimemos:

H 0 : µ 1 = ..... = µ k

v / s H 1 : µ h ≠ µ h´

para

a lg ún

h ≠ h´

Este Análisis Multivariado de Varianza (MANOVA): utiliza la metodología del ANOVA con modificaciones que le permiten analizar el efecto producido por varios factores independientes sobre una o más variables dependientes categóricas. Caso p=1 Corresponde a un tema ya abordado ampliamente en el capítulo 2; ahora una alternativa de escritura de tal problema es considerar la estadística de la entonces ANOVA, la cual está en términos de sumas de cuadrados que son números reales y los correspondientes grados de libertad que por su parte también lo son. Lo que origina un número real pero de apariencia generalizable a una operatoria aplicable a casos de dimensión superior p, dando forma a la estadística Λ =|W|/|W+B|, de Wilks, (en términos de determinantes de números reales) donde: nh: k: W: B:

tamaño de muestra extraída en población o grupo h , h=1,...,k número de (grupos) poblaciones Suma de cuadrados (residual, no explicada o debido al azar) dentro de las poblaciones Suma de cuadrados (explicada) entre poblaciones.

k nh     W = ∑ ∑ ( xih − xh )( xih − xh )´, h =1 i =1

k

nh

B = ∑ ∑ ( xh − x ) ( xh − x )´ h =1 i =1

k

Con lo cual se puede construir la estadística

  F  k − 1, ∑ n h − k  , lograse la región crítica: h =1   k

72

T=

∑n h =1

h

−k

k −1

1 − Λ , que posee distribución Λ


Métodos Multivariantes

Dr. Luis Felipe Figueroa

  C = m.a.( n1 ,..., nh ,...nk ) / T > F1−α  k −1,∑k nh −k     h =1    ya que, los respectivos grados de libertad para las estadísticas del numerador y denominador corresponden a

k-1 y

N − k ; con

k

N = ∑ nh : número de observaciones. En el caso h =1

balanceado n h = n , para todo h, N = nk , quedando entonces los grados de libertad del denominador dados por : N − k = nk − k = k (n − 1) .

Caso p>1 (MODELO CON DOS FACTORES) La generalización inmediata del caso anterior, también para el caso balanceado y efectuando consideraciones análogas a las referidas en el capítulo 2; permite plantearnos el siguiente modelo explicativo (del diseño experimental) para la detección de efectos sobre la variable respuesta Y; los cuales pueden ser provenientes de entre los k tratamientos para al menos una dimensión de respuestas p e inclusive hasta la consideración de un efecto de interacción de ambas situaciones, sumado a ello un error aleatorio normal: X ijh = µ + α j +τ h +η jh + ε ijh i =1,..., n; j =1,..., p; h =1,..., k ; εih ∼ N (0, Σp ), ε jh ∼ N (0, Σk ), independientes.

Donde Yihj corresponde a la repuesta registrada en la j ésima componente de la i-ésima observación bajo el tratamiento h. Modelo que se diferencia del anterior por tener un efecto componente del vector aleatorio y otra de interacción jh en la fuente de variación. La tabla de análisis de varianza, ahora en términos de determinantes de las correspondientes matrices, denominada (del modelo conocido como) de diseño de dos factores incluyendo interacciones, sería la siguiente:

TABLA MANOVA FUENTE

g.l

SUMA DE CUADRADOS Son matrices f.c.def pos

Λdel CRITERIO DE WILKS

Λ1 =

W W + B1

(tratamientos)

Λ2 =

W W + B2

FACTOR 2

Λ3 =

W W + B3

FACTOR 1

73


Métodos Multivariantes

Dr. Luis Felipe Figueroa

(componente) ´

k −1

INTERA C-CIÓN

p −1

k _ _ _  _  B1 = pn∑ X h − x  X h − x      h =1

´

p

_ _ _  _  B2 = kn ∑ X j − x  X j − x    j =1  p

k _ _ _   B3 = ∑∑ X jh − X . h − X j .+ x  ( k −1)( p −1)  h =1 j =1  ´

_ _ _    X jh − X . h − X j .+ x   

ERROR

kp ( n −1)

n

h =1

kpn −1

TOTAL

´

_ _    X − X X − X h h     ∑ ih ih   i =1 

k

W =∑ k

SCT = ∑ h =1

´

_ _     X ih − x  X ih − x  ∑     i =1 n

(Referencia: Multivariate Analysis, Mardia, Kent and Bibby, Academic Press, Inc. 3 ª ed. 1982., pág. 350-353. ) Donde se aprecia que en el caso B=B1, entonces Λ= Λ1. Luego los correspondientes grados de libertad deben acompañarse en la estadística T de manera similar a la sección anterior para los respectivos valores Λt, en los correspondientes análisis de efectos tratamiento, replica (o componente) e interacción; t=1,2,3, para considerar la pertinente región crítica, con distribución F de grados (k-1,kp(n-1)),(p-1,kp(n-1)),((k-1)(p-1), kp(n-1)) respectivamente para los casos t=1,2,3. Ahora, para el caso balanceado, como por ejemplo el caso t=1 en el cual debemos concentrarnos; al deducir la distribución correspondiente a T bajo H o , para lo casos de “N° de Variables versus N° de grup/tratamientos” se obtienen las correspondientes estadísticas T según a continuación se indica:

{

C = m.a.(n1 ,..., nh ,...nk ) / T > F1−α ( t ( k −1),ms −v )

}

donde

p : número de variables o componentes del vector aleatorio k : número de tratamientos n: número de observaciones por tratamiento m = ( 2kn − p − k − 2) / 2 ,

[

s = (t 2 (k −1) 2 − 4) /(t 2 + (k −1) 2 − 5)

]

1/ 2

,

74

T =

ms − v 1 − Λ1 / s p ( k −1) Λ1 / s


Métodos Multivariantes

Dr. Luis Felipe Figueroa

v = (t (k −1) − 2) / 2

Que en los casos particulares que ahora mencionaremos, al deducir sus principales parámetros y grados de libertad obtenemos: grados de libertad dim.

trat.

m

s

v

p=1 p=2 p≥1 p≥1

k≥2 k≥2 k=2 k=3

(k(2n-1)-3)/2 (k(2n-1)-4)/2 (4(n-1)-p)/2 (6n-p-5)/2

1 2 1 2

(k-3)/2 k-2 (p-2)/2 p-1

numerad or k-1 2(k-1) p 2p

denominador k(n-1) 2(k((n-1)-1) 2n-p-1 2(3n-p-2)

Además en los casos extremos, la estadística (de razón de verosimilitud) T = −n ln

W W +B

,

bajo

H0 ~

χ 2 ( p ( k −1))

en términos asintóticos, para tamaños “n” de muestras grandes por tratamiento. Además en el ( p +k ) caso de muestras pequeñas, es válido el considerar “ r = n − 1 − 2 ” en lugar de n en la expresión de T, quedando bajo H0: W p +k  ( p +k)    T = − n −1 −  ln Λ = − n −1 −  ln 2  2  W +B  

~

χ 2 ( p ( k −1))

A las situaciones mencionadas en la tabla anterior para el caso no-homogéneo le corresponden extensiones naturales, tales como: N° de Variables N° de grupos o

Estadística

75

Distribución


Métodos Multivariantes

p =1

k ≥2

p =2

k ≥2

p ≥1

k =2

p ≥1

k =3

Dr. Luis Felipe Figueroa

 k   ∑nj − k  k 1−Λ  j =1    T = nj − k )  k −1  Λ  ~ F ( k −1, ∑ j =1         k    ∑nj − k −1  k 1− Λ  j =1     ~ F (2(k −1),2(∑nj − k −1) T =  k −1 Λ  j =1          k   ∑nj − p −1  k j =1 1 − Λ  ~ F ( p, nj − p −1) T =   ∑   p  Λ  j =1        k   ∑nj − p − 2  k 1− Λ  j =1    T = ~ F (2 p,2(∑nj − p − 2)     p Λ  j =1       

Ejemplo1: Consideremos la situación en que se realizan tres tratamientos para el asma (uno placebo y dos alternativos) en respectivos grupos compuestos por 5 sujetos cada uno. Registrándose 2 mediciones por sujeto una a la primera hora del medicamento y otra al día siguiente; obteniéndose los siguientes resultados:

Tratamiento1 Tratamiento2 Tratamiento3 (placebo) 2 7 4 4 5 6 1 6 4 5 8 6 3 8 5 6 6 7 4 9 6 7 7 8 5 10 6 8 9 8 Analicemos si es posible detectar diferencias significativas entre estos tratamientos. En nuestra notación X ijh = µ + α j +τ h +η jh + ε ijh i =1,...,5; j =1,...,2; h =1,...,3;

76

ya que n=5, p=2, k=3.


Métodos Multivariantes

Dr. Luis Felipe Figueroa

De la muestra se obtienen los sgtes. valores de medias en réplicas y tratamientos según se indica: X

jh

j=1 j=2

h= 1 3 8

h=2

h=3

x

5 6

7 7

5 7 ´

3

5

W =∑

∑ X

h =1

i =1

ih

´

_ _      X 1h    X 1h       X − X −  ih  ∑   ih  X   i =1   X 2 h    2h    

  − X h  X ih − X h  = ∑   h =1 _

_

3

5

´ ´ ´            3   3    5   5    7    7   = ∑ X ih −  8    X ih −  8    +  X ih −  6    X ih −  6    +  X ih −  7    X ih −  7    i =1                                 5

´

´

´

          2  3  2  3  1  3 1  3  3  3 3  3                         =  − − + − − + − −                      +  7  8  7  8   6  8  6  8  8  8 8  8           ´

´

´

          4  3  4  3   5  3  5  3  9   7 9   7     −       −    +     −       −    +..... +     −       −    +   9  8  9  8  10  8 10  8  8   7 8   7          

 ( 2 − 3) 2 =  (2 − 3)(7 − 8) 

 (9 − 7) 2 (2 − 3)(7 − 8)    + ...... +  (9 − 7)(8 − 7) (7 − 8) 2   

´

(9 − 7)(8 − 7)   24   (8 − 7) 2   19

19   24  

Debemos considerar el caso B=B1; SCT=W+B: k

SCT = ∑ h =1

= 

´

k _ _     X ih − x  X ih − x  = ∑ ∑   i =1  h =1 n

(2 − 5) 2

 ( 2 − 5)(7 − 7)

W =

24 19

entonces

´  5   5   X −        X − ∑  ih 7  ih 7   i =1      n

 (9 − 5) 2 (2 − 5)(7 − 7)    + ...... +  (9 − 5)(8 − 7) (7 − 7 ) 2   

19 = 24 * 24 −19 *19 = 215; 24

W +B =

64 9

´

(9 − 5)(8 − 7)   64  =  (8 − 7) 2   9

9 = 64 * 34 −9 * 9 = 2050 34

Λ = 215 / 2050 = 0.1026

Como los parámetros son: p = 2, k = 3, s = 2, m = 11.5 , v = 1; T=

ms − v 1 − Λ1 / s 11.5 * 2 −1 = p ( k −1) Λ1 / s 2(3 −1)

1 − 0.1026 =5.5*2.12968=11.67 0.1026

considerando 2,82 como el valor de referencia un nivel del 5% de significancia ya que F0.95(4,22)=2,82; se concluye que existe diferencia significativa entre tratamientos. 77

9  34  


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Ejemplo2: Una ISAPRE (dentro de una cierta limitante) reembolsa los costos de hospitalización de enfermería, alimentación, medicamentos, tipo de salas de recuperación sin distingo. Se desea disponer de antecedentes para tener opinión válida respecto de si tales costos difieren del tipo de institución de salud en que se llevan a efecto las hospitalizaciones. Se consideraron para este estudio 3 muestras de instituciones, una de cada tipo: Clínica, Fundación Asistencial y Hospital del SNS. Costos considerados, según las variables: X1: valor h/h de cuidados por enfermería X2: menú para alimentación X3: facturación de medicamentos X4: valor sala de recuperación Con los datos de medias y matrices de var-cov de las respuestas intra-instituciones que a continuación se menciona , dar respuesta a la interrogante planteada: p=4, k=3:

2.06 2.167 2.73    0.48 0.569 0.521 n1= 271, X1=  . n2= 138, X2=  , n3=107, X3=   0.82 0.124 0.125    0.36 0.918 0.38    78


Métodos Multivariantes  0.291 −0.001 S1 =   0.002   0.010 0.261 0.030 S3 =  0.003  0.018

0.011 0.000 0.003

Dr. Luis Felipe Figueroa

0.001 0.000

 0.561    , S 2 = 0.011  0.001   0.010 0.037

0.004 0.001

  ;   0.013

0.017 −0.000 0.006

0.025 0.004 0.007

0.005 0.002

     0.019

Entonces podemos calcular: ´ ´ n n k 3 _ _ _ _       W = ∑ ∑  X ih − X h  X ih − X h  = ∑ ' ∑  X ih − X h  X ih − X h      h =1 i =1  s =1 i =1  j

j

´

n

n3 _ _ 1    n2 = ∑  X i1 − X 1  X i1 − X 1  +∑ ( X i 2 − X 2 )( X i 2 − X 2 )' + ∑ ( X i 3 − X 3 )( X i 3 − X 3 )'   i =1 i =1  i =1 2 2 2 = (n1 − 1) S1 + (n2 − 1) S 2 + (n3 − 1) S 3

182.962  4.408 =  1.695   9.581

W

8.2 0.633 2.428

1.484 0.394

  ;   60539

´

k _ _ _  _  B = B1 = ∑ nh  X h − x  X h − x  ;    h =1

 2.186   n X ∑h= 1 h h n1X1 + n2X 2 + n3X3  0.519 X= k = =  n1 + n2 + n3 0.102   ∑h= 1 nh  0.380    k

3.475 1.111 1.225 B = 0.821 0.453  0.584 0.610

0.235 0.230

En este caso corresponde 3

∑n l =1

l

  ;   0.304

entonces

Λ = 0.7714

 k   ∑nj − p −2  k 1 − Λ j =1    T = ~ F ( 2 p,2(∑nj − p −2)     p Λ  j =1       

=271 + 138 + 107 = 516;

T =

516 − 4 − 2  1 − Λ    = 17.67 4 Λ  

79


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Ya que estamos ante un tamaño de muestra que puede considerarse grande, ocupemos la expresión limite ; aproximando

F (8,2(510)) = F (2,1020) ≈ χ 2 ( p (k − 1)) = χ 2 (8),

χ 0.95 (0.01) = 15.507 2

Como 17.67 > 15.507, se puede concluir que hay razones para advertir que los costos difieren entre instituciones.

CAPÍTULO 4 COMPONENTES PRINCIPALES Este es uno de los métodos de análisis mas difundidos que permite la estructuración de un conjunto de datos multivariados obtenidos de una población cuya distribución de probabilidades no necesita ser conocida. Se trata de una técnica matemática, que establece un procedimiento, que al ser aplicada no requiere un modelo estadístico para explicar la estructura probabilística de las componentes aleatorias que intervienen. Los objetivos más importantes de todo análisis por componentes principales son: • Generar nuevas variables que puedan expresar la información contenida en el conjunto original de datos. • Reducir la cantidad de variables (dimensionalidad) del problema que se esta estudiando, como paso previo para futuros análisis o para interpretar la base de datos existente, señalando cuando es posible el tipo o cualidades de las agrupaciones de variables que se originan. • Eliminar, cuando sea posible, algunas de las variables originales si ellas aportan poca información. Las nuevas variables generadas se denominan componentes principales y poseen algunas características, tales como el que ser no correlacionadas y en particular bajo el supuesto de normalidad son independientes. Esto significa que si las variables originales no están correlacionadas, el análisis por componentes principales en este aspecto no ofrece ventaja alguna. Otra característica es que se logran nuevas variables, pero con un particular ordenamiento, en torno a su capacidad de almacenamiento como explicación de la variabilidad (cantidad de información) contenida en las variables originales. Pero una de las dificultades respecto de la clara interpretación y sentido de a que mediciones corresponden las variables originales, es que generalmente con las nuevas variables se pierde el significado, sentido o capacidad de interpretación de las variables resultantes por si solas. 80


Métodos Multivariantes

Dr. Luis Felipe Figueroa

En la primera sección de este capítulo se explica, como se generan los componentes principales a fin de satisfacer el primero de los objetivos que se señalaran a continuación. En la siguiente sección se expondrá la interpretación de los componentes principales encontrados y se indicara la forma de alcanzar los dos últimos objetivos.

81


Métodos Multivariantes

Dr. Luis Felipe Figueroa

4.1.- Formalización de los propósitos de las componentes principales

Al pretender que las nuevas variables que hemos denominado componentes principales satisfagan: • •

no estar correlacionados y si además puede suponerse multinormalidad en los datos originales, son independientes cada una de ellas (componentes principales) contemple la mayor cantidad de información ( o variabilidad posible) de la variabilidad residual contenida en los datos (base de datos) originales.

Podemos plantearnos en los siguientes términos: Al registraro estudiar un conjunto de n individuos (u observaciones) en términos de un vector aleatorio X compuesto por p-variables, podemos ir más allá del problema de ecuaciones lineales (combinaciones lineales) en que siempre es posible resolver de manera única un sistema lineal (no singular) de tantas ecuaciones como incógnitas para así encontrar nuevas variables denominadas Y j , j=1,...,p que sean combinaciones lineales de las variables originales X j , j=1,...,p que componen X; e imponer a este sistema en su conjunto ciertas condiciones que permitan satisfacer los objetivos del análisis por componentes principales, respecto de la variabilidad explicada por cada una de las variables o componentes encontradas. Este planteamiento implica, encontrar (p.p=p2) constantes tales que: p   Y j = ∑vhj ⋅ X h = V j´ X

V j´ =(v1 j , v2 j ,..., vhj ,...v pj ) j = 1,...,p

h = 1,...,p; con

h =1

Efectuemos entonces las consideraciones formales al respecto:  ′ Dispongamos de un vector X =( X 1,........, X p ) p-dimensional del cual consideramos una 

m.a(n) : X 1,........, X n . Poblaciones en que lo preocupante es la cantidad de parámetros involucrados: Parámetros Cantidad

Medias p

Varianzas Covarianzas Total p ((p-1)p)/2 (p(3+p))/2

82


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Ejemplo:

Casos en términos de la dimensión p Número de parámetros Medias Varianzas Covarianza s Total

p=4 4 4

p=10 10 10

p=30 30 30

6 14

45 65

435 495

Nuestro objetivo es reducir la cantidad p de variables involucradas, a un numero q, en lo posible pequeño, de nuevas variables no correlacionadas. Para tal efecto se pretenderá determinar combinaciones lineales de las variables originales que resulten ser ortogonales entre si y altamente correlacionadas con las variables originales; de tal manera que aquel numero reducido q de combinaciones a determinar, absorba casi toda la información contenida en las variables originales . p

Nuestras combinaciones lineales a determinar en el sistema: Y j = ∑vhj ⋅ X j

, j= 1,...,p

j =1

tendrán la restricción que

Y1 ,  , Y p

son altamente correlacionadas con X 1 ,..., X p .

Recordemos que estamos en un proceso de considerar una nueva base  de datos estrechamente ligada a la original de n observaciones p dimensionales del vector X = ( X 1 ,..., X j ,... X p ) . Entonces debemos obtener p vectores Y j , cada uno de dimensión n ; que constituyen las  componentes del nuevo vector aleatorio Y =(Y1 ,..., Y j ,..., Y p ) con sus n observaciones. Como veremos mas adelante tales combinaciones lineales están estrechamente relacionadas con los valores característicos (vac) y vectores característicos (vec) de la matriz S=SX de  ′ varianzas covarianza muestral del vector aleatorio X =( X 1,........, X p ) , que al estandarizar los datos, logramos R la matriz de sus correlaciones muéstrales. En términos de vac y vec , podemos reescribir la matriz S de la siguiente manera.

S = VΛV ′ , con

Λ = diag ( λ 1 ,..., λ p ) = : Λ pxp ,

V = (vhj ) = (V1 ,....,V p ) =: V pxp , con λj

vac. asociado al vec. V j = (v1 j ,..., v pj )´ de p líneas, j=1,…,p

83


Métodos Multivariantes

Dr. Luis Felipe Figueroa

 Al estandarizar cada variable del vector aleatorio p-dimensional X obtendremos la ´ estandarización Z tal que Z = ( zij ) de X = ( xij ) , cuyas componentes z ij son las respectivas

estandarizaciones de los respectivos elementos de las columnas de la matriz X; es decir

z ij =

xij − x j

(

1 n ∑ xij − x j n i =1

Lo que origina:

)

, i = 1,..., n; j = 1,..., p 2

 _   z1  _    ∴z = : = 0 _  zp   

_

⇒ zj = 0

(

,

)

Z ´ = ( zij ) = ( Z1 ,..., Z p )´ , cuyas lineas Z h = z1h ,..., z nh , h = 1,..., p ; columnas zi = ( zi1 ,...., zip )´,i = 1,..., n .

Entonces en nuestra propósito de determinar combinaciones lineales de las variables originales , podemos considerar la siguiente opción:  Y px1 = (Y1 ,.., Y j ,..., Y p )´=Y

 =V ´Z =V ´(Z1 ,..., Z p ) =V ´ pxp ⋅Z px1 ,

que a partir del momento en que se dispone de la pertinente m.a.(n, ), Y pasa a ser una matriz de n líneas y p columnas Yj,, j=1,…,p , donde    Y j = ( y1 j ,..., yij ,..., y nj )´= (V j´ z1 ,..., V j´ zi ,.., V j´ zn ) = ((v j1 ,..., v jp ) zi ) i =1,...,n , j = 1,..., p p  yij = V j´ zi = (v j1 ,..., v jp ) zi = ∑v jh z ih =

; i = 1,..., n; j = 1,..., p

h =1

Por lo cual, debido a la estandarización estructural adoptada, la matriz de varianzas  covarianzas asociada a Y es:

SY = SV ´Z = V ′S ZV = V ′RZV = V ′R XV = V ´RV

.

  Buscar en IRp, una transformación Y en términos de Z , cuyos elementos no sean correlacionados, equivale a determinar una matriz que diagonalice SY . Problema que tiene infinitas soluciones, motivo por el cual nos restringiremos a que las componentes del vector  Y posean varianza máxima, elección de máximos que conducirá a que las primeras componentes absorban la mayor parte de la variabilidad. Lo cual completa los propósitos expuestos al inicio de esta sección.

4.2.- Obtención de las Componentes 4.2.1.- Primera Componentes Principal (PC1) 84


Métodos Multivariantes

Dr. Luis Felipe Figueroa

p     Y1 = ( y11 ,..., y1n )´= V1 ´Z ⇒ yi1 = ∑ v1h ⋅ zi = V1 ´zi , , i = 1,..., n h =1  con V1 : la primera columna de la matriz V, que debe permitirnos disponer de varianza máxima en Y1 respecto de las restantes varianzas correspondientes a las variables Yj, j=1, …,p.

A continuación calculemos esa varianza y veamos bajo que condiciones es máxima: n

_

2 Varianza (Y1 ) = ∑ ( yi1 − Y 1 ) / n

n

= ∑ yi21 / n,

=

i =1

ya

j =1

n

n

i =1

i =1

_

_

que Y 1 = v1´ z = 0 , entonces

    Varianza (Y1 ) = ∑ (V1 ´zi ) 2 / n = ∑ (V1 ´zi )(V1 ´zi )´/ n , ya que V1 ´zi ∈IR n

  ´  ´ n  ´  ´  = ∑V1 ´z i z i V1 / n = V1 (∑z i z i / n)V1 = V1 RV1 i =1

i =1

´ De donde se desprende que: Varianza (Y j ) =V j RV j

; ∀j =1,  , p

En consecuencia la varianza de cada componente principal tiene la misma forma y lo que caracteriza particularmente a cada una de estas componentes es el hecho de que tenga varianza máxima n términos recursivos. Sosteniendo nuestro propósito de lograr única solución a este problema se restringirá la  búsqueda de vectores V j canónicos, es decir , los que se sitúen en el casquete de la esfera unitaria. Nuestro problema en su primera etapa que en la pretendemos encontrar la CP1; se puede rescribir de la siguiente manera:     v ´ Rv sujeto a v´ v =1 Determinar v = V1 tal que: V1´ RV1 = Varianza (Y1 ) = máx  v

   v ´ Rv máx    es decir, nuestro problema de optimización es, determinar v = V1 tal que:  v´    v v =1

Por multiplicadores de Lagrange, construimos la función φ tal que ∂ϕ ϕ(v, λ) =v´ Rv −λ(v´v −1) ⇒  (v, λ) = 2 Rv − 2λv

∂v ∂ϕ       = 0 ⇔ 0 = 2 Rv − 2λv = 2( Rv − λv ) = 2( R − λI p )v , ∂v ∂ϕ   ∴  ⇔ 0 = ( R − λI p )v ⇔ RV = λv ∂v

  Lo que establece que v es vec. de R y λ es el respectivo vac de R asociado a v .

Entonces:

     máx v ´ Rv = máx v´λv = máx λv´v = máx λ = máx λ =: λ1  v

v −vecR

v −vecR

v −vecR

85

λ −vacR


Métodos Multivariantes

Dr. Luis Felipe Figueroa

  En consecuencia: v = V1 es el vec. de R asociado a λ 1 , el máximo vac de R Así nuestro vector origina desde las estandarización de

de n componentes asociado a la primera componente principal PC1, se    n–observaciones de la variable aleatoria Y1 =V1´ Z , con Z la  X.

4.2.2.- Segunda Componentes Principal   Adicionalmente, en la determinación de esta componente Y2 = V2´ Z , y de las siguientes se debe tener presente que uno de los principales propósitos de estos componentes es que no sean correlacionadas entre si y altamente correlacionadas con las columnas de la matriz X .

Entonces deseamos que Y2 no este correlacionada con Y1 y que posea varianza máxima; donde   el vector v = V2 a determinar debe pertenecer al casquete de la esfera unitaria . La condición no correlacionada se puede representar mediante: n

_

_

0 = ∑( yi 2 − Y 2 )( yi1 − Y 1 ) / n

=

i =1

n

n

∑ yi 2 yi1 / n

= ∑ yi 2 yi´1 / n =

j =1

j =1

n

n

n

i =1

i =1

i =1

            = ∑(V2 ´zi )(V1 ´zi )´/ n = ∑V2 ´zi zi´V1 / n = V2´ (∑ zi zi´ / n)V1 = V2´ RV1

∴ Y1 , Y2 no correlacionados ⇔

  V2´ RV1 =0

      V2´ RV1 =V2´λ1V1 = λ1V2´V1 Además:         0 = V2´ RV1 = λ1V2´V1 ⇔ V2´V1 = 0 ⇔ V2 ⊥ V1   Así, podemos resumir que :Y1 , Y2 no correlacionados ⇔ V2 ⊥V1

,

entonces

Consecuentemente, nuestro problema se puede representar mediante, la determinación de   v = V2 tal que: max imice(v´Rv)    v ´ RV1 = 0    v ´ v =1  Procediendo de manera similar al caso anterior, por multiplicadores de Lagrange, construimos la función φ tal que ∂ϕ ϕ(v, α, β) = v´ Rv −αv´RV1 − β(v´v −1) ⇒  (v, λ) = 2 Rv − αRV1 − 2 βv

∂ϕ   0 =  (v,α , β ) = 2 Rv − α RV1 − 2β v ∂v

∂v

V1´ ⋅

    0 = V1´ ( 2 Rv − αRV1 − 2 βv ) = 2V1´ Rv − αV1´ RV1 − 2 βV1´v = −αV1´ RV1 = −αV (Y1 ), ∂ϕ  ⇔α =0 Así: 0 =  (v , α, β ) ⇔0 =α V (Y1 ) ∂v

86

V (Y1 ) > 0


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Además: ∂ϕ 

       0 =  (v ,α, β ) = 2 Rv −αRV1 − 2 β v = 2 Rv − 2 β v = 2 ⋅ ( Rv − βv ) = 2( R −β I p )v ∂v

∴ β = λ2

,

  el vac de R asociado al vec. v = V2 .

  Además en la expresión: 0 = ( R −λ2 I p )V2 , al pre multiplicar por V2 ´ , apreciamos:             0 =V2 ´(R −λ 2 I p )V2 =V2 ´RV2 −λ 2V2 ´V2 = V2 ´RV2 −λ2 ⇔ V2 ´RV2 =λ2 ⇔V (Y2 ) = V2 ´RV2 =λ2 Valor máximo respecto de las p-1 varianzas de las restantes componentes; lo que permite  decir: V2 es un vector característico de R asociado a λ2 , el segundo mayor vac de R, ya que λ2 = V (Y2 ) .

De esta manera se prosigue para las restantes componentes principales lográndose: Var(Y1 )=λ1>λ2>λ3>.......>λP=Var(Yp) Con estos valores así determinados podemos decir que R = VΛV ′ , donde:

λ 0  1 Λ = diag (λ 1 , λ 2 ,  , λ p ) =  0   0 0 

0  0   λ p 

V= Matriz de vec de R (canónicos) asociadas a las respectivas componentes de Λ. Además:

R = VLV ′ / V ′⋅ ⇔ V ′R = V ′VΛV ′ ⇔ V ′RV = Λ

La suma de los elementos de la diagonal de la matriz Λ: p p  p  ∑ Yj  = λ = Varianza ( Y ) = Varianza ∑ ∑ j λTotal j =1 j j=1    j =1  Corresponde a la Varianza Total de las componentes principales

Entonces él número de componentes principales (q) a considerar queda determinada por el porcentaje del valor de λtotal capturado por las primeras q componentes.

COMENTARIOS:

1) Si los elementos de las observaciones Z, es decir, Zi inicialmente estuvieran no correlacionadas , entonces el análisis de componentes principales deja de ser de interés . El problema entonces es determinar si ocurre esta situación . En tal caso la matriz de correlaciones poblacional es la identidad y por ende su determinante es igual a 1 . Bartlett desarrollo una docima para analizar tal conjetura. 87


Métodos Multivariantes

Dr. Luis Felipe Figueroa

H0 : R =1

H1 : R ≠ 1

vs

La estadística base es : 2p −5  2 T =  ( n − 1) −  ln R ∼ χ ( p ( p −1) / 2) 6  

C = {m.a.(n) / T > χ12−α ( p( p − 1) / 2)}

2) Identificación de q: p p Una vez obtenidos los vac y vec respectivos: {λj } j =1 , {V j } j =1

p

p

q

p

j =1

j =1

j =1

j =q +1

asociados a R ,

~ ˆ +R R =VLV ′ = ∑ λjV jV j´ = ∑ λjV jV j´ = ∑ λjV jV j ´+ ∑ λjV jV j´ = R ~ R = Matriz

de pxp residual de correlaciones

Para identificar q, cuando se dispone de ma.a.(n) , n pequeño; podemos fijarnos en R , el determinante de la matriz R y proceder de la siguiente manera : H 0 : R =1

vs

H1 : R ≠1

Seleccionaremos el numero q como el primer valor q para el cual no se rechaza HO . 2 p +5 2   T = ( n −1) − − q Ln(W ) 6 3   R

W = p

p   p −∑  i =1 i p −q  

∏λ i =1

  i    

λ

p −q

en seguida se procede como en el punto anterior.

CAPÍTULO 5 88


Métodos Multivariantes

Dr. Luis Felipe Figueroa

ANÁLISIS DE CONGLOMERADOS

En esta sección se expone la metodología para proceder sobre una base o colección de datos de tamaño n, constituida por objetos caracterizados por p-variables o características registradas en cada uno de ellos, para originar agrupaciones a partir del comportamiento de esta base de datos según lo registrado en las señaladas variables o características. Tal tipo de agrupaciones de elementos se pretende de forma tal que, por un lado, los objetos pertenecientes a un mismo grupo sean muy semejantes entre sí (Homogéneos), y, por otro, que los objetos pertenecientes a grupos diferentes tengan comportamientos distintos respecto a las variables analizadas (Heterogéneos). Para tal propósito, son varios los aspectos a considerar: -El Número de datos disponible: En algunos casos, el número n de datos considerado, puede ser el resultado de una muestra o el tamaño poblacional en estudio; en cuyo caso las interpretaciones de las agrupaciones resultantes se deberán efectuar por procedimientos de inferencia o de descripción respectivamente. -Elección de variables: A diferencia de otras áreas que tienden utilizar a un número muy grande de descriptores (características o variables) , en este caso, uno de los principales propósitos es también el minimizar este número preservando la representación de la información -Qué agrupar: Inicialmente se plantea el problema de realizar agrupaciones (conglomerados o clusters) de unidades de observaciones, pero también puede ser de interés según el tipo de estudio el agrupar variables o combinar ambos intereses. -Variables homogéneas: En la búsqueda de similitudes, es conveniente construir índices de similitud, cuya elaboración está en estrecha dependencia con las escalas de medición utilizadas. Para abstraerse del tipo y variedad de escalas que pueden ser utilizadas entre las respectivas características así registradas y establecer un mínimo de uniformidad en tal registro, se sugiere proceder a una estandarización sistemática de cada una de las variables según los datos disponibles. -Criterio de agrupación:

89


Métodos Multivariantes

Dr. Luis Felipe Figueroa

En el criterio que se adopte, se encuentra implícita una definición previa de que es lo que queremos obtener como conglomerados: similitudes o disimilitudes en algún aspecto que puedan ser procesadas algebraicamente. -Medida de similitud: El formar conglomerados, requiere de una noción de distancia entre unidades (u objetos) que conformen la base de datos en el sentido utilizado. En el caso en que los objetos considerados sean las variables se requiere de una medida de asociación para la consideración de “similitudes”. Además la elección de una medida de similitud combinada con la elección del criterio de formación de los conglomerados puede aportar a originar distintos resultados. -Procedimientos: Cada procedimiento de agrupación contempla una particular estrategia haciendo uso de los recursos anteriores, para la obtención de agrupaciones. Entre los mas utilizados se encuentran los procedimientos de tipo: gráfico, jerárquico o no jerárquico -Algoritmo: Corresponde al recurso o método que se utiliza para formar un conjunto de conglomerados, una vez resueltas las consideraciones anteriormente mencionadas. Los métodos mas frecuentemente utilizados son de tipo aglomerativos o segregativos. Los métodos aglomerativos comienzan con n conglomerados de un objeto cada uno. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los 2 grupos más similares o menos disimilares. El algoritmo continúa hasta lograr un conglomerado conteniendo todos los elementos. Los métodos segregativos o no aglomerativos, también llamados fragmentarios o divisorios; comienzan con 1 conglomerado que engloba a todos los elementos y en cada paso del algoritmo se desprende el objeto o grupo más heterogéneo. El algoritmo finaliza con n conglomerados de un elemento cada uno. Para determinar qué grupos se unen o dividen se utiliza una función objetivo o criterio que, en el caso de los métodos aglomerativos recibe el nombre de enlace.

-Número de conglomerados: Algunos procedimientos estudian configuraciones conteniendo de 1 a n conglomerados y otros mediante un tiempo de parada del algoritmo dado por el grado de discrepancia o similitud que se pretenda. -Interpretación de resultados: La utitilización de conglomerados puede variar ostensiblemente, desde el considerarse herramientas de estadística descriptiva mostrando grupos bien definidos hasta su utilización para validación de hipótesis.

90


Métodos Multivariantes

Dr. Luis Felipe Figueroa

De entre estos aspectos, aquellos que son objetivos de considerar en forma estructurada par un planteamiento estratégico que oriente nuestro proceder, nos abocaremos a los tipos de procedimientos y distancias mas usada a que se les vincula, así como los criterios de agrupación de uso frecuente, su representación gráfica “dendograma” e interpretación de la solución que nos proporcione esta metodología y la estructura genérica de un algoritmo par tal propósito. 5.1.- Procedimientos Gráficos de agrupación Considerando los diversos tipos de gráficos abordados en el Capítulo 1, se puede representar información multivariante mediante objetos particularmente adecuados y en seguida buscando semejanzas entre ellos, es posible detectar conglomerados de manera conveniente. Tarea que no deja de ser extenuante ante un gran número de objetos a considerar. Por tal motivo, este procedimiento generalmente es aplicable en estudios que contemplan una cantidad de objetos que permite esta acuciosidad de reconocer visualmente las semejanzas gráficas entre objetos de tal manera representados. 5.2.- Procedimientos jerárquicos Este tipo de procedimientos supone una estructura de árbol entre conglomerados.

Para su aplicación se requiere de una matriz D de distancias o similitudes entre los elementos de la muestra, para construir jerarquías basadas en las distancias entre ellos. Generalmente es usada la distancia euclidiana o una variante basada en este tipo de distancia. Lo que incorpora la concepción y forma de calcular un tipo particular de métrica originada mediante la especificación de la distancia entre objetos que se utilice; concepto que tiene alcances mayores por la consideración matemática de la topología o forma en que se estructura el espacio como consideración de lo cercano o lejano entre objetos. En la mayoría de las ocasiones es recomendable estandarizar las variables, para así tenerlas a todas con un peso semejante, e independencia de su variabilidad original, pero hay que tener en cuenta que esto no siempre puede ser adecuado. Luego se procede mediante un método aglomerativo o bien segregativo según sea el caso. Las etapas de uno de estos métodos por ejemplo el aglomerativo que entre ellos se diferencia sólo la forma en que se considera la similitud de objetos a través del particular tipo de distancia entre grupos que se utilice son las siguientes: 1.

Comenzar con tantas clases como elementos, n. Las distancias entre las clases son las distancias entre los elementos originales. 2. Seleccionar los elementos más próximos en la matriz de distancias y formar con ellos una clase.

91


Métodos Multivariantes

Dr. Luis Felipe Figueroa

3.

Sustituir los dos elementos utilizados en 2. para definir la clase por un nuevo elemento que represente la clase construida. Las distancias entre este nuevo elemento y los anteriores se calculan con uno de los criterios que se verán a continuación. 4. Volver a 2. y repetir 2. y 3. hasta que tengamos todos los elementos agrupados en una única clase. 5.2.1.-Medidas de similitud La matriz D a que nos hemos referido es de la forma D=(dij)i,j=1,…,n donde dij representa el valor de la medida de similitud entre los objetos i , j que se ha utilizado. Recordando que tales objetos son lo que según deseamos estudiar en la población: elementos o bien la(s) característica(s) de los elementos de la población. Para el caso en que consideremos como objetos los elementos de la población, los cuales están caracterizados por p-componentes o características al menos de tipo intervalar, esto es un objeto de la forma: X i = ( X i1 ,..., X ip )´, i =1,..., n; a continuación se presentan las medidas de similitud más utilizadas: Distancia Euclideana: d ij = X i −X

j

=

X i −X j ; X i −X

j

,

la raíz del producto escalar usual en IRp. Lo que se

reduce a calcular: d ij =

(X

i

− X j )´( X i − X j ) =

∑(X p

h =1

ih

− X jh )

2

Distancia Euclideana Ponderada: d ij =

(X

i

− X j )´( diag (V ) )

−1

(X

i

− X j) =

∑(X p

h =1

− X jh ) / shh , donde V=(shh´) es la matriz 2

ih

de varianzas co-varianzas del vector aleatorio X de dimensión p que se ha observado. Tal distancia así calculada corresponde a la distancia euclideana entre nuevas observaciones, construidas en base a la originales, pero alteradas al dividir cada componente por su respectiva desviación estándar. Distancia de Mahalanobis d ij =

(X

i

− X j )´V −1 ( X i − X

j

)

Distancia de Minkowsky: 1/ q

 p q d ij =  ∑ ( X ih − X jh )   h=1  euclideana.

,

q>0

entero . Que en el caso q=2 corresponde a la distancia

5.2.2.-Criterios de agrupación 92


Métodos Multivariantes

Dr. Luis Felipe Figueroa

5.2.2.1.- Criterios basados en distancias Corresponde a este tipo de criterios, el establecer la manera en que se formarán los conglomerados. La base es disponer de un criterio particular de distancias entre grupos, vinculado a la forma de construcción de tales agrupaciones. La distancia entre los cluster Ci y Ck la anotaremos d(i,k), que nos indicará el valor de la distancia entre ellos según el criterio de agrupación que se considere. Siendo lLa forma habitual de agrupación en términos de la distancia mínima entre grupos que establece el criterio de agrupación que se asuma. Distancia entre vecinos más cercanos Permite establecer un enlace (el mas cercano), mediante una distancia que refleja lo efectivamente cercano en el sentido convencional, que evalúa como la distancia entre grupos cuyos objetos sean los más próximos (mediante la efectiva similitud entre objetos más semejantes. Una vez calculadas todas las distancias entre todos los elementos del cluster C i con los del cluster Ck; este criterio, establece como la distancia entre cluster como la menor de las distancias entre todos los elementos de Ci con Ck:

Cluster

Cluster

Ci

Ck

d (i, j ) = mín dα ,β = mín α ,β

α ,β

{d

xα , xβ

xα ∈ Ci , xβ ∈ C j

,

}

Distancia entre vecinos más lejanos Establece un enlace (el más lejano), mediante una distancia que mide la proximidad entre dos grupos calculando la distancia entre sus objetos más lejanos como similitud; siendo la que en realidad se establece entre grupos de objetos efectivamente menos semejantes. Calculadas todas las distancias entre todos los elementos del cluster C i con los del cluster Ck; este criterio, establece como la distancia entre cluster como la mayor de las distancias entre todos los elementos de Ci con Ck: Cluster Ck

Cluster Ci

d (i, j ) = máx dα ,β = máx α ,β

α ,β

{d

xα , xβ

,

xα ∈ Ci , xβ ∈ C j

}

Distancia Promedio entre Grupos Este criterio permite configurar enlaces (medio entre grupos), midiendo la proximidad entre dos grupos; calculada como la media de las distancias entre cada objeto de un grupo con cada uno del otro grupo, lo que corresponde a la media de las similitudes de los objetos entre ambos grupos: xα ∈ Ci , xβ ∈ C j d (i, j ) = dα, β = promedio del conjunto d x , x , α β

{

}

93


Métodos Multivariantes

=

Dr. Luis Felipe Figueroa

1 d xα ,xβ ∑ ∑ (# Ci )(# C j ) xα ∈ Ci xβ ∈ C j

Distancia Promedio intra Grupos Este particular criterio establece enlaces (medio intra grupos) midiendo la proximidad entre agrupaciones como el promedio de las similitudes de la reunión de sus elementos: d (i, j ) =promedio del conjunto

{d

xα , xβ

,

}

xα , xβ ∈Ci ∪ C j =

1 ∑d x , x  n1 + n2  xα , xβ ∈Ci ∪C αj β    2 

Distancia entre centroides Se origina al definir la distancia entre grupos, como la distancia entre los respectivos centroides, considerados estos como la media de cada grupo. d (i, j ) = d xα , x β ; xα media en Ci , xβ media en C j Se establece que en cada nuevo grupo que se constituya, el centroide respectivo según se establezca puede ser la media de los elementos que ahora lo componen, o bien el promedio de las medias de los grupos (mediana en caso de que sea fusión de dos grupos) que lo originan. 5.2.2.2.- Criterios no basados en distancias Existe también un tipo de procedimientos que se establece en base a una concepción diferente de similitud que no precisamente corresponden a aquellas establecidas por algún tipo de medida o distancias, es decir no se dispone de una matriz de distancias entre elementos; pero sin embargo, estas medidas de similitudes nos señalan de una manera específica un cierto tipo de proximidad entre objetos; y por ello que también disponen de criterios muy particulares para establecerse como procedimientos, como es el siguiente caso de procedimiento aglomerativo jerárquico. Método de Ward En cierto modo, este método que establece un criterio qu a continuación se expone, es conocido con el nombre del mismo autor y lo que si involucra es una expresión en términos distancias al cuadrado entre objetos y nuevos objetos como lo son los centroides (específicamente las medias), que se consideran como representantes de los grupos que se vayan obteniendo. Criterio de Agrupación de Ward Este criterio se basa en que al incorporar xα , un nuevo elemento al grupo Cr , esto se efectúa minimizando el incremento de W que se ocasione en la suma de cuadrados de las distancias (euclideanas) entre cada elemento y la media del grupo a que pertenecen:

W =

# grupos #Cr

∑ ∑d r =1

i =1

2 x ri , x r

, donde

xr media

en Cr , xri ∈ Cr

Lo cual permite establecer el siguiente procedimiento. Procedimiento de Ward Así el procedimiento a seguir se establece de la siguiente manera: 94


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Se inicia el proceso con n conglomerados , en que cada elemento en estudio conforma su propio conglomerado de un elemento cada uno; en tal caso W=0, ya que la media de cada conglomerado coincide con el único elemento que cada grupo contiene. Así se inicia una búsqueda recursiva de datos que en su primer paso consiste en disminuir a n1 el número de conglomerados, donde habría un conglomerado de 2 elementos y n-2 constituídos de un elemento y luego el proceso continúa disminuyendo uno a uno el número de conglomerados fusionando dos cualesquier de los ya disponibles; siempre buscando la reducción del número de grupos que aumente menos el valor de W. W =

# grupos #Cr

∑ ∑d r =1

i =1

2 x ri , x r

Es un hecho que en cada etapa, los dos grupos Cα, Cβ que deben unirse para minimizar W son aquellos en que se logra:    # Cα # C β  mínimo  d 2 (i , j )  , Cα ,Cβ # C + # C   β  α 

xα media

en Cα , xβ media

en C β ,

d (i, j ) = d xα , xβ , la

distancia entre centroides. Procedimiento que se detiene, al formar un solo gran conglomerado que contenga a todos los elementos en estudio. 5.2.3.- Dendograma El dendograma es una representación grafica del resultado del proceso de agrupamiento en forma de árbol. Es útil cuando los puntos tienen claramente una estructura jerárquica, pero puede ser poco exacto ya que dos puntos pueden parecer próximos cuando no lo están, o pueden aparecer alejados cuando están próximos. Lo anterior se debe a que entre los tipos de criterios de agrupación utilizados; como es el claro caso del criterio de vecino mas lejano, el cual se basa en un tipo de distancia entre grupos (vecinos) que tiene la propiedad de que corresponde a un tipo de métrica denominada “ultramétrica”, que dota de una conformación topológica al conjunto de elementos en estudio en que lo cercano es a su vez lo mas lejano, que nos hace alcanzar un objeto desde otro, mediante el camino mas corto dado por una distancia que para alcanzar lo más cercano paradojalmente es a través del camino mas distante o alejado. Sin embargo, esta representación gráfica, nos provee de una idea intuitiva de la forma de las agrupaciones, su correspondiente anidamiento así como de su proximidad relativa respecto de las restantes agrupaciones. El dendograma, considerado también representación de una ultramétrica subyacente al criterio adoptado, se construye de la siguiente forma: -

En la parte inferior del grafico sobre una línea imaginaria, se disponen los n elementos considerados en el estudio. Perpendicular a esta disposición de objetos se dispone de una línea recta que señala la magnitud de las distancias valorada según el particular criterio adoptado

95


Métodos Multivariantes -

Dr. Luis Felipe Figueroa

Las uniones entre elementos se indican por tres líneas rectas. Dos dirigidas a los elementos que se unen, y que son perpendiculares al eje de los elementos y, una paralela a este eje, que se sitúa al nivel en que se unen. El proceso se repite ascendiendo en tal gráfico según corresponda al valor que en cada paso nos proporcione en el algoritmo el criterio de distancias que se haya considerado, hasta que todos los elementos están conectados por líneas rectas. Si cortamos el dendograma a un nivel de distancia dado, obtenemos una clasificación del número de grupos existentes a ese nivel y los elementos que los constituyen.

En términos prácticos, se puede apreciar que la disposición en fila de los n elementos del estudio con que se inicia desde la parte inferior esta representación, se realiza una vez que ha finalizado el algoritmo de agrupación. Puesto que las agrupaciones resultantes no tienen porque obedecer a un anidamiento que diga relación entre la resultante forma de disposición de las agrupaciones de los elementos en estudio dada por el criterio de agrupación considerado, con forma en que se haya efectuado su recolección. A continuación presentamos un ejemplo didáctico de aplicación donde ya se dispone de una matriz de similitudes y se utiliza uno de los criterios de agrupación: Ejemplo: Consideremos 6 observaciones, cuyas similitudes ya se encuentran resumidas en la matriz de distancias D: x1 x 2 x3 x4 x5 x6 x1  0  x2  x  D= 3 x4  x5   x6  

3.73 0

26.2 23.24 0

21.59 18.74 5.64 0

22.46 18.29   19.96 16.03  5.21 9.73   = (d (i, j )) = (d x , x ) α β 4.91 7.31  0 4.7   0  

Para realizar agrupación mediante criterio: vecino mas cercano. Primero debemos hacer presente que este criterio está establecido a partir de una métrica (distancia) entre grupos de observaciones dada por el mínimo de las distancias entre objetos de uno y otro grupo. Etapa 1.- Inicialmente, cada elemento es un grupo en si mismo, entonces mín d (i, j ) = d (1,2) = d x , x = 3.73 i≠ j

1

2

Lo que origina la primera agrupación o cluster 1: C1 = { x1 , x2 } . Por lo cual se reestructura y calcula una nueva matriz D de distancias para los grupos que se dispone, en nuestro caso: C1 , { x3 }, { x4 }, { x5 }, { x6 } : C1 C1 0  x3  D = x4   x5  x6  

x3

x4

x5

x6

23.34 18.74 19.96 16.03   0 5.64 5.21 9.73  0 4.91 7.31   0 4.7  0  

96


Métodos Multivariantes Etapa 2.- Ahora

Dr. Luis Felipe Figueroa

mín d (i, j ) = d (4,5) = d x5 , x6 = 4.7 . Originándose la segunda agrupación o i≠ j

cluster 2: C2 = { x5 , x6 } . Recalculamos D para los grupos C1 , { x3 }, { x4 }, C2 : C1

x3

C1  0  x3  D= x4   C2  

x4

C2

23.34 18.74 16.03   0 5.64 5.21  4.91   0  

d (i, j ) = d (3,4) = d x4 ,C2 = 4.91 . Con lo que obtenemos un tercer Etapa 3.- En este caso mín i≠ j

cluster: C3 = C 2 ∪ { x4 } = { x4 , x5 , x6 } . A partir de ello, obtenemos D en términos de las distancias entre los grupos ahora presentes: C1

x3

C1  0  D = x3  C3 

C3

23.34 16.03   0 5.21  0 

Etapa 4.- Por lo realizado, ahora solo nos resta comparar dos distancias entre grupos y la etapa siguiente es automática para concluir el procedimiento: mín d (i, j ) = d ( 2,3) = d x ,C = 5.21 . Originándose en esta etapa el cuarto cluster: i≠ j 3

3

C4 = C3 ∪ { x3 } = { x3 , x4 , x5 , x6 } . Lo que origina una nueva matriz de distancias : C1 D=

C4

C1  0 16.03      C4 16.03 

Naturalmente que en la etapa siguiente el cluster 3 con el cluster 4 son los que corresponde reunir; con lo cual concluye el proceso . Los niveles de similitud (o disimilitud) dados por las distancias que en cada etapa se destacan , indican la cantidad de conglomerados que se han firmado hasta entonces y la manera en que se van estructurando, dejando en evidencia los objetos a medida que se van incorporando a cada uno de ellos. Todo ello es posible representarlo en un gráfico o diagrama de árbol denominado dendograma (dendrogram), que a continuación se ilustra con este ejemplo. Dendograma 16.03 5.21 4.91 4.71 3.73Observaciones x1

x2

x3

x4

97x

5

x6


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Siempre que la cantidad de observaciones lo permita, o a partir de un cierto número de clusters en adelante, se recomienda realizar este tipo de representación mediante la cual es posible interpretar la manera de cuan agrupados están los objetos.

Lo cual, muestra la necesidad de una mayor implementación en este tipo de procedimientos, para el caso común en que se dispone de una gran cantidad de objetos a aglomerar, lo que obliga a utilizar mayores recursos, como el disponer de un algoritmo que permita un trabajo operativo adecuado y en lo posible de ventajosa utilización. 5.2.4.- Algoritmos En nuestro propósito que es el formar agrupaciones, debemos considerar en nuestro algoritmo para tal propósito, la o las particulares especificación que sean necesarias de entre las citadas en los puntos anteriores, dando paso a paso el esquema de trabajo para tal logro. Por tal motivo, el algoritmo a utilizar para este propósito, debe contemplar las siguientes consideraciones: - Disponer de una valoración de similitudes a través de la matriz de distancias D=(dij), preestablecida según las opciones mencionadas u otra de esta índole que sea considerara. - Considerar un criterio de agrupación para la construcción de conglomerados - Establecer c0 el número deseado de conglomerados o definir el grado de similitud entre agrupaciones. - Precisar y distinguir en cada etapa el número “c” de conglomerados logrados hasta la presente iteración y su conformación. - Continuar iterando mientras c>c0; en caso contrario finalizar iteraciones. - Realizar el correspondiente dendograma.

5.3.- Procedimientos de aglomeración no jerárquicos Estos son procedimientos que no se basan en el como lo objetos se encuentran dispersos, sino como es que las conductas están mas o menos asociadas en términos de los grupos que se conforman. 5.3.1.- Método de la matriz de dispersión total En cierto modo corresponde a otro criterio de similitud no establecido mediante una distancia entre grupos, sino que a partir de la relación entre los elementos o grupo que se originan en término de su incremento en una particular concepción de las variaciones que se producen en las relaciones reflejadas en una matriz denominada de dispersión total y lo que esta es explicada a través de los grupos que se forman.

98


Métodos Multivariantes

Dr. Luis Felipe Figueroa

5.3.1.1.- Criterio de agrupación basado en la matriz de dispersión total A partir de la clásica descomposición de la varianza, bajo la cual se efectúa el análisis ANOVA, surge la presente propuesta, que se basa en construir construye la matriz de dispersión total ST, como la suma de matrices de dispersión entre e intra grupos. Lo que permite analizar los cambios que ocurran en esta descomposición a través de los grupos que se vayan conformando, pero explicado por las alteraciones que presente la matriz de dispersión intra grupos, según lo que sea reflejado a través de su determinante o bien a través de su traza. De esta manera se pretende detectar la decomposición en grupos de la base de datos disponible, que mejor refleje la dispersión total de ellos a través de lo que los propios grupos en su dispersión interna anidan. 5.3.1.2.- Procedimiento matriz de dispersión total versus combinada Para cada conglomerado Ck , se calcula: Xk =

X =

1 # Ck

∑x : vector de medias (la media) de los elementos que componen Ck

x∈Ck

# grupos # Ck 1 n x = X k : media (vector de medias) de los datos disponibles ∑ ∑ i n i =1 n k =1

 #Ck  S k =  ∑ S ijk  : matriz de sumas de cuadrados y productos cruzados en Ck  i , j =1  donde SW =

SB =

xi , x j ∈C k

# grupos

# grupos

′ S ijk = ( xi − X k )( xi − X k ) ,

k= 1

∑S k =1

k

: matriz de dispersión combinada intra clusters

# Ck ( X k − X ) ( X k − X )

ST = SW + S B : matriz de dispersión total

La matriz de dispersión total es invariante de la cantidad de grupos o de la cantidad de elementos que estos contengan, pero no esta descomposición en matrices de dispersión. Variaciones de entre las cuales se debe determinar la que mayor incremento nos sea reflejado, por | SW |, el determinante de SW o bien por Tr(SW) su traza; estrategias que proporcionan sus respectivos criterios de agrupación.

Ejemplo En este ejemplo los datos corresponden a la situación de 6 países europeos en 1996 con respecto a los 4 criterios exigidos por la UE para entrar en la Unión Monetaria que se ha representado por el ámbito que en cada caso ha sido considerado: Inflación, Interés, Déficit Público y Deuda Pública y vienen dados en la siguiente tabla de clasificación de países de la UE: País

Inflació n

Interés

99

Déficit

Deuda


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Alemania España Francia Grecia Italia Reino Unido

1 1 1 0 1 1

1 1 1 0 1 1

1 1 1 0 0 0

0 0 1 0 0 1

Este es un ejemplo en el que todas las variables son binarias de forma que, este caso 1 significa que el país sí satisfacía el criterio exigido y 0 que no lo satisfacía. Matriz distancias: En este caso todas las variables son binarias simétricas y podemos utilizar como medida de distancia la suma de los valores absolutos de las diferencias entre componentes, que también equivale a la distancia euclidiana al cuadrado. La matriz de distancias obtenida viene dada por: Al 0

Al Es Fr Gr It RU

Es 0 0

Fr 1 1 0

Gr 3 3 4 0

It 1 1 2 2 0

RU 2 2 1 3 1 0

Así, por ejemplo, la distancia entre España y Francia es 1 puesto que solamente difieren en un criterio: el de la deuda pública que Francia satisfacía y España no. Los resultados de aplicar un método jerárquico aglomerativo con enlace completo utilizando el paquete estadístico SPSS se muestran a continuación: Historial de conglomeración

Etapa 1 2 3 4 5

Conglomerado que se combina Conglomerado Conglomerado 1 2 1 2 5 6 1 3 1 5 1 4

Etapa en la que el conglomerado aparece por primera vez Conglomerado Conglomerado 1 2 0 0 0 0 1 0 3 2 4 0

Coeficientes 0 1 1 2 4

Próxima etapa 3 4 4 5 0

Diagrama de témpanos vertical

X X X X X

X

X X X X X

X X X X

X X X X X

2:España

3:Francia X X

X X X X X

X X X

Dendograma C A S 0 Etiqueta

1:Alemania

Número de conglomerados 1 2 3 4 5

5:Italia

4:Grecia

6:Reino Unido

Caso

X X X X X

X X X X X

X X X X X

Distancia de aglomeración reescalada Num

0 5 10 15 20 25 +---------+---------+---------+---------+---------+

100


Métodos Multivariantes Alemania España Francia Italia Reino Unido Grecia

Dr. Luis Felipe Figueroa 1 2 3 5 6 4

-+-----------+ -+ +-----------+ -------------+ +-----------------------+ -------------+-----------+ I -------------+ I -------------------------------------------------+

El historial de aglomeración muestra las distancias de aglomeración y los grupos que se han ido formando al aplicar el algoritmo. El diagrama de témpanos y el dendograma dan dicha información de forma gráfica. Así, en el primer paso del algoritmo se unieron Alemania y España a una distancia de aglomeración igual a 0. Posteriormente, a dicho grupo, se unió Francia e Italia y Reino Unido formaron otro grupo, todo ello a una distancia de aglomeración igual a 1. Estos dos grupos se unieron formando un único grupo a una distancia de aglomeración igual a 2. Finalmente Grecia se unió a todos los demás países a una distancia de aglomeración igual a 4, la máxima posible. Si tomamos como punto de corte 1 nos quedaríamos con 3 grupos: {España, Alemania y Francia}, {Italia, Reino Unido} y {Grecia}. Estos grupos están formados por países que difieren entre sí en a lo más un criterio. 5.3.2-Método de las k-medias Este tipo de método, es conveniente utilizarlo cuando los datos a clasificar son muchos y/o para refinar una clasificación obtenida utilizando un método jerárquico, bajo el supuesto que el número de grupos ya se encuentra establecido. 5.3.2.1-Criterios de las k- medias Este es un particular criterio que en muchas aplicaciones se efectúa para extender a una población o base de datos en estudio lo ya realizado a un sección o muestra de ella; sin pretender que la segmentación inicial condicione a que los datos adicionales se incorporen a los grupos hasta entonces establecidos. En suma es un criterio que mantiene la cantidad de grupos pero generalmente no a los grupos base como subgrupos de los resultantes. Se basa en la utilización de los centroides de los grupos establecidos , el cambio de los centroides al incorporar nuevos elementos y como todos ellos se readecúan según su proximidad con los nuevos centroides que se vayan generando. 5.3.2.2- Procedimiento de las k-medias Existen varias formas de implementarlo pero todas ellas siguen, básicamente, los siguientes pasos: 1) Se seleccionan k centroides o semillas donde k es el número de grupos deseado 2) Se asigna cada observación al grupo cuya semilla es la más cercana 3) Se recalculan paso a paso en cada iteración los puntos semillas o centroides de cada grupo 4) Se iteran los pasos 2) y 3) hasta que se satisfaga un criterio de parada como, por ejemplo, los puntos semillas no se alteran ostensiblemente o los grupos obtenidos en dos iteraciones consecutivas son los mismos. Este método, claramente es muy sensible a la solución base con la que se da inicio al procedimiento; por lo que es conveniente utilizar con anterioridad una primera agrupación de tal cantidad de grupos con criterios objetivos como las logradas mediante los algoritmos jerárquicos ya presentados. Ejemplo :Este ejemplo corresponde a un conjunto mas ampliado de datos que el del ejemplo anterior, que además contempla otras características registradas en todos ellos en que 101


Métodos Multivariantes

Dr. Luis Felipe Figueroa

haciendo referencia ahora a variables de índole económicas, sanitarias y demográficas correspondientes a 102 países del mundo en el año 1995, según se presenta en la siguiente tabla: Variable

Significado

POB

Población

DENS

Densidad

ESPF

Esperanza de vida Femenina

ESPM

Esperanza de vida masculina

ALF

Tasa de Alfabetización

MINF

Tasa de Mortalidad Infantil

PIBCA

PIB per cápita

NACDEF

Nacimientos/Defunciones

FERT

Número medio de hijos por mujer

En este caso todas las variables son cuantitativas pero medidas en diferentes unidades, por lo que previamente se decide estandarizar los datos disponibles y luego construir distancias según la distancia euclideana. Los resultados de aplicar el algoritmo de las k-medias implementado en SPSS 9.0, con un número inicial de 4 grupos y tomando como punto de partida los centroides de los 4 grupos establecidos en el ejemplo anterior vienen dados por la siguiente tabla; cuyo algoritmo converge en 10 iteraciones y obtiene 4 grupos de tamaños 24, 39, 1 y 41 países respectivamente. Historial de iteracionesa

Iteración 1 2 3 4 5 6 7 8 9 10

Cambio en los centros de los conglomerados 1 2 3 4 ,592 ,109 1,036E-07 ,172 ,487 6,262E-02 ,000 ,125 ,214 ,000 ,000 4,648E-02 ,231 ,000 ,000 5,287E-02 ,225 6,193E-02 ,000 3,981E-02 ,306 5,276E-02 ,000 9,411E-02 ,235 ,000 ,000 9,347E-02 ,250 6,932E-02 ,000 ,115 ,227 7,083E-02 ,000 ,121 ,305 ,174 ,000 5,141E-02

a. Las iteraciones se han detenido porque se ha llevado a cabo el número máximo de iteraciones. Las iteraciones no han convergido. La distancia máxima en la que han cambiado los centros es ,172. La iteración actual es 10. La distancia mínima entre los centros iniciales es 3,007.

Ahora en la tabla que se presenta a continuación se muestran los países miembros de cada grupo junto con las distancias de cada país al centroide de su grupo. Así mismo se muestran las distancias entre los centroides de cada grupo. Se observa que los grupos 1 y 4 contienen países del tercer mundo, el grupo 2 está compuesto por países del primer y segundo mundos y el grupo 3 contiene únicamente a Islandia

México Tailandia El Salvador Corea del Norte Paraguay Jordania Argentina Emiratos Árabes Corea del Sur Costa Rica Kuwait Bahrein

102

1 1 1 1 1 1 1 1 1 1 1 1

1,69396 1,81748 1,81842 1,82812 1,88032 1,90393 2,05071 2,26097 2,28927 2,56727 2,5803 2,78161


Métodos Multivariantes PAIS Venezuela Ecuador Malasia Panamá Acerbaján Colombia Armenia Chile Rep. Dominicana Turquía Uzbekistán Líbano Austria Irlanda Dinamarca Croacia Bélgica Finlandia Grecia Polonia España Lituania Hungía Portugal Bielorusia Gran Bretaña Bulgaria Georgia Nueva Zelanda Suecia Rumanía Italia Alemania Países Bajos Noruega Uruguay Cuba Francia Estonia Letonia Suiza Ucrania Estados Unidos Canadá Australia Israel Rusia Japón Barbados Singapur Hong Kong Islandia Camerún

GRUPO 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 4

Dr. Luis Felipe Figueroa Kenia Egipto Guatemala Camboya Marruecos Burkina Faso Nicaragua Tanzania Irán Nigeria Iraq Sudáfrica Perú Liberia Bolivia Uganda Honduras Zambia Etiopía Pakistán Afganistán Somalia Siria Haití Burundi Filipinas Indonesia Ruanda Vietnam Gambia Brasil Rep. C. Africana Arabia Saudí Bangladesh Libia Gabón India Botswana China

DISTANCIA 1,10992 1,17341 1,19941 1,24843 1,27096 1,31659 1,33676 1,36857 1,49939 1,57329 1,65333 1,67326 0,84751 1,02262 1,03776 1,17118 1,25977 1,29839 1,39139 1,39569 1,41288 1,42745 1,43235 1,45946 1,47973 1,53294 1,53866 1,62389 1,68732 1,69381 1,69529 1,71363 1,71408 1,77523 1,83862 1,93886 1,94022 1,98214 2,01381 2,02654 2,04078 2,19731 2,30185 2,60291 2,69585 2,71955 2,89912 3,11629 3,15042 3,48935 3,75342 0,0000 0,57933

103

4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

0,81205 1,01448 1,07179 1,17287 1,34473 1,35581 1,40744 1,44743 1,45366 1,47222 1,50176 1,51414 1,53181 1,54648 1,56759 1,57074 1,58019 1,58128 1,68095 1,69868 1,73597 1,78696 1,86294 1,86689 1,99972 2,03681 2,12085 2,13195 2,14496 2,31622 2,31901 2,41386 2,4842 2,5958 2,77066 2,94421 2,96665 2,96857 3,63459


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Distancias entre los centros de los conglomerados finales Conglomerado 1 2 3 4

1 3,038 5,466 2,594

2 3,038 4,233 4,967

3 5,466 4,233

4 2,594 4,967 7,460

7,460

Naturalmente que previo a cada análisis de esta índole, debe disponerse de las variables en estudio de la manera mas pertinente posible, lo cual generalmente involucra transformaciones algebraicas que permitan un cierto grado interpretación de los datos y con posterioridad, luego al finalizar cada proceso de obtención de conglomerados surgen interrogantes que pueden ser dilucidadas aplicando los procedimientos de análisis de los restantes capítulos de este texto. Por cierto, en la práctica un proceso de segmentación se inicia muchas veces agrupaciones obtenidas luego de varias discusiones del procedimiento mas adecuado para tal propósito; para entonces entrar en profundidad en cada grupo para representarlo, describirlo de manera sucinta y práctica a la expectativas del estudio, compararlo con los restantes, analizar las relaciones existentes en las conductas , hasta lograr una caracterización lo mas clara y útil posible para la expectativas del estudio.

104


Métodos Multivariantes

Dr. Luis Felipe Figueroa

CAPÍTULO 6

ANÁLISIS DISCRIMINANTE

Disponiendo de agrupaciones o poblaciones ya establecidas, compuestas de objetos o unidades experimentales, todos almacenadas o registras al menos en términos de p variables, cualidades o características comunes (información p-variante); el análisis discriminante nos proporciona un procedimiento para asignar nuevos objetos a estas agrupaciones con las que estos tengan mayor similitud. Naturalmente, que pasan a ser cruciales las p variables con que se basa este tipo de análisis, puesto que si ellas son mas que simples mediciones registradas a los objetos de que se dispone y en realidad constituyen cualidades o características con que mas se distinguen tales agrupaciones; este procedimiento será un auspicioso garante para una mas correcta verificación de clasificación de los objetos de que se dispuso como base para iniciar el procedimiento, así como de aquellos elementos nuevos que sean considerados , a los cuales sólo por esta vía serán asignados a una de tales agrupaciones Inicialmente consideremos dos agrupaciones según se expresa en la siguiente tabla: Población

Número

Variables

de observaciones

П1 П2

n1 n2 n= n1+ n2

X1,….,Xp X1,….,Xp

Entonces una observación proveniente de la población Пi , es un objeto de la forma: 105


Métodos Multivariantes

Dr. Luis Felipe Figueroa xik´ = ( x1ik ,....., x pik ) ,

i=1,2;

k=1,2,…,ni

Nuestro propósito es determinar una estrategia sencilla expresada en “una función (lineal) discriminante” L, basada en las n observaciones p-variantes de que se dispone, que sea óptima en algún sentido determinado (generen puntajes con máxima discriminación) y que posteriormente permita con alta certeza, clasificar correctamente a un individuo cuya procedencia sea de origen similar al agrupo a que se asigna, de entre los grupos ya establecidos que originaron la transformación con la cual se hace uso este procedimiento. Una transformación lineal en términos de p variables es una función de la forma: L: IRp IR, x = ( xk ,....., x p ) L(x)=ß1x1+.........+ßp xp. En nuestro caso, debido a las agrupaciones existentes, se deben especificar la población de procedencia y la observación que en ella ha sido considerada, originándose la siguiente expresión: L ( xik ) = L (( x1ik ,....., x pik ) ) = ß1 x1ik+.........+ßp xpik =: Lik . ˆ = (β ˆ1 ,....., β ˆ p ) , estimador de β = ( β1 ,....., βp ) , la Una vez obtenido el estimador β

transformación que operacionalmente utilizarnos será: ˆx1ik +..... + β ˆx pik =: lik l ( xik ) = l (( x1ik ,....., x pik ) ) = β Tal transformación corresponde a la representación de un plano (hiperplano); en consecuencia con esta metodología lo que se pretende es el determinar un hiperplano separador entre las mencionadas poblaciones. ˆ 6.1.- Método para la obtención de β

Debido a que la función L, tiene como propósito el ser instrumento para separar los grupos existentes a través de su evaluación. Como veremos a continuación, el estimador de los coeficientes puede obtenerse como consecuencia de la exigencia que la variación total de L, al descomponerse en términos de las sumas de variabilidades intra mas entre grupos, esta última sea lo más grande posible. Al considerar todas las observaciones procedentes de la reunión de las poblaciones de que se dispone, designemos por V a la variabilidad total de L, la cual pose una descomposición en términos de variabilidad intra mas variabilidad entre estratos, a su vez en términos de la media total L y de la de las respectivas poblaciones Li , como se expone a continuación: 2

Lik n L + n2 L2 = 1 1 n1 + n2 k =1 n1 + n2 ni

L = ∑∑ i =1

Li =

ni

1 ni

∑ Lik =

2

ni

k =1

ni

1 ni

p

, p

ni

x jik

j =1

k =1

ni

∑∑ β j x jik = ∑ β j ∑ k =1 j =1

2

ni

p

= ∑ β j x ji j =1

2

ni

2

ni

V = ∑ ∑ ( Lik − L ) = ∑ ∑ ( Lik − Li + Li − L ) = ∑ ∑ ( Lik − Li ) + ∑ ∑ ( Li − L ) 2 2

i =1 k =1

Siendo: W =

2

i =1 k =1

2

ni

∑∑ ( L i =1 k =1

2

ik

i =1 k =1

− Li ) 2 , la variabilidad intra (estratos)

ni

B = ∑∑ ( Li − L ) 2

, la variabilidad entre (estratos)

i =1 k =1

se aprecia que : V=W+B 106

2

i =1 k =1


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Por lo cual nuestra restricción u exigencia, se puede formalizar como el determinar un ˆ , tal que estimador de coeficientes β

B  g ( βˆ ) = máx ( g ( β )) = máx   W  β β Lo cual efectivamente es función de β, según ahora explicitamos: 2

ni

2

B = ∑ ∑ ( Li − L ) 2 = ∑ n i ( Li − L ) 2 = n1 ( L1 − L ) 2 + n 2 ( L2 − L ) 2 , pero al considerar que i =1 k =1

i =1

n1 L1 + n2 L2 (n1 + n2 ) L1 − n1 L1 − n2 L2 n2 = = ( L1 − L2 ) , y similarmente n1 + n2 n1 + n2 n1 + n2 n1 n1 L2 − L = ( L2 − L1 ) = − ( L1 − L2 ) , y al reemplazar en la variabilidad entre n1 + n2 n1 + n2 L1 − L = L1 −

2

2

 n2   n1  n n 2 + n12 n2 nn B = n1  ( L1 − L2 )  + n2  ( L1 − L2 )  = 1 2 ( L1 − L2 ) 2 = 1 2 ( L1 − L2 ) 2 n1 + n2 n1 + n2  n1 + n2   n1 + n2 

Ahora al denotar por: d j = x j1 − x j 2 , donde x ji es la media en la población i=1,2 de la ´ ´ variable j, podemos construir el vector d ´= ( d1 ,....., d p ) = x1 − x2 , de las p-medias de ´    diferencias entre poblaciones (estratos), donde xi = ( x1i , x2i ...., x pi )´ . Reemplazando en B y W respectivamente logramos: nn B= 1 2 n1 + n2

2

p  p  nn  ∑ β j x j1 − ∑ β j x j 2  = 1 2  j =1  n1 + n2 j =1  

2

 p  nn  ∑ β j ( x j1 − x j 2 )  = 1 2  j =1  n1 + n2  

2

 p  nn  ∑β j d j  = 1 2  j =1  n1 + n2  

Además, al considerar Sjh la covarianza muestral entre Xj,Xh, se verifica que: p

p

W = (n1 + n 2 − 2)∑∑β j β h S jh j =1 h =1

Lo cual nos permite expresar nuestra función g en términos de los coeficientes de la transformación L, como:

g (β ) =

n1 n 2 n1 + n 2

p

p

∑∑ β j =1 h =1 p

j

βh d j d h

p

( n1 + n 2 − 2)∑∑ β j β h S jh j =1 h =1

Que al optimizar nos proporciona el requerido estimador : βˆ = S −1 ( x1 − x2 ) = S −1d =: b ; donde

S=

( n1 − 1) S1 + ( n2 − 1) S 2 ( n2 + n2 − 2 )

=: Spool . 

ˆ . Permitiéndonos disponer de valores l ( x ) =b´x = x´b = x´β De esta manera: representativos correspondientes a tal transformación según los respectivos grupos:

107

p

p

∑∑β j =1 h =1

j

βh d


Métodos Multivariantes

Dr. Luis Felipe Figueroa

       l1 = b´x1 , i = 1 li =: li ( xi ) = li (( x1i , x2i ...., x pi )) = b´xi =   l2 = b´x2 , i = 2

,

que conforman la base del

criterio de discriminación. El cual se establece, en términos de la proximidad hacia la respuestas que así referenciadas mejor caracterizan a los grupos en referencia:

Cuando l1 > l 2

   x ∈ ∏ 1 si l ( x ) > b0 ⇒    x ∈ ∏ 2 si l ( x ) < b0

,

donde b0 =

l1 + l2 . En caso que tales 2

medias resulten en orden opuesto, el criterio operará en consecuencia. Observación.Este resultado, de disponer de una transformación lineal para tales efectos, no sólo obedece a una intención de disponer de una mayor simplicidad para adoptar decisiones respecto de clasificación. También, es un resultado que se deduce para el caso en que el comportamiento de las poblaciones consideradas sea normal homocedásticas y el criterio de asignación se establezca mediante la razón de verosimilitud relativa entre las muestras de que se dispone. Situación que a continuación se explica. Si consideramos dos poblaciones p-variantes П1 , П2 ,que respectivamente se rigen por un

comportamiento

normal

N ( µ1 , ∑ 1 ),

N (µ 2 , ∑ 2 ) ,

∑1 = ∑2 ;

es

decir

homocedásticas. Si establecemos como criterio de discriminación entre estas dos poblaciones de una  f1 ( x )  x observación arbitararia, basada en el valor de la razón:  ; fijando como criterio el f 2 (x)  f1 ( x ) que satisfaga  <k, (por ejemplo con k=1) par que tal observación se asignada a la f 2 (x) población П1;que en caso contrario correspondería asignarla a la otra población. Principio que se justifica al considerar el donde es más verosímil que tal observación pertenezca. Al efectuar la operaciones correspondientes, resulta que :  (2π ) − p / 2 Σ1 f1 ( x ) =  f 2 ( x ) ( 2π ) − p / 2 Σ 2

−1 / 2 −1 / 2

 1   −1    exp − ( x − µ1 )´Σ1 ( x − µ1 )   2  , que reduciendo su complejidad 1  −1      exp − ( x − µ2 )´Σ 2 ( x − µ2 )   2 

mediante  f ( x)           ln 1   = x´Σ−1 ( µ1 − µ2 ) − ( µ1´Σ−1 ( µ1 − µ2 ) + µ2 ´Σ−1 ( µ1 − µ2 )) / 2  f2 (x)   f1 ( x)   por lo cual tal expresión es de la forma: ln   = x´β1 + β0  f2 ( x)   f1 ( x )  ⇔ x´β1 + β 0 < k´ . Por lo tanto:  <K f2 (x) 6.2.- Criterios de discriminación opcionales al establecido

108


Métodos Multivariantes

a.-

Dr. Luis Felipe Figueroa

Para que el criterio de discriminación se efectúe en torno a cero, se considera una nueva transformación basada en una traslación de la función discriminante ya obtenida, la que anotaremos   l * ( x ) = −b0 + l ( x ) . Bajo lo cual, el criterio de discriminación que se propone es el

l1 < l 2

siguiente: cuando

 x ∈ ∏ 1 si l * ( x) > 0 , entonces   , en caso contrario el *  x ∈ ∏ si l ( x ) < 0 2 

criterio de asignación se invierte.

b.- Para considerar la importancia de la influencia de cada grupo en la población toda; nos podemos basar en los tamaños relativos de los grupos de que se dispone:

p1 =

n1 n1 + n2

, p2 =

n2 n1 + n2

p  Si p1>p2, considerar como punto de discriminación para l * , al valor ln 1  .  p2  c.- Disponiendo de costos de error por mala clasificación, de manera similar, podemos utilizar el impacto de lo relativo entre ellos:

∏2 a un objeto de ∏1 : costo de clasificar en ∏ a un objeto de ∏ 1 2

C2 1 : C1 2

también

costo de clasificar en

 C

21  Si C 2 1 > C1 2 , considerar como punto de discriminación para l * , al valor ln . C1 2 

En estos dos últimos casos, se produce un desface del punto de corte, que incrementa la región de asignación a favor del grupo de mayor impacto, en el sentido que se les quiere distinguir. d.- Otra alternativa, es considerar el valor combinado de las dos últimas opciones, cuando ambas restricciones se satisfagan simultáneamente. Lo que da origen al punto de corte:  p1 ln p  2

 C2 1  pC     = ln( p ) − ln( p ) + ln C − ln C = ln 2 2 1   + ln 2 1 1 2 2 1   C1 2   p1C1 2      

6.3.-Evaluación del criterio de discriminación Para tal efecto, se consideran todos los objetos de ambas poblaciones consideradas para la obtención del respectivo criterio, sobre los cuales este se procede a verificar. Los resultados que esto nos entregue pueden resumirse en la siguiente tabla: CLASIFICACIÓN RESULTANTE REALIDAD

∏1 ∏2

∏1

∏2

total

n11

n12

n1.

n21

n22

n2.

n.1

n.2

n

109


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Con lo cual, se pueden obtener para cada grupo, las tasas de: Mala

clasificación : n12/ n1. : proporción de objetos que perteneciendo a (erradamente) los asignó a

∏2

n21/n2 . : proporción de objetos que perteneciendo a (erradamente) los asignó a Correcta clasificación para

∏1 , el procedimiento ∏2 , el procedimiento

∏1

∏1 y ∏2 , respectivamente :

n11/ n1.

,

n22/ n.2 ; que

corresponden a las proporciones de objetos que el procedimiento efectivamente identifica y asigna a tal procedencia. Además de las tasas globales de clasificación resultantes: Mala Clasificación : (n12+ n21) /n ; proporción de objetos mal clasificados (riesgo). Correcta clasificación: (n11+n22)/ n : proporción de eficacia del criterio de asignación.

Ejemplo: Se dispone de los registros de 832 trabajadores de una empresa, que contemplan las variables, X1: edad, X2: evaluación de puntualidad, X3: evaluación de desempeño laboral, según eficiencia en el oficio. En tal empresa establece que hay dos grupos bien definidos: uno de 71 obreros que constituye la fuerza de trabajo que la empresa denomina como eficientes y los restantes considerados como no eficientes. Además, para toda la fuerza laboral, se dispone de las estadísticas, que dan forma a los respectivos vectores de medias y matriz da varianzas covarianzas: Variables Grupo1 Grupo2 Xj , j=1,2,3 X

X1 X2 X3  214.26  S =  

j1

56.86 95.62 221.51 72.37 212.44

X

j2

44.81 86.99 201.27 195.61   175.53  1820.61 

0.0056  S −1 =   

110

− 0.00153 0.0053

− 0.00045   − 0.00037  0.00063  


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Determine a que grupo podría ser asignado (o considerado) un trabajador características que registra en las mediciones de las variables aleatorias resultan: x=(x1,x2,x3)=(50,90,200)

cuyas

Solución: Los tamaños de los grupos de interés respectivamente son: n1=71 para

∏1 ,

n2=832-71=761 para

 X 11 − X 12   12.05      d =  X 21 − X 22  =  8.63   X − X   20.24  32   31     l1 = l ( x1 ) = b´x1 = ( 0.045

  l 2 = l ( x2 ) = b´x2 = ( 0.045

,

∏2

 0.045   b1      βˆ = b = S d =  0.022  =  b2   0.004   b     3 −1

0.022

 56.86    0.004 ) 95.62  = 5.569 221.51  

0.022

 44.81    0.004 ) 86.99  = 4.753 201.27   

;

5.569 + 4.753 = −5.161 2 ∴l * ( x) = b0 + l ( x) = b0 + b´x = −5.161 + 0.045 x1 + 0.022 x2 + 0.004 x3 b0 = −

Así , el referido trabajador al ser discriminado mediante esta aplicación , en valoración resulta: ∴l * ( x0 ) = −5.161 + 0.045 ⋅ 50 + 0.022 ⋅ 90 + 0.004 ⋅ 200 = −0.113 < 0. Por lo cual se asigna a este trabajador al Grupo 2, que corresponde a trabajadores no eficientes. Ahora, también podemos utilizar esta función discriminante, para asignar en tales grupos, a las observaciones históricas; con lo cual estaremos verificando lo apropiado de este criterio de clasificación. Resultado de lo cual, podremos construir probabilidades empíricas de clasificar errada o correctamente dichas observaciones. Pues bien, al efectuar tal clasificación, se constató lo siguiente: Clasificación Resultante Realidad 1 2 51 20 1 272 489 2

Total

∏ ∏

71 761

De esta manera :

∏1 . ∏1 a

20/71=0.282 es la proporción de equivocarse al asignar erradamente los objetos de Lo que también se interpreta como la probabilidad (empírica) de clasificar en objetos de

∏2 . Es decir un 28,2 % de los objetos de ∏1 resultaron mal clasificados. 111


Métodos Multivariantes

Dr. Luis Felipe Figueroa

272/761=0.3574 es la probabilidad (empírica) de clasificar en

∏2

a objetos de

∏1

Siendo la probabilidad de: error : (272+20)/832 =292/832=0.35 acierto: (51+489)832 = 540/832 =0.65

∏i

Siendo p(i|j)= : probabilidad de clasificar en   = P ( x ∈∏i x ∈∏ j ) ,

a objetos de

∏j

con los datos anteriores, se puede estructurar a la siguiente tabla de probabilidades de clasificación: p(i|j) 1 2 0.72 0.28 1 0.357 0.643 2

∏ ∏

6.4.- Extensión a k-Poblaciones De manera muy similar al caso de dos poblaciones que ya hemos abordado. Bajo el supuesto de normalidad y similitud entre las matrices de varianzas co-varianzas de las respectivas k poblaciones que ahora intervienen; también es posible disponer, de una aplicación lineal, como resultante de comparar cada evaluación de la función de verosimilitud, con cada una de las respectivas valoraciones en las restantes poblaciones. De esta manera, al considerar:

1 k S= ∑ Sh (nh − 1), n − h h= 1

 µˆ hj = xh , h = 1,..., k ,

∑ˆ i = Si ,

    lhj ( x ) = x´S −1 ( xh − x j ),

    lhj ( xh ) = xh ´S −1 ( xh − x j ) ,

n = n1 + ...nh + ...nk

    lhj ( x j ) = x j ´S −1 ( xh − x j )

1 1   1         b0 hj = − (lhj ( xh ) + lhj ( x j )) = − ( xh +x j )´S −1 ( xh − x j ) = − ( xh ´S −1 xh − x j ´S −1 x j ) , 2 2 2

logramos la función discriminante: 1           l hj* ( x ) = lhj ( x ) + b0 hj = x´S −1 ( xh − x j ) − ( xh ´S −1 xh − x j ´S −1 x j ) = −l *jh ( x ) , la cual opera 2  *  si lhj ( x ) > 0 ∀ > j ≠ h, j = 1,....., k de la siguiente forma: x ∈ ∏ h

112


Métodos Multivariantes

Dr. Luis Felipe Figueroa

CAPÍTULO 7

ANÁLISIS FACTORIAL

El objetivo del análisis factorial es describir (si es posible) la estructura de covarianza entre varias variables ( de un vector aleatorio), en términos de un número reducido de variables aleatorias subyacentes, no observables, llamados variables latentes o factores. Por ejemplo, supongamos que medimos con distintos test la capacidad mental de un individuo tanto para procesar la información que se le ha brindado como su capacidad para resolver problemas. Nos podemos preguntar si existen factores no directamente observables, que expliquen los resultados obtenidos en el experimento; el conjunto de estos factores, es lo que 113


Métodos Multivariantes

Dr. Luis Felipe Figueroa

se denomina inteligencia, y será importante conocer, cuántas dimensiones diferentes tiene este concepto, de que manera caracterizarlas y como medirlas. Por analogía, el análisis factorial aparece ligado al de componentes principales, sin embargo aparecen diferencias notorias entre ambos. Puesto que, las componentes principales se explican en términos de su variabilidad, y consistiendo en una rotación de ejes, constituyéndose en una herramienta descriptiva, y por otra parte, los factores, explican la estructura de covarianzas y presuponen un modelo estadístico formal de generación de los datos. Se debe advertir que la señalada descomposición no es única, y por ello deben adoptarse las providencias que corresponda, para limitar el correspondiente marco de interpretación y alcances.

7.1.- MODELO ORTOGONAL 

Para un vector aleatorio p-dimensional X = ( X 1 ,..., X p )´ , cuyo comportamiento sea normal  multidimensional N ( µ, ∑) , ∑ = (σ jt ) j ,t =1,..., p ; efectuaremos una descomposición de la matriz de varianzas-covarianzas

∑ , términos de vectores aleatorios, llamados factores no

observables o latentes, a partir del siguiente modelo de descomposición de las variables aleatorias que componen nuestro vector aleatorio: m

X j = µ j + ∑ λ jh Fh + E h donde: h=1,...,m<p

λjh

: carga de la j-ésima variable para el h-ésimo factor , 

λj =: λj = (λj1 ,..., λjh ,., λjm ) : vector de cargas para la j-ésima variable Λ = (λjh ) = (��j ) j =1,...., p

latentes)

, para cada j=1,...,p

h =1

 F = ( F1 ,..., Fm )´

: matriz de cargas , de p filas y m columnas : vector de factores comunes o de variables

 E = ( E1 ,..., E m )´

: vector de componentes de error o de factores

específicos. Ambos vectores aleatorios son no observables. 

X = µ + ΛF + E . Donde la Lo que origina para el vector aleatorio, la descomposición : condición m<p, establce el propósito de lograr una descomposición reducida en estas nuevas variables y de estructura de supuestos que facilite su interpretación. Para ello, asumiremos los supuestos básicos de esta índole, referentes a Normalidad, estandarización, no autocorrelación e independencia entre factores y errores, según corresponda, y que continuación se expresan.

7.1.1.- Supuestos Estructurales La estrutura de supuestos, se establece respecto de los vectores de factores que intervienen en el modelo: 114


Métodos Multivariantes

Dr. Luis Felipe Figueroa

i.- Factores   communes  y components de error, normales centrados en el origen: E[ F ] = 0 , E[ E ] = 0    ii.- F de varianza unitaria: V ( F ) = E [ FF ´] = I m . Sumado al punto anterior, esto indica:  factores communes de comportamiento N (0, I m ) , normal standard.    2 2 E con matriz de covarianzas diagonal V ( E ) = E [ EE´] = diag (ψ1 ,....,ψ m ) = Ψ . Es  decir N (0,ψ) , componentes normal de medias cero, heterocedásticas, pero también no correlacionadas.   iii.- F , E independientes   X = ( X 1 ,..., X p )´ ~ N ( µ, ∑) , una Lo que permite considerar, para un vec. a. descomposición:         X = µ + ΛF + E , F ~ N (0, I m ) , E ~ N (0,ψ) e independientes.

7.1.2.- Descomposición de Σ Ahora veamos, como expresar la matriz de correlación de nuestro vector aleatorio, en terminos de los elementos que integran la descomposición recién mencionada.         X = µ + ΛF + E ⇒ X − µ = ΛF + E , con L matriz de escalares,

 N (0,ψ)

  F ~ N (0, I m ) ,

 E~

             ∑ = V ( X ) = E [ ( X − µ )( X − µ )´] = E [ (ΛF + E )(ΛF + E )´] = E [ (ΛF + E )( F´Λ´+ E´)]          = E [ΛFF ´Λ´+EF ´Λ´+ΛFE´+EE´] = E [ΛFF ´Λ´] + E [ EF ´Λ´] + E [ΛFE´] + E [ EE´]

   = ΛE [ FF ´]Λ´+E [ EF ´]Λ´+ΛE [ FE´] + Ψ = ΛI m Λ´+Ψ = ΛΛ´+Ψ

 m 2  ∑ λ1h  h =1   .  donde ΛΛ´=  .    m  λ λ  ∑ 1h ph  h =1

.....

m

∑λ h =1

.....

m

1h

∑λ h =1

 λ ph  h =1   m  ...... ∑ λ jh λ ph  h =1  .   ......  m 2 λ ph  ∑ h =1 

λ jh ...... 2 jh

..... .....

Así, en particular, los elementos de la diagonal de

115

m

∑λ

1h

∑ , se pueden expresar como:


Métodos Multivariantes m

V ( X j ) = σ 2j = σ jj = ∑ λ 2jh + ψ 2j

Dr. Luis Felipe Figueroa ⇔

h =1

V ( X j ) = λ 2j + ψ 2j

Lo que podemos interpretar, que para cada componente de nuestro vector aleatorio en estudio, se dispone de esta alternativa de descomposición de la varianza. Denominando: 2 - al primer término λj : variabilidad explicada, común o comunalidad (debida a los factorers communes) y 2 - al segundo término ψ j : variabilidad no explicada o específica (debido a la información capturada por la componente de error),

Entonces, se puede decir que, la variabilidad de cada component del v.a. X se descompone como: Variabilidad =Variabilidad Común + Variabilidad Específica. Ambos , conceptos de cuya discussion se estructura el análisis de descomposición de la matriz de varianzas co-varianzas (factorial) del presente capítulo. Naturalmente, que mientras mas próxima esté la comunialidad de la variabilidad, major es nuestra aproximación de la matriz de varianzas covarianzas a traves de la descomposición lineal de cada variable en factores mediante cargas. 7.1.3.- No Unicidad de solución El modelo de descomposición presentado, claramente es sensible a transformaciones singulars. Por ejemplo si para este modelo reemplazamos en el producto matriz de cargas por el vector de factores communes , intercalando la matriz identidad descompuesta como product de un amatriz singular por su inversa. Entonces aparece una nueva matriz de cargas y un nuevo vector de factores. Donde ,tales factores poseen una distribución diferente a la del caso anterior, y mas aún ahora serían correlacionados. Además, el recíproco de esta afirmación tambien es cierto. Por ello se sugiere, imponer restricciones para el logro de solución unica, según los propósitos que se pretenda reflejar en las pretendidas restricciones.

7.2.- Restricciones para determinación de matriz de cargas 7.2.1.- Ortogonalidad de vectores de cargas Al imponer la exigencia que los vectores de cargas sean ortogonales, esto de inmediato se traduce en que: Λ´Λ = Λ´mxp Λpxm =D: matriz

diagonal  ⇔ ∑ −Ψ = ΛΛ´ , entonces al multiplicar por la Que al recordar: ∑ = V ( X ) = ΛΛ´+ Ψ (∑ − Ψ )Λ = ΛΛ´Λ = Λ D derecha por Λ, se logra: que es equivalente a

(∑ −Ψ)Λ = ΛD

116


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Advirtiéndose que las columnas de Λconstituyen los vectores carcterísticos de ∑−Ψ, asociados a los valores característicos que se encuentran en la diagonal de D.

7.2.2.- Factores communes independientes para cada valor de la variable dependiente Este propósito se logra al considerar Λ´Ψ−1 Λ = D : matriz diagonal. Lo que conduce a que la matriz: Ψ −1 / 2 ΣΨ −1 / 2 posea vectores característicos Ψ−1 / 2 Λ , cuyos valores característicos asociados se encuentran en la diagonal de D+I. En ambos casos, estas restricciones establecen condiciones de relación entre parámetros, que son la base de los respectivos métodos de estimación, para dar solución a la determinación de cargas y factores communes. 7.3.- Determinación de factores 7.3.1.- Número de factores a determinar La ecuación para la determinación de cargas y factores es : ∑ = ΛΛ´+ Ψ El estimador para la matriz de covarianzas es S, una matriz de p+p(p-1)/2 elementos. En el miembro derecho de la ecuación, se require disponer de pm+p, restando los terminos impuestos por las restricciones para identificar Λ. Suponiendo que Λ´Ψ−1 Λ = D es diagonal, se imponen m(m-1)/2 restricciones sobre Λ. Para que un sistema consistente tenga solución, debe haber un número de ecuaciones igual o mayor que el número de incognitas. Cuando el número de ecuaciones coincide al número de incógnitas se dispondrá de solución unica. Si existen mas ecuaciones que incógnitas, podremos resolver el sistema al menos por el método d mínimos cuadrados y encontrar valores para los parámtros que minimicen los errors de estimación. Así se establece que: pm+p- m(m-1)/2≤ p+p(p-1)/2= p(p+1)/2 2pm+2p-m2+m≤ p2+p p+m≤p2-2pm+m2=(p-m)2 Lo que concluye, con determinar un número m de factores tales que: p+m≤ (p-m)2. Por ejemplo: si p=7 entonces la inecuación es 7+m≤(7-m)2 , induce a soluciones m=1,2,3; luego como como máximo, el número de factores m=3. A continuación, se presentan dos opciones para la determinación del número de factores a considerer. 7.3.1.1.- Análisis de verosimilitud de la descomposición de la varianza Para decidir, si un modelo con m factores es satisfactorio, puede analizarse la descomposición de la matriz de varianzas co-varinzs Σ de la siguiente manera.

117


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Al docimar H 0 : V = ΛΛ´+Ψ , H 1 : V ≠ ΛΛ´+Ψ , mediante razón de verosimilitud, tal expression T, como mas adelante veremos (7.4.2) es de la forma :

T=

n ˆ n ˆ −1 n ˆ n ˆ −1 2(LH1 )( −Σ LH0( ) =Σ 2(− n|l ∑ 1 |− Tr(S∑ 1 () −− n|l ∑ 0 |− Tr(S∑ 0 ) 2 2 2 2

),

n ˆ n ˆ −1 n n −1 n n − ln | ∑ 1 | − Tr(S ∑ 1 ) = − ln | S | − Tr(SS ) = − ln | S | − p 2 2 2 2 2 2 −1 ˆ T= 2( L (Σ ) − L (Σ ) = n(− ln | S | − p + ln | ∑ˆ | + Tr (S ∑ˆ ) , ∑ = Λˆ Λˆ ´+ Ψˆ , Tr ( S ∑ˆ 0 − 1 ) = p H1 H 0 0 0

como:

ˆ 1 =S, ∑

0

−1 = n(ln | ∑ˆ 0 | + Tr(S ∑ˆ 0 ) − ln | S | − p) , (véase Análisis de datos Multivarainate, D. Peña. 2002 Mc.Graw Hill, págs. 369, 384, 385.)

Entonces: T=

 ∑ˆ 0  −1   ˆ ˆ 2(LH1( )−Σ LH0( ) =Σ n ln|( 0 |−∑ n|l S |)= nl = − nl S∑ 0  S 

En terminos asintóticos: dim(H0)

{

T= 2( LH1 (Σ) − LH 0 (Σ)) ~χ2(g),

Por lo cual se considera la region crítica

con

}

g=dim(H1)-

C = m. (na ). tales que − nl S∑ˆ > χ (g) −1 2 0 1− α

donde: dim(H1= p(p+1)/2 , dim(H0)=mp+p-m(m-1)/2 ; 118

g= ((p-m2)-(p+m))/2.


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Trabajos de Bartlett como mas recientemente de Joreskog, estableciron modificaciones a T con el objeto de mejorar la eficiencia de esta dócima. Casos en que respectivamente se considera:

2 p + 4m + 5  ∑ˆ 0  T = (n − 1 − ) ln , o bién 6 S   Proceder secuencialmente, calculando T de Bartlett para m=1,...,mmáx , obtener sus correspondientes grados de libertad g1,.....,gmáx; evluar las diferencias sucesivas de tales estadísticas, que les corresponderán las respectivas diferencias de grados de libertad hasta lograr valor significativo. Lo que finalmente puede llegar a interpretarse como T = −n

p

h =m +1

ln(1 + d i ),

con d1 > ... > d m > d m +1 > ...... > d p , valores característicos de

{

}

ˆ −1 / 2 SΨ ˆ −1 / 2 − I . Lográndose la region crítica: C = m.a.(n) / T > χ12−α ( g ) . Ψ

Análisis de tipo secuencial , ya que inicialmente se abre el proceso con m=1, de rechazar H 0, se considera m+1, hasta no rechazar H0. 7.3.1.2.- Criterios de selección Otra alternativa, al reciente análisis de verosimilitud , es estimar el modelo factorial para distintos número de factores posibles, y para cada uno de ellos se calcula el máximo de la correspondiente functión soporte; según el criterio de Akaike se eligirá un modelo con m parámetros que minimice: AIC ( m) = 2( −L H 0 (Σ) +número de parámetros en el modelo ˆΛ ˆ ´+Ψ ˆ +np −2 m( p +p / m −m( m −1) / 2) = n ln Λ A partir de que esta propuesta, puede también plantearse como el minimizar: AIC (m) − AIC ( H 1 ) = AIC (m) − AIC (sin restrcicciones) * Lo que induce a minimizar: AIC ( m) = 2( LH (Σ) − LH (Σ)) − 2 g = T − 2 g , con T=T(m)= 1

−1 ˆ − nln S ∑ 0

), la estadística de la sección anterior, en que

0

ˆ0 ∑

se estima con m factores , g=

((p-m2)-(p+m))/2. De manera alternativa se puede también determinar m que minimice: BIC(m)= T(m)- g ln(n) m 1

T(m) 31.1

g 20

p-value 0.053

AIC -8.9

BIC 29.79

T-Bartlett 23.06 119

Tm-Tm+1 14.76

gm-gm+1 7

p-value 0.039


Métodos Multivariantes 2

11.7 3 6.49

13

0.55

Dr. Luis Felipe Figueroa 14.27 -7.51

8.30 3.92 6 0.687 27.84 3 7 0.484 4.38 1 5 0.962 14.82 4 5.27 2 0.072 1.27 -0.73 3.38 Table en la que se aprecia: que la solución m=1 la proporciona el análisis de verosimilitud, mientras que según criterio AIC, y también BIC esta solución se garantiza con m=2. Además según Bartlett se rechaza un factor , pero con Joreskog no podemos rechazar la hipótesis de considerer 2 factores.

7.3.2.- Estimación de Factores 7.3.2.1.- Factores no aleatorios De la estructura de supuestos, se establece que para el caso aleatorios (determinísticos):  -La distribución del vector aleatorio X ~ N(ΛF , Ψ)

   X = µ + ΛF ,

de efectos no

- Para una m.a.(n) , disponiendo del vector de factores para cada observación ,   X i ~ N(ΛFi , Ψ ) i = 1,..., n

entonces

- En suma, en este caso , nuestro vector aleatorio satisface un modelo de regression lineal con variables explicativas dadas por el vector de cargas, vector de parámetros a los factores   communes y componente de error a los factores específicos, E ~ N (0,ψ) , que son heterocedásticos. - Por lo cual, los factores communes, pueden ser obtenidos (estimados) mediante la estimación de coeficientes, para un modelo de regression lineal generalizado, con ˆ , resultando: variables explicativas observadas que dan forma a Λ    -1 -1  ˆ = ( Λ´Ψ −1Λ) Λ´Ψ −1 X ˆ ´Ψ ˆ −1Λ ˆ) Λ ˆ ´Ψ ˆ −1 x f i =(Λ F ⇒ i i i 7.3.2.2.- Factores Aleatorios Además, en el caso la matriz de covarianzas entre nuestro  general, de efectos aleatorios;  vector aleatorio X , con el vector de factores F , establece:

           cov( X , F ) = E [ ( X − µ ) F ´] = E [ (ΛF + E ) F ´] = E [ ΛFF ´] + E [ EF ´] = ΛE [ FF ´] = ΛI m = Λ = (λjh ) j , h =1,..., p que la variabilidad común ΛΛ´ , es el cuadrado de la vinculación que refleja esta estructura de covarianza. Recordando que la propiedad 5.3 de la sección 3.1 se refiere a la correspondiente expectativa   de la primera componente del vector aleatorio ( F , X ) condicionada a un valor particular de la segunda componente como: 120


Métodos Multivariantes

Dr. Luis Felipe Figueroa

             E[ F | X = x ] = E[ F ] + cov( X , F )Σ−1 ( x − E[ x ]) = cov( X , F )Σ−1 ( x − E[ x ]) = ΛΣ−1 x =:

 Fˆ , lo que puede considerarse un estimador del correspondiente factor.

Teniendo presente:

( ΛΛ´+Ψ) −1 = ( Ψ + ΛΛ´)−1 = Ψ−1 − Ψ−1Λ( I + Λ´Ψ−1Λ) −1 Λ´Ψ−1 = Λ´(ΛΛ´+Ψ) −1 = Λ´Ψ−1 − Λ´Ψ−1Λ( I + Λ´Ψ−1Λ) −1 Λ´Ψ−1 = ( I − Λ´Ψ−1Λ( I + Λ´Ψ−1Λ) −1 )Λ´Ψ−1 = ( I + Λ´Ψ−1Λ) −1 )Λ´Ψ−1

se

puede

apreciar

 Fˆ =

que:

    ΛΣ−1 x = Λ´Σ−1 x = Λ´(ΛΛ´+Ψ) −1 x = ( I + Λ´Ψ−1Λ) −1 ) Λ´Ψ−1 x , es un estimador Ridge

 ˆΣ ˆ ´Ψ ˆ −1 Λ ˆ ) −1 )Λ ˆ ´Ψ ˆ −1 xi ˆ −1 x = ( I + Λ del caso anterior. Lográndose la estimación : fˆi = Λ

7.4.-Estimación de la matriz de cargas 7.4.1.- Método Factor Principal Este método, está basado en estimar la matriz de cargas, mediante componentes principales, según se anticipó en 7.2.1.; lo cual require, el disponer de S=(sjj´), la estimación de la matriz ˆ de la de varianzas-covarianzas de nuestro vector aleatorio en studio, y de la estimación Ψ matriz de perturbaciones. ˆ = ΛΛ´ , que por ser matriz simétrica de se puede Así se dispone del sistema S −Ψ descomponer en términos de una matriz ortogonal H=Hpxp ,y una matriz diagonal G =Gpxp . ˆ sea de rango m, lo que obliga a que la matriz G sea de Este método exige que S −Ψ dimension m, es decir una particular sub-matriz de ella G1=G1, mxm , tal que : G 0   G =  1  0 0

Se inicia el proceso, considerando una matriz de pxm H 1 , que contenga los valores ˆ , asociados a los valores característicos que conforman G1, característicos de S − Ψ ˆ = H 1G11 / 2 . Λ asumiendo el siguiente estimador de Λ:

ˆ t +1 = H 1t G11t/ 2 , que según margen de convergencia, del Dando origen a un sistema recursivo Λ valor absoluto del determinante de las respectivas diferencias par el caso m=1 o bién el valor absolute del determinnte para dimension superior; se assume la solución buscada. ˆ , para lo que basta estimar, los elementos de Para ello se debe disponer de una estimación Ψ 2 2 2 su diagonal ψ jj = ψ j ; con lo cual obtenemos λˆ j = s j −ψˆ jj , elementos de la diagonal de 2 ΛΛ´ , con s j = s jj elemento j de la diagonal de S. Ante ello, se dispone al menos de las siguientes opciones a considerar:

Caso 1: ψˆ jj de S. Caso2:

=0 .

Lo que induce a solución basada en determinar las componentes principales

ψˆ jj =1 / s *jj ,

s *jj

elemento 2 2 * 2 2 2 2 2 λˆ j = s j − 1 / s jj = s j − s j (1 − R j ) = s j R j , 121

j-ésimo

de

S-1.En

tal

caso


Métodos Multivariantes

Dr. Luis Felipe Figueroa 2

donde R j es el coeficiente de determinación (correlación al cuadrado)  entre Xj con las restantes p-1 variables que forman el vector X .

7.4.2.- Método de Máxima Verosimilitud     Disponiendo de X 1 ,..., X n , m.a.(n) del vector aleatorio X = ( X 1 ,..., X p )´ ~ N ( µ, ∑) , podemos utilizar la function de verosimilitud, que según 3.4, equivale a utilizar su logaritmo L:

− np n 1 1 n    −1 −1 L = L( µ , Σ ) = ln(2π ) + ln | ∑ | − Tr ( A ∑ ) − ∑ ( x − µ )`∑ −1 ( x − µ ) , 2 2 2 2 i =1

que al

sustituir los correspondintes estimadores de maxima verosimilitud, µˆ = x,

A = nΣ = nS , se n 1 n n L = L(Σ) = ln | ∑−1 | − Tr ( A ∑−1 ) = − ln | ∑ | − Tr ( S ∑−1 ) , como 2 2 2 2

reduce a: ∑ = ΛΛ´+ Ψ

n L = L (Λ, Ψ) = − (ln | ΛΛ´+Ψ | +Tr ( S (ΛΛ´+Ψ) −1 )) , que al maximizar respecto de 2 ( Λ, Ψ) , se obtienen las ecuaciones: ˆ = diagonal ( S −Λ ˆΛ ˆ ´) , Ψ −1 / 2

ˆ Ψ

−1 / 2

ˆ (S − I )Ψ

determinan

−1 / 2

ˆ Ψ

−1 / 2

ˆ =Ψ ˆ Λ

ˆ ´Ψ ˆ −1 Λ ˆ = D: Λ ˆ ΛD , sistema sobre el cual,

matriz de forma

diagonal, iterativa, se

ˆ ,Ψ ˆ . Λ

7.5.- Diagnóstico del Modelo 7.5.1.- Análisis de Residuos

  Una vez obtenidos los factores fˆi y los correpondientes residuos ei = xi − Λfˆi , podemos establecer lo adecuado del modelo , así como la presencia de observaciones atípicas.

Puesto que el supuesto estructural a este respect es: E ~ N (0,ψ) , p-dimensional, donde   cada ei es una realización de E . Lo primero es verificar si la matriz de covarianzas de los residuos es una matriz diagonal. Aumentando el número de factores hasta que tales residues cumplan este requisito, así como la correspondiente normalidad. ˆ , se conocen como los residues Por otra parte, los términos de la matriz formada por : S −Σ del ajuste; donde deberá verificarse lo correcto de la aproximación.

7.5.2.- Medidas de bondad de ajuste 122


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Para cada variable, se ha establecido que: V ( X j ) = λ j +ψ j . Entonces, para cada una de ellas, es posible disponer de una medida del ajuste del modelo factorial, a traves del coeficiente de determinación (correlación al cuadrado) entre la correspondiente variable y los factores, dado por: 2

2

λ2j s 2j − ψ 2j ψ 2j γ = 2 = = 1− 2 sj s 2j sj 2 j

Complementario a lo expresado en 7.3.1.1. Por extensión, para todo el sistema , es posible disponer de un coeficiente de determinación R2, en terminos de el número de parámetros y los determinantes de la matriz de varianzas- covarianzas residuales y de la de varianzascovarianzas estimada por el modelo, mediante: R2 = 1 −

ˆ |1/ p |Ψ ˆ |1/ p |Σ

Ejemplo: Consideremos una mustra de 34 acciones que se transan en la bolsa de comercio en las cuales a la fecha se ha registrado tres tipos de rentabilidad asociado: efectiva por dividendos, proporción de beneficios que se traducen en dividendos y relación precio de acción según beneficios. acción 1 2 3 4 5 6 7 8 9 10 11 12

X1 3.4 5.1 4.5 3.5 5.9 5.1 4.6 5.0 3.2 3.4 6.5 4.4

X2 89.7 55.7 52.3 47.0 42.7 30.6 64.4 51.0 54.4 45.7 39.9 40.3

 0.35  S =  0.15 − 0.19 

X3 30.2 9.9 11.5 11.2 7 6.9 11.8 9.6 14.7 13.2 5.2 13.7

0.15 0.13 − 0.03

acción 13 14 15 16 17 18 19 20 21 22 23 24

X1 5.1 5.8 4.6 7.2 7.2 4.4 7.8 16.0 16.7 15.2 17.5 16.2

X2 52.4 43.9 52.8 65.8 58.1 58.5 84.3 96.5 100 92.3 99.9 93.5

X3 11.0 8.0 14.4 7.8 7.7 12.1 11.0 6 6.8 5.2 6.8 6.1

acción 25 26 27 28 29 30 31 32 33 34

− 0.19   52.094   − 0.03  ⇔ S −1 = ( sij* )− 47.906  52.88 0.16   

X1 14.7 15.3 15.8 18.3 15.9 16.1 9.7 6.9 14.4 14.9

− 47.906 52.094 − 47.12

X2 100 99.9 100 96.3 100 92.5 87.6 53.6 87.8 34.5

X3 6.6 5.9 6.9 5.7 6.1 6.1 7.7 6.6 5.2 4.69

52.88   − 47.12  60.209  

ˆ , por el Método del Factor Principal, con margen de Estimemos la matriz de cargas Λ convergencia ε = 0.05 .

Para iniciar el proceso iterative de estimación de las comunalidades, utilizando la opción del * caso 2; ψˆ jj =1 / s jj . 1 / 52.094  ˆ = ∴Ψ 0  0   0.35  ˆ =  0.15 S −Ψ −0.19 

0 0   0.019    1 / 52.094 0 0.019 0   = 0  0 1 / 60.209  0 0.017    0  0.15 −0.19  0.019 0 0   0.111     0.13 −0.03  − 0 0.019 0  =  0.15   −0.03 0.16  0 0.017    0  −0.19 0

0

123

0.15 0.111 −0.03

−0.19   −0.03  0.143  


Métodos Multivariantes

Dr. Luis Felipe Figueroa

La cual posee los siguientes valores y respectivos vectores propios: 0.379 ;0.094;-0.108 (-0.670 -0.442 0.596) ; ( 0.036 -0.783 -0.621);(0.741 -0.438 0.508 )

Por ser el primer valor propio ostenciblemente mayor que los restantes, consideraremos m=1; sólo ocupando tal valor propio para formar la primera parte G 1= 0.379 de la descomposición en la matriz particionada, con H1= (-0.670 -0.442 0.596) , matriz de vec. mxp, en este caso de una linea y 3 columnas, iniciando el proceso mediante: ˆ t que corresponde a la primera ˆ = H 1G11 / 2 =(-0.670 -0.442 0.596)´ 0.379 =(-0.412 -0.272 0.367)´=: Λ Λ

ˆ t +1 = H 1t G1t . estimación (para t=0)de la matriz de cargas, de recurrencia Λ 1/ 2

Para

ello,

nuevamente

procedemos

a

configurar

una

nueva

matriz

diagonal:

ˆ = diag ( S − Λ ˆ tΛ ˆ t ´) = Ψ ˆt Ψ 0 0 0.18    ˆ Ψt = diag ( S − (-0.412 - 0.272 0.367)´(-0.412 - 0.272 0.367)) =  0 0.056 0   0  0 0 . 0253   0.15 −0.19   −0.05   ˆ ˆ S − Ψ = : S − Ψ = 0 . 15 0 . 074 −0.03  , la cual posee los siguientes: recalculamos  t −0.19 − 0.03 0.135   

Valores Propios :0.307; 0.067;-0.215 y respectivos Vectores Propios:

(-0.559 -0.450 0.696);(0.081 0.806 0.586);(0.825 -0.385 0.414)

Ahora, iteramos el proceso considerando G1t= 0.307, H 1t =(-0.559 -0.450 0.696)´ , mediante:

Λˆ t +1 = H 1t G11t/ 2 =(-0.559 -0.450 0.696)´

0.307 =(-0.310 -0.249 0.386)´

Veamos ahora la discrepancia entre las estimacions de matrices de cargas:

ˆ t +1 −Λ ˆ t = (-0.310 - 0.249 0.386)´-(-0.412 - 0.272 0.367)´ =0.106 >0.05 =ε . Λ

Por

lo

cual

nuevamente

iteramos,

considerando:

ˆ t =(-0.310 Λ

-0.249

0.386)´,

ˆ = diag ( S − Λ ˆ tΛ ˆ t ´) = Ψ ˆt Ψ 0 0  0.254   ˆ t = diag ( S − (-0.31 - 0.249 0.36)´(-0.31 - 0.249 0.36)) =  0 ∴Ψ 0.068 0   0 0 0.011   0.15 − 0.19  − 0.124   1/ 2 ˆ 0.062 − 0.03  , cuyo mayor valor propio es 0.291=: G1t entonces S − Ψt =  0.15 y  − 0.19 − 0.03 0.149   

respectivo vector propio (-0.499

-0.425 0.755)´=

H1t

ˆ t +1 = H1t G1t =(-0.499 Así nuestro nuevo: Λ 1/ 2

-0.425

0.755)´

0.291 =(-0.269

-0.229

discrepancia:

0.407)´,

ˆ t +1 −Λ ˆ t = (-0.269 - 0.229 0.407)´-(-0.310 - 0.249 0.386)´ =0.05 ≤0.05 =ε Λ

Por lo cual el proceso se detiene en esta etapa, y asumiremos como estimación a :

124

con


Métodos Multivariantes

ˆ =(-0.269 Λ

Dr. Luis Felipe Figueroa 0.254  ˆ Ψ = 0  0 

,

-0.229 0.407)´

   0.011 

0 0.068

0 0

0

Quedando nuestro modelo factorial con tales parámetros estimados. Luego para cada observación :         ˆ) ⇒ ˆ) x = Λˆ F + E = Λˆ F1 + E , con F = F escalar , E ~ N(0, Ψ x ~ N(Λˆ F , Ψ Al estimar factores como no aleatorios:

(

)

Fˆ =: Λ´Ψ−1Λ´

-1

 Λ´Ψ−1 X

(

)

 -1 ~ −1 x ˆ ´Ψ ˆ −1Λ ˆ ˆ ´Ψ fˆ = fˆ =: Λ Λ

0.254 ~ −1 =  0 Ψ   0 

0 0.068 0

−1

   0.011  0 0

1.984  = 0  0 

, donde

0 3.834 0

   9.534   0 0

 -1 ~ −1 x , ˆ ´Ψ ˆ −1Λ ˆ) Λ ˆ ´Ψ Entonces para cada observación i = 1,..., n = 34; fˆi = fˆi =: ( Λ i nos prove de los correspondientes factores , en este caso de los valores escalares (primer factor), ya que fué el único que podemos establecer al solo considerar el primer valor propio al inicio de este procedimiento y restringirnos a considerar m=1.

 x1 = (3.4

Por ejemplo para (el caso i=1) la primera observación corresponde el “valor”: (

)

-1 ~ − 1 ˆ 1 ˆ = ˆ ´Ψ ˆ − ˆ ´Ψ f Λ ΛΛ x1 1

 − 0.269  1.984        = − 0.229    0  0.407   0     

30.2) ;

-1

´

0 3.834 0

 0 − 0.269         0 − 0.229         9.534  0.407  

´

0 3.834 0

0 3.4       0 89.7      9.534  30 . 2   

− 0.269  1.984      = 0.5 − 0.229   0 0.407   0    = (− 0.55

89.7

− 1.75

− 0.   − 0.  0.4 

3.4     19.24) 89.7   30.2   

= 211.1015

Al estimar factores como aleatorios:

 ˆΣ ˆ ´Ψ ˆ −1Λ ˆ ) −1 ) Λ ˆ ´Ψ ˆ −1 xi . ˆ −1 x = ( I + Λ En tal caso: fˆi = fˆ1 = Λ Para la primera observación nos arroja: ´

−0.269  1.984   ˆ f1 = 0.342−0.229   0  0.407   0  

0 3.834 0

0  3.4    0 89.7  = ( −0.36   9.534  30.2 

125

−1.15

 3.4    12.65)89.7  =144.39 30.2   


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Pudiendo apreciarse, que debido a la forma de modificar que utiliza la Regressión Ridge, esta opción entrega una contracción de los resultados del caso determinístico. Al efectuar los cálculos, para los dos primeros factores en el caso no aleatorio, obtenemos :   fˆ1  − 0.55 -1 ~ −1 x =  ˆ ´Ψ ˆ −1Λ ˆ ˆ ´Ψ = Λ  fˆ =  Λ   fˆ   2  2

(

)

−1.75 19.24   x . 4 −10  

Este particular registro de cargas tiene una valoración opuesta entre los factores:

Lo que induce a una representación en ejes de factores, como a continuación a modo de ejemplo se grafica para las primeras 12 observaciones: factor1 vs factor 2

Se establece entonces que la acción 1 tiene un comportamiento muy diferente de las restantes y que las otras tienen una asociación de variabilidad de conductas, aparentemente asociadas en términos lineales.

CAPÍTULO 8

126


Métodos Multivariantes

Dr. Luis Felipe Figueroa

ANÁLISIS DE CORRESPONDENCIA

El análisis de correspondencia, se basa en considerar las frecuencias de las tablas de contingencia; para efectuar una descripción de las conductas de los objetos, mediante una representación gráfica simultánea de las entradas de esta, que las ponga en correspondencia. Por lo cual este tipo de análisis, desde ya es de utilidad, para el estudio cualitativo de información.

8.1.- Geometría de la información disponible Consideremos una clasificación a dos criterios que resumimos en p-columnas y r-líneas. La base de nuestra información disponible se encuentra en el arreglo matricial que designamos por

K=(kij)pxq ,

que contiene a las frecuencias absolutas, procedentes del recuento de objetos en cada celda (i,j) de la referida tabla de contingencia. Nuestro interés es estudiar las frecuencias condicionales de esta clasificación y no en sus frecuencias por líneas o columnas; para ello consideremos la siguiente notación:

q

p

ki• = ∑ k ij ,

k • j = ∑ kij ,

j= 1

F = ( f ij ) =

i= 1

 k ij  1 K =   , n  n 

p q

k= ∑

p

q

∑k =∑k =∑k

i= 1 j= 1

ij

i= 1

i•

j= 1

f i• = ∑ f ij ,

clasificación, con frecuencias marginales:

j= 1

q

p

∑∑ f = ∑ f i =1 j =1

ij

i =1

q

i•

= : n tamaño muestral

la matriz formada por las respectivas frecuencias relativas de nuestra

q

p

•j

= ∑ f• j = 1 j =1

127

p

f • j = ∑ f ij i= 1

; por lo cual:


Métodos Multivariantes

f i j k ij = , f • j k• j

Dr. Luis Felipe Figueroa

f ij k ij = , ∀ i = 1,. ., p, j = 1,. ., q f i• k i •

A partir de ello, también podemos configurar matrices pxp y qxq de las correspondientes frecuencias acumuladas tanto para líneas como columnas:

Dp = diag( f1• ,. , fi• ,. , fp• ) , Dq = diag( f• 1,. , f• j,. , f• q) Con esta información daremos forma a respectivos espacios en IRp y IRq , donde insertaremos los p-objetos fila q dimensionales, y q-objetos columna de dimensión p de que disponemos, cuyas coordenadas se registrarán de la siguiente forma: Para cada: i=1,…p objetos fila:

f ij f i•

representará la j-ésima componente del correspondiente vector (de perfiles o de frecuencias condicionales linea) i en IRq , j=1,…,q; dando origen al vector,

 fi i21 fij fiq ki i21 kij kiq  , ., . , =  , ., . ,  f i i•• fi• fi• ki i•• ki• ki• 128


Métodos Multivariantes

j=1,…,q objetos columna:

Dr. Luis Felipe Figueroa f ij f •j

representará la i-ésima componente del correspondiente vector (de perfiles o de frecuencias condicionales de la columna) j en IRp, i=1,…,p; originando el vector,

 f1 j f 2 j f ij f pj  , , ..., ,....., f f•j f•j  •j f•j

  k1 j k 2 j k ij k pj  = , , ..., ,.....,  k k• j k•j   • j k• j

   

Considerando una de las métricas más usuales podremos analizar la estructura de esta configuración de puntos a partir de por ejemplo las distancias euclidianas:

 fij fi´j  d ,( ii ´) = ∑  −  j= 1  fi• fi´•  q

2 , distancia entre filas

p  f ij f ij´ d ( j , j´) = ∑  −  f • j´ i =1  f • j

2

  , distancia entre columnas  

Ambas situaciones en cada caso no consideran el peso (frecuencia acumulada) de cada columna o fila respectivamente. Por ello con mayor pertinencia estadística cabe la pertinencia de la distancia Chicuadrado, una distancia euclidiana ponderada que incorpora tales consideraciones:

1  f i j f i´ j  d ,( ii ´) = ∑  −  j= 1 f• j  fi• fi´•  q

p

d ( j , j´) = ∑ i =1

2 , distancia entre filas

2

f ij´  1  f ij  , distancia entre columnas − f i •  f • j f • j´ 

Una consecuencia inmediata de considerar esta distancia Chi-cuadrado, que es la que de ahora en adelante adoptaremos es que es invariante de bajo re-codificaciones. Esto es, que los valores de tales

129


Métodos Multivariantes

Dr. Luis Felipe Figueroa

distancias entre objetos, es independiente de como han sido codificadas las categorías de la tabla de contingencia. Puesto que si agregamos datos de idéntica clasificación , en las p columnas , las distancia entre columnas no se altera; se obtiene idéntico resultado

para el caso de nuevas

observaciones de tal índole en el espacio de las filas. Nuestro objetivo a este respecto, se traduce en construir una configuración de puntos tanto para el espacio p como para el q dimensional, eligiendo el perfil como las coordenadas (dando peso a todos los elementos en IRp y en IRq por igual). De tal manera que al representar simultáneamente el cruzamiento de las categorías de dichas variables en mapas de mínima dimensión (una o dos), especialmente en el caso de tablas de grandes dimensiones, permita examinar visualmente algún patrón o estructura en los datos. Además esto debe poder analizar toda la información contenida en una tabla de contingencia, definiendo reglas para poder leer la representación gráfica obtenida. Un importante aspecto del análisis de correspondencia el cual lo distingue de otros métodos convencionales de estadística es que no es una técnica confirmatoria, sino que una técnica exploratoria develando el contenido de los datos. Solo podemos decir que esta técnica constituye una apreciación más de la información disponible, permitiendo un fácil acceso a resultados numéricos, facilitando la discusión de los datos, y posibilitando el generar conjeturas (hipótesis) para una posterior docimasia de ellas.

8.2.- Métodos para Análisis de Correspondencia

Los datos para el análisis de correspondencia deben constituir una tabla de contingencia de doble entrada, así los conjuntos a representar son los perfiles de las filas y columnas en dicha tabla. Esta representación simultánea conserva, en general, las relaciones existentes entre las filas y columnas las que son deducibles del examen directo de la tabla de contingencia. Por lo tanto el AC tiene mayor utilidad cuando el número de filas y columnas es grande.

Matemáticamente, el análisis de correspondencia puede considerar dos métodos: a) Uno para descomponer el estadístico Chi-cuadrado (Método de descomposición Chi-cuadrado) en componentes correspondientes a las diferentes dimensiones de heterogeneidad entre las filas y columnas para una tabla de contingencia.

130


Métodos Multivariantes

Dr. Luis Felipe Figueroa

b) Otro (Método de Máxima Correlación) para asignar simultáneamente una escala para las filas y una escala separada para las columnas; para efectivamente maximizar la correlación entre el par resultante de variables.

8.2.1.- Método de Descomposición básico (Chi-cuadrado) Un análisis de correspondencia es interpretado examinando las posiciones de las categorías filas y categorías columnas como reflejan sus valores coordenados. Los valores de las coordenadas reflejan la asociación entre las categorías de las variables filas y las variables columnas. Si asumimos que una solución bi-dimensional provee un adecuado ajuste entonces los puntos filas cercanos indican que las categorías filas tienen similares perfiles (distribuciones condicionales) respecto a las columnas. Puntos columnas cercanos indican que las categorías columnas tienen similares perfiles (distribuciones condicionales) bajo las columnas. Finalmente, puntos filas cercanos a puntos columnas, representan combinaciones que ocurren más frecuentemente, que podrían suponer bajo independencia que las categorías de las variables filas esta no relacionada con las categorías de la variable columna. Finalmente, entrega una solución gráfica de la correspondiente tabla de contingencia bidimensional en las cuales los perfiles fila y columna están representados por puntos. Un desarrollo primario es establecer la existencia no de vinculaciónes entre fila y columnas; para lo cual, debemos considerar el concepto de inercia que corresponde a la suma de las masas (pesos) que tienen tanto las filas como las columnas en nuestras actuales coordenadas: Inercia total =

∑∑ i

Inercia filas =

Inercia Columnas =

ij

j

1 f. j

∑∑ j

− f i. f . j )

2

f i. f . j

j

∑∑ i

(f

i

 f ij   − f . j   f i.  1 f i.

2

 f ij   − f i.  f   .j 

2

Se efectúa también la dócima Chi _ cuadrado bajo la hipótesis de que las categorías filas y columnas son independientes. Donde se rechaza la hipótesis de independencia para valores pequeños del p-valor asociado (p < 0.05)

8.2.2.-Método en términos de proyecciones bajo restricciones. 8.2.2.1.- Problema de optimización asociado 1.- Maximo en Formas cuadráticas

131


Métodos Multivariantes

Dr. Luis Felipe Figueroa

En general para una matriz Xpxq de coeficientes en IR, al considerar Mqxq una matriz simétrica definida positiva que define una matriz de distancias para los objetos línea de X y una matriz diagonal Npxp formada por los pesos de los p puntos; podemos plantearnos lo siguiente: Para maximizar ( u´Au) , de entre todos los elementos u en IRq con norma unitaria tales que ||u||2= u ´M u=1, es posible proceder como es habitual: Basta considerar: g = u´ Au − λ(u´Mu −1) , y resolver 0=

∂g ∂ = (u´ Au − λ (u´Mu − 1)) = 2 Au − 2λMu ∂u ∂u

ya que M es no singular , entonces M −1 Au = λu

∂ g = 0 ; mediante ∂u

⇔ ⇔

Au = λMu

/ M −1 ⋅

( M −1 A − λI )u = 0 ; en consecuencia

λ es va.c., asi como u es el correspondiente ve.c. de M-1A. De lo cual se deduce que al considerar A=R la matriz de correlaciones de las observaciones , M=I la matriz identidad; estaríamos resolviendo componentes principales 2.- Maximización de Proyecciones. Al considerar las p- proyecciones en el eje u ; obtenemos las p-filas del vector v=XMu. La suma de cuadrados de las proyecciones (en términos de una norma ponderada utilizando la matriz N) es: v´Nv= (XMu)´ N (XMu) = u´M X´N X M u, entonces cuando bajo la restricción u´Mu=1, maximicemos ( v ´Nv) = máx ( u´M X´N X M u). Como se puede apreciar, respecto del punto anterior, este es un caso particular, donde A= M X´N X M,

con solución

u ve.c

de

M-1 A= M-1 M X´N X M = X´N X M. Luego si λ es el

correspondiente va.c., (el mayor) satisface que M-1 Au= λ u ⇔ X´N X Mu= λ u . El operador proyección en el eje u (también denominado factor), se define por : ϕ = Mu . El cual

satisface:

M-1 Au= λ u , multiplicando por M desde la izquierda en ambos miembros se

concluye que también:

Aϕ = λMu = λϕ ;

por lo que ϕ es también ve.c de A, par la

distancia (euclidiana ponderada) definida por M-1.

8.3.- Obtención de factores 8.3.1.- Factores para líneas

132


Métodos Multivariantes

Dr. Luis Felipe Figueroa

−1 −1 Las líneas de D p F pertenecen a IRq. Sea u ∈ IRp tal que ||u||2= u´M u=1, con M= Dq . −1 −1 −1 El vector de las p-proyecciones en el eje u es: v= D p FMu = D p FDq u . −1 Los p puntos son las líneas de D p F . −1

Para maximizar( v´Nv) , sujeta a ||u||=1, con N=Dp , || u||=u´M u=u´ Dq u =1; −1 −1 −1 −1 −1 −1 −1 −1 teniendo presente que : v´Nv = u´Dq F ´D p FD p D p D p FDq u = u´Dq F ´D p FDq u −1 −1 . Sabemos que nuestra solución es: u el ve.c. de S = F ´D p FDq , asociado al mayor λ

va.c. de S; por consiguiente Su = λu , donde

S = F ´D p−1 FDq−1 =

( f ) (diag(f ,. ., f ,. , f ) ( f )(diag(f ,. ., f ,. ., f ) ´

ij

−1

1• i• p• ij

•1 • j • q

  f i j −1 −1   ( fij) (diag(f1• ,. ., fi• ,. ., fp• ) ( fij)(diag(f•1,. ., f• j,. ., f• q) = ( fji)  f i• f• j  ´

−1

,

 1 p  resultando: S = ( s ) =  fhi fhj  ; que no es simétrica. ∑ ij  f i• f• j h= 1  Sin embargo, podemos llevar el problema a encontrar vac y vec de otra matriz que si es simétrica: −1 Sea u el primer eje principal; ϕ = Mu = Dq u , el primer factor. Entonces ϕ es vec de

A = Dq−1 F ´D p−1 F , v = D p−1 FDq−1u = D p−1 Fϕ

Es decir si u0 es ve.c. de S, correspondiente a λ0 ; u0 es el 2º EJE PRINCIPAL, ϕ0 = Dq−1u es el 2º FACTOR −1 Las proyecciones de los p puntos en el eje u0 son las componentes de D p Fϕ0

8.3.2.- Factores para columnas

133


Métodos Multivariantes

Para las columnas,

Dr. Luis Felipe Figueroa

se procede de manera similar que en el caso anterior, lográndose los

correspondientes q puntos. Esto es, el considerar el problema de optimización:

{

 w´D p−1 FDq−1 F ´D p−1 w / w ∈ IR p máx w  s.a. w´D p−1 w = 1  

}

−1 −1 En tal caso, w es el ve.c. de FDq F ´D p , asociado a su mayor va.c. λ ; entonces

FDq−1 F ´D p−1 w = λw .

Si recordamos que en el caso de las filas, sus respectivos análogos son: u , λ tales que Su = λu , −1 −1 con S = F ´D p FDq . Entonces:

λu = Su = F´D p−1 FDq−1u

FDq−1 F´D p−1 ( FDq−1u ) = λ ( FDq−1u )

−1 −1 −1 Por ende, también w = FDq u es ve.c. asociado al valor característico λ de FDq F ´D p .

Por lo cual w es proporcional a u; digamos w = βu . −1

De manera análoga al caso anterior, pero considerando M= D p

; || u||=u´M u=u´ D p−1 u,

−1 2 −1 −1 −1 −1 −1 calculando || FDq u || = ( FDq u )´MFDq u = u´Dq F ´D p FDq u =: α . Como deseamos

1

1

||w||=1; entonces adoptar β = α = || FD −1u || . q Así, es posible considerar en definitiva un vector w = Análogamente u =

1

α

1

α

FDq−1u .

F ´D p−1 w .

Las coordenadas de los puntos p-variantes a determinar, son entonces las componentes de: Dq−1F ´D p−1w = Dq−1F ´ψ,

ψ es ve.c de

ψ = D p−1w : también denominado factor asociado a λ .

D p−1 F ´Dq−1 F ´ , lo que lo constituye en el operador proyección sobre el eje

principal w en IRp.

8.3.3.- Sobreposición de representaciones

134


Métodos Multivariantes

Dr. Luis Felipe Figueroa

Observando los respectivos operadores de proyección:

ψ = D p−1 w = D p−1

1

ϕ = Dq−1u = Dq−1

1

α

α

FDq−1u =

1

D p−1 FDq−1u =

α

F ´D p−1 w =

1

α

1

α

Dq−1 F ´D p−1 w =

D p−1 Fϕ 1

α

Dq−1 F ´ψ

Se aprecia que, las coordenadas de los puntos en un eje principal, son proporcionales a las componentes del factor del otro espacio asociado al mismo valor característico. En consecuencia, debido a que las componentes de cada factor en los diferentes espacios son proporcionales. Tiene sentido, la sobre posición de las representaciones así obtenidas, para una discusión simultánea de las conductas en ambos sentidos en base la clasificación (de doble entrada) que en este caso se haya considerado.

Para identificar la proporción de información considerada, se establece la referencia respecto de los correspondientes valores característicos, mediante : Inercia= (va.c.)2

(va.c.) 2 Proporción de varianza explicada=

∑(va.c)

2

135


Métodos Multivariantes -borrador-