POL310 by Luis Mas

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II APUNTES DE CLASE

Luis Mas Castillo 20074570

23-04-2010

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Introducción a la Estadística

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 01 15-03-2010 Diap.1

¿Qué es Estadística? Una manera formal de modelar relaciones subyacentes de lo que sucede en la realidad a partir de datos objetivos. Formal porque emplea la matemática (puede llegar a un modelo matemático). Relaciones subyacentes porque no se ven. Lo único objetivo es el dato. A veces los datos están tan mal formulados que no se puede inferir nada. Lo subyacente no se puede ‘preguntar’. Para ello se emplean otras preguntas que permiten llegar a las inferencias deseadas. Comentario [L1]: Lo que deseamos explicar, la variable Y.

Dejaremos de hablar de “variable dependiente” para nombrarla variable de interés.

¿Qué es Estadística para el Análisis Político? Usar la estadística para comprender cómo se comportan y relacionan las variables políticas.

¿Qué le compete a la Estadística y qué no? Le compete sugerir alternativas a partir de los datos, dar información. Las decisiones son tarea propiamente del conocimiento humano. La información será incompleta pero a partir de ella se debe lograr la toma de decisiones.

Diap. 2 Concepto, variable, indicador. En un modelo estadístico se habla de variable latente. La hipótesis es la respuesta al planteamiento que se ha hecho. La data es lo que sucede en la realidad. Juntos permitirán ver que pasa al construir un modelo, donde veremos si es que calza o no calza. El aporte de la ciencia computacional es lo heurístico (encontrar un camino corto para dar solución a un problema) dentro de lo No Determinista. La heurística más conocida son las redes neuronales. El campo de la heurística está muy desarrollado en un campo lejano a la Ciencia Política la “Inteligencia en Negocios”. Modelo NO Determinista es un trabajo con cosas mucho más aleatorias, donde lo probabilístico es muy importante. [Existen también modelos deterministas (MRU en física)] Por el “enfoque newtoniano” los científicos creen que lo que encuentran es ley, aunque no es así.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Diap. 3 ¿Qué supone la estadística? Que los hechos observados pueden ser modelados. Que el encuestado dijo la verdad. Que el analista es objetivo. Se tiene un modelo cuando encuentras una relación entre las variables, que explica un fenómeno. La estadística interesa porque permite construir modelos para explicar la realidad.

¿Es costoso su uso? Asegurar la calidad del modelo y del análisis tendrá costos muy altos. Las herramientas ayudan sólo en el tiempo de procesamiento. Mientras mayor calidad se quiera mayor será el costo. Para investigar ciertos temas es necesario abordarlos desde otros caminos, lo cual puede llegar a ser muy costoso. Armar la data es lo caro, lo complicado. El procesamiento no es complicado gracias a las herramientas informáticas.

¿Cuánto cuesta no utilizarla y mal utilizarla? El no utilizarla limita la calidad analítica y la explicación de las decisiones. Mal utilizarla crea sesgos incontrolables y desprestigio. No usarla hará que no se pueda considerar como opinión científica, sino como una opinión particular. Si se utiliza mal existe la posibilidad de “demostrar” mediante seudo métodos estadísticos que realmente no comprueban nada. Además, aún la gente diciendo la verdad, siempre existirá un error.

¿La experiencia la reemplaza? La experiencia la complementa. Los sentidos humanos y la memoria tienen sesgos fisiológicos insuperables sin un método de investigación.

Diap. 4 Objetivo general: Saber probar formalmente diversas hipótesis que se puedan presentar en el análisis político. Objetivo específico: Identificar conceptos, recopilar datos necesarios, explorar el comportamiento, preparar datos para facilitar su tratamiento, modelar hipótesis posibles según las variables, seleccionar el mejor modelo, reportar los hallazgos

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Diap. 6 - 12 En ciencias sociales existe una limitación que es el NO poder experimentar; puesto que, para experimentar es necesario modificar la realidad para probar la hipótesis. Sin embargo, sin una seudoexperimentación no es posible realizar algo predictivo. Dependiendo de la escala en la que están los datos uno podrá ver qué tipo de modelo se puede realizar, puesto que, dependiendo de la naturaleza de la escala existirán ciertas restricciones. Es importante también ver cuál es la fuente de nuestra data, revisar la consistencia de la data; puesto que, si existe inconsistencia la base de datos se trunca. Las rarezas, puntos extremos que reflejan la realidad pero que representan un problema ya que en el modelo terminan por “jalar” o desviar una curva que modifica la explicación que se quiere lograr. Igualmente existen ausencias; sin embargo, los valores perdidos igual son importantes. En ese caso es importante buscar un método de imputación (insertar los datos perdidos), o eliminar variables que no son útiles porque casi nadie la respondió. Pensar en una posible recodificación si es necesario para lograr el dato, o los valores que uno necesita. Integración regional ya que el SO puede reconocer de forma distinta al país de origen de la data (puntos o comas decimales). Lo más complicado es la conglomeración y la factorización (hacer el análisis clúster y factorial). Existen distintos tipos de corte. Seleccionar el mejor modelo, ya que, con los datos pueden ser propuestos varios modelos. Dependiendo del propio investigador se apostará por el más parsimónico, o aquel que tenga variables específicas en las que se quiere insistir.

Comentario [L2]: Corte transversal (en un momento determinado) y corte longitudinal (distintos momentos en el tiempo). Comentario [L3]: Fuentes de data estadística: INEI, MEF, FREEDOM HOUSE, BID DATAGOV, WVS, CSES.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 02 19-03-2010 Para empezar con una base de datos es preciso revisar la escala existente. Entre ellas se encuentran: nominal, ordinal y numérico (escalar en SPSS).

1. Nominal a. Dicotómica b. Politómica Categórico 2. Ordinal a. Politómica ordenada 3. Numérica / Escalar a. Discreta (Modelos de conteo) Números enteros b. Continua (Modelos de mediciones)

Lo que importa es determinar qué tipo de escala tiene la variable de interés X1 X2

Descriptivos se explora las categóricas, y las numéricas con Explorar.

La exploración de variables es básicamente Univariada. La variable Y va a determinar muchas cosas. Media, mediana, moda.

Para ver si se debe usar un modelo lineal general (GLM) Luego pedir histograma, verificar KOLMOGOROV SMIRNOV/ SHAPIRO WILK (EXPLORAR, GRÁFICOS CON PRUEBAS DE NORMALIDAD). H0= la distribución es normal. Primero observar si los grados de libertad mayores de 50 se observa Smirnov, si son menores Shapiro Wilk. Luego se revisa si el nivel de significancia si es menor a 0.05 rechazo, si es mayor acepto.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Primer paso

Grados de Libertad

Mayores a 50 es Menores a 50 Shapiro Wilk Kolgomorov Smirnov Segundo paso Nivel de significancia Mayor a 0.05 Menor a 0.05 Acepto H0 Rechazo H0 En el caso del curso por el momento pensaremos que Culpabilidad atribuida es numérica.

Cuando quiero hacer un GLM tengo que ver que mi variable de interés Y es numérica y continua (medición). Pero las variables que apuntan a la Y pueden ser Categóricas (factores) o Covariables (numéricas). Lo que impacta sobre Y son factores o covariables. Factores Categóricos

Sexo Y

Covariables numéricos

Ingresos

Comentario [L5]: Si cumple una función Lineal Con SCATTERPLOT Si se cumple entonces R de Pierson

Años de educación

Variable Continua Normal

- Para comprobar la homocedasticidad ERROR BAR – ERROR TÍPICO - Diferencia de medias = error típico - Diferencia de Dispersión = Desviación típica - Para comprobar lo lineal SCATTERPLOT



Comentario [L4]: Homocedasticidad (varianzas iguales). Con ERROR BAR – ERROR TÍPICO DE LA MEDIA y con DESVIACIÓN TÍPICA. Si se cumple entonces ETA

La gráfica es una pista. La gráfica es de la muestra, la prueba es de la población. Lo importante es la prueba pues quiero inferir para la población.

ANOVA: Análisis de varianza (categórica con una numérica eliminando la covariable). ANCOVA: Análisis de covarianza REGRESIÓN: Cuando se analiza todo en una sola.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Al hacer el análisis con Error Típico para observar la diferencia de Medias. Al observar el siguiente boxplot, podemos ver que las medias en ningún momento se “cruzarán”.

Comentario [L6]: Si bien no tienen la misma dispersión, en la POBLACIÓN podría cumplirse. Es por eso que se puede SOSPECHAR que si habrá homocedasticidad.

Al observar eso, podemos ver que no existe HOMOcedasticidad, sino, HETEROCEDASTICIDAD.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Asesoría 20-03-2010 Análisis exploratorio de datos

¿Qu é se le pue de pedi ra cad a escala?

Escala Moda Mediana Media

CUANTITATIVAS Intervalo/Razón SI SI SI

CUALITATIVAS Ordinal SI SI NO

Nominal SI NO NO

Comentario [L7]: Se le puede pedir los siguiente estadísticos. Media, mediana, moda, simetría, curtosis, desviación típica, amplitud intercuartil, y mínimo y máximo

Nominal solamente se puede reportar frecuencias y la MODA. Solo se puede reportar el Gráfico de sectores (solo hasta cinco datos) y barras. En el caso de ordinales se puede pedir frecuencias, MODA, MEDIANA, CUARTILES, CUANTILES, QUINTILES. En cuanto a los gráficos se pueden mostrar barras, sectores y boxplot. Boxplot permite ver Valor máximo, es igual a la mediana en este caso. El cuadrado mientras mas grande sea, es más disperso.

25% de los datos

Comentario [L8]: En los BOXPLOT la raya es la MEDIANA, en ERROBAR el punto representa la MEDIA.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC El problema de las medias Una media presenta muchas limitaciones. Es por ello que en estadística se habla de MEDIA ROBUSTA. Esta última se fijará en otros puntos estadísticos para notar si es útil trabajar con ella o no. Los criterios que revisará: 1. Asimetría 2. Apuntamiento 3. Desviación o varianza

Solo a escalares, pues solo a esas se les puede sacar media.

Criterio de simetría: 

Simetría negativa: los valores extremos se encuentran de la media para abajo (cola a la izquierda)



Simetría positiva: los valores extremos se encuentran de la media para arriba (cola a la derecha).

Criterio Apuntamiento Si está muy puntiaguda entonces la información es muy obvio (METOCÚRTICA). Si en caso es flat o platicúrtica, entonces como es tan disperso que el valor medio no es representativo.

Criterio de Desviación o Varianza (D 2) Va a medir cuan dispersos son los valores con respecto a la media. Una media robusta debe cumplir:

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Media:

14.7 Desviación:

Curtosis (K):

Apuntalamiento:

En la robustocidad la Mediana debe ser cercana a la Media. Además, tanto la curtosis, desviación típica y simetría debemos observar el valor más cercano a CERO. Al comparar que media es más robusta aquella que cumple con más criterios, o de mejor forma.

Correlación Es el grado de variación conjunta existente entre dos o más variables. 

Relación positiva: las variables varían de la misma manera.



Relación negativa: las variables varían de manera negativa.

Si el resultado es 0 quiere decir que NO EXISTE RELACIÓN. Para medir esto se usa el Coeficiente de PEARSON. El indicador va de -1 a +1. Para poder leer esto, es necesario leer primero la SIGNIFICANCIA (‘p’ value o Sig. en función a 0.05).

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Hablamos que es significativo cuando el dato arrojado es menor a 0.05 NO ACEPTO HIPÓTESIS, y decimos que es no significativo cuando el dato es mayor a 0.05 ACEPTO LA HIPÓTESIS. Para acceder al menú de correlación, Analizar – Correlaciones y luego Bivariadas Correlaciones Indicador 2 Indicador 2

Correlación de Pearson

Indicador 4 1

Sig. (bilateral)

,000

N Indicador 4

Correlación de Pearson Sig. (bilateral)

,986**

,000

**. La correlación es significativa al nivel 0,01 (bilateral).

Primero vemos Sig. Al ver que es menor a 0.05, podemos empezar a observar la Correlación de Pearson. En este caso 0-986 es bastante alto, lo cual indica una correlación positiva.

También existe la Correlación parcial. Esto significa que se inserta una variable más a la correlación ya existente para ver cómo afecta a la correlación este otro factor. Puede disminuir o aumentar el efecto. ¿Para qué sirve el análisis factorial? Analizar, reducción de dimensiones, factor. Las primeras dos pruebas que uno hace con Análisis factorial, es Kmo y prueba de Bartlett. El KMO se encarga de ver si tu muestra es adecuada. Debe salir mayor a 0.5. La prueba de esfericidad de Barlett comprueba que la matriz no sea una Identidad, es decir, que los indicadores solo tienen correlación consigo mismas. La H0 de la prueba de esfericidad es: existe matriz de identidad, por lo tanto buscamos que sea significativa (menor a 0.05). Rechazo hipótesis. Para asegurarnos de que las variable se agrupen en los conceptos a los cuales apuntan en la realidad, utilizamos la rotación varimax. Y También se suprimen los valores absolutos menores a 0.33 y se guardan los resultados en nuevas variables.    

En descriptivos ponemos la prueba de:  KMO  BARTLETT En Rotación VARIMAX y Solución rotada. En puntuaciones guardar como variables y método regresión. En opciones suprimir pequeños valores 0.33.

Comentario [L9]: MAYOR A 0.5 Comentario [L10]: MENOR A 0.05 de esa forma es SIGNIFICATIVO

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Asesoría Parciales 07-05-2010 ESTADÍSTICA 1 Contenido:    

 

Nominal, media, mediana Moda, media, mediana Kappa, McNemar 2 Chi o Tau b o Tau c o Gamma R de Pearson Asimetría Curtosis -> Media robusta o Desviación estándar o Varianza o Intervalo de confianza

Nominal Ordinal Escalar

Moda SI SI SI

Mediana NO SI SI

Media NO NO SI

Moda: caso que más se repite Mediana: datos ordenados, el valor central Media: promedio

Kappa es una prueba simétrica, por tanto tiene significancia. Se puede usar tanto para nominales como ordinales. DEBE SER CUADRADO 2X2, 3X3. McNemar = NO hay cambio el tiempo. Es para dicotómicas (0 y 1).

Comentario [LA11]: KAPPA = No hay nivel de acuerdo – TODO (dicotómicas sobretodo). CHI= No hay asociación - cualitativas PEARSON= NO hay correlación - cuantitativas Comentario [LA12]: Rechaza(significativo) <0.05> Acepta (no significativo)

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Chi2

Pearson

Variable cualitativas

Variable cuantitativas

Nominales Ordinales

N° años de trabajo Escalares Ingresos

 Medidas direccionales para nominales (observar el signo)

* Medidas simétricas (se reportar la simetría de lambda)

OrdinalxOrdinal: Tau B de Kendall: filas x columnas iguales

puede

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Tau C de Kendall: filas x columnas distintas. Gamma: 2X2 en tabla de frecuencias

CORRELACIÓN PARCIAL solo para cuantitativas. Con la Significancia veo si acepto o rechazo, si es que hay correlación. Con la correlación veo tanto dirección como intensidad.

Asimetría, curtosis y desviación Asimetría Si la cola está hacia la derecha es positiva, LA MAYOR CONCENTRACION DE DATOS ESTÁ AL LADO IZQUIERDO (>0). Si la cola está hacia la izquierda es negativa, LA MAYOR CONCENTRACION DE DATOS ESTÁ AL LADO DERECHO (<0).

Como se distribuyen los datos con respecto a curva normal.

Curva ideal Me, Mo y X coinciden. Negativa: Moda, media, mediana. Positiva: Mediana, media y moda. Curtosis

Cuan concentrados están los datos:   

Leptocúrtica: datos están muy concentrados y son datos ya muy obvios. Mesocúrtica: CURVA NORMAL IDEAL Platicúrtica: existe una heterogeneidad muy extensa de datos, no hay capacidad predictiva. Media es profundamente imprecisa.

Desviación: DISPERSIÓN de la media. Mientras mas cerca a 0 sea el valor serán menos dispersos los datos con respecto a la media.

Comentario [LA13]: Esto es controlar con una CAPA.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Media robusta tiene una asimetría cercana a 0, curtosis cercana a 0 osea mesocúrtica, y desviación debe ser también cercano a 0. Menú explorar.

Conglomerados Y Factoriales Bietápico: entra cualquier cosa, y da el número optimo de casos. K Medias o Jerárquico: solo categóricas

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

GLM (glm univariado)

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 03 22-03-2010 Modelo General Lineal (GLM) Integra en sus procedimientos todo lo que tiene que ver con análisis de varianza y regresión lineal. Se USA cuando las variables son continuas (es decir aceptan decimales) e ilimitadas. Yo deseo saber cómo se comporta la variable Y a través de otras variables. Como no voy a encontrar algo determinista, siempre es importante contemplar el error. Son ilimitadas por que la Y puede tomar cualquier valor, no está agotada.

Comentario [L14]: Y = bx + E

Si la variable Y es ingresos, de la fórmula en cuestión puede dar cualquier número. Lo que uno quiere es comprender mediante las variables ‘x’ el comportamiento de la variable de interés Y.

Requisitos Sobre los predictores: Se asume que ‘X’ proviene de una muestra aleatoria. Todo lo que uno va a hacer va a tener un nivel de significancia. Si este no ha sido el caso es imposible determinar el nivel de error. Además, la X puede ser categórica o numérica. Sobre los residuos: el residuo es el grado de imprecisión al explicar Y. Si quiero saber cómo se comporta Y (si vale 8 y al hacer los cálculos arroja 9, el residuo es -1). Todo aquello que no ha sido considerado queda representado en el residuo. Además, estos residuos se distribuyen normalmente, y esto además se suma a que no están autocorrelacionados. Por eso se tiene que eliminar la autocorrelación. Hay técnica particular: Mínimos Cuadrados Ordinales MCO (en inglés OLS). Sobre la relación entre Y y las Xs: Hay una relación lineal entre ellos, si no hay relación lineal, no quiere decir que no hay regresión, pero podría haber relación exponencial. Además se asume la HOMOCEDASTICIDAD. Además, se asume que Y está normalmente distribuida en relación a X. Sobre la relación entre las X: No debe haber multicolinealidad. Si hemos tomado tres variables ‘X’ para explicar ‘Y’, queremos que exista relación entre cada una con ‘Y’, pero no una relación entre ellas. Se debe de descartar teóricamente y también empíricamente. Si esto no se cumple, no se acaba el asunto, es solo el GLM, siempre existe la posibilidad de emplear otros modelos.

Comentario [L15]: No se puede hablar de significancia si la muestra no es aleatoria. Comentario [L16]: A los categóricos se les denomina FACTORES, y a los numéricos COVARIABLES. Comentario [L17]: Esto se debe a que no tengo toda la información. Comentario [L18]: Uno tiene varios X (cada uno con sus valores). En ese sentido, no se quiere que lo que cada unidad está explicando no debe ayudar a explicar al otro. NO siempre se da el caso, a veces se da la correlación. Comentario [L19]: Se detecta con R de Pearson. Comentario [L20]: Homogeneidad de la dispersion de Y a lo largo de los valores de los Xs. No exige que sea particularmente mesocúrtico, platicúrtica o leptocurtica, pero si exige lo mismo siempre. Comentario [L21]: No debe haber relación lineal entre ellas.

Diseños existentes Diseños transversales: hacemos alusión al análisis de regresión que sirve para predecir el EFECTO de X en Y. En estos casos se obtienen ecuaciones. Y el otro es simplemente encontrar el EFECTO de factores en la Y.   

Anova de un factor (one-way anova): Sólo existe una Y, solo una X categórica. Anova univariado: Una ‘Y’ y varias X (donde todas las X son factores). Ancova univariado: Una ‘Y’ y varias X (donde todas las X son factores). En este caso se introduce una COVARIABLE para buscar eliminar el efecto de ésta en la relación entre la Y con los factores.

Comentario [L22]: Hay que notar la diferencia sutil entre PREDECIR y ENCONTRAR el efecto únicamente. Comentario [L23]: Esto es lo que se llama la familia ANOVA y ANCOVA.

Comentario [L24]: Una vez hecho el anova univariado.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC 

Comentario [L25]: Se diferencia únicamente en la multiplicidad de las Y.

Anova Multivariado (manova) & Ancova multivariado (mancova).

La relación entre una cosa y algo más siempre puede estar mediada por alguna variable más. De esta forma se inserta una covariable, de esta forma se ve si es que esta última mediaba la relación original. Esto es para evitar causas y efectos aparentes que no son determinantes.

Diseños longitudinales: Muchos cortes en el tiempo. La Y se mide muchas veces en el tiempo. Las Xs se utiliza para ver los efectos de ésta en Y, si son factores, las Covariables sirven de control.

Comentario [L26]: Es la medida repetida. La Y es una medición INTRASUJETOS pues la información es de la misma unidad de análisis. Comentario [L27]: Las categóricas serán factores INTERSUJETOS pues agrupan los casos de la unidad de análisis.

Diapositivas GLM UNIVARIADO Diap. 2-4 Si es que voy a hacer modelo lineal general GLM, no puedo tener ni categórica ni numéricas discretas, porque voy apostar a que la relación está dentro de un modelo lineal. No hay problema con que sea transversal o longitudinal. Puede ser tanto una o varias Dependientes. Para el Glm Univariado necesitamos SOLO UNA DEPENDIENTE NUMÉRICA. Allí habrá que decidir si se hará:    

Anova de un factor Anova univariado Ancova univariado Regresión lineal

Se utilizará la variable Opinión Pública, para ver si esta última afecta al nivel de culpabilidad atribuida como dependiente. Se recodificará Opinión Pública (1 al 8) para que sea a favor, indiferente, en contra. De esta forma se reducirá a solo tres categorías. Se hará ANOVA DE UN FACTOR. La H0 será que No hay efecto del factor en los valores medios de Y (es decir, que la opinión pública no ha influenciado en los valores que ha dado el jurado). Al ver el Sig. 0.552 por tanto NO PUEDO RECHAZARLO EL FACTOR, no la H0, porque es mayor a 0.05. Otra prueba que se puede observar es la prueba de homogeneidad de varianzas. La H0 es que existe relación homocedástica. En este caso, al observar Sig. 0.024 debemos rechazar por ser menor a 0.05. Para eso se ve el estadístico de Levene. Se pueden observar otras pruebas una vez que se sepa que hay heterocedasticidad. En ese caso se aplica las pruebas de Welch y de Brown-Forsythe. En este caso aparece un Sig. De 0.442 y 0.481 respectivamente.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC La prueba anova dijo que no había efecto, pero como había heterocedasticidad se optó por las pruebas ROBUSTAS. Si en cada nivel del factor se han distribuido cantidades iguales se observa Brown- Forsythe si no ha sido así se observa Welch. Al observar el gráfico de ERROR-BAR se observa que las medias pueden ser ‘cruzadas’ en algún punto. Y adicionalmente se observa que los ‘bigotes’ son bastante distintos, por tanto, hay alta dispersión. En cuanto a anova univariado, se inserta el NIVEL EDUCATIVO para sumarlo al efecto de OPINIÓN PÚBLICA. De esta forma se tiene más de una ‘X’. Al hacer el ANOVA UNIVARIADO tendré dos H0= Que hay relación homocedástica / No hay efecto del factor en los valores medios de Y. Se observa que no hay relación ni de opinión pública ni del nivel educativo, tampoco de la relación entre ambos. Al observar las pruebas de los efectos inter-sujetos se observa:   

Educación explica solo el 1% de lo que pasa en la sentencia. Opinión pública explica solo el 0.3%. El modelo corregido nos deja ver que sólo explica el 4%

Se necesita al menos una potencia de 0.8 (mayor o igual) para que exista baja probabilidad del error Tipo II. Ni el modelo general cumple esto, ni cada uno.

RECHAZA Ho ACEPTA Ho

Realidad Desconocida Ho Correcta Ho Falsa Error tipo I Alpha Decisión OK Decisión OK Error tipo II Beta

Si la potencia es menor a 0.8, PERO ha salido Significante, es un problema de diseño. Se sacan las pruebas robustas porque se duda de la homocedasticidad. Error tipo alpha está dejando engañar, es probable que el tamaño de la muestra no sea el adecuado.

Tomando “Medias marginales estimadas” Secundaria incompleta entre 1,2 y 4.268. Secundaria entre 0.3 y 4.0. Superior incompleta entre 2.8 y 4.2 superior entre 2.4 y 5.5 y los estudios de posgrado entre 3.4 y 4.2 Habrá traslape de medias (graficar un errorbar manualmente y observar si al trazar una recta cruzaría los niveles). Por eso no hay diferencia de medias. Es por ello que no se encuentra gran diferencia en cuanto al nivel educativo.

Comentario [L28]: Las pruebas de anova o ancova pueden ser contradictorias a las gráficas, puesto que, son más conservadoras (evitar cometer error de tipo 1). Comentario [L29]: Ambas categóricas es chi cuadrado, ambos numéricas R de Pearson. Una categórica y una Numérica se aplica ETA.

Comentario [L30]: El modelo corregido explica el todo, si se quiere ver cada uno se observa cada uno por separado.

Comentario [L31]: Cada vez que se habla del valor de significancia hablamos del valor de Alpha.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 04 26-03-2010 GLM UNIVARIADO Para la significancia de alpha se pueden hacer muchas cosas: cambiar de modelo por ejemplo. Sin embargo, el Beta si es un problema. Si encontramos que es menor a 0.8 es tarde. Lo único que podemos hacer es simular el muestreo mediante algún método heurístico.

Ancova univariado: Tengo la idea de que el Sexo es significativa de la culpabilidad atribuida. Sin embargo, existe la posibilidad de que exista una covariable que pueda estar teniendo efecto. No obstante, es necesario buscar primero que exista una relación entre la covariable y la ‘Y’. La manera de saber si hay una relación entre la covariable y la Y, se utiliza una correlación de Pearson. Como no existe relación entre ellas. Se puede buscar un factor a partir de tres preguntas en este caso, tres indicadores. De esta forma se debe buscar que sea un %alto en el cuadro.

Comentario [L32]: Si no hay relación entre la covariable y la variable de interés, no tiene sentido realizar un análisis. No obstante, la covariable no debe tener efecto sobre el factor (no hay interacción entre ambas). Comentario [L33]: Sinificativo (menor a 0.05). En el SPSS debe haber uno o dos **.

La interacción de “sexo & factor” debe ser significativo. En este caso (Diap. 24) el resultado es 0.589 por lo que no es significativo. Aquí se ve si la interacción tiene efecto sobre la culpabilidad atribuída. El sexo sigue siendo significativo (0.03). Podría ser que luego de realizar la ancova pierda su significación. Es importante revisar ambos cuadros para ver si la covariable tiene relación o no. Se debe comparar la tabla ANOVA y la tabla ANCOVA. De esta forma se puede llegar a la conclusión de que el sexo sin ser controlado es significativo, pero controlándolo por el nivel de creencia en estrategia “defensa propia” sigue siéndolo.

Regresión Lineal En este caso se analizarán tres covariables: defensa personal, esposo abusivo, insania mental. Cada uno de los grupos de preguntas responde a un concepto. De esta forma, de cada grupo de preguntas obtendremos una sola variable. Las tres covariables son significativas. Además, el modelo en general también es significativo, tiene sentido lo que se ha planteado. En los parámetros podemos observar signos. Esto determinará la orientación. Además, uno debe observar la intensidad. Al observar esto en la tabla, podemos ver que tiene una intensidad muy baja 0.28

Comentario [L34]: En el menu regression dejan de llamarse covariables para ser nombradas como Independientes

Comentario [L35]: Si es positive es directamente proporcional. Si es negativo es inversamente proporcional. Comentario [L36]: Esto quiere decir que la cantidad de elementos en la muestra es excesivo.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Para juntar indicadores en un factor se utiliza el menú reducción de variables en factor. Debo escoger en extracción el número fijo de factores a extraer, sino en autovalor generará lo que cree conveniente. No se puede hacer rotación porque no hay más de una variable resultante. Se debe escoger en puntuaciones guardar como variables. Al ver la prueba KAISER-MERYER-OLKIN debemos observar que sea mayor a 0.6. En este caso el 0.707 es válido. Además, en la varianza total explicada debemos observar cuanto se recupera del concepto. En este caso es 74.933 lo cual es bastante alto.

Para buscar la interacción se da en Univariante: Modelo. Al ver la significación de sexo*FAC1_1 se puede ver que NO es significativo por ser 0.569.

El R2 explica cuán fuerte es lo planteado en la realidad. Lo bueno de esto es que permite comparar modelos alternativos. En anova y ancova es “si un factor afecta a una numérica”. La diferencia entre anova y ancova es que la ancova busca ver si otra variable afecta la relación. En la regresión en cambio lo que se desea ver si una numérica afecta otra numérica.

Ahora se buscará trabajar con las otras variables, se elimina el factor que se había obtenido en un primero momento para evitar “chancarlo”. Se necesita ahora usar el autovalor, y además, se debe realizar la rotación VARIMAX para asegurarse de evitar la multicolinealidad. En Opciones eliminar valores menores a 0.33 .

Obsevamos KMO 0.690, cercano a 0.7 es aceptado. La que menos contribuye es Esposo causó su muerte. La matriz de componentes deja ver que existen algunos elementos en dos componentes. Una vez rotado queda mucho más clara la matriz. Al insertar los tres factores en covariables se pide ver el efecto de tres numéricas en una numérica. Los tres factores son significativos, y además el modelo también lo es. En la tabla se debe obviar la intersección. En la primera tabla se asume que es una relación lineal y lo compara con una prueba F y con eso busca ver si hay significativo. En la segunda tabla se puede ver que ya no se usa la prueba F si no la prueba T de Student.

Comentario [L37]: Las pruebas en estadística son paramétricas o no paramétricas. Las paramétricas ‘comparan’ con una recta ideal. Comentario [L38]: Al seleccionar parámetros se pide regresión lineal. También se puede pedir desde analizar y regresión lineal.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 05 29-03-2010 En las pruebas robustas de Igualdad de medias del GLM Univariado, al observar la tabla de frecuencias podemos observar N o n. El N indica le total de la muestra. Las n son de cada ”respuesta”. De esta forma al observar como en este caso ‘n’ diferente, se debe escoger el WELCH. Los GLMs tienen correcciones que no serían posibles alcanzar con las pruebas T. Esto evita errores de circularidad. Por eso es que es una corrección más conservadora, y lo que se observa en el Error-Bar podría no verse en los resultados finales.

Al realizar las pruebas de los efectos inter-sujetos, es necesario observar la primera fila para ver si el modelo es o no significativo. Además, luego debe observarse la significancia de cada uno de los factores (educ y opipucate en este caso). El acto de rechazar una hipótesis es un acto matemático. En cambio, el hecho de reestructurar la hipótesis es una decisión lógica.

Comentario [L39]: En este caso no puedo rechazar porque ni siquiera pude modelarla.

En el SPSS, la hipótesis es que No hay efecto del sexo, al ser significante, se rechaza la hipótesis del SPSS y se acepta la nuestra que era que SI existía efecto.

En el caso de la regresión lineal, se combinan todos los predictores en una ecuación. Lo que se hallará son los coeficientes, expresados en la ecuación como ‘B’. No olvidar que en el caso del GLM es necesario poner en el MENÚ opciones y luego Estimación de los parámetros. En cambio, en el menú regresión lineal no es necesario especificar esto. Esta nueva forma de escribir la ecuación sin error toma en cuenta ya no el valor de Y actual, sino el de Y ‘ajustada’.:

GLM MULTIVARIADO (manova) Es una modificación del univariado. El GLM se diferencia porque ahora la dependiente puede ser más de una. Estos factores que se obtuvieron mediante VARIMAX ya no tiene sentido volver a juntarlos. Si en caso fueran tres indicadores distintos, y se pudiera, se debería realizar la factorización siempre. Se trata de explicar como los factores afectarían los tres a la vez.

Comentario [L40]: A diferencia de lo anterior donde se buscaba cada uno de los efectos.

Comentario [L41]: Y actual = Y fitted + Error

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC La pregunta es si el sexo ha sido determinante para los tres factores. Lo que se espera en este caso en particular es que los más educado se pronuncien de manera similar, y los menos educados hagan lo propio. Lo mismo con el sexo.

Comentario [L42]: Si no se haría un univariado para cada uno.

La educación no tiene efecto (0.358), en cambio el sexo si lo tiene (es menor a 0.05). La interacción tampoco tiene efecto. Se rechaza la hipótesis puesto que el modelo que quería comprobar ha caído. Se retira sexo y entonces incluimos ingresos. En el caso de la regresión lineal multivariada saldrán tres factores. Al pedir estimaciones de parámetros, arroja una tabla. Lo importante en este caso en particular es observar Educación nivel 2. El modelo no es significativo.

En univariante guardar los valores pronosticados no tipicficados, los residuos tipificados y en diagnósticos la distancia de cook.

  

PRE_1 es el pronosticado ZRE_1 es el residuo COO_1 es la distancia de Cook

Al observar KMO del residuo podemos ver que es significativo. La hipótesis del SPSS es que es normal, por tanto rechazamos la hipótesis. No existe normalidad. S pide un diagrama de dispersión simple, en el eje Y el residuo estandarizado y en el eje X el valor pronosticado. De esta forma observaremos los valores extremos. S pide un diagrama de dispersión simple, en el eje Y la distancia de cook y en el eje X el valor pronosticado. De esta forma observaremos la homocedasticidad.

Comentario [L43]: Los valores que se alejan más.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

GLM (glm multivariado)

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 06 05-04-2010 Para hacer factorial, necesito que entre las variables haya relación. Pero al ser factorizadas, ya no habrá relación. Existen tres factores. Quiero saber cual de esos factores sería suficiente para diferencia de medias. Anova y Ancova busca saber si hay diferencias de medias. La pregunta es: Si las medias son diferentes ¿se debe a estos factores? Si sale no significativo, quiere decir que no se encuentra ningún patrón entre los factores. Aparentemente por Sexo si parecen las medias estar moviéndose. Para los tres casos sucede. H0= No hay efecto. No hay diferencia entre las medias. Por eso es necesario que sea significativo (menor a 0.05) para que haya efecto. Si se hace UNIANOVA, hay tres hipótesis entonces, si se cae uno, quedan dos aún. En MANOVA, si se cae una, se caen todas. Comentario [LA44]: Se insertan covariables si se quiere restar efecto, mancova, o quieres hacer regression.

En manova no hay covariables.

En mancova: dos requisitos la covariable relación con la dependiente. En este caso Ingresos no tiene relación (observar R de Pearson). Residuo: todo lo que no está explicado. Además, hay que observar la interacción educ*ingresos. Y NO DEBE HABER INTERACCIÓN. Por tanto debe ser no significativo. En este caso es No significativo, por tanto, de haber salido la relación lineal se pudo haber realizado la Mancova.

Contrastes multivariados Efecto Intersección

educ * ingresos

Valor

Gl de la hipótesis

Gl del error

Sig.

Traza de Pillai

.031

3.931

3.000

368.000

.009

Lambda de Wilks

.969

3.931

3.000

368.000

.009

3.000

368.000

.009

3.000

368.000

.009

Traza de Hotelling

.032

3.931

Raíz mayor de Roy

.032

3.931

Traza de Pillai

Lambda de Wilks

.026

.818

12.000

1110.000

.632

.974

.817

12.000

973.928

.633

.816

12.000

1100.000

.634

4.000

370.000

.138

Traza de Hotelling

.027

Raíz mayor de Roy

.019

1.750

Comentario [LA45]: Ver lambda de Wilks

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC educ

ingresos

Traza de Pillai

.051

1.601

12.000

1110.000

.085

Lambda de Wilks

.949

1.615

12.000

973.928

.082

Traza de Hotelling

.053

1.628

12.000

1100.000

.078

Raíz mayor de Roy

.049

4.497

4.000

370.000

.001

Traza de Pillai

.010

1.240

3.000

368.000

.295

Lambda de Wilks

.990

1.240

3.000

368.000

.295

Traza de Hotelling

.010

1.240

3.000

368.000

.295

Raíz mayor de Roy

.010

1.240

3.000

368.000

.295

a. Estadístico exacto b. El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación. c. Diseño: Intersección + educ * ingresos + educ + ingresos

En la regresión lineal multivariada quiero sacar una ecuación. Lo importante aquí es ver que nivel de educación impactaba más en cada factor. En este caso no se está haciendo mancova. Simplemente pongo los factores y variables que debo considerar como predictores y pido la ecuación. Anova de un factor solo se acepta un factor, en el multivariado se puede usar más de un factor. Además, la prueba T solo admite dos grupos (ej. Sexo = masculino o femenino), en cambio, el anova de un factor acepta más de un factor.

En análisis de regresión se deben revisar todos los supuestos (Diap. 46 GLM UNIVARIADO.PDF). Antes no se había considerado exogeneidad que no se aplica en muchos casos pero si en regresión, sobre todo el modelos longitudinales. En SPSS para hablar de exogeneidad o endogeneidad, se tiene que hacer regresión en DOS etapas. Es más sencillo realizarlo en E-Views. El SPSS no tiene una forma de decirte si la regresión es o no es lineal. No existe tampoco una forma de ver homocedasticidad, solo nos limitamos a ver el gráfico. El E-Views permite mediante la prueba de White comprobar la homocedasticidad, e incluso corregirla. ZPRED -> para ver si hay relaciones espúreas. VIF-> si es mayor que 4 se asume que existe multicolinealidad Índice de Condición: si es mayor a 15 debemos prestar atención a la fila para ver quien contribuye.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC En este caso se ha hecho primero una regresión con dos variables, y luego con tres. De esta forma se hace un modelo jerárquico y así ver si es una variable redundante o no. En este caso ya no se trabajará con el GLM UNIVARIADO, sino en el menú de REGRESIÓN LINEAL. En estadísticos se escoge “cambio en R cuadrado” cuando se utilizan dos bloques para ver la redundancia de una variable. Para Eso se observa el cambio. Es una regresión jerárquica. Las correlaciones parciales y semiparciales es para comprobar relaciones espúreas. No necesito una regresión inflada, que diga que hay un modelo donde no lo hay. La multicolinealidad resultará en SPSS por el menú de Diagnósticos de colinealidad. En cuanto al indicador “Durbin-Watson” informa si un residuo depende del otro. Es mucho más aplicable en serie de tiempo. ZRESID Y ZPRED para ver la homocedasticidad. Debe haber aleatoriedad para hablar de homocedasticidad.

Resumen del modelo Model

Estadísticos de cambio

Error típ. de

R d

Sig.

R cuadrado

Cambio en

cuadrado

corregida

Cambio en F

Cambio en

estimación

R cuadrado

.393a

.154

.152

1.702

.154

70.172

gl1 1

gl2 385

F .000

.421

.177

.173

1.681

.023

10.795

384

.001

.453c

.205

.199

1.655

.028

13.287

383

.000

a. Variables predictoras: (Constante), factor DEFENSA PROPIA b. Variables predictoras: (Constante), factor DEFENSA PROPIA, factor PROBLEMA MENTAL DE ESPOSA c. Variables predictoras: (Constante), factor DEFENSA PROPIA, factor PROBLEMA MENTAL DE ESPOSA, factor ESPOSO ABUSIVO

Comentario [LA46]: Su valor debe estar entre 1.5 y 2.5

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Se observa que el modelo 2 tiene un cambio de 0.023, es mejor incluirla porque también es significativo (0.01). El tercer modelo también tiene un aumento similar de 0.028, que es significativo por lo que también mejora la explicación.

Al observar R cuadrado .205, es decir, el 20% que se explicará con este modelo, podrá ser usado en la población y no solo en la muestra. La significancia en el Anova nos dice que si.

Las correlaciones se ponen para ver si hay relaciones espúreas (una variable que dice tener efecto en el R cuadrado pero que realmente sucede porque está conjugada con otras variables). Para darme cuenta de esto debo observar de izquierda a derecha una disminución importante (orden cero, parcial, semiparcial). Si es que esto sucede, hay probabilidad de que haya una relación espúrea. Luego se observa el FIV, si es mayor a 4 me preocupo. En este caso es menor = 1.0. Se observa el índice de condición. Si existiera alguna mayor a 15. De esta forma se debe observar cual contribuye más, se considera una contribución importante a partir de 0.5. En este caso los residuos arrojan 0. Esto es gracias a la factorización. La distancia de Cook y el Valor de influencia centrado ayudarán a observar si existen valores extremos. Los partial plott son para ver si existe alguna linealidad. En caso no haya linealidad, esto no quiere decir que no hay relación. Simplemente indica que la relación no es una regresión lineal. Si la distancia de cook es mayor de 1 y la distancia de Leverage es mayor a 0.5, los valores extremos malogran el modelo. En este caso no superan esos valores no son superados, por lo tanto no afecta al modelo.

Comentario [LA47]: H0 es que el R cuarado en la población es igual a 0.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Introducción a EViews

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 07 09-04-2010 Introducción al EViews Primero se debe cambiar el nombre de algunas variables para poder ingresarla mucho más fácil en el EVIEWS. Por otro lado, debe importarse el archivo de SPSS como “FOREIGN FILE”. Una vez hecho esto, se deseleccionan todas las variables y únicamente escogemos: culpa, fm, fe, fd. Se reemplazan las etiquetas por el valor perdido representado por 99. Entonces, de esta forma no tendremos etiquetas en EVIEWS donde no es necesario, podría causar problemas. Desde la ventana de EVIEWS también se pueden seleccionar variables. Se presiona SHIFT + flechas y se selecciona. Luego clic derecho y se le da a Open as group. Aquí se debe escoger eliminar el grupo anterior si es que no es de nuestro interés. Luego, se usa el menú QUICK. Se va a estímate equation. Culpa es variable dependiente, se tiene además, fd, fe y fm que son las variables independientes. Solo falta la constante. En cuadro de diálogo Equation Estimation se debe insertar la fórmula de la ecuación separada por espacios: Culpa c fd fe fm Se debe verificar que los valores perdidos han sido tomados de forma correcta. Si no es así, se debe ingresar al menú de SPSS transformar en la misma variable, y cambiar el valor 99 (tomado como tal por el EVIEWS) y entonces especificar que es un SYSMIS o valor perdido.

En Eviews “Prob” es la significancia. En la tabla se puede observar el R cuadrado además del R cuadrado ajustado. “Prob (F-statistic)” nos da la significancia del modelo. El Durbin-Watson sale inmediatamente porque es un indicador de suma importancia en series de tiempo. En una regresión lineal se está suponiendo que el modelo es una recta. Para que sea una recta, se observaba en SPSS si existía una recta en el diagrama de dispersión. En EVIEWS si existe una manera de comprobar eso. Para ello se exige en VIEW , stability tests, y luego el TEST DE RAMSEY, el número de elementos ajustados es 1. La hipótesis es que es lineal. La probabilidad es 0.8091, es decir que no puedo rechazar la hipótesis, porque no es significativo. Por tanto si es lineal. Nuevamente se abre el grupo, luego quick y allí se coloca: Culpa c fd fe Esta vez no se pone la fm, y se pide la regresión. Esto sirve para saber si una variable sobra o esta faltando. Allí estará la varaible Culpabilidad explicada únicamente por estas dos variables. Luego se va a View, luego Coefficient Tests, y se selecciona Omitidas o redundantes. En este caso se usará omitted variables con FM. La hipótesis es que DICHA VARIABLE NO SIRVE, sin embargo, es significativa (Prob. F es 0.0009) por tanto se debe

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC considerar. La variable a analizar debe estar incluida en el grupo seleccionado para trabajar, de otra forma no funcionaría así estuviera en la base de datos original. View – Stimation Output y vuelve al principio. Ahora probaremos las variables redundantes. En este caso se va a View, Coefficient Tests y luego Redundant Variable. En este caso la hipótesis es que Es redundante, sin embargo, al analizar FD sale un valor Prob. 0,000 por lo que se rechaza la hipótesis y por ello decimos que la variable no es redundante y que si debe estar allí. Otra forma es abrir las cuatro variables como ecuación, y sale directamente. View, actual fitted residual, y pedimos la tabla. Actual es la Y verdadera, Fitted es la estimación, residual es la diferencia entre la realidad y la estimación. El Plot da las bandas entre las cuales los residuos son aceptables determinadas por las líneas punteadas. También se puede pedir Actual es lo rojo, Verde representa la estimación y el azul representa los residuos. Debemos ver cuantos escapan de las bandas. Hay que verificar que los residuos sean normales. Para eso View, residual test, histogram normality test. Para ver la normalidad es necesario observer el indicador Jarque-Bera cuya hipótesis es la distribución de los resiudos es normal. En este caso ha arrojado 19.88673 por lo que debo aceptar la hipótesis. Para comprobar la homocedasticidad se va a View, residual, luego Test de heterocedasticidad, y luego White. No se incluye White cross terms. La hipótesis es que hay homocedasticidad. Por esto, al encontrar 0.0377 podemos rechazar la hipótesis, por tanto podemos decir que es heterocedasticidad. Se vuelve a pedir la regresión por el menú quick. Para corregir la heterocedasticidad se piden el menú opciones del cuadro Estimation equation. Con ello se da una nueva regresión pero con los valores HOMOCEDÁSTICOS. Se abre como grupo, luego view descriptivos, y luego COMMON SAMPLE.

Comentario [LA48]: Con esto se puede hacer algo similar a EXPLORE.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Introducción a STATA

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 08 12-04-2010 Introducción al STATA Cuando se desea trabajar con una data de otro origen, es necesario comprobar que los valores perdidos van a ser entendidos por el otro programa. Para ello se utiliza el menú Analizar, explorar. Si es que se incluye “excluir según parejas” en el menú opciones de Explorar, para no tener diferencia entre solo una variable y la variable con las demás variables. Al llevar la data al STATA debemos ver que lo que se entiende en SPSS como perdido sea igual. SPSS tiene métodos de valores perdidos técnicas bastante “burdas”. Perdidos por lista elimina toda la fila si es que una sola de las variables tiene un perdido. Si es por casos, puede considerar individualmente cada variable. Lo que uno desea saber es cómo se comportan los perdidos. Los perdidos pueden generar que no se pueda generar la tabla. Hay que tener especial cuidado en las cuantitativas. En la recodificación existe una opción que se llama “perdidos por el sistema o usuario” se pasa por perdido por sistema en valor nuevo. De esta forma se generaliza el código, el cual es universal entre los programas estadísticos. En el menú de Análisis de valores perdidos se puede pedir una suerte de exploración. El test de Little puede servirnos para ver si son completamente aleatorios y de esta forma imputables. La hipótesis es si están perdidos completamente al azar. Guardar data en formato STATA para poder trabajarla. En stata, en el menú NEW DO FILE EDITOR abrir el archivo “GLM con STATA.do”. En el recuadro izquierdo superior aparecen todos los datos, en la inferior las variables activas, y abajo los comandos a realizar. /codebook sirve para revisar la frecuencia, con las etiquetas y los valores. Es similar a una exploración en STATA de cada una de las variables. Se le puede especificar de que variable para que salga solo uno. En el DO-FILE editor se puede seleccionar un comando y reproducirlo. El do-file es una suerte de sintaxis. /aorder sirve para ordenar alfabéticamente las variables. /* NOTAS */ en cualquier lado del DO-FILE Se puede dar codebook en la zona de comandos y luego seleccionar la variable y ejecutará dicho comando únicamente para esa variable. /pca a_causa-c_sufre, mineigen (1) para que sea un factor fuerte. /estat KMO Predict fdef fment fespo para predecir la suma de cuadrados y la rotaion ortogonal varimax para cada coeficiente REVISAR PARTE II, III Y IV. /order es distinto a /aorder. /ORDER hace que los factores pasen arriba para poder trabajar más cómodos. /browse = /bro

Comentario [LA49]: ¿Qué pasaría si la data tuviera distinto código para los perdidos?

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Para evitar la correlación es necesario un análisis factorial para volver las variables a su factor. El VARIMAX logra separarlos ortogonalmente evitando aquello. . regress culpabilidad fdef fment /* variable de interés seguido de factores*/

Source |

Number of obs =

387

-------------+------------------------------

F( 2, 384) = 44.23

Model | 246.912144

Prob > F

2 123.456072

Residual | 1071.87855 384 2.7913504 -------------+------------------------------

= 0.0000

R-squared

= 0.1872

Adj R-squared = 0.1830

Total | 1318.7907 386 3.41655621

Root MSE

= 1.6707

------------------------------------------------------------------------ -----culpabilidad

Coef.

Std. Err.

P>|t|

[95% Conf. Interval]

------------+---------------------------------------------------------------fdef

| -.4721499 .0548908

-8.60

fment

| .1592559 .0619065 2.57

cons

| 3.688023 .0849287 43.42

0.000

-.580074 -.3642258

0.010

.0375377

0.000

.280974

3.521039 3.855006

Es preferible usar EVIEWS para poder revisar si una variable es redundante o suficiente. El EVIEWS ve que sube un punto al incluir las tres variables y dice que si debemos meterlo. Sin embargo, el STATA con un cambio tan reducido prefiere no insertarla. Siempre se debe preferir un modelo con menor cantidad de variables. Comando /predict es multimodelo. Esto hace que recuerde el último modelo realizado y prediga a partir de ello. Es el “post op” de todas las pruebas. Al pedir residuos, observamos que Prob>chi2 por lo tanto se RECHAZA la normalidad del residuo. Se observa que no hay multi colinealidad con la prueba de VIF. Prueba de COLLIN para ver colinealidad, si el CONDITION NUMBER es superior a 15 es probable que haya colinealidad. /hettest para comprobar la heterocedasticidad. Breusch-Pagan o Cook-Weisberg suponen heterocedasticidad lineal. Es útil cuando la regresión es lineal, y quiero ver en ese caso. White de Eviews es válida para todos los casos.

Comentario [LA50]: Mientras mas piense el jurado que fue en defensa propia, menor sentencia. En cambio, mientras más piense el jurado que fue un problema mental mayor será la sentencia.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC /qreg es regresión cuartílica o mediánica o estable. Esto hace que ya no va hacer la regresión pensando en la media aritmética si no en la mediana. La regresión se veía cuanto variaba en promedio la media, en cambio la mediana es más estable, y con qreg se solicita eso. /rreg se debe aplicar cuando no se puede eliminar los outlayers, es decir, soporta los valores extremos. Es una regresión robusta. /bootstrap genera 100 muestras aleatorias más. Lo que se trata es de ajustar mejor. Esto es particularmente importante cuando no hay muchos datos. Se simula más poblaciones. Gen casenum=_n Tsset casenum Corrgram resid Prais culpabilidad fdef fment fespo Con esto se hace pensar al programa que cada observación es un mes distinto por ejemplo Es decir se está realizando una serie de tiempo. Esto arroja un Durbin-Watson (autocorrelación 1.5 menos o 2.5 y más arriba) y un Durbin-Watson transformado.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Introducción a R

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 09 16-04-2010 GLM    

   

Linealidad (test, para ver si está bien adecuado el modelo, o se contrasta con un modelo cuadrático). 1 Normalidad de Residuos (si no se usa regresión cuartílica pensada en la mediana). 3 Influencia (valores extremos que podían afectar la curva, regresión robusta cuando se quiere seguir utilizando los valores extremos). Heterocedasticidad (sé que la dispersión no es igual a lo largo de la Y, no hay varianzas homogéneas, se busca la variable heterocedástica y la corrijo y se usa la regresión ponderada, y también la regresión con error robusto utilizando White, o regresión Sandwich). Multicolinealidad (Análisis factorial para evitar la colinealidad). Endogeneidad Espuriedad (correlaciones parciales o semiparciales). Omitidas y Redundantes (test). 2

*Lo último que se debe hacer es todo aquello que va a generar una nueva regresión. B -3.2

Est. T L 0.6127 Regresión ponderada modificará B y est, la regresión sandwich sólo est.

Sig. 0.025

Introducción al R El R guarda todo en una variable multidimensional. Para ejecutar un comando se usa la combinación de teclas ctrl+r. Se debe revisar que los paquetes hayan sido llamados a la librería. Para ello deben estar descargados, de no ser así, se ingresa al menú paquete, luego instalar se busca uno de los Mirrors y se descarga el paquete deseado. Luego se debe pedir el comando library. Summary juicio sirve para explorar la variable. Para cambiar una categórica no codificada se utiliza el siguiente comando: juicio$opipubl.f <- factor(juicio$opipubl) Dónde: Como se llamara, fucnion factor, y nombre de la variable. predictoras <- subset(juicio, select = c(a_provo,a_causa,a_conflicti,b_proteg,b_salva,b_defend,c_mental,c_locura,c_sufre)) Para realizar un subconjunto de la variable. Cbind toma una columna de un archivo y toma otra columna de otro archivo, de esta forma se crea una nueva base de datos.

Comentario [LA51]: Con las flechas arriba y abajo se pueden buscar los comandos previos realizados.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Al realizar una regresión se debe observar la cantidad de * en la tabla; puesto que, hasta un * es válido, pero después de un . significa 0.1, lo cual no se ajusta a lo que normalmente buscamos que es 0.05. Si pido ANOVA Observo *** por tanto si estaba bien que tenga las tres variables

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 10 19-04-2010 W REGRESSION (regresión ponderada) Al corregir con White la Heterocedasticidad lo que se hace con la otra prueba es Corregirlo. White es para cualquier caso, Ruesh-Pagan (o como se escriba) es solo para retas, osea, relaciones lineales. El SPSS carece de la prueba de White o alguna prueba similar. Sin embargo, si tiene REGRESIÓN PONDERADA. Lo que va a hacer es modificar los coeficientes. Para hacer regresión ponderad es necesario identificar la variable que está causando la heterocedasticidad.

Comentario [LA52]: Mínimos cuadrados ordinaries MCO, OLS por sus siglas en inglés. WLS es WHITE LIST SQUARES.

Al ver que en este caso lo que afecta la heterocedasticidad es la superficie. Entonces se pide la estimación ponderada para darle un peso distinto a sus valores para corregirlo. La ventaja del SPSS es su técnica de ponderación donde se detendrá en el mejor valor, sin importar el rango que uno escoja. Esto es más difícil de implementar en otros paquetes estadísticos, por lo que solo lo elevan al cuadrado sin que esto sea lo mejor.

Comentario [LA53]: Mediante la comparación de la dispersión tal como se aprecia en las diapositivas.

Al realizar la regresión ponderada el software avisa que creará una nueva variable. Tal como vemos ha guardado la variable WGT_1 que corresponde a la mejor potencia. La potencia seleccionada será identificada por una ‘a’ a su costado. La nueva variable ponderada se guarda para poder hacer cualquier otra función como GLM por ejemplo. Primero se pide la dispersión para identificar la heterocedasticidad. Luego variable por variable para identificar la variable que lo causa. Podemos notar que en la regresión ponderada el valor otorgado a Lima (lugar) es 26,533, mientras que en la regresión ordinaria sale -26,533. En la ordinaria, por cada pie cuadrado adicional al costo de proyecto se le debe sumar 149. La constante es 53,438 en la tabla de ponderación podemos ver una intersección de 26,906. La diferencia entre ellos es 25,533. En el caso de la regresión ordinaria, no se está trabajando con la intersección, ni la constante. Por lo tanto, en la tabla de regresión ponderada ya se especificó la intersección, por lo que identificar Lima=1, ya es redundante colocar los valores. La regresión ordinaria tendría muchos problemas por no ser tan específica con más de dos categorías. Una variable dummie, siempre toma en cuenta cuando es 1, por eso en regresión ordinaria el Lugar es la variable con valor =1. Para ver que tanto influye más (qué tan intenso es), se observa el valor de ‘t’ no el de B. Por tanto podemos ver que la superficie es 4 veces más influyente que Lima=0.

Comentario [LA54]: Este es el VALOR DE REFERENCIA. Comentario [LA55]: Puede que hayan más categorías, que no sea dicotómico. En cualquier caso una de ellas no será especificada porque ya ha sido analizada y calculada para la intersección. Comentario [LA56]: Aquí está calculado según los valores, la unidad de medida de cada variable. Por tanto no se puede hacer comparaciones.

GLMZ Es distinto al GLM puesto que, no cree que las variables de interés sean continuas y normalmente distribuidas. Los predictores no necesariamente se asocian sumativamente para predecirla directamente. Esto le da entrada a otras distribuciones que no son normales. La verdad es que el GLM requiere tantos supuestos que en la realidad no se van a encontrar. Se habla de generalizados porque sirven también para GLM. Pueden entrar todas la variables que no son continuas, como las discretas, dicotómicas, politómicas y politómicas ordinales. Función de enlace es clave.

Comentario [LA57]: La curva normal, chi cuadrado, la curva T, todas son familia de la exponencial, por eso se agrupan en un solo menú. Función beta no es exponencial, no es GLMZ. Comentario [LA58]: Ya no es continua, es limitado (‘y’ va a tener valores determinados, rangos). Por tanto se violan estos dos requisitos de GLM. Comentario [LA59]: Función identidad en GLM.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

GLMZ

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 11 23-04-2010 GLMZ GLM es muy limitado. Solo funciona para cuando la variable de interés es continua y no limitada, y con la exigencia de tener una distribución normal. Para cualquier otro caso de variable, se debe usar el GLMZ (Modelo lineal generalizado) que puede hacer lo de GLM. GLMZ va a permitir hacer “regresión” cuando la variable de interés es politómica, de conteo, etc. Cuando uno habla de Regresión lineal (RL) es GLM. La regresión te devuelve una ecuación, un modelo. El análisis de varianza solo te dice si hay influencia.  

ANOVA se hacía regresión dummie. ANCOVA se convertía en 0 y 1, y la covariable como predictor.

Comentario [LA60]: Es complicado cuando son más de dos valores. Ahí el SPSS arrojará los valores “redundantes”.

Para Discretas es un GLMZ para conteos. En nuestro caso veremos poisson y binomial negativa. Cuando sea dicotómica se realizará logística binaria y probística binaria. Cuando sea politómica se hará próbistica multinomial. Si es ordinal será regresión ordinal probit.

Se recodifica la variable veredicto en una dicotómica: veredictobi. Luego debemos factorizar para obtener los tres factores. Se colocan los valores para la nueva variable 0 culpable 1 inocente. DICOTÓMICO: Se debe abrir el menú modelo lineal generalizado, modelo lineal generalizado. Una vez allí se debe de poner como variable dependiente veredicto. En la variable representa una respuesta binaria, debemos escoger categoría de referencia PRIMERA (menor valor). No olvidar que el paso previo es haber seleccionado que el modelo es para una dicotómica. En predictores debemos insertar como covariables los tres factores. En modelo se pasan los tres factores hacia el modelo como efectos principales. En los estadísticos, debemos dejar los que ya están seleccionados y también incluir las estimaciones de los parámetros exponenciales. En la pestaña guardar se deben seleccionar: Valor pronosticado, categoría pronosticada, distancia de cook, valor de influencia, residuo de pearson tipificado. Lo primero que se debe observar es la PRUEBA OMNIBUS. Esta es la primera que va a discriminar si el modelo tiene algo o nada. En este caso podemos ver que no es significativo. Cuando se saca una no significativa, y de pronto la que si “jugaba” deja de jugar, es una prueba de que hay COLINEALIDAD.

Contraste Omnibusa Chi-cuadrado de la razón de verosimilitudes 3.798

Sig. 3

.284

El valor de B no es interpretable, en cambio, el exponencial de B es mucho más sencillo de interpretar. El cuadro de estimaciones de los parámetros muestra un resumen similar al de la regresión. En este caso, existe una diferencia que es el Chi-cuadrado de Wald. Tanto la significancia, como los grados de libertad, como el chi-cuadrado de Wald pueden ser observados en la tabla de Contrastes de los efectos del modelo. Para que sea significativo, el intervalo de confianza de Wald de la exponencial de B al 95% no debe incluir al valor 1. La hipótesis aquí es que el coeficiente

Comentario [LA61]: Los valores 2 y 3 de la variable original.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC es igual a 1. Cuando es 1 no hay relación. Las negativas en B son menores que 1 en la exponencial de B y las que son positivas son mayores es 1. Esto sirve para ver la dirección. Lo que está haciendo la regresión logística es ver que tan culpable. Contraste Omnibus

Chi-cuadrado de la razón de verosimilitudes

46.441

Sig. 3

Variable dependiente: culpabi

.000

Esta vez, trabajando con la variable culpabi (culpabilidad recodificada en dicotómica) podemos ver que arroja significativo, y observando el intervalo de confianza, no encontramos el valor 1 dentro de él. Factorment arroja una relación directa, esto quiere decir que mientras más se apele a problemas mentales será más culpable.

Modelo: (Intersección), factordef, factorment, factorespoabu

Debemos tomar en cuenta que categoría de referencia hemos elegido. El valor menor será 0 y el valor mayor será 1. Si en caso escojo el valor menor entonces si encuentro un valor NEGATIVO en el Beta, entonces debo decir que hay una relación inversa entre el VALOR CONTRARIO A LA CATEGORÍA DE REFERENCIA, es decir, en función a 1, es decir, inocente.

Con el valor de ómnibus no se puede comparar, se debe utilizar los IC y BIC, AKAIKE y Bayesiano respectivamente. En el menú de GLMZ se puede obtener con la prueba lineal una regresión lineal. Aquel que tenga MENOR BIC, será un mejor modelo para explicar el caso. Nuevamente MIENTRAS MENOR ES, ES MEJOR. El más importante es el BIC, el CRITERIO DE INFORMACIÓN BAYESIANO. Al hacer un modelo ganaré información, pero si está mal ajustado, tendré mucho ruido. El BIC o AIC miden el nivel de ruido. Mientras más ruido tenga el modelo, por más que explique bien, no es lo que quiero. Explica pero dice otras cosas que no son útiles, que quizás no se entiendan.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 12 26-04-2010 GLMZ Existe un problema con la data: la variable está acotada, por lo que ya no puede ser GLM. Ahora se usará la variable veredicto (como nominal dicotómica). Se usará la prueba binaria de SPSS, de las tres (probit, logit, series de tiempo), se usará logit. La estrategia de hacer regresión logística, ¿para qué hago regresión logística? La estrategia es que la función me devuelva un valor entre 0 y 1. Es decir, de algún modo me devuelve algo continuo, sigue habiendo una regresión lineal disimulado. Es un valor probabilístico, en el sentido que los valores van entre 0 y 1. La ecuación logística debe ser de tal forma que no sobrepase el 1 ni sea menor a 0. Existen funciones que permiten esto. Cuando sea 0.5 o más va a ser 1. Si es menor a 0.5 será 0. Hay que tener especial cuidado en cómo se encuentra codificada la variable. Tratar de codificar de acuerdo a la variable que estamos modelando. Métodos numéricos: técnicas de computación que permita trabajar en mundos continuos.

Comentario [LA62]: La diferencia en el cálculo entre programas se llama costo del programa.

Al realizar el análisis, en la pestaña modelo cuando los factores van únicamente solos, sin interactuar con ninguna otra variable, esto es llamado, efecto principal. Valor pronosticado del promedio de la respuesta: es el valor continuo que va a dar. Categoría pronosticada: arroja un valor discreto. Distancia de Cook: distancia de los residuos, los alejamientos promedios de los residuos del modelo. Todo lo que no explicó el modelo por cada punto. Si el Cook es 1 es peligroso. Valor de influencia: va a resaltar los puntos que tienen más influencia en la recta, en el modelo. Si la influencia es 0.5 es peligroso. Dos puntos pueden tener la misma distancia de Cook, pero el valor de influencia (leverage) puede cambiar la recta. Residuo de Pearson tipificado: valores en una misma escala, no van a bajar de -3 ni pasarán el 3. El modelo arroja en el contraste ómnibus un valor 0.00 por lo que se puede aceptar el modelo. Luego al ver la tabla de parámetros. La H0 es que la variable no tiene efecto (WALD) y vemos que son menores a 0.05 por lo que debemos rechazar la H0, de esta forma sabemos que las variables si tienen efecto. Al ver el intervalo de confianza, no incluyen el número uno, ninguno de los valores. Observamos B para revisar el sentido de la relación, tenemos que ver el signo. Aquí se puede ver que factordef y factorespoabu aumentan la probabilidad de que sea declarada inocente, y factorment incrementa la probabilidad de que sea declarada culpable.

En los modelos no lineales no implica la idea de proporcionalidad. Con la exponencial del parámetro (EXP.B) podemos tener una idea aproximada del peso de cada parámetro y del sentido de la relación. El peso será mayor cuanto más lejos esté el exp.B de 1. El sentido será positivo cuando EXP.B sea mayor a 1, y negativo si fuera menor a 1 (siempre y cuando el parámetro sea significativo).

B es un logaritmo, Exp(B) es un ODDS RATIO.

Comentario [LA63]: No utilizar para la intensidad, para esto EXP(B).

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Hombres Mujeres

20 0.2 80 0.8 100 1.0 La probabilidad clásica se obtiene dividiendo simplemente el número de casos entre el total. El ODDS RATIO no divide entre el total, sino entre los que están participando. Es decir: Hombres Mujeres

20 80

0.25 4

¿De donde aparece el 1 del intervalo de confianza de Wald de la Exp(B)? Si fuera 1 querría decir que no existe ventaja en el ODDS RATIO, por lo que no sería significativo. Los factores son multiplicativos, no sumativos.

Medidas simétricas Valor Medida de acuerdo

Kappa

N de casos válidos

Error típ. asint.a

.230

.049

T aproximadab 5.320

Sig. aproximada .000

387

a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula.

Vemos que el valor es 0.049, lo cual es bajo, ya que, el valor de Kappa llega hasta 1. Sin embargo es significativo, lo cual se debe a que está inflado por la correspondencia entre lo pronosticado y la realidad en el caso de la inocencia. Sin embargo, sale bajo por la relación tan asimétrica entre inocente y culpable.

Comentario [LA64]: H0: No hay acuerdo, no hay coincidencia.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 13 30-04-2010 GLMZ El trabajo de este profesor tenía un problema: utilizar una variable acotada. Pero imaginemos lo siguiente, consideraremos la variable culpabilidad como ordinal. Se pide entonces un GLMZ de tipo ordinal. Tomando a culpabilidad como respuesta. Efectos principales de todos los factores. Se guardan las estimaciones de los parámetros. Exp(B) se debe aplicar de la siguiente manera VALOR – 1. Se asume que la culpabilidad va de menos a más. Si es que esto fuera países no habría sentido para este tipo de análisis (cuando no se emplea una variable ordinal sino nominal). No se puede usar una regresión ordinal si no pasa la prueba de líneas paralelas que se puede encontrar en el menú resultados de la prueba regresión ordinal. Si es que no pasara la prueba debo ir a regresión no ordinal pero si logística multinomial. H0= Hay paralelismo, deseo que sea NO SIGNIFICATIVA, es decir ACEPTAR LA HIPÓTESIS. Al ver la prueba podemos observar Sig. 0,062 vemos que es NO SIGNIFICATIVA, por tanto, hay paralelismo.

Imaginemos que no salió el paralelismo, se analiza la regresión logística multinomial. Podemos observar que en la primera categoría, sin responsabilidad, el factordef tiene un Exp(B) de 6.167. Esto quiere decir que al apelar al factor defensa propia, aquel que pensaba que pensaba que era inocente, pensará 6 veces más que era inocente. En cambio, si vemos el último nivel, donde ya se piensa que es culpable, por más que se aduzca el factor defensa propia, al no ser significativa, simplemente no hace diferencia. Vimos que no es significativo en ningún nivel el factor mental. Sin embargo, al observar los contrastes de la razón de verosimilitud, observamos que el factor, sin niveles, arroja que es significativo. Esto es una pista para saber que no es correcto el uso de un modelo multinomial. PRIMER ODDS I/C :: ½ = 0.5 Más gente piensa que es culpable. Apelando a factorDEF el nuevo ODDS es 0.5 x 6.167 = 3 Entonces ahora hay más gente que piensa que es inocente.

Modelo POISSON Los positivos añaden efecto, los negativos, le restan. En el ejemplo no observamos ciencias porque aparece como no significativo en la tabla previa a la de estimación de los parámetros.

Comentario [LA65]: Esta prueba nos dice si es posible analizar TODAS las modalidades a la vez.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 14 10-05-2010 GLMZ - Probit También es 0-1. No todos los 0s y 1s tienen origen dicotómico: Votar y No votar es 0 y 1. Esto es dicotómico real. Pero la opción en un proceso de admisión. Ingresó o ingresó, es un PROBIT, ese dicotómico realmente representa un número (el puntaje con el que ingresó). La ventaja del Logit es que se puede interpretar con respecto al ODDS RATIO, el Proxi no es interpretable por si mismo. Es un proceso idéntico al GLMZ Logit pero los coeficientes saldrán diferentes porque es otro tipo de distribución, pero están modelando lo mismo. La única diferencia entre logit y probit es la variable dependiente. En el mundo estadístico se usa logit más que probit por su facilidad de interpretación. El probit nace para transformar la variable numérica en categórica, utiliza el viejo concepto de desviación estándar (contrapuesto a alejamiento de media de otras pruebas).

Comentario [LA66]: En tanto represente un número más allá del 0 y 1.

Se debe saber si el modelo es significativo. Luego si cada coeficiente es significativo. Luego debo ver la dirección de cada uno, y su intensidad. *En el caso de la base de datos de homicidio todo podría ser PROBIT, porque mentalmente se ha realizado un promedio que determina si es culpable o inocente. Siempre hay una escala detrás del razonamiento del jurado. - Varianza se calcula antes de desviación estándar (a esta se le saca la raíz cuadrada). Al comparar BIC Y AIC se prefiere un AIC Y BIC MENOR de esta forma se encuentra MENOS RUIDO.

Comentario [LA67]: MAYOR parsimonia en el modelo.

El Probit tiene una ventaja adicional. Uno puede crear un modelo de RESPUESTA, que requiere un diseño EXPERIMENTAL. Se puede hacer tanto con logit y probit, pero si realmente es un experimento, y no una

observación, entonces se debe aplicar PROBIT. En este caso en particular se busca saber en cuál de los medios de comercialización se debe invertir más en ofertar para que la gente empiece a comprar. Esto es lo que va a hacer el análisis probit que es un ensayo*.

Comentario [LA68]: BOTERO: Uribe da dinero a no uribistas, ¿votarán por Uribe? Se hace probit para ver cuánto dinero era necesario para que lo hicieran. Comentario [LA69]: VALOR DE LA OFERTA su significancia determina que funciona para todos a la vez. Y luego uno puede ver cada uno de los casos. Comentario [LA70]: Podemos observar además que ONLINE tiene mayor impacto porque es MENOR. Con menor oferta comprarían más en línea.

Con La prueba de paralelismo podemos ver que no es significante:

.357 Puede que haya salido un valor estimado de oferta para que el 50% de las personas que reciben la oferta compren el producto. Sin embargo, ¿la diferencia entre esos valores es real? Quizás podría haber diferencias pero ‘más arriba’. La tabla de “Estimaciones de la potencia relativa de la mediana” nos ayudará a responder esto.

Comentario [LA71]: Al arrojar una significancia de .357 debo aceptar que hay paralelismo por lo que se puede hablar de efectos para todos a la vez.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Comentario [LA72]: Hay que observar si se encuentra el valor 0 entre el límite inferior y el límite superior. Si no está (en la columna logaritmo) entonces es significativo. En la columna de limites de confianza no LOG, el valor es 1 y no 0.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 15 14-05-2010 Regresión TOBIT Es una lineal acotada.

.002

.004

Podemos ver que no pasa de 1, ni es menor a 0.

Density

.006

.008

SOLO APT READ MATH tienen las medias, porque ID y PUBLIC son etiqueta y dicotómica respectivamente.

400

500

600 apt

700

800

Al solicitar una regresión con APT READ MATH PUBLIC, podemos ver la constante, lo que se puede interpretar como que, cuando todo lo demás es CERO, entonces la nota de APTITUD es 213. Esto ha salido sin estar acotado. Lo que deseamos hacer es limitar entre 200 y 800. Esto es la regresión TOBIT. Para eso usamos tobit apt read math public, ll(200) ul(800).

Comentario [LA73]: De la familia de las NO PARAMÉTRICAS, y normalmente usará CHI2 para ajuste de sus predicciones.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Ahora aplicando TOBIT:

Esta acotado, y no está entre 0 y 1, entonces usamos TOBIT.

R(GLM) – SPSS GLMZ R(LM) – SPSS GLM

ERROR BAR: Se puede sacar error típico, desviación y también para el intervalo de confianza. Lo utilizaré para sospechar si hay heterocedasticidad. Error típico es para DIFERENCIA DE MEDIAS. Y con desviación estándar es para HOMOCEDASTICIDAD. REGRESIÓN CUANTÍLICA, cuando los residuos son ANORMALES.

Comentario [LA74]: REGRESIÓN BETA (%)

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Análisis Longitudinal

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 16 21-05-2010 Introducción al Análisis Longitudinal Un diseño longitudinal que se respeta debe tener al menos TRES momentos. En cuanto a las características del modelo, cada modelo se diferenciará según: o o o o o

Duración: últimos 10 años, últimos 20 años, etc. Masividad: cantidad de gente que se va a seguir. Parsimonia explicativa: algunos modelos prefieren más variables frente a otros que requieren menos. Naturaleza de la dependiente: tipo de variable dependiente. Objetivo: lo que busca particularmente el modelo.

Comentario [LA75]: Nominal, Ordinal, Escalar.

La computación para estadística transversal no tiene más de 30 años. Existen distintas teorías que ameritan ser revisadas (quizás le pusieron transversal porque no existía otra opción). La construcción de la base de datos en modelos longitudinales es mucho más exigente que en transversales. Por el simple hecho de estudiar siempre al mismo grupo se PIERDE ALEATORIEDAD. En cuanto a la AUTOCORRELACIÓN, uno en transversales quería que un residuo no explique al otro, pero en LONGITUDINALES esto es inevitable. Otro concepto es el ABANDONO, porque quién asegura que los 100 casos escogidos para hacer el seguimiento van a continuar para el siguiente estudio. Todo esto genera un peligro en las conclusiones (hay que ver de qué manera se debe tratar esto). Instrumento clásico son las encuestas.

-Diseños Longitudinales o o

o o o

Medidas repetidas: mediciones a diversos sujetos sobre un conjunto constante de variables. Los individuos no tienen nada en común ni tienen que ser los mismos. Estudios de Cohortes: variable(s) medida(s) a grupos particulares en intervalos regulares. Grupo particular que haya experimentado algo peculiar, y que se quiera hacer seguimiento. Estudios de Panel: variable(s) medida(s) mediante seguimiento a individuos particulares en intervalos regulares. Como grupo no necesitan haber experimentado algo en común. Eventos-H: No se estudian los individuos, sino sucesos. Estudio de eventos particulares durante periodos de interés. Puedo estar interesado en saber el tiempo entre eventos. Series de Tiempo: Estudio del comportamiento de una variable de interés en el tiempo. Esta es la más regular, la más continua. No hay intervalos (como en cohorte), normalmente es continua (diaria, semanal, mensual, trimestral, semestral y anual).

Comentario [LA76]: Cada cuanto tiempo lo volveré a observar.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Comentario [LA77]: Tendencia: ver en el mar de puntos cuál es la recta. Serie de Tiempo no termina, se mantiene. Ej. El BCRP que mantiene una serie de tiempo con el tipo de cambio diario. Masividad: En la series de tiempo sólo hay 1 N. Ej. EL dólar. Parsimonia: Mientras más alta menos variables. Espaciado Constante: NO significa que NO ES UNA EXIGENCIA. En cambio en series de tiempo SI HAY UN ESPACIADO FIJO. En cuanto a la deseabilidad de balance: Se puede tener 4 momentos y no encontrar a la primera entrevistada en el segundo momento. Eso NO es un valor perdido. Tampoco lo son las personas que entraron en un segundo o tercer momento, el primero no constituye un valor perdido. Cuando hay muchos ‘huecos’ es muy desbalanceado, Y NO SE LE DEBE CONSIDERAR VALORES PERDIDOS. Series de tiempo es la que menos quiere desbalance porque no quiere lidiar con eso.

Consideraciones para la construcción de las bases de datos: o o o o

o o o

Armonización: Seleccionar conjuntos de variables explicativas que tengan sentido. Qué variables estudio, qué tienen de especial esas variables que quiero estudiar. Equivalencia: posibilidad que preguntas y medidas sean comparables entre diferentes regiones u otras. Tener sumo cuidado para estudio comparado. Unidad de análisis: Decidir de quién o qué se recoge la información. Relevancia: Periodo durante el cual las variables son temporalmente relevantes. Conceptos que pueden estar de moda ahorita, y podrían morir muy rápidamente y nadie les prestaría atención después. Es temporal. Eventos: decidir qué eventos registrar durante la recogida de información. Documentación: cómo explicar lo que se está haciendo para que los interesados puedan continuar trabajo. Técnica: escoger la técnica adecuada para contrastar la hipótesis modelada.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 17 24-05-2010 Medidas Repetidas Es una técnica del GLM. En el modelo, la dependiente (numérica) se organiza en un factor intrasujetos (WITHIN, son los momentos que medí, la variable que se repite se considera un factor intrasujetos), organiza las veces que se obtendrá la medida de interés.

Comentario [LA78]: Cada momento sera una variable, aunque el concepto sea el mismo. Comentario [LA79]: Uno no aplica los factores.

Los factores, no son variables que se apliquen, pero sirven para ver las diferencias a cada nivel del factor, por ello se le llama factor intersujetos. La ventaja entre “el formato medidas repetidas” y “momentos por filas” es que en la última si en un momento no se responde sólo se pierde toda la fila. En general, se está tendiendo a la otra estructura, por lo que se puede hacer mucho más complejo.

Comentario [LA80]: Como por ejemplo una repetida ‘jerárquica’.

[En R] Al trazar los gráficos con la librería lattice, con las líneas trazadas no se está ajustando a una recta; sino que, sólo se está siguiendo la trayectoria de los puntos (no paramétrico). En el segundo momento, al trazar líneas rectas se hace un ajuste paramétrico. Puede ser un ajuste lineal, cuadrático, etc. *SERIES DE TIEMPO no es igual que MEDIDAS REPETIDAS.

Por el tipo de datos que manejamos es improbable que tengamos una serie de tiempo. En nuestro caso la gran mayoría sería medidas repetidas. Serie de tiempo necesita balance, por eso es que intenta imputar todos los casos. El GLM tiene funciones para controlar problemas de balance y MÚLTIPLE COMPARACIÓN. *PRUEBA T sirve para comparar dos momentos o dos grupos. Es por eso que NO se consideran medidas repetidas, no es un análisis longitudinal. No se podría analizar crecimiento, aprobación, etc. porque no son más que dos momentos. Podría haber problemas básicamente de tipo I. Es por eso que el GLM va a intentar balancear las múltiples comparaciones que va hacer. Habría que observar el ERROR BAR para ver si “hay cruce” de las medias. Si es así quiere decir que podría ser cercano a CERO.

Para evitar problemas en el intervalo de confianza se debe utilizar como AJUSTE el BONFERRONI. En lo que respecta a SI CREEMOS SI HAY DESBALANCE (celdas en blanco) se debe seleccionar en el MODELO TIPO IV.

Comentario [LA81]: Pero lo hace a partir de la media, y esto es INCORRECTO, solo que como el modelo está de acuerdo a la media lo hace así simplemente.

Comentario [LA82]: Se podría hacer prueba T de 1-2, 1-3, 1-4, 1-5, y así sucesivamente. Sin embargo esto llevaría a tener el ERROR DE 5% cuatro veces lo cual haría que tenga 20%, esto me haría decir algo que no es verdad. El problema es que el programa si detecta que una de las medias cambia, entonces dirá que hay diferencia de medias, pero no dirá más. Por tanto por más oscilación que haya habido no hay diferencia significativa. Por tanto nos dirá que es probable que la diferencia sea igual a CERO. Si al 95% de confianza es igual a 0, no se va a arriesgar.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Al solicitar el GLM Repetido, la primera tabla de Estadísticos descriptivos no está mostrando las medias estimadas, solo los valores a partir de la muestra. Sólo estamos viendo los puntos. Al observar LAMBDA DE WILKS (H0=medias son iguales). Al ver un Sig. De .523 podemos aceptar por tanto NO HAY DIFERENCIA DE MEDIAS, LAS MEDIAS SON IGUALES. En el cuadro ESTIMACIONES si se observan las medias estimadas. La que salía al principio era una media descriptiva. No se usa ERROR-BAR porque NO TIENE NINGÚN AJUSTE (no hay error bar con ajuste BONFERRONI). Si existiera una gráfica similar tendría “patas” más cortas para detectar mejor las diferencias. Si no es normal la única forma de continuar es mediante la prueba F. Al ver como prueba no paramétrica debemos observar W DE KENDALL (observa la concordancia por fila) que es una interpretación de FRIEDMAN (observa la media de la variable, por columna). Al observar el 0.005 concluimos que son MUY DIFERENTES (individuo a individuo).

Comentario [LA83]: 0 a 1, dónde 1 es máxima concordancia.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 18 28-05-2010 Medidas repetidas El factor INTER SUJETOS siempre está en la data. El factor INTRA SUJETOS no siempre está. Es por eso que debemos ponerlo nosotros en las Medidas Repetidas. Hasta aquí, sin opciones ni modelo reportaría si ha habido cambios en la media. Resulta NO SIGNIFICATIVO por lo que aceptamos que NO HAY DIFERENCIA DE MEDIAS.

POST HOC es todos contra todos. Sin embargo, en la secuencia repetidos es por momentos.

H0= No hay cambio de nivel a nivel. Aquí vemos de una media a otra media. Por niveles. El POST HOC salen todos los cambios. Esto es previo, nos sirve para ver si hay crecimiento o decaimiento. ¿Puede que este contraste salgan todos NO SIGNIFICATIVO pero que el LAMBDA DE WILKS SALGA SIGNIFICATIVO? Si sale significativo el lambda y no encuentro diferencias quiere decir que no hay crecimientos claros o caídas.

Comentario [LA84]: Porque al ver el error bar hay intersección entre nivel 1 y nivel 2. Pero podría haber intersección entre nivel 1 y nivel 4. Es por esto que hay que tener en cuenta tanto los contrastes intra-sujetos como también el Lambda de Wilks.

A mí me interesa que el LAMBDA DE WILKS significativo porque así quiere decir que hay cambio en las medias. Una vez hecho esto debo observar el contraste intra-sujetos para ver si hay crecimiento o decrecimiento. Basta con que uno de los niveles tenga diferencia para que el Lambda de Wilks arroje NO SIGNIFICATIVO.

Comentario [LA85]: Si lambda sale no significativo te dice que los cambios han sido oscilaciones insignificantes. Si se ha salido uno saldrá SIGNIFICATIVO.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Al pedir BONFERRONI en el menú, podemos observar la media que disminuye, luego aumenta, después disminuye. Pero al ver los INTERVALOS vemos que se TRASLPAN por tanto no es significativo.

Si fuera SIGNIFICATIVO en alguno querría decir que se ajusta al modelo lineal, cuadrático o cúbico. Esto es, la H0=NO es lineal-cuadrático-cúbico. Esto lo que quiere decirte es SI ES QUE HAY UNA TENDENCIA CLARA. En este caso no hay ninguna tendencia clara. En el caso anterior, con el contraste REPETIDA solo se ve LINEAL. El contraste POLINÓMICO si ve lineal cuadrático o cúbico. Para tres momentos lo más probable es que salga lineal.

Lo primero dice que las medias no están variando. Lo segundo explica que la media según tipo de gobierno tampoco varía. Esto se puede ver en el gráfico siguiente:

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC

Al ver esta otra tabla:

Al ver la significancia de GOB podemos ver que ALGUNA está alejada. Al observar el gráfico podemos ver que hay diferencias. Solo se ve que son diferentes, entre las tres medias hay diferencias. La pregunta es cuáles son iguales cual no. En este caso la H0=No hay diferencias. En series de tiempo se puede suavizar la recta. En medidas repetidas no tenemos estas técnicas. El problema es que al trabajar por medias el comportamiento de la recta no se refleja tan bien como debería. Por tanto los picos podrían jalar a un promedio que terminaría diciendo quizás, en el peor de los casos, que NO HAY DIFERENCIA DE MEDIAS. Hay que tener mucho cuidado. No todo residuo es un valor influyente. Hay que ver cuáles son los valores influyentes, aquellos que modifican la significancia. Si realizo la prueba con SPLIT FILE no podré usar BONFERRONI esa es la diferencia. Cuando estén en paralelo no hay interacción, cuando se puedan cruzar sí.

Comentario [LA86]: Intra sujetos son los momentos, inter sujetos son los grupos (llamado FACTOR antes de medidas repetidas).

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 19 31-05-2010 Eventos Históricos Estudia estados del evento. Es complicado tener el tipo de datos, uno puede confundirse por la data que está viendo (con regresión lineal por ejemplo). En otras áreas de conocimiento se llaman ANÁLISIS DE SUPERVIVENCIA (nacen en medicina). Se analizará la probabilidad con respecto al tiempo (cuántos siguen vivos al día siguiente, al mes, al año, etc. y analizar el riesgo también de contraer o no, si la ocurrencia del suceso es muy rápida o no). Un evento censurado se refiere a aquellos datos que no logré tomar porque el estudio terminó. No quiere decir que el evento no sucedió, simplemente no lo tomé. Hay tanto censura a la derecha como a la izquierda. No imputa pero lo consideró en un cálculo anterior. Como es una medida longitudinal estoy haciendo mediciones cada cierto tiempo y con la información que tengo puedo recuperar, siempre estoy calculando la probabilidad. Un episodio (es individual y hay solo un episodio por persona) es el tiempo que se mantiene lo analizado. El evento termina un episodio.

Comentario [LA87]: Debe tener algún indicador que diga SUCEDIÓ o NO SUCEDIÓ.

Comentario [LA88]: Aquellos que luego de terminar el estudio podría o no tener el evento. Por algún momento al acabar el estudio no se había experimentado el evento. Comentario [LA89]: Los que al comenzar el estudio ya tenían el evento, ya tenían información previa.

Al hacer el análisis debo hacer lo necesario para que los eventos censurados NO INFLUYAN EN EL ESTUDIO, que no sea ni un valor perdido ni un valor eliminado. De cierta forma se parece a una COHORTE (esta es más para personas por la duración). El estudio siempre termina en un momento. Cuatro ideas básicas:    

La variable dependiente modela la probabilidad de un evento o la duración de un episodio. Hay data censurada si el episodio comienza antes del tiempo de inicio, o terminó luego del periodo de observación. La función de supervivencia informa que porcentaje de la muestra no ha experimentado el evento en el tiempo T. El peligro o impacto (hazard) es el riesgo que “alguien” cambie de estado, luego de haberse mantenido un tiempo T en otro estado.

Las técnicas utilizadas por el análisis histórico (PARAMÉTRICAS SEMI Y NO PARAMÉTRICAS): Técnicas PARAMÉTRICAS: REGRESIÓN WEIBULL (y otras), brinda parámetros más precisos y menos saturados, pero requiere de antemano especificar la forma de la función de peligro (impacto) y cómo las covariables la afectan. Técnicas SEMI PARAMÉTRICAS: REGRESIÓN COX, no hacen suposiciones de la forma de la función de peligro o impacto, pero sí permiten covariables y suponen que el efecto de éste es constante en el teimpo.

Comentario [LA90]: Depende de la capacidad del analista. Se apuesta a una técnica paramétrica cuando se sabe qué distribución tienen los datos. En los casos no paramétricos y semi paramétricos son bastante usadas POR ENCIMA DE LAS TÉCNICAS PARAMÉTRICAS, debido a la capacidad computacional. Comentario [LA91]: Que tanto se ajusta o no a la recta ideal. Por eso es menos saturado. (AIC-BIC) Más saturado si se pega más a los puntos de la muestra. Comentario [LA92]: Siendo semi paramétrica tiene la capacidad de arrojar una ecuación.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Técnicas NO PARAMÉTRICAS: KAPLAN MEIER – TABLAS DE VIDA, no hace suposiciones respecto a la forma de la función de peligro (impacto) o de cómo las covariables la afectan. La función de peligro se estima utilizando los datos de la muestra. No permiten covariables y sólo observa o contrasta el comportamiento de la dependiente según los factores indicados. *Cuando uno NO SABE qué forma va a tener se debe usar una NO PARAMÉTRICA (dan una idea gruesa). *Hasta ahora se ha estado usando la fuerza bruta, es decir, hemos aplicado todas las técnicas en busca de cuál era la más correcta. No nos hemos guiado por ningún tipo de teoría previa, porque no existía. Pero esto puede traer inconvenientes como el overfitting o underfitting. *Se supone que uno conoce la función de peligro (teóricamente).

Comentario [LA93]: Sobre-ajuste (está demasiado cerca al caso observado, no se ajustará cuando cambien los datos, se calcula algo perfectamente para la muestra, no permite margen de maniobra) o sub-ajuste (cuando se traza una recta que deja fuera demasiados puntos).

Analizando usando TABLAS DE VIDA: CENS=1 Por algún motivo salió del estudio, o fue censurado. Por otro lado, en lo que se refiere a INTERVALOS DE TIEMPO, se debe poner el MÁXIMO y el POR facilita el análisis en las tablas. La variable CENSURADO está 0 como presente y 1 como ausente (datos invertidos a la convención).

Comentario [LA94]: SUCESO en otra data sería 1, hay que revisar siempre esta variable.

En todas las datas hay una variable duración y tiempo, SIEMPRE. En el PDF se debe observar la columna de “número de eventos terminales” y con ello podemos comparar los controles de primer orden. La columna azul es una proporción una manera de dar un porcentaje simplemente. La columna roja determina nuevamente la proporción pero de los que sobreviven. La segunda columna en rojo se refiere a la proporción acumulada que sobrevive.

Comentario [LA95]: Proporción de los que estaban vivos (o sin el evento). NO del total.

La tabla Comparaciones GLOBALES sirve para saber si son diferentes, la H0= ES QUE SON IGUALES. Al rechazar al ver el SIG puedo concluir que son diferentes. Podemos ver que la H0=Los negros regresan más rápido. Para ver esto se piden los gráficos correspondientes para observar cuál regresa más rápido.

Comentario [LA96]: Estadístico de Wilcoxon (Prueba de Gehan).

Podemos ver que los negros caen más rápido que los no negros.

Comentario [LA97]: Se tiene una probabilidad de QUE NO SE HADA DADO EL “EVENTO”: Seguir libre. Dicho de otra forma, se tiene una probabilidad de QUE SI SE DIO EL “EVENTO”: Reincidió.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 20 04-06-2010 Eventos Históricos Usando Kaplan-Meier Uno está hipotetizando que va a regresar más rápido si es que no lo supervisan. Se dice que los negros regresan más rápido si es que no los supervisan. Las comparaciones globales (Breslow) sirven para diferentes niveles de negro. La H0=Hay diferencias según grupos. Log Rank sirve para ver si existe diferencias punto a punto. Breslow ajusta según cantidad de casos en riesgo. Además de ver si uno es diferente del otro, lo que está haciendo es ajustar para saber el cálculo de los que están vivos hasta ese momento. El ajuste de Tarone-ware valor intermedio entre los dos anteriores. La técnica Log Rank es la más simple, NO ESTÁ PONDERANDO NADA. La utilizaría cuando tengo muy pocos casos censurados. Breslow ajusta mejor pero tiene problemas cuando hay muchos casos censurados. Tarone Ware es intermedio. En la tabla de medias y medianas del tiempo de supervivencia podemos observar que hay diferencia entre los dos grupos porque podemos ver que los intervalos de confianza no tienen traslape. Podemos concluir que los supervisen o no los supervisen los negros vuelven más rápido. Luego podemos ver entre grupos de negros, si vemos el intervalo del No y el intervalo del SI podemos ver que hay superposición, por tanto no hay diferencia. Es decir, supervisarlos no garantiza que no regresen. Usando Regresión Cox La regresión Cox puede usar TANTO FACTORES COMO COVARIABLES. La regresión cox no nos exige saber cómo se está comportando. Hay que tener cuidado en el menú de la regresión Cox no existe una zona para CATEGÓRICAS, todas se llaman covariables. Sin embargo luego se debe indicar cuáles son las categóricas en el menú. Insertamos las variables categóricas, seleccionamos el contraste INDICADOR y la categoría de referencia ÚLTIMA. Cuando sale significante en la prueba OMNIBUS quiere decir que el MODELO es significativo. Al menos alguna de las variables es significativa. En la tabla de Variables en la ecuación hay que tener cuidado con la variable de referencia. Habíamos seleccionado la ÚLTIMA, por tanto 1= negro. Lo que se está calculando es los no negros, los blancos. Por tanto los blancos tienen una relación inversa con respecto a la reincidencia. El tiempo en la cárcel no es categórica por tanto es directa simplemente. Además, si eres soltero tienes más probabilidades de regresar más rápido. Para ver cual tiene más efecto debemos observar WALD. Ahora en STATA

Comentario [LA98]: Sería major observer siempre Taron Ware para tener una posición intermedia. En frecuencias la variable FAIL es la que me dice cuantos valores censurados hay.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC El STATA debe saber que esta es una DATA para SERIE DE TIEMPO. Si no se le especifica va a salir una regresión LOGÍSTICA. El STATA SIEMPRE NECESITA QUE LE AVISES QUE SERÁ UN DISEÑO LONGITUDINAL. El STATA necesita que el evento sea 1. Se debe decir cual es la variable que es DURACIÓN. FAILURE (no se puede cambiar) y en el paréntesis se pone la variable. El comando STCOX el programa ya sabe cual es la dependiente por eso ya no se encuentra en la regresión desarrollada. Al realizar STSET ha creado variables: st, d, t, t0. Y nos dice qué es lo que ha encontrado. Son variables internas del STATA pero que quedará para tu base de datos.

Parece extraño que el EXP(B) de cárcel es bastante cercano al 1 lo cual lo haría no significativo; sin embargo si lo considera significativo. Qué explica esto, el mejor comportamiento que tiene tiempo en la cárcel al ver el ERROR TÍPICO. El WALD, Z o T es un valor probabilístico, en cambio el EXP(B) es de acuerdo a la muestra simplemente. Usando Regresión Paramétrica (WEIBULL) Hay que asumir alguna distribución. Todo estudio paramétrico es reduccionista. Va a ser menos saturada, menos sobre ajustada. Todo lo NO PARAMÉTRICO trata de ir más hacia la complejidad de las variables, porque se puede sobreajustar. En la fila /ln_p podemos observar si el riesgo de reincidir es constante en el tiempo. La hipótesis es que es constante, que el riesgo es siempre el mismo. La preocupación es si la probabilidad va a ser la misma en el tiempo (podríamos decir algo como si alguien no reincide en un año ya es más improbable que lo haga por ejemplo). Si esto fuera NO SIGNIFICATIVO querría decir que siempre es lo mismo. Por el signo, podemos ver que es INVERSO, va pasando el tiempo y va cayendo la probabilidad. Estat IC sirve para ver el BIC y AIC. Normalmente la práctica más confiable es realizar regresión COX (semi paramétrica). Debemos sacar el BIC O AIC uno por vez porque el STATA solo recuerda la última regresión hecha.

*IDENTIFICAR VARIABLE DURACION Y VARIABLE EVENTO. Duración es el tiempo que se queda, evento es si es que ya se fueron. Censura si es que el 98 siguen en ese lugar.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 21 07-06-2010 Paper de la ONU Se puede usar GLMZ para pedir un modelo lineal generalizado binario con respuesta censurada. Aquí se pone como variable de ensayo la duración, y como dependiente la variable failed. Es interesante en el sentido de que puede ser usado para comparar con un modelo lineal en el que la duración sea la dependiente viendo los valores de AIC o BIC. Sólo funciona la prueba con EXPENDMILL porque la variable original EXPEND tiene un rango demasiado amplio que no converge en una respuesta. La técnica para número muy altos normalmente es aplicar LOGARITMO, de esta forma se trata de suavizar la curva. En la prueba de Log-Rank, Breslow, Tarone-Ware como en cualquier prueba que mide las diferencias, la H0= son iguales. En la tabla de medias y medianas de tiempo de supervivencia, podemos ver la media en que ocurre por tanto podemos comparar por grupos, ya no es tan global.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 22 11-06-2010 Series de tiempo Datos cuantitativos medidos en intervalos de tiempo regulares (normalmente tienen endogeneidad, dependencia serial y aleatoriedad). En la parte interpretativa se vuelve más complejo. Requiere de estrategias para lidiar con los efectos de cohorte (tipo de grupo en la serie), edad (efecto de la edad en la serie) y periodo (efecto de los eventos en los grupos de la serie). Modelos implican que hay un orden donde la variable dependiente sucede después de la independiente. Las series se puden descomponer en tendencias, ciclos y los comportamientos irregulares (y=t+c+r ó y=t*c*r). La descomposición requeire de procesos de eliminación de tendencia y estacionalidad (de-trend y deseasonalize) para disminuir autocorrelación, espuriedad y colinealidad. Probabilístico=estocástico (cuando la probabilidad es inmanejable porque va variando en el tiempo). Filtro=detrend+deseasonalize Estacional se refiere siempre a un año. El cíclico es más de un año (Ej. El Niño no es estacional sino cíclico). Componente irregular es el ruido de la serie. Diversas técnicas para aplicar sobre series de tiempo: -

SUAVIZAMIENTO EXPONENCIAL: hacer predicciones de corto plazo, va a tratar de hallar el componente tendencial de todo el año para predecir enero. MODELOS DE REGRESIÓN CURVE FITTING: más que predecir buscan conocer el comportamiento de un fenómeno. MODELO ITS INTERRUPTED TIME SERIES: determina si un evento afecta el comportamiento de las líneas (pendiente o la intersección) MODELOS ARIMA AUTO-REGRESSIVE INTEGRATED MOVING AVERAGE: se utilizan más para grandes series de tiempo, también con el objetivo de determinar si los datos observados en el presente se pueden explicar de los hechos pasados.

NÚMEROS ÍNDICE: permiten comparaciones relativas en el tiempo.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 23 14-06-2010 Series de tiempo Una serie de tiempo tiene distintos componentes. Por ejemplo, puede tener un componente accidental, un componente estacional y un componente cíclico. Si el componente accidental es relativamente plano quiere decir que no ha habido mayor cambio. El componente estacional podría subir y bajar, mientras más plano quiere decir que menos afecta. Esto se da en un año. En contraste, el componente cíclico se mide más allá de un año, y normalmente, aunque en teoría siempre hay un ciclo, uno nunca sabe exactamente en qué ciclo está).

101 100

El concepto de NO APOSTAR quiere decir que la gráfica del componente será más plano. Cada pico de la curva debe afectará a la serie de tiempo. Cuando a lo largo de la cura el componente se desarrolla de una form bastante cercana, es decir, se ajusta y lo hace de forma pareja esto queire decir que Y=T+A+E+C. Mientras que, cuando lo hace de forma poco constante, dispareja, se dice que Y=T*A*E*C.

Y=T+A+E+C

Y=T*A*E*C

Las distintas técnicas para enfrentar los distintos componentes tienen ventajas y desventajas. Además, al ver una data temporal no se puede simplemente interpretar. Es necesario descomponer la serie y hacer un análisis más exhaustivo de la serie. Todo lo que no se puede modelar son cosas que entrarán en el RESIDUO. La estadística no es muy buena para análisis coyuntural, no se sabe si está analizndo un cambio o algo azaroso, accidental. El índice de Fischer es una forma intermdia de calcular la inflación (REVISAR ARCHIVO INDICES.XLS).

Comentario [LA99]: Cada componente tiene su propia curva o pendiente.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Para hallar la tendencia, se puede utilizar una regresión lineal o una regresión curvilínea. Usar una regresión es bastante moderno en series de tiempo. Antes se solía usar la media móvil (técnica no paramétrica) para suavizar. Al pedir la línea de tendencia lineal y polinómica de segundo grado debemos observar el R2 . Mientras mayor sea el R2, en tanto se acerque más a 1, se ajusta un poco mejor.

Comentario [LA100]: Coeficiente de evaluación.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Clase 24 18-06-2010 Series de tiempo Es necesario sacar os cuatro componentes porque cada uno da infomación que pretendo conoer. Si es que no hago esto y leo la data en bruto, no estoy leyendo la información subyacente que está detrás. Esta información que está detrás posiblemente muestre tendencias, ciclos, cambios estacionales o accidentales. Es bastante problemático diferenciar la estacionalidad del ciclo, o de la tendencia, o de los cambios accidentales. Es importante hacer una descomposición adecuada para rescatar lo importante y deshacernos de lo que no es. La variable ciclo y estación se diferencia por su duración. Todas las técnicas en R y SPSS de series de tiempo no pueden enfrentar datos perdidos. La serie de tiempo tiene esta restricción: tiene que tener todos los momentos. En la serie de tiempo, lo que está en un periodo determinado (diario, mensual) es porque el interés de la variable está en ese espaciado de tiempo. La granularidad del tiempo importa.

En EXCEL, uno debe sacar la varianza, la desviación típica, media y coeficiente de variación. Aquí podremos observar la diferencia entre el Cociente estacional y la Diferencia estacional. Al observar el coeficiente de variación el MENOR es el más recomendable. Nunca se compara con el mes anterior porque hay un componente estacional. Por tanto se compara otoño con otoño, o enero con enero, según sea el caso. Cuando suavizo quito efectos aleatorios, y si se hace anualmente se quita también el efecto de la estacionalidad. Si existe estacionalidad esto quiere decir que esto va a ser así todo los veranos, inviernos, etc. según los valores en que hayamos dividido los periodos. Si la estacionalidad no es espantosa no se alejará de la tendencia. Se realiza dos medias móviles, para poder llegar a la serie des-estacionalizada lo válido es que las medias móviles provengan de las medias móviles centralizadas. Si hay tres valores ya se encuentra centrada. Únicamente se utiliza media móvil cuando los periodos son pares. -

BCR buena fuente para encontrar Rentabilidad de las AFP. 10 años – TRIMESTRALES

Comentario [LA101]: Más de un año. Hallar este componente es problemático Comentario [LA102]: En un solo año, es teóricamente más sencillo de encontrar.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC Modelamiento automático de SERIES DE TIEMPO EN SPSS Aunque el modelo no requiere explorar la serie, podemos hacer una gráfica para que sepamos de antemano cómo se comporta la serie. Acá lo importante es la estacionalidad, si le decimos al programa que no la hay, se demorará menos. El SPSS no sabe que es una serie de tiempo. Porque no tenemos las etiquetas del eje de tiempo. Para eso hay que definir fechas.

No hay estacionalidad, ahora se procede a realizar un análisis con TODAS las ciudades. Se tiene que observar la gráfica total y observar cada cuantos meses sucede algún tipo de efecto. Aquí se ve la ESTACIONALIDAD. En el ejemplo NO hay estacionalidad. Para que sea significativo debe de pasar la línea horizontal planteada. Para encontrar los ciclos podemos hacer uso del análisis espectral. Cuando hay signos de ciclos se observa una forma sinusoidal. Si cambio la frecuencia solo va a cambiar el espacio entre los sinusoides. Por defecto el 5 está bien. Estimación de los parámetros cuando tenemos variables independientes.

ESTADÍSTICA PARA EL ANÁLISIS POLÍTICO II – POL310 LAMC