Estadística II by Alexander Fuentes Morales

EstadĂstica

Instituto Tecnológico Superior de Coatzacoalcos

Profesor: Eduardo López de los Santos. Estadística II. 4° “A” Ingeniería en Administración. Elaborado por: José Alexander Fuentes Morales.

Tabla de contenido 1.

Introducción. ..................................................................................................................................... 7

1.- DATOS DE LA ASIGNATURA .................................................................................................. 8 1. PRUEBAS DE HIPÓTESIS. ......................................................................................................... 20 1.

ACTIVIDAD 1 – Planteamiento de H0 y H1. .......................................................................... 45

ACTIVIDAD 2 – Problemas (Opción de solución de 1 de 2). .............................................. 47

ACTIVIDAD 3 – Problemas de hipótesis................................................................................. 48

ACTIVIDAD 4 – Instalación de Software estadístico. ........................................................... 50

ACTIVIDAD 6 – Ejercicios por equipo ..................................................................................... 59

ACTIVIDAD 7 – Ejercicios en clase. ........................................................................................ 60

ACTIVIDAD 8 – Archivos en PDF del tema 1.7 Prueba sobre dos proporciones. ........... 62 UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. ....... 71

3. 1.

ACTIVIDAD 1 – Completar tema de la unidad faltante. ....................................................... 92

ACTIVIDAD 2 – Finalidad de los temas de la Unidad 2 ....................................................... 94

ACTIVIDAD 3 – Mapas en “XMind” sobre Chi-cuadrada y análisis de varianza. ............. 96

ACTIVIDAD 4 – Ensayo sobre Chi-cuadrada (Ji-cuadrada). ............................................... 98

UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE. 101 5.

ACTIVIDAD 1 – Ejemplos de gráficas de correlación. ........................................................ 114

ACTIVIDAD 2 – Gráficas de dispersión. ............................................................................... 115

ACTIVIDAD 4 – Investigación sobre temas pendientes de la unidad por equipos. ....... 120

ACTIVIDAD 5 – ......................................................................................................................... 141

UNIDAD 4. SERIES DE TIEMPO. ..................................................................................................... 148 9.

ACTIVIDAD 1 – 4 componentes de una serie temporal. .................................................... 162

10.

ACTIVIDAD 2 – Dos ejemplos prácticos. ...................................................................... 169

11.

ACTIVIDAD 3 – Diagrama en “XMind” sobre el tema 4.2. ............................................. 171

12.

ACTIVIDAD 4 – Vídeo sobre el tema 4.1.......................................................................... 172

UNIDAD 5. ESTADÍSTICA NO PARAMÉTRICA. ........................................................................... 175 13.

ACTIVIDAD 1 – Ventajas y desventajas. .......................................................................... 181

14.

ACTIVIDAD 2 – ..................................................................................................................... 184

15.

ACTIVIDAD 3 – Investigación. ............................................................................................ 189

16.

ACTIVIDAD 4 – ..................................................................................................................... 196

17.

ACTIVIDAD 5 – ..................................................................................................................... 202

Conclusi贸n. .............................................................................................................................................. 203

1. Introducción. ¿Qué es la estadística? Se puede definir como la ciencia cuyo objetivo es reunir una información para facilitar al hombre el estudio de datos masivos de individuos, grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o unas previsiones para el futuro. La estadística se ocupa de los métodos científicos para recolectar, organizar, resumir, presentar y analizar datos, así como de sacar conclusiones válidas y tomar decisiones con base en este análisis, así también realizar predicciones a cerca del conjunto del cual se han seleccionado dichos datos. El empleo cuidadoso de los métodos estadísticos permite obtener información precisa de los datos. Es por eso que el presente trabajo recopila todas las actividades, ejercicios y apuntes que se desarrollaron a lo largo del semestre como evidencia física de que se estuvo trabajando en lo desarrollado en el programa.

1.- DATOS DE LA ASIGNATURA

Nombre de la asignatura:

Estadística II

Carrera:

Ingeniería en Administración

Clave de la asignatura:

ADD-1021

(Créditos) SATCA1

2–3–5

2.- PRESENTACIÓN Caracterización de la asignatura. Esta asignatura, aporta al perfil de la Ingeniería en Administración, las herramientas técnicas y metodológicas, para sensibilizar la toma de decisiones estadísticas y profesionales en las áreas funcionales de negocios propios de la carrera, esto es, la aplicación en la gestión empresarial, la interpretación de resultados, la presentación de suposiciones, la evaluación de las suposiciones y la discusión acerca de lo que debería de hacerse si las suposiciones son infringidas en la administración de la calidad y productividad. De igual manera induce el uso de modelos para hacer mejores pronósticos de la variable dependiente en el amplio mundo de los negocios. Intención didáctica Se organiza el temario, agrupando contenidos conceptuales de la asignatura en 5 unidades. En la primera unidad se destaca la importancia conceptual que tienen los errores de tipo I y II, en la estructura básica de las pruebas de hipótesis, así mismo la metodología de la prueba de hipótesis: con una muestra, tanto para la media y para la proporción; sobre la diferencia de dos medias y la diferencia de proporciones y sobre dos muestras pareadas, donde aplica la función de densidad de probabilidad Normal para muestras pequeñas y grandes, con varianza conocida y desconocida.

En la segunda unidad, se conceptualiza la metodología de la prueba de hipótesis de dos procesos medidos, ya sea por la Pruebas de la bondad del ajuste y análisis de varianza; en la primera las pruebas de independencia, de bondad de ajuste y el uso de tablas de contingencia, mediante la función de densidades de probabilidad de la Ji-cuadrada. En la segunda, como su nombre lo indica, el propósito del procedimiento de análisis de varianza es analizar la variabilidad de la respuesta y asignar componentes de esa variabilidad a cada uno de los conjuntos de variables independientes e infiriendo sobre una y dos varianzas 1

Sistema de asignación y transferencia de créditos académicos

poblacionales. La función de densidad de probabilidad, que aplica a esta metodología estadística, es la distribución de Fisher. En la tercera unidad se abordan los temas de análisis de regresión, correlación lineal simple y múltiple en donde se analizan conceptos, supuestos, determinación de la ecuación de regresión lineal simple y múltiple, medidas de variación, cálculo de coeficientes de correlación, análisis residual, estimación de la ecuación, matriz de varianza y covarianza, pruebas de hipótesis para los coeficientes de regresión así como la correlación lineal múltiple, buscando práctica y ejercicios de aplicación, donde se recomienda el uso de paquetes estadísticos. En la cuarta unidad se completa la información con temas como: análisis de series de tiempo, componentes, análisis de los métodos de mínimos cuadrados, promedios móviles y suavización exponencial, posteriormente se realizarán análisis de tendencias no lineales, variación estacional y se buscarán ejemplos prácticos de aplicación de las técnicas analíticas de las series de tiempos en negocios, en problemas de investigación de mercado y en los estudios de control de calidad. En la quinta y última unidad se aprenderá las ventajas y desventajas de utilizar las estadística no paramétricas así como utilizar los mejores criterios de selección para resolver problemas relativos a la Ingeniería en Administración y tomar mejores decisiones; considerando que las escalas de medición nominal y ordinal se usan para generar datos para determinar sí es adecuado un método no paramétrico, ya que en estos resultan inapropiados calcular medidas descriptivas de centralización y dispersión. Los métodos no paramétricos tienen aplicación más general, que los paramétricos, porque tienen requisitos menos restrictivos sobre medición de datos, y por la menor cantidad de supuestos necesarios acerca de la distribución de la población. En este apartado se desarrollaran las metodologías de la prueba de signo, la de Wilcoxon de rango con signo, la de Mann-Whitney y la de Kruskal-Wallis. En el transcurso de las actividades programadas es muy importante que el estudiante aprenda a valorar las actividades que lleva a cabo y entienda que está construyendo su hacer futuro y en consecuencia actúe de una manera profesional; de igual manera, aprecie la importancia del conocimiento y los hábitos de trabajo; desarrolle la precisión y la curiosidad, la puntualidad, el entusiasmo y el interés, la tenacidad, la flexibilidad y la autonomía.

3.- COMPETENCIAS A DESARROLLAR Competencias específicas Competencias genéricas Aplicar las herramientas básicas que provee Competencias instrumentales la estadística inferencial, para recoger, procesar, analizar, presentar información y garantizar un control estricto de todo proceso Conocimientos básicos de la carrera de producción de bienes y servicios.

Habilidades básicas de manejo de la computadora Habilidad para buscar y analizar información proveniente de fuentes diversas Toma de decisiones. Competencias interpersonales

Competencias sistémicas Capacidad de aplicar los conocimientos en la práctica Capacidad de aprender Capacidad de generar nuevas ideas (creatividad) Habilidad para trabajar en forma autónoma

4.- HISTORIA DEL PROGRAMA Lugar

fecha

Observaciones Participantes

elaboración o revisión

Instituto Tecnológico del Durango, Chihuahua, Nuevo Laredo y Valle de Morelia.

(cambios y justificación)

Representantes de los Institutos Tecnológicos de Durango, Chihuahua, Nuevo Laredo y Valle de Morelia.

Febrero- Abril del 2010

Compromisos generados para la Reunión Nacional de de Consolidación de la Carrera de Ingeniería en Administración, adquiridos en Toluca.

5.- OBJETIVO(S) GENERAL(ES) DEL CURSO (competencia específica a desarrollar en el curso) Aplicar las herramientas básicas que provee la estadística inferencial, para recoger, procesar, analizar, presentar información y garantizar un control estricto de todo proceso de producción de bienes y servicios. 6.- COMPETENCIAS PREVIAS Analiza y aplica conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia. Dominio de las distribuciones de frecuencia. Dominio de las medidas de tendencia central y de dispersión en la muestra y la población. Dominio de estimaciones inferenciales. Dominio de la hoja de cálculo. Maneje con propiedad operaciones de algebra básica Identificar y usar correctamente los conectivos relacionales de la estadística inferencial Uso de graficadores Excel Uso del complemento análisis de datos Excel. Actitud proactiva. Trabajo en equipo

7.- TEMARIO Unidad

Temas

Pruebas de Hipótesis

Pruebas de la bondad del ajuste y análisis de Varianza

Subtemas 1.1 Hipótesis estadísticas. 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis 1.4 Prueba sobre dos medias con distribución Normal y “t” Student. 1.6 Prueba sobre una sola proporción 1.7 Prueba sobre dos proporciones y pareadas 1.8 Software de aplicación 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza

Análisis de regresión, correlación lineal simple y múltiple

2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Software de aplicación 3.1 Regresión lineal y correlación 3.1.1 Método de mínimos cuadrados y la línea 3.1.2 Coeficientes de correlación, de determinación y el del error estándar de la estimación 3.1.3 Intervalos de confianza y de predicción 3.1.4 Análisis de varianza para la regresión 3.1.5 Análisis de residuales 3.2 Regresión y correlación Múltiple 3.2.1 Análisis de regresión múltiple y el método de los mínimos cuadrados 3.2.2 El coeficiente de determinación Múltiple y el error estándar múltiple de estimación 3.2.3 Análisis de varianza para la regresión Múltiple 3.2.4 Análisis de residuales 3.2.5 Software de aplicación

TEMARIO (continuación) Unidad

Temas

Subtemas

Series de tiempo

4.1 Los componentes de una serie de tiempos 4.1.1 Componente de tendencia 4.1.2 Componente cíclico 4.1.3 Componente estacional 4.1.4 Componente irregular 4.2 Métodos de suavizamiento en los Pronósticos 4.2.1 Promedios móviles 4.2.2 Promedios móviles ponderados 4.2.3 Suavizamiento exponencial 4.3 El análisis de regresión en pronósticos 4.3.1 Modelo causal 4.3.2. Estimación de pronósticos 4.4 Software de aplicación

Estadística no paramétrica.

5.1 Escala de medición 5.2 Métodos estadísticos contra no

paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Krauskal-Wallis 5.10 Software de aplicación

8.- SUGERENCIAS DIDÁCTICAS (desarrollo de competencias genéricas)          

El profesor: Incide en procesos metacognitivos. Propicia actividades de búsqueda, selección y análisis de información de distintas fuentes. Fomenta el desarrollo de actividades intelectuales de inducción-deducción y análisissíntesis, que encaminen hacia la investigación. Organiza actividades grupales que propicien el razonamiento inductivo y deductivo entre los estudiantes. Sugiere el uso de la hoja de cálculo Excel como un apoyo para la solución de problemas de la asignatura. Recomienda el uso de la estadística como una herramienta en la organización de datos como resultados de distintas actividades a su carrera. Recomienda que se realicen inferencias estadísticas en estudios de caso. Asigna ejercicios a resolver individualmente y en equipo en clase y extraclase. Coordina la discusión y el análisis de las definiciones, formulas, modelos y resultados de ejercicios resueltos. Vincula las asignaturas del área económico-administrativa con los contenidos de esta asignatura.

9.- SUGERENCIAS DE EVALUACIÓN La evaluación de la asignatura debe ser formativa y sumativa, por lo que debe considerarse el desempeño en cada una de las actividades de aprendizaje, siempre y cuando demuestren calidad y relación con los temas de esta y otras asignaturas; entre estas se consideran:  Portafolio de evidencias en resguardo por el estudiante.  Participación del alumno en clase.  Autoevaluación por unidad en tiempo y forma  Solución de problemas integrados a sus apuntes.  Interpretación de problemas resueltos e integrados a sus apuntes.  Entrega de tareas de reforzamiento integrados a sus apuntes.  Entrega de trabajos de investigación individual y en equipo.  Informe de prácticas y exposición de resultados obtenidos.

10.- UNIDADES DE APRENDIZAJE Unidad 1: Prueba de hipótesis. Competencia específica a Actividades de Aprendizaje desarrollar Formula juego de hipótesis estadísticas. Aplica las técnicas de la prueba de Aplica el procedimiento de la prueba de hipótesis a parámetros poblacionales hipótesis. en una y dos muestras, así como en Contrasta hipótesis a diferentes niveles de muestras pareadas. significación. ubicación y entendimiento. Interpreta los resultados de la prueba de hipótesis para su correcta conclusión. Elabora un formulario de los temas de la unidad de la unidad.

Unidad 2: Prueba de bondad de ajuste y análisis de la varianza. Competencia específica a desarrollar Consulta los conceptos de la prueba de bondad de ajuste y análisis de varianza y los aplica en la inferencia estadística para verificar si dos clasificaciones de datos son independientes entre sí y prueba la significancia entre más de dos medias

Actividades de Aprendizaje

una prueba Ji-Cuadrada. Consulta e identifica cuando utilizar un análisis de varianza en inferencia estadística Consulta, utiliza y aplica la distribución Jicuadrada para verificar si dos clasificaciones de datos son independientes entre sí. Consulta y utiliza las pruebas de hipótesis

muéstrales respectivamente. referentes a proporciones para elaborar tablas de contingencia y analizar la Ji-Cuadrada. administración aplica los pasos a seguir para un análisis de Varianza.

estimaciones de la σ. Elabora un formulario de los temas de la unidad

de la unidad.

Unidad 3: Análisis de regresión, correlación lineal simple y múltiple. Competencia específica a desarrollar Consulta y utiliza ejemplos de aplicación de la regresión lineal simple y de la múltiple.

Actividades de Aprendizaje Consulta y desarrolla una ecuación que relaciona las variables conocidas con la variable desconocida. Consulta, explica y aplica un diagrama de dispersión para visualizar la relación entre dos variables. valores futuros de la variable dependiente. Consulta, explica y aplica el análisis de correlación para describir el grado de relación lineal entre dos variables. el coeficiente de determinación para medir la proporción de la variación en Y por la variación de X. Usa la covarianza para la compresión del coeficiente de correlación. Desarrolla una ecuación de estimación de regresión múltiple que relacione más de una variable independiente con la variable dependiente. desarrolla una ecuación de estimación de regresión múltiple que relacione más de una variable independiente con la variable dependiente. e interpreta los coeficientes de correlación y determinación múltiples. Utiliza el modelo de regresión múltiple para el cálculo de predicciones. y hace inferencias sobre los coeficientes de las variables independientes. Utiliza un software para la solución de ejercicios

Unidad 4: Series de tiempo. Competencia específica a desarrollar Consulta, explica y aplica las diferentes técnicas y componentes de una serie de tiempos.

Actividades de Aprendizaje Investiga, expone y comprende los cuatro componentes de una serie temporal. Emplea las técnicas de regresión para estimar y predecir la tendencia de una serie temporal.

Usa los pronósticos basados en factores de tendencia y estacionales para calcular ciclos e indicadores económicos. Aplica la técnica de suavización exponencial como método de pronóstico. Utiliza la técnica de variaciones cíclicas y estacionales para realizar pronósticos por temporada. Pronostica modelos económicos por el método de promedios móviles. Emplea los cuatro componentes de una serie temporal para la solución de un problema integral relativo a la Ingeniería en administración. Utiliza un paquete computacional para graficar y solucionar problemas de pronósticos.

Unidad 5: Estadística no paramétrica. Competencia específica a desarrollar Consulta, explica y aplica los conceptos de la estadística no paramétrica para resolver problemas y tomar la mejor decisión.

Actividades de Aprendizaje Cita las ventajas y desventajas de utilizar métodos no parámetricos. Utiliza pruebas de hipótesis cuando no se pueda hacer ninguna suposición sobre la distribución a partir de la cual estamos muestreando. Utiliza la prueba de signos para probar hipótesis nula referente al valor de la mediana de la población. aleatoriedad de una serie de observaciones, cuando cada observación puede ser asignada a dos categorías. para probar la hipótesis nula referente al valor de la mediana de la población. para observaciones pareadas para probar la hipótesis nula de que las dos medianas de la población son iguales. -Wallis de muestras independientes para probar la hipótesis nula que varias poblaciones tienen las mismas medianas. de problemas.

11.- FUENTES DE INFORMACIÓN 1. Anderson, D. R.; Sweeney, D. J. y Williams T. A. 1999. Estadística para Administración y Economía. 7a Edición. International Thompson Editores, S. A. de C. V. México 06400, D. F. 909 pp 2. Douglas A. Lind, William G. Marchal & Samuel A. Wathen. 2005. Statistical Techniques in Business and Economics. 12th Edition. McGraw-Hill Companies.490 pp 3. Douglas, A. L; William, G. M. Robert, D. Mason. 2004. Estadística para Administración y Economía. 11a Edición. ALFAOMEGA GRUPO EDITOR, S. A. de C. V. Pitágoras 1139, Col. Del Valle. 03100 México, D. F. 830 pp 4. Levine, D. M.; Krehbiel, T. C. y Berenson, T. C. 2006. Estadística para Administración. 4ª edición. Pearson Educación de México, S. A. de C. V. Naucalpan de Juárez, Edo, de México. 648 pp 5. Mendenhall, W. y Reinmuth, J. E.1999. Estadística para administración y economía. Tercera edición. Grupo Editorial Iberoamericana, S. A. de C. V. Nebraska 199 Col. Nápoles. C. P. 03810 México, D. F. 707 pp 6. Montgomery, D. et al. (1997). Probabilidad y estadística para ingeniería y administración. México: CECSA. 7. Triola, M. F. 2000. Estadística Elemental. 7ª edición. Addison Wesley Longman de México, S. A. de C. V. Naucalpan de Juárez, Edo, de México. 824 pp 12.- PRÁCTICAS PROPUESTAS Práctica 1. Contraste de hipótesis para la media y la proporción poblacional, usando una distribución normal y una “t “ de Student. Práctica 2. Contraste de hipótesis para la media y la proporción de dos poblaciones, usando una distribución normal y t de Student. Práctica 3. Prueba de hipótesis para la media y la proporción de una muestra pareada. Práctica 4. Realizar un contraste de hipótesis para una población multinomial. Práctica 5. Contraste de hipótesis para una prueba de independencia, usando tablas de contingencia. Práctica 6. Contraste de hipótesis para la varianza de una y dos poblaciones. Práctica 7. Estimación de los coeficientes de regresión y correlación en un modelo lineal y múltiple. Práctica 8. Elaboración de intervalos de confianza para valores predichos para 2 o más variables. Práctica 9. Análisis de variaciones cíclicas y estacionales Práctica10. Pronósticos basados en factores de tendencia y estacionales Práctica 11. Prueba de rangos para probar que dos conjuntos de datos dependientes provienen de poblaciones idénticas. Práctica 12. Prueba de afirmación de que dos conjuntos de datos dependientes tienen la misma mediana.

1. PRUEBAS DE HIPÓTESIS. 1.1 HIPÓTESIS ESTADÍSTICAS. CONCEPTOS GENERALES. 1.2 ERRORES TIPO I Y II. 1.3 PRUEBAS UNILATERALES Y BILATERALES. 1.4 PRUEBA DE UNA HIPÓTESIS: REFERENTE A LA MEDIA CON VARIANZA DESCONOCIDA UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. 1.5 DOS MUESTRAS: PRUEBA SOBRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. 1.6 UNA MUESTRA: PRUEBA SOBRE UNA SOLA PROPORCIÓN. 1.7 DOS MUESTRAS: PRUEBA SOBRE DOS PROPORCIONES. 1.8 DOS MUESTRAS: PRUEBA PAREADAS.

1. PRUEBAS DE HIPÓTESIS. Estadística. Es el conjunto de técnicas que tienen por objeto recopilar, analizar, e interpretar datos (numéricos); así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis. Las personas vemos a la estadística desde perspectivas distintas, suele vérsele como algo relacionado con porcentajes, promedios, tablas y gráficas, la información estadística se usa por muchas razones entre ellas encontramos: informar al público, proporcionar comparaciones, explicar acciones que se han efectuado, influir en decisiones que han de tomarse, etc.

Estadística descriptiva o deductiva. Incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos, es decir, recopilan, organizan y analizan datos cuantitativos. Estadística inferencial o inductiva. Comprenden aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en una muestra.

1.1 HIPÓTESIS ESTADÍSTICAS. CONCEPTOS GENERALES. Hipótesis. Es una aseveración de una población elaborado con el propósito de poner a prueba, para verificar si la afirmación es razonable (se usan datos). En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable. La prueba de hipótesis se realiza mediante un procedimiento sistemático de cinco pasos:  Paso 1. Se plantea la hipótesis nula y alterna.  Paso 2. Se selecciona el nivel de significancia.  Paso 3. Se identifica el estadístico de prueba.  Paso 4. Se formula la regla de decisión.  Paso 5. Se toma una muestra y se decide.(si se rechaza la hipótesis nula, se acepta la hipótesis alterna o viceversa) Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. De igual forma la prueba de hipótesis determina si un valor propuesto

(hipotético) pará un parámetro poblacional, por ejemplo para una media, debe aceptarse como plausible con base en la evidencia muestral.

1.2 ERRORES TIPO I Y II. Cualquiera que sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la H0 o de la Ha, puede incurrirse en error: Un error tipo I. Se presenta si la hipótesis nula H0 es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II. Se presenta si la hipótesis nula es aceptada cuando es falsa y debía ser rechazada; se denota con la letra griega β. En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles. Hipótesis nula H0 es verdadera H0 es falsa

Investigador Se acepta H0 Se rechaza H0 Decisión Error tipo I correcta Error tipo II Decisión correcta

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o posible.

1.3 PRUEBAS UNILATERALES Y BILATERALES. Prueba unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤ Ejemplo: H0: µ ≥ 200 H0: µ ≤ 200 H1: µ < 200 H1: µ > 200

Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad

Ejemplo: H0: µ = 200 H1: µ ≠ 200

1.4 PRUEBA DE UNA HIPÓTESIS: REFERENTE A LA MEDIA CON VARIANZA DESCONOCIDA UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es (z) y se determina a partir de: x Z  n El valor estadístico (z), para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación: x Z S n En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico (t). x t S n Nivel de significancia. Se le denota mediante la letra griega (α), también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, que esté fuera del área de aceptación. El nivel de confianza (1- α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si el estadístico de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

Nivel de 0.10 significancia Valores críticos - 1.28 de z para test + unilateral 1.28 Valores críticos de z para test 1.645 bilateral y + 1.645

0.05

0.01

0.005

0.002

- 2.33 - 2.58 - 2.88 1.645 + + + + 2.33 2.58 2.88 1.645 - 1.96 - 2.58 - 2.81 - 3.08 y y y y + + + + 1.96 2.58 2.81 3.08

Valor critico. Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.

Ejemplos: 1. El jefe de división de la Licenciatura en Administración del ITESCO manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05 Datos:

Día 1 2 3 4 5 6 7 8 9 10

Usuarios 356 427 387 510 288 290 320 350 403 329

Día Usuarios 11 305 12 413 13 391 14 380 15 382 16 389 17 405 18 293 19 276 20 417

Día 21 22 23 24 25 26 27 28 29 30

Usuario 429 376 328 411 397 365 405 369 429 364

Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar poblacional desconocida. Paso 1: Seleccionamos la hipótesis nula y la hipótesis alternativa H0: μ═350 H1: μ≠ 350 Paso 2: Nivel de confianza o significancia 95% α═0.05 Paso 3: Calculamos o determinamos el valor estadístico de prueba Debido a que el número de muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es desconocida, en este caso calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue. Columna1 Media 372.8 Error típico 9.56951578 Mediana 381 Moda 405 Desviación estándar 52.4143965 Varianza de la muestra 2747.26897 Curtosis 0.36687081 Coeficiente de asimetría 0.04706877 Rango 234 Mínimo 276 Máximo 510 Suma 11184 Cuenta 30 Nivel de confianza (95.0%) 19.571868 x 372.8  350   2.38 S 52.414 / 30 n Paso 4: Formulación de la regla de decisión. La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, está en cada cola. El área en la que no se rechaza Ho está entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96. Por consiguiente la regla de decisión es: Rechazar la hipótesis nula (Ho) si Z<-1.96 o si Z>1.96, Paso 5: Toma de decisión. Como el valor del estadístico cae dentro de la zona de rechazo, por tanto se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1). Z

2. Se tiene la siguiente prueba de hipótesis: H0: µ ≤ 15 H1: µ > 15 Una muestra de 40 elementos produce una media de 16.5 y una desviación estándar de 7. a) Con α= 0.02, ¿cuál es el valor crítico de z y cuál es la regla de rechazo? b) Determine el valor del estadístico de z c) ¿cuál es su conclusión? Solución: a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z  2.33 0.02  0.01  1.645  2.33 0.05  0.01 z  2.33 0.01   0.685 0.04 z  2.33  0.25  0.685 Z – 2.33= (0.25)(-0.685) Z – 2.33= -0.171 Z= -0.171 + 2.33 Z= 2.158 z = 2.158, Rechazar H0: µ ≤ 15, si es mayor que 2.158

x   16.5  15 1.5    1.356 S 7 / 40 1.106 n c) No se rechaza la hipótesis nula

b) Z 

3. La duración promedio de una semana de trabajo para la población de trabajadores es de 39.2 horas. Pruebe las hipótesis, H0: µ = 39.2 horas y H1: µ ≠ 39.2 horas, con α=0.05. a) ¿Cuáles son los valores críticos para el estadístico de prueba y cuál es la regla de rechazo para H0? b) Suponga que en una muestra de seguimiento de 112 trabajadores la media muestral es de 38.5 horas y que la desviación estándar muestral es de 4.8 horas. ¿Cuál es el valor del estadístico de prueba? c) ¿Cuál es su conclusión? Solución: H0: µ = 39.2

H1: µ ≠ 39.2 a) con α=0.05, z=±1.96, se rechaza la H0, si z<-1.96 o z>1.96

x   38.5  39.2  0.7    1.545 S 4.8 / 112 0.453 n c) No se rechaza la H0

b) Z 

4. Las personas que solicitaron devoluciones de impuestos federales antes del 31 de marzo tuvieron una devolución promedio de 1056 dólares. Hay una población de solicitantes que mandan sus documentos de último minuto durante los últimos cinco días del periodo de impuesto (normalmente del 10 al 15 de abril). a) Un investigador sugiere que una de las razones por las que las personas esperan hasta los últimos días es que, en promedio, tienen una devolución menor que quienes las solicitan antes. Elabore las hipótesis, adecuadas para que el rechazo de H0 respalde lo que opina el investigador. b) Con α= 0.05, ¿Cuál es el valor crítico para el estadístico de prueba y cuál es la regla de rechazo? c) Para una muestra de 400 individuos que solicitaron una devolución entre el 10 y 15 de abril, la devolución muestral promedio fue de 910 dólares y la desviación estándar fue de 1600 dólares, calcule el valor del estadístico de prueba. d) ¿Cuál es su conclusión? Solución: a) H0: µ ≥ 1056 H1: µ < 1056 b) Con α=0.05, el valor de z= -1.645, la regla de decisión es: rechazar H0, si z es menor que -1.645. x 910  1056  146 c) Z     1.825  80 1600 / 400 n d) Se rechaza la H0, se concluye que µ<1056 5. Se tiene la siguiente prueba de hipótesis: H0: µ = 15 H1: µ ≠ 15 Con una muestra de 50 elementos se obtiene una media de 14.2 y una desviación estándar de 5. a) ¿Cuál es la regla de rechazo con α=0.02? b) Determine el valor del estadístico de prueba z. c) ¿Cuál es su conclusión?

Solución: a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z  2.58 0.02  0.01  1.96  2.58 0.05  0.01 z  2.58 0.01   0.62 0.04 z  2.58  0.25  0.62 Z – 2.58= (0.25)(-0.62) Z – 2.58= -0.155 Z= -0.155 + 2.58 Z= 2.425 Con α=0.02, el valor de z= -2.425 y 2.425, la regla de decisión es: rechazar H0: si z <-2.425 o z >2.425.

b) Z 

x





14.2  15  0.8   1.131 0.707 5 / 50

n c) No se rechaza la H0.

6. Se tiene la siguiente prueba de hipótesis H0: µ = 20 H1: µ ≠ 20 Los datos de una muestra de 6 elementos son: 18, 20, 16, 19, 17 y 18. a) Calcule la media de la muestra b) Encuentre la desviación estándar de la muestra c) Con α=0.05, ¿cuál es la regla de rechazo? d) Calcule el valor del estadístico t e) ¿Cuál es su conclusión? Solución: H0: µ = 20 H1: µ ≠ 20 19  20  16  19  17  18  18 a) x  6 b)

S

  x  x n 1



10 1.414 5

c) Con α=0.05, como es una prueba bilateral, por lo tanto

 2



0.05  0.025 2

Grados de libertad = n-1= 6-1 = 5 t = ±2.571, se rechaza la H0, si z<-2.571 o z>2.571

x 18  20 2    3.466 S 1.414 / 6 0.577 n e) Se rechaza H0, se concluye que H1 es cierta.

d) t 

Ejercicios: 1. El gerente del Hotel Relax afirma que la media de las cuentas de los huéspedes, en un fin de semana, es de 600 dólares o menos. Un empleado del departamento de contabilidad del hotel notó que recientemente los cargos totales en las cuentas de los huéspedes han aumentado. El contador usará una muestra de cuentas de fin de semana para probar la afirmación del gerente. ¿Cuál de las siguientes formas de hipótesis se debe usar para probar la afirmación del gerente? Explique por qué. H0: µ ≥ H0: µ ≤ H0: µ = 600 600 600 H1: µ < H1: µ > H1: µ ≠ 600 600 600

Solución: La segunda opción porque se desea probar lo que dijo el gerente que µ ≤ 600, y en una prueba de hipótesis, para probar esa aseveración lo que se hace es contradecirla, tratando de eliminar dicho supuesto. 2. Se tiene la siguiente prueba de hipótesis H0: µ ≥ 10 H1: µ < 10 Una muestra de 50 elementos produce una media de la muestra de 9.46 y una desviación estándar de la muestra de 2. a) Cuando α= 0.05, ¿cuál es el valor crítico de z?, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico de prueba z, ¿cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.645, La regla de decisión es que se rechaza la H0 si z < 1.645 x   9.46  10  0.54 b) Z     1.914 por lo tanto se rechaza la H0  0.282 2 / 50 n

3. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 25 H1: µ < 25 Se usa una muestra de 100 artículos y se supone que la desviación estándar de la población es 12. Use α= 0.05, determine el valor del estadístico z y llegue a una conclusión para cada uno de los siguientes resultados de la media: a) ̅ = 22 b) ̅ = 24 c) ̅ = 23.5 d) ̅ = 22.8 Solución: Con α= 0.05, z=±1.645, La regla de decisión es que se rechaza la H0 si z < -1.645 x 22  25 3 a) Z     2.5  12 / 100 1.2 n x 24  25 1 b) Z     0.833  12 / 100 1.2 n x   23.5  25  1.5 c) Z     1.25  1.2 12 / 100 n x   22.8  25  2.2 d) Z     1.833  1.2 12 / 100 n La conclusión es que se rechaza la H0, en los encisos (a y d), y no se rechaza la H0 en los encisos (b y c) 4. Media Matrix, Inc, vigila a los usuarios de internet en siete países: Australia, Gran Bretaña, Canadá, Francia, Alemania, Japón y Estados Unidos. Según las cifras de mediciones recientes, los usuarios estadounidenses ocupan el primer lugar en el uso de internet con un promedio de 13 horas por semana (The Washington Post, 4 de agosto de 2000). Suponga que en un estudio de seguimiento en el que participaron 145 usuarios de internet canadienses, la media muestral fue de 10.8 horas por semana y la desviación estándar muestral fue de 9.2 horas. a) Formule la hipótesis nula y alternativa que servirán para determinar si los datos de la muestra sustentan la conclusión de que los usuarios de internet canadienses tienen una media poblacional menor que el promedio estadounidense de 13 horas por semana. b) Con α= 0.01, ¿Cuál es el valor crítico para el estadístico de prueba? Exprese la regla de rechazo. c) ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su conclusión? Solución. a) H0: µ ≤ 13 H1: µ > 13

b) Con α= 0.01, z=±2.33, La regla de decisión es que se rechaza la H0 si z >2.33 x   10.8  13  2.2 c) Z     2.879  9.2 / 145 0.764 n d) No se rechaza la H0 5. Se tiene la siguiente prueba de hipótesis: H0: µ = 10 H1: µ ≠ 10 Una muestra de 36 artículos produce un promedio de 11 y una desviación estándar de 2.5 a) ¿Cuál es la regla de rechazo con α= 0.05? b) Calcule el valor del estadístico z, ¿cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.96, La regla de decisión es que se rechaza la H 0 si z < 1.96 o si z > 1.96 x 11  10 1 b) Z     2.403 por lo tanto se rechaza la H0  2.5 / 36 0.416 n 6. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 15 H1: µ < 15 Con una muestra de 22 artículos se obtuvo una desviación estándar muestral de 8. Use α= 0.05. Determine el valor del estadístico y su conclusión para cada uno de los siguientes resultados muestrales: a) ̅ = 13 b) ̅ = 11.5 c) ̅ = 15 d) ̅ = 19 Solución: Con α= 0.05, Grados de libertad= n-1 = 22-1 = 21, t= -1.725, La regla de decisión es que se rechaza la H0 si t < -1.721 x   13  15 2 a) t     1.173 s 8 / 22 1.705 n x   11.5  15  3.5 b) t     2.052 s 1.705 8 / 22 n x   15  15 0 c) t    0 s 8 / 22 1.705 n x   19  15 4 d) t     2.346 s 8 / 22 1.705 n

La conclusión es que se rechaza la H0, en el enciso (b), y no se rechaza la H0 en los encisos (a, c y d) 7. El gerente de una agencia automotriz desea implantar un nuevo plan de bono con objeto de aumentar el volumen de ventas. En la actualidad el volumen de ventas es de 14 automóviles vendido por mes. El gerente desea llevar a cabo una investigación para ver si el nuevo plan de bono aumenta el volumen de ventas. Para recurrir datos acerca del plan, se permitirá que un grupo de vendedores trabajen con él durante un período de un mes. a) Formule la hipótesis nula y alternativa que sea más adecuado para este caso. b) Comente la conclusión a que se llegaría cuando no se puede rechazar H0. c) Comente la conclusión a que se llegaría cuando si se puede rechazar H0. Solución: a) H0: µ ≤ 14 H1: µ > 14 b) No hay evidencia de que con el nuevo plan aumentan las ventas. c) Se apoya la hipótesis H1: µ > 14, que con el nuevo plan aumentan las ventas 8. Los estadounidenses gastan un período de 8.6 minutos diario (leyendo los periódicos). Un investigador cree que quienes tienen puestos de mando invierten más tiempo en leer los periódicos que el promedio nacional. Una muestra de personas con puestos gerenciales será seleccionada por el investigador. Los datos de tiempos de lectura del periódico se usarán para probar las siguientes hipótesis nula y alternativa: H0: µ ≤ 8.6 H1: µ > 8.6 a) ¿Cuál es el error tipo I en este caso? ¿cuáles son las consecuencias de cometer este error? b) ¿Cuál es el error tipo II en este caso? ¿cuáles son las consecuencias de cometer este error? Solución: a) Rechazar H0: µ ≤ 8.6, cuando sea cierto b) Aceptar H0: µ ≤ 8.6, cuando sea falsa

1.5 DOS MUESTRAS: PRUEBA SOBRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. Supongamos que tenemos dos poblaciones 1 y 2. Y sea µ1= La media de la población 1 µ2= La media de la población 2 La diferencia entre las dos medias poblacionales es µ 1- µ2. Para estimar dicha diferencia, seleccionamos dos muestras aleatorias simples formadas por n1 para la población 1 y n2 para la población 2.

Y sean x1 = La media de la muestra aleatoria simple de n1

= La media de la muestra aleatoria simple de n2

Como x1 es un estimador puntual de µ1 y x2 es un estimador puntual de µ2, el estimador puntual de la diferencia de las dos medias poblacionales se expresa como sigue: x1  x2 Valor esperado: E x1  x2 = µ1- µ2

Desviación estándar:

x



 1   2 n1





S1  S 2 n1 n2

Donde: σ1= Desviación estándar de la población 1 σ2= Desviación estándar de la población 2 n1= Tamaño de la muestra aleatoria simple de la población 1 n2= Tamaño de la muestra aleatoria simple de la población 2 Si ambos tamaños de la muestra son grandes (n1 ≥ 30 y n2 ≥ 30), puede aproximarse la distribución muestral de x1  x2 con una distribución de probabilidad normal. La estimación del intervalo de la diferencia entre las medias de dos poblaciones: para el caso de muestra grande (n1 ≥ 30 y n2 ≥ 30) cuando se supone que se conoce σ1 y σ2 es: x1  x2  Z / 2 x1x2 Cuando se supone que se conoce S1 y S2 es: x1  x2  Z / 2 S x1x2 Para el caso de muestras pequeñas las varianzas de las poblaciones son iguales (σ12 = σ22= σ2)

1 1 2  2    x1x2 n1 n2  2  n1  n2 





2 2 1 S S  2 1 S    n1 n2  n1 n2 

n1  1 S12  n2  1 S 22 n1  n2  2

x  x  t S x 1



Donde el valor t se basa en una distribución t con n1 + n2 -2 grados de libertad.

Ejemplos. 1. Una empresa departamental tiene dos tiendas en Coatzacoalcos; una está en el centro de la ciudad y la otra en un centro comercial suburbano. El gerente regional se percató de que los productos de mayor venta en una tienda no siempre son los de mayor venta en la otra. Cree que esta situación puede deberse a diferencias en la demografía de los clientes en las dos zonas. Los clientes pueden tener distinta edad, educación, ingresos, etc. Suponga que el gerente regional ha pedido investigar la diferencia entre las medias de las edades de los clientes que compran en cada tienda. Definamos a la población 1 como todos los clientes que compran en la tienda del centro, y a la población 2 como los que compran en la suburbana. Suponga que los datos de edades de los clientes que se reunieron en las dos muestras aleatorias simples de clientes de la empresa fueron los siguientes: Tienda Cantidad de Edad media Desviación clientes de la muestra estándar de la muestreados muestra Centro 36 40 años 9 años Suburbano 49 35 años 10 años Con un nivel de confianza del 95%, estime el intervalo de la diferencia entre las medias de las edades de las dos poblaciones de los clientes de las tiendas. Solución: n1= 36 n2= 49 x1 = x2 = 40 35 S1= 9 S2=10 Con = 0.05 x1  x2  40  35  5

Z  1.96

2 2 81 100 841 29 (9) (10) 1 2 S S S x1x2  n1  n2  36  49  36  49  196  14  2.071 x1  x2  Z  S x1x2 5  1.96(2.071) 5  4.059 (0.941,9.059) años

2. Para un estudio de muestreo que realizó el Banco Prosperidad. Muestras aleatorias independientes de saldos en los estados de cuenta de cheques para clientes de dos de sus sucursales dieron los siguientes resultados. Sucursal Número de Media de la Desviación cuentas de muestra de estándar de la cheques saldos muestra Norte 12 1000 dólares 150 dólares Sur 10 920 dólares 120 dólares Con un nivel de confianza de 90%, estime el intervalo de la diferencia entre las medias de los saldos en las dos sucursales.

Solución: n1= 12 x1 =

n2= 10 x2 =

1000 920 S1= 150 S2=120 Con = 0.1 Grados de libertad= n1 + n2 – 2= 12+10-2=20 t / 2  t0.1/ 2  t0.05  1.725



n1  1 S12  n2  1 S 22 n1  n2  2

(12  1) 150  (10  1) 120 2



12  10  2



(11)( 22500)  (9)(14400) 20

 18855 2 2 S  S  2  1  1   18855 1  1   13827  58.794    S x1x2 n1 n2 S  n1 n2  4  12 10  x1  x2  t / 2 S x1x2 80  1.725(58.794) 80  101.419 (-21.410, 181.4199)

Ejercicios: 1. Examine los resultados siguientes de dos muestras aleatorias independientes tomadas de dos poblaciones: n1= 50 n2= 35 ̅̅̅ = ̅̅̅= 13.6 11.6 S1= 2.2 S2=3 a) ¿Cuál es la estimación puntual de la diferencia entre las dos medias de la población? b) Determine un intervalo de confianza de 90% de la diferencia entre las dos medias de la población. c) Determine un intervalo de confianza de 95% de esa diferencia. Solución: a) x1  x2  13.6  11.6  2 b) Con = 0.1 Z  1.28 y1.645 2

2 2 4.84 9 (2.2) (3) 1 2 S S S x1x2  n1  n2  50  35  50  35  0.353  0.594 x1  x2  Z  S x1x2 2  1.645(0.594) 2  0.977 (1.239, 2.760) y (1.023, 2.977)

c) Con = 0.05 Z  1.645 y1.96 2

2 2 S1  S 2  (2.2)  (3)  4.84  9  0.353  0.594  S x1x2 n1 n2 50 35 50 35 x1  x2  Z  S x1x2 2  1.96(0.594) 2  1.164 (1.022, 2.977) y (0.836, 3.164)

2. Un grupo de planeación urbana desea estimar la diferencia entre las medias de los ingresos familiares en dos zonas de un área metropolitana. Unas muestras aleatorias independientes de familias residentes en las dos zonas produjeron los siguientes resultados. Zona 1 Zona 2 n1= 8 n2= 12 ̅̅̅ = 15700 ̅̅̅= 14500 dólares dólares S1= 700 dólares S2=850 dólares a) Determine una estimación puntual para la diferencia entre las medias de los ingresos de las dos zonas b) Determine un intervalo de confianza de 95% para esa diferencia Solución: a) x1  x2  15700  14500  1200

b) Con = 0.05 Grados de libertad= n1 + n2 – 2= 8+12-2=18 t / 2  t0.05/ 2  t0.025  2.101



n1  1 S12  n2  1 S 22

n1  n2  2  632083.333

(8  1)  700  (12  1)  850 2



8  12  2



(7)( 490000)  (11)(722500) 18

2 2 S  S  2  1  1   632083.333 1  1   131684.027  362.882    S x1x2 n1 n2 S  n1 n2   8 12  x1  x2  t / 2 S x1x2 1200  2.101(362.882) 1200  762.417 (437.583, 1962.417)

1.6 UNA MUESTRA: PRUEBA SOBRE UNA SOLA PROPORCIÓN.

Empleando los símbolos “p” para indicar la proporción poblacional y “p 0” para representar determinado valor supuesto de dicha proporción, las tres formas de una prueba de hipótesis acerca de una proporción poblacional son las siguientes. H0: p ≥ H0: p ≤ H0: p = p0 p0 p0 H1: p < H1: p > H1: p ≠ p0 p0 p0

Las dos primeras formas son pruebas unilaterales, mientras que la tercera es bilateral. La forma específica que se usa depende de la aplicación. Las pruebas de hipótesis respecto a una proporción de la población se basa en la diferencia entre la proporción de la muestra ( ̅) y la proporción supuesta de la población (p0). Los métodos que se usan para efectuar las pruebas se parecen mucho a los de la prueba de hipótesis respecto a una media de población. La única diferencia es que se usa la proporción de la muestra y su desviación estándar “σ p” para determinar el estadístico de prueba. Se comienza formulando las hipótesis nula y alternativa respecto al valor de la proporción de la población. Posteriormente, con el valor de la proporción de una muestra ̅ y su desviación estándar “σp”, se calcula un valor estadístico “z”. Al comparar el valor del estadístico de prueba con el valor crítico, o bien, comparar el valor “p” con “” permite determinar si se debe rechazar la hipótesis nula. p  p0 p0 1 p0 Z p n p Ejemplo. En los últimos meses, 20% de los jugadores han sido mujeres. Para tratar de aumentar la proporción de mujeres jugadoras, el club Ríos hizo una promoción especial para atraerlas. Después de una semana, una muestra aleatoria de 400 jugadores dio como resultado 300 hombres y 100 mujeres. Los gerentes del club desean determinar si estos datos respaldan la conclusión de que ha aumentado la proporción de mujeres jugadoras en el club Ríos. Considere = 0.05 Solución. H0: p ≥ 0.20 H1: p < 0.20 Con α= 0.05, z= -1.645, La regla de decisión es que se rechaza la H0 si z < 1.645 p0 1  p0 0.2(1  0.2)   0.02 p n 400 p  p0 0.25  0.2 Z   2.5 0.02 p No se rechaza la H0, si hubo aumento con la promoción. Ejercicio. Se tiene la siguiente prueba de hipótesis. H0: p = 0.20

H1: p ≠ 0.20 Una muestra de 400 elementos dio como resultado una proporción de ̅ a) Con = 0.05, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico z c) ¿Cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.96, La regla de decisión es que se rechaza la H 0 si z < 1.96 o z>1.96 p0 1  p0 0.2(1  0.2)   0.02 b)  p  n 400 p  p0 0.175  0.2 Z   1.25 0.02 p c) No se rechaza la H0 1.7 DOS MUESTRAS: PRUEBA SOBRE DOS PROPORCIONES. El estimador puntual de la diferencia entre las proporciones de dos poblaciones es ̅̅̅

̅̅̅

La desviación estándar:



p 1  p   p 1  p  n n

p2 

En donde: n1= Tamaño de la muestra aleatoria simple de la población 1 n2= Tamaño de la muestra aleatoria simple de la población 2 p1= Proporción de la población 1 p2= Proporción de la población 2 ̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 1 ̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 2 La estimación del intervalo de la diferencia entre las proporciones de dos poblaciones es: p1  p2  Z  S p  p 1 2 Para la prueba de hipótesis: p  p p  n1 1 n2 2 n1  n2 S p1 p2  Z

 1 1  p1  p     n1 n2 

p  p    p  p  1



Ejemplo. A una empresa contable le interesa comparar la calidad del trabajo que se realiza en dos de sus oficinas regionales. Al seleccionar muestras aleatorias de declaraciones de impuestos, elaboradas en cada oficina, y al verificar la exactitud de las estimaciones, la empresa podrá estimar la proporción de declaraciones con error preparadas en cada oficina. Sean Oficina 1 Oficina 2 n1= 250 n2= 300 Número de declaraciones con Número de declaraciones con errores= 35 errores= 27 Con un nivel de confianza del 90%, determine el intervalo y suponga que la empresa trata de determinar si las proporciones de errores son distintas entre las dos oficinas, determine la prueba de hipótesis. Solución: 35  0.14 p1  250 27  0.09 p2  300

pp 1

 0.14  0.09  0.05

Con α = 0.1, el valor crítico es

p 1  p   p 1  p   n n p  p  Z S p p  p 1 2

Sp 1



(0.14)(0.86) (0.09)(0.91)   0.027 250 300

0.05(1.645)(0.027) 0.050.044 (0.006, 0.094) H0: p1-p2 = 0 H1: p1-p2 ≠ 0 Con α = 0.1, el valor crítico es Se rechaza la hipótesis nulas si z<-1.645 o z>1.645 n1 p1  n2 p2  (250)(0.14)  (300)(0.09)  62  0.112 p 250  300 550 n1  n2



p2 



 1 1  1   1 11 p1  p     (0.112)(1  0.112) 250  300   (0.112)(0.888) 1500  n1 n2 

 0.027

Z

 p  p   p  p   (0.14  0.09)  (0)  1.851 1



0.027

Se rechaza la H0 Ejercicio. Se tiene la siguiente prueba de hipótesis.



H0: p1 - p2 ≤ 0 H1: p1 – p2  0 Los resultados siguientes pertenecen a dos muestras independientes de las dos poblaciones: Muestra Muestra 1 2 n1= 200 n2= 300 ̅̅̅

̅̅̅

¿Cuál es la conclusión de su prueba de hipótesis con α = 0.05? Solución: Con α = 0.05, el valor crítico es Se rechaza la hipótesis nulas si z>1.645 n1 p1  n2 p2  (200)(0.22)  (300)(0.16)  0.184 p 200  300 n1  n2



p2 



 1 1  1   1 p1  p     (0.184)(1  0.184)    (0.184)(0.816) 11120 200 300    n1 n2 



 0.035

Z

 p  p   p  p   (0.22  0.16)  (0)  1.714 1

0.035 p2 Se rechaza la H0 1.8 DOS MUESTRAS: PRUEBA PAREADAS. 

Para hacer inferencias estadísticas sobre dos poblaciones, se necesita tener una muestra de cada población. Las dos muestras serán dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la selección de los datos de una población no está relacionada con los otros datos, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas están pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamaño. Muchas aplicaciones prácticas requieren hacer comparaciones entre dos poblaciones con base en datos pareados o en muestras dependientes. Las aplicaciones que pueden involucrar muestras dependientes incluyen:  

Medicina. Poner a prueba los efectos de una dieta mediante la obtención de las medidas del peso en la misma persona antes y después de aplicar una dieta. Enseñanza. Probar la efectividad de una estrategia de enseñanza aplicando exámenes antes y después a los mismos individuos.

  

Agricultura. Poner a prueba los efectos de dos fertilizantes en la producción de frijol de soya comparando la producción de parcelas similares en las mismas condiciones. Finanzas. Comparar las estimaciones de dos talleres de autos chocados para las mismas unidades. Industria. Poner a prueba dos marcas de llantas en cuanto al desgaste del piso colocando una de cada marca en los rines traseros de una muestra de coches del mismo tipo.

La notación “d” es para recordar que la muestra pareada produce datos de

 d i  d 

 di

, Sd  n 1 n Se puede utilizar la distribución “t” con n-1 grados de libertad para probar las d  d hipótesis. Con datos de diferencia, el estadístico de prueba es: t  diferencia. La media y la desviación estándar son: d 

n Además, podemos obtener una estimación del intervalo de la diferencia entre las dos medias poblacionales al usar la metodología simple para poblaciones. El cálculo es el siguiente:

d  t / 2 S d n Ejemplo. Una empresa manufacturera tiene dos métodos con los que sus obreros pueden realizar una tarea de producción. Para maximizar la producción, la empresa desea identificar el método con la menos media del tiempo de terminación por unidad. Sea µ1 la media del tiempo de terminación para el método 1 y µ 2 la correspondiente para el método 2. Suponiendo que los dos métodos de producción tienen la misma media del tiempo de terminación y con =0.05, determine la prueba de hipótesis así como una estimación del intervalo de la diferencia entre las dos medias poblacionales. Trabajador Tiempo de terminación Tiempo de terminación Diferencia en con el método 1 con el método 2 tiempo de (minutos) (minutos) terminación (di) 1 6 5.4 0.6 2 5 5.2 -0.2 3 7 6.5 0.5 4 6.2 5.9 0.3 5 6 6 0.0 6 6.4 5.8 0.6 Total 36.6 34.8 1.8 Solución: H0: µd = 0 H1: µd ≠ 0 Donde µd= µ1 - µ2

d

 di n



1.8  0.3 6

 d i  d 

 n 1 5 Grados de libertad=n-1=6-1=5 Con = 0.05 ⁄ ⁄ ⁄ d  0.3  0 d t   2.2 0 .334 Sd 6 n No se rechaza la H0



 0.56

 0.334 se rechaza la H0 si t<-2.571 o t>2.571

d  t / 2 S d n  0.334  0.3  (2.571)   6  0.3  0.350 (-0.05, 0.650) Ejemplo. Se tiene la siguiente prueba de hipótesis: H0: µd ≤ 0 H1: µd > 0 Los datos siguientes proceden de muestras pareadas tomadas de dos poblaciones. Element Poblaci o ón 1 2 1 21 20 2 28 26 3 18 18 4 20 20 5 26 24 a) b) c) d)

Calcule el valor de la diferencia para cada elemento. Calcule ̅ Calcule la desviación estándar Sd Pruebe la hipótesis con = 0.05, ¿cuál es su conclusión?

Solución: a) 1 + 2 + 0 + 0 + 2 =5  5 b) d  d i   1 n 5

 d i  d 

4 1 n 1 4 d) Grados de libertad=n-1=5-1=4 y con = 0.05 si t>2.132 c)





se rechaza la H0

t

d 



1 0  2.236 1 5

n Se rechaza la H0

Ejercicio. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de compra de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde los valores mayores indicaban un mayor potencial de compra. La hipótesis nula establecía que la media de la calificación “después” sería menor o igual a la media de la calificación “antes”. El rechazo de esta hipótesis demostraría que el comercial mejoraba la media de la calificación de potencial de compra. Use = 0.05 y los datos siguientes para probar la hipótesis y comentar sobre el valor del comercial. Individu Calificación de o compra Despué Antes s 1 6 5 2 6 4 3 7 7 4 4 3 5 3 5 6 9 8 7 7 5 8 6 6 Solución: H0: µd ≤ 0 H1: µd > 0 1 + 2 + 0 + 1 - 2 + 1 + 2 + 0 =5  5 a) d  d i   0.625 n 8

 d i  d 

11.875  1.302 n 1 7 c) Grados de libertad=n-1=8-1=7 y con = 0.05  se rechaza la H0 si t>1.895 d  0.625  0 d t   1.358 1.302 Sd 8 n No se rechaza la H0, No se puede llegar a la conclusión de que al ver al comercial se mejora el potencial de compra. b)



ACTIVIDAD 1 – Planteamiento de H0 y H1.

ACTIVIDAD 2 – Problemas (Opción de solución de 1 de 2).

ACTIVIDAD 3 – Problemas de hipótesis

ACTIVIDAD 4 – Instalación de Software estadístico.

Introducción. El uso de ordenadores y métodos para mejorar y facilitar el que los alumnos comprendan mejor temas complejos y desarrollar al máximo sus capacidades, ha puesto en marcha que se elaboren nuevos y mejores softwares estadísticos Las nuevas tecnologías han venido a cambiar por completo el panorama tradicional de cómo se hacían, se veían y se enseñaban las estadísticas. Introducirse en este nuevo panorama implica realizar profundos cambios en nuestros programas educativos. Es muy amplia la variedad de aplicaciones informáticas disponibles para estadística y probabilidad, entre ellas se encuentra INFOSTAT. INFOSTAT es un software para análisis estadístico desarrollado por un equipo conformado por profesionales de la Estadística con sede en la Universidad Nacional de Córdoba - Facultad de Ciencias Agropecuarias. INFOSTAT cubre las necesidades de análisis de una amplia gama de usuarios tanto del ámbito académico como privado. El software ha evolucionado rápidamente y se actualiza frecuentemente. Estas actualizaciones no sólo tienen que ver con el agregado de nuevas funcionalidad sino también con el aumento de la productividad y la eficiencia computacional.

Instalación del Programa  Primer Paso: En la página oficial de INFOSTAT http://www.infostat.com.ar/ en la parte inferior vemos que dice “Versión español” y hacemos clic ahí para poder descargar el programa.

 Segundo Paso: Guardamos el archivo, que vendría siendo el programa dando clic en “Guardar archivo”.



Tercer Paso: Después de permitir instalar el programa en nuestro ordenador,

comienza la instalación automática del programa.

Cuarto Paso: Nos da la bienvenida el instalador del Software, a continuación damos clic en “Next” para seguir la instalación

Quinto Paso: Continuando con la instalación nos da una “Información Importante” y luego damos clic en “Next”

Sexto Paso: Nos indica en que parte de nuestro equipo estará la carpeta dónde se instalará el programa, dejamos la carpeta por defecto donde se instalará y “Next” nuevamente.

Séptimo Paso: esperamos a que termine la instalación del software.

Octavo Paso: Ya finalizada nos mostrará que está completa la instalación. Desmarcamos la casilla –Run InfoStat now- y damos clic en “Finish”

Registro del programa Una vez que esté instalado el programa aparecerá el acceso en nuestro escritorio, aún no vamos a acceder porque lo que vamos a hacer es registrar nuestro producto.



Pasos para el registro del programa.

Para poder registrar nuestro programa, vamos a la web oficial y en la pestaña que dice “Versión estudiantil” damos clic.

Y aquí lo que haremos es llenar los campos con los datos que nos pide:

Una vez que hayamos completado el registro y demos clic en continuar, nos aparecerá un mensaje indicándonos que se nos enviado la clave de activación al correo que hayamos puesto en el registro.

Vamos a nuestro correo y vemos que tenemos un mensaje INFOSTAT y lo abrimos para ver el cรณdigo de activaciรณn.

Dentro del mensaje nos darรก una serie de instrucciones y en la parte inferior estรก nuestro cรณdigo, el cual copiaremos y pegaremos.

Ahora si entramos a nuestro programa y nos mostrará un aviso de que debemos activar nuestro software y aceptamos.

Hacemos clic en “Activar usando Internet”.

Y pegamos el código que nos llegó por correo.

Una vez hecho estos pasos nos dirá que la copia ha sido activada y aparecerá la interfaz de INFOSTAT.

Ahora si tenemos nuestro producto activado y listo para ser usado.

Bibliografía http://www.infostat.com.ar/ http://www.youtube.com/watch?v=22YW5G4h1V8

Conclusiones Personales INFOSTAT es muy útil al momento de hacer cálculos estadísticos ya que está específicamente diseñado para los análisis con el objetivo de resolver procedimientos estadísticos, manejo de datos, gráficas, etc. El uso de este tipo de software es muy importante ya que en la mayoría de los casos nos facilita los cálculos matemáticos y la elaboración de gráficos y muchas otras cosas. Al ser un software gratuito, los jóvenes universitarios pueden realizar diversas actividades relacionadas con la estadística más rápidamente.

Fuentes Morales José Alexander ACTIVIDAD 5 – Presentación software por equipo y solución de problema

ACTIVIDAD 6 – Ejercicios por equipo

ACTIVIDAD 7 – Ejercicios en clase.

ACTIVIDAD 8 – Archivos en PDF del tema 1.7 Prueba sobre dos proporciones.

Introducción. Un test de hipótesis es un procedimiento estadístico mediante el cual se investiga la verdad o falsedad de una hipótesis acerca de una característica de una población o un conjunto de poblaciones. Además de calcular intervalos de confianza (rango de valores dentro del que se espera encontrar un determinado parámetro de la población), se realizará lo que llamaremos prueba de hipótesis acerca de una afirmación sobre un parámetro de la población. Para poner de manifiesto sus aplicaciones en la vida real, se ponen ejemplos de actividades en el ámbito económico-empresarial y en el informático. Existen variedad de problemas en los que se debe decidir si la diferencia observada entre dos proporciones muéstrales se pueden atribuir a la casualidad o si es indicativo del hecho de que las dos proporciones de la población correspondientes son desiguales. Por ejemplo, se quisiera decidir, tomando en cuenta los datos de una muestra, si una publicidad determinada produciría en realidad una diferencia de respuesta con respecto a otra, ese es una de las muchas interrogantes con que se enfrenta un administrador hoy en día.

Prueba de proporciones. Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que es realmente verdadera. En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras, los datos muestrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones se pueden utilizar para evaluar afirmaciones con respecto a: 1) Un parámetro de población único (prueba de una muestra) 2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y 3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el caso de pruebas de medias de una y dos muestras.

Prueba de proporciones de dos muestras El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual producto del muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras. La hipótesis nula en una prueba de dos muestras es

El estimador puntual de la diferencia entre las proporciones de dos poblaciones es ̅̅̅ ̅̅̅

La desviación estándar:



p1 1  p1

S p1 p2 

  p 1  p 

p Z

n1 p1  n2 p2 n1  n2 p1  p2   p1  p2 





S p1 p2 Esta prueba se aplica en diseños de investigación en los que se estudia a dos grupos de individuos a quienes se ha medido una variable cualitativa. La variable tiene una escala compuesta de modalidades y se dispone de información sobre la frecuencia de individuos en cada modalidad, tanto para un grupo como para el otro Cuando se desea probar la hipótesis de que las proporciones en dos poblaciones no son diferentes, las dos proporciones muéstrales se emplean para determinar el error estándar dela diferencia entre proporciones. La estimación conjunta de la proporción poblacional, basada en las proporciones obtenidas en dos muestras independientes, es:

El error estándar de la diferencia entre proporciones que se usa para probar la suposición de no diferencia es:

La hipótesis nula por probar es normalmente de la forma,

Contra una hipótesis alternativa de uno o dos extremos. La fórmula para obtener el estadístico para probar la hipótesis nula de que no hay diferencia entre dos proporciones poblacionales es:

Para que la diferencia de las proporciones muéstrales tenga una distribución aproximadamente normal, los tamaños de las muestras deben ser grandes y las proporciones no deben estar muy cerca de 0 o 1.

Ejemplo 1: Una muestra de 50 familias de una comunidad muestra que 10 de ellas están viendo un programa especial de televisión sobre la economía nacional. En una segunda comunidad 15 familias de una muestra aleatoria de 50 están viendo el programa especial de televisión, a continuación se prueba la hipótesis de que la proporción general de televidentes en las dos comunidades no difiere, usando el nivel de significancia de 1%:

El valor calculado para z – 1.15, está en la región de aceptación de la hipótesis nula. Por lo tanto no se puede rechazar la hipótesis de que no hay diferencia en la proporción de televidentes en las dos comunidades. Ejemplo 2: A una empresa contable le interesa comparar la calidad del trabajo que se realiza en dos de sus oficinas regionales. Al seleccionar muestras aleatorias de declaraciones de impuestos, elaboradas en cada oficina, y al verificar la exactitud de las estimaciones, la empresa podrá estimar la proporción de declaraciones con error preparadas en cada oficina. Sean Oficina 1 Oficina 2 n1= 250 n2= 300 Número de declaraciones con Número de declaraciones con errores= 35 errores= 27 Con un nivel de confianza del 90%, determine el intervalo y suponga que la empresa trata de determinar si las proporciones de errores son distintas entre las dos oficinas, determine la prueba de hipótesis. Solución: 35  0.14 p1  250 27  0.09 p2  300

p1  p2  0.14  0.09  0.05 Con α = 0.1, el valor crítico es

S p1 p2 



p1 1  p1

  p 1  p  

n1 p1  p2  Z  S p1 p2 0.05(1.645)(0.027) 0.050.044 (0.006, 0.094)

(0.14)(0.86) (0.09)(0.91)   0.027 250 300

H0: p1-p2 = 0

H1: p1-p2 ≠ 0 Con α = 0.1, el valor crítico es Se rechaza la hipótesis nulas si z<-1.645 o z>1.645 n p  n p (250)(0.14)  (300)(0.09) 62 p 1 1 2 2   0.112 250  300 550 n1  n2



1 1 1   1 p1  p     (0.112)(1  0.112)    (0.112)(0.888) 111500 250 300    n1 n2 

S p1 p 2 



 0.027

Z

p  p   p  p   (0.14  0.09)  (0)  1.851 1

S p1 p2

0.027

Se rechaza la H0

Conclusión. Con este tipo de prueba, se pretende calcular e interpretar aquellos contrastes sobre la diferencia de medias y la diferencia de proporciones para dos poblaciones, que permita tomar decisiones acerca de qué población hay que tener en cuenta en comparación con la otra. Se puede entender la diferencia entre las muestras dependientes e independientes, realizar los contrastes de diferencias de medias y de proporciones en dos muestras independientes, también podemos interpretar los resultados estadísticos obtenidos.

Bibliografía. 

 

http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-jicuadrado-empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-jicuadrado-empleando-excel-y-winstats.shtml http://es.scribd.com/doc/59262046/Prueba-de-Hipotesis-de-Dos-Proporciones http://www.facmed.unam.mx/deptos/salud/censenanza/planunico/spii/antologi a2012/5.pdfhttp://www.facmed.unam.mx/deptos/salud/censenanza/planunico/ spii/antologia2012/5.pdf

ACTIVIDAD 9 – Elaboración de mapas en “XMind”.

UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA.

2.1 ANÁLISIS JI-CUADRADA. 2.1.1 PRUEBA DE INDEPENDENCIA. 2.1.2 PRUEBA DE LA BONDAD DEL AJUSTE. 2.1.3 TABLAS DE CONTINGENCIA.

2.2 ANÁLISIS DE VARIANZA. 2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). 2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). (Pendiente)

2.3 PAQUETE COMPUTACIONAL.

UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. 2.1 ANÁLISIS JI-CUADRADA. (X es la minúscula de la letra griega ji). Propiedades de las distribuciones ji-cuadrada 2 1. Los valores de X son mayores o iguales que 0. 2 2. La forma de una distribución X depende del grado de libertad=n-1. En consecuencia, hay un 2 número infinito de distribuciones X . 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 2 4. Las distribuciones X no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 2 5. Cuando n>2, la media de una distribución X es n-1 y la varianza es 2(n-1). 2 6. El valor modal de una distribución X se da en el valor (n-3).

2.1.1 PRUEBA DE INDEPENDENCIA. Una aplicación importante de la distribución Ji cuadrada se relaciona con el uso de datos de muestras para indicar la independencia entre dos variables. La prueba de independencia utiliza el formato de la tabla de contingencias, y por esta razón a veces se le llama prueba de tabla de contingencia o prueba con tabla de contingencia. Pasos para realizar una prueba de independencia: 1. Plantear las hipótesis nula y alternativa. H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada celda de la tabla de contingencias. ( ó )( ) 3. Aplicar la ecuación para calcular la frecuencia esperada para ñ cada celda. Sea eij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencias, suponiendo independencias. 4. Aplicar la ecuación X 2

f   i

e  e

para calcular un valor de X como estadístico.

Donde fij= frecuencia observada para la categoría en el renglón i y la columna j. eij=frecuencia esperada para la categoría en el renglón i y la columna j de la tabla de contingencias, basadas en las hipótesis de independencia. En la ecuación se usa la doble sumatoria para indicar que se deben hacer los cálculos para todas las celdas de la tabla de contingencia. 5. Regla de rechazo 2

Con el estadístico de prueba: Rechazar H0 si X > X Con el valor p: Rechazar H0 si el valor p < 

Siendo  el nivel de significancia para la prueba; si hay n renglones y m columnas en la tabla de contingencias, el estadístico de prueba tiene una distribución ji cuadrada con (n-1)(m-1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías. Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una 2 muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x con α= 0.025.

Variable de renglón A 20 30 50

P Q Total

Variable de columna B 44 26 70

Total C 50 30 80

114 86 200

Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. (

)(

)

Frecuencias esperadas

(114)(50)  28.5 200 (86)(50) e21  200  21.5

f   i

e  e



P Q





(114)(70)  39.9 200 (86)(70) e22  200  30.1



A 28.5 21.5

B 39.9 30.1

(114)(80)  45.6 200 (86)(80) e23  200  34.4



C 45.6 34.4

( 20  28.5) ( 44  39.9) (50  45.6) (30  21.5)    28.5 39.9 45.6 21.5 2

( 26  30.1) (30  34.4)   7.86 30.1 34.4 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 2 X 0.025= 7.37776 Como 7.86 >7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón. Ejercicios: 1. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una muestra de 2 150 personas. Pruebe la independencia entre las variables bebidas preferidas y el sexo, usando x con α= 0.05. Sexo Hombre Mujer Total

H2O 20 30 50

Bebidas preferidas De sabor De cola 40 20 30 10 70 30

Total 80 70 150

Solución: H0: La variable de bebidas preferidas es independiente del sexo de la persona. H1: La variable de bebidas preferidas no es independiente del sexo de la persona. (

)(

)

Frecuencias esperadas

(80)(50)  26.67 150 (70)(50) e21  150  23.33

(80)(70)  37.33 150 (70)(70) e22  150  32.67



Hombre Mujer

f   i

e  e



(80)(30)  16.00 150 (70)(30) e23  150  14.00



H2O 26.67 23.33

De sabor 37.33 32.67



De cola 16.00 14.00

( 20  26.67 ) ( 40  37.33) ( 20  16) (30  23.33)    26.67 37.33 16 23.33 2

(30  32.67) (10  14)    6.13 32.67 14 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 2 X 0.05= 5.99147 Como 6.13>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de las bebidas preferidas no es independiente del sexo. 2. Una de las preguntas del estudiante respecto a los suscriptores del 2011 fue: “durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente tabla de contingencia. Tipo de boleto

Tipo de vuelo Total Nacional Internacional Primera clase 29 22 51 Clase de negocio o ejecutivo 95 121 216 Clase económica 518 135 653 Total 642 278 920 Usando α= 0.05, pruebe la independencia del tipo de vuelo y tipo de boleto, ¿cuál es su conclusión? Solución: H0: El tipo de boleto comprado es independiente del tipo de vuelo. H1: El tipo de boleto comprado no es independiente del tipo de vuelo. (

)(

)

Frecuencias esperadas

(51)(642)  35.59 920 (216)(642) e21  920  150.73 (653)(642) e31  920  455.68



(51)(278)  15.41 920 (216)(278) e22  920  65.27 (653)(278) e32  920  197.32

Primera clase Clase de negocio o ejecutivo Clase económica



Nacional 26.67 23.33

Internacional 37.33 32.67

f   i

e  e



( 29  35.59) ( 22  15.41) (95  150.73) (121  65.27 )    35.59 15.41 150.73 65.27 2

(518  455.68) (135  197.32)    100.43 455.68 197.32 2

Grados de libertad= (n-1)(m-1)= (3-1)(2-1)= (2)(1)= 2 2 X 0.05= 5.99147 Como 100.43>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que el tipo de vuelo no es independiente del tipo de boleto.

2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. La prueba de bondad de ajuste se basa en una comparación entre la muestra de los resultados observados y los resultados esperados suponiendo que la hipótesis nula es verdadera. La prueba de bondad de ajuste se enfoca hacia las diferencias entre las frecuencias observadas y las frecuencias esperadas. Una diferencia grande entre las frecuencias observadas y esperadas hace dudar que las proporciones supuestas sean correctas. El que las diferencias entre las frecuencias observadas y las esperadas sean grandes o pequeñas es un asunto que se define con ayuda del siguiente estadístico de prueba.

 f e 

Estadístico de prueba para bondad de ajuste

2 X  i 1 k

Donde fi= frecuencia observada para la categoría i ei= frecuencia esperada para la categoría i k= cantidad de categorías Nota. El estadístico de prueba tiene distribución ji cuadrada con k-1 grados de libertad, siempre que las frecuencias esperadas sean 5 o más para todas las categorías. Resumen de la prueba de bondad de ajuste para la distribución multinomial. 1. Enunciar las hipótesis nula y alternativa. H0: La población se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. H1: La población no se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas, f i, para cada categoría. 3. Suponiendo que la hipótesis nula es cierta, determinar la frecuencia esperada, e j, en cada categoría, multiplicando la probabilidad de la categoría por el tamaño de la muestra.

 f e 

4. Calcular el valor del estadístico de prueba.

X  i 1 k

5. Regla de rechazo: 2 2 Con el estadístico de prueba: Rechazar H 0 si x > xα Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-1 Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20 H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20

Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40

 f  e   (60 80) 2

X  i 1 2

(120  80) (20  80)    35 80 80

Grados de libertad= k-1= 3-1= 2 2 X 0.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. 2. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 pm a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares arrojó los siguientes resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe con α= 0.05, si han cambiado las proporciones de telespectadores. Solución: H0: pABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 H1: Las proporciones de la población no son pABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 Frecuencias reales: f1= 95 f2= 70 f3= 89 f4= 46 Frecuencias esperadas: e1= (300)(0.29)= 87 e2= (300)(0.28)= 84 e3= (300)(0.25)= 75 e4= (300)(0.18)= 54

 f  e   (9587) 2

X  i 1 2

(70  84) (89  75) ( 46  54)     6.87 84 75 54

Grados de libertad= k-1= 4-1= 3 2 X 0.05= 7.81 Como 6.87 < 7.81; No se rechaza la H0. Esto es, no hay cambio significativo en las proporciones de los espectadores. Ejercicio. Suponga que hay una población multinomial con 4 categorías: A, B, C y D. La hipótesis nula es que la proporción de artículos es la misma en cada uno, o sea. H0: pA= pB= pC= pD= 0.25

H1: Las proporciones de la población no son pA= pB= pC= pD= 0.25 En una muestra de tamaño 300 se obtuvieron los siguientes resultados en cada categoría: A= 85, B= 95, C= 50, D= 70. Use α= 0.05 para determinar si hay que rechazar H 0. Solución: Frecuencias reales: fA= 85 fB= 95 fC= 50 fD= 70 Frecuencias esperadas: eA= eB= eC= eD= (300)(0.25)= 75

 f  e   (85 75) 2

X  i 1 2

(95  75) (50  75) (70  75)     15.33 75 75 75

Grados de libertad= k-1= 4-1= 3 2 X 0.05= 7.81473 Como 15.33 > 7.81473; Se rechaza la H0. Resumen de la prueba de bondad de ajuste para la distribución de Poisson. 1. Plantear las hipótesis nula y alternativa. H0: La población tiene una distribución de probabilidad Poisson. H1: La población no tiene una distribución de probabilidad Poisson. 2. Tomar una muestra aleatoria y a) anotar las frecuencias observadas, fi, para cada valor de la variable aleatoria de Poisson. b) calcular la media del número de ocurrencias µ. 3. Calcular las frecuencias esperadas de ocurrencias, e i, para cada valor de la variable aleatoria de Poisson. Multiplicar el tamaño de la muestra mediante la probabilidad de Poisson de ocurrencia para cada valor de la variable aleatoria de Poisson. Si hay menos de 5 ocurrencias esperadas para ciertos valores, combinar esos valores con los adyacentes y reducir la cantidad de categorías que sea necesario.

 f e 

4. Calcular el valor del estadístico de prueba.

X  i 1 k

5. Regla de rechazo: 2 2 Con el estadístico de prueba: Rechazar H 0 si x > xα Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-2 Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad de ocurrencia 0 1 2 3 4 Total

Frecuencia observada 39 30 30 18 3 120

Solución:



(0)(39)  (1)(30)  (3)(18)  (4)(3)  1.3 120

e Probabilidades de Poisson f ( x )  x



1.3

(1.3) (e)  0.2725 0! 1 1.3 (1.3) (e) f (1)   0.3542 1! 2 1.3 (1.3) (e) f ( 2)   0.2302 2! 2 1.3 (1.3) (e) f (3)   0.0997 3! 2 1.3 (1.3) (e) f ( 4)   0.0324 4! f ( 0) 

Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888

 f e   (39  32.7)  (30  42.504)  (30  27.624)  (18  11.964)  (3  3.888) 2

X  i1 k

 8.344

32.7

42.504

27.624

11.964

3.888

Grados de libertad= k-2= 5-2= 3 2 X 0.05= 7.81473 Como 8.344 > 7.81473; Se rechaza la H 0. Esto es se llega a la conclusión de que los datos no tienen una distribución de probabilidad de de Poisson. 2. Se cree que el número de accidentes automovilístico diarios en determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use α= 0.05 Número de accidentes 0 1 2 3 4 Total

Frecuencia observada 34 25 11 7 3 80

Solución:



(0)(34)  (1)(25)  (2)(11)  (3)(7)  (4)(3) 1 80

e Probabilidades de Poisson f ( x )  x



1

(1) ( e)  0.3678 0! 1 1 (1) (e) f (1)   0.3678 1! 2 1 (1) ( e) f ( 2)   0.1839 2! 3 1 (1) ( e) f (3)   0.0613 3! 0 1 (1) ( e) f ( 4)   0.0153 4! f ( 0) 

Frecuencias esperadas: e0= (0.3678)(80)= 29.424 e1= (0.3678)(80)= 29.424 e2= (0.1839)(80)= 14.712 e3= (0.0613)(80)= 4.904 e4= (0.0153)(80)= 1.2240

 f  e   (34  29.424) 2

X  i1 k

 5.7859

29.424



( 25  29.424) (11  14.712) (7  4.904) (3  1.2240)    29.424 14.712 4.904 1.2240 2

Grados de libertad= k-2= 5-2= 3 2 X 0.05= 7.81473 Como 5.7859 < 7.81473; No se rechaza la H0. Ejercicio. Suponga que el número de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Use α=0.10 y los siguientes datos para probar la hipótesis de que las llamadas que entran tienen una distribución de Poisson. Número de llamadas Frecuencia observada 0 15 1 31 2 20 3 15 4 13 5 4 6 2 Total 100 Solución:



(0)(15)  (1)(31)  (2)(20)  (3)(15)  (4)(13)  (5)(4)  (6)(2) 2 100

e f ( x)  x

Probabilidades de Poisson: 0



2

(2) ( e)  0.135 0! 1 2 (2) (e) f (1)   0.270 1! f ( 0) 

2

(2) ( e)  0.270 2! 3 2 (2) ( e) f (3)   0.180 3! 4 2 (2) ( e) f ( 4)   0.090 4! 5 2 ( 2) ( e) f (5)   0.036 5! 6 2 ( 2) (e) f ( 6)   0.012 6! f ( 2) 

Frecuencias esperadas: e0= (0.135)(100)= 13.5 e1= (0.270)(100)= 27 e2= (0.270)(100)= 27 e3= (0.180)(100)= 18 e4= (0.090)(100)= 9 e5= (0.036)(100)= 3.6 e6= (0.012)(100)= 1.2

 f  e   (15  13.5)  (31  27)  (20  27)  (15  18)  (13  9)  (4  3.6)  (2  1.2) 2

X  i1 2

 5.429

13.5

3.6

1.2

Grados de libertad= k - 2= 7- 2= 5 2 X 0.05=9.24 Como 5.429 < 9.24; No se rechaza la H0.

2.1.3 TABLAS DE CONTINGENCIA. En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa, nominales u ordinales. Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más 2 simple es el coeficiente phi que se define por φ = √(χ / N) 2 donde χ se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.

2.2 ANÁLISIS DE VARIANZA. En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). El procedimiento del análisis de varianza en una dirección se ocupa de la prueba para diferencias entre k medias muestrales cuando los sujetos son asignados de manera aleatoria a cada uno de los diferentes grupos de tratamiento. La ecuación lineal, o modelo, que representa el diseño completamente aleatorizado de un factor es: Xij= µ + αk + ik Donde: Xij = Valor de la observación i para el tratamiento j µ= La media general de todas las k poblaciones en tratamiento αk= Efecto del tratamiento en el grupo k del cual se tomó la muestra ik= Error aleatorio debido al proceso de muestreo ( es la letra griega épsilon) En el análisis de varianza en una dirección, las hipótesis nula y alternativa se plantean como sigue: H0: µ1 = µ2 = … = µk H1: no todas las medias de población son iguales O lo que es equivalente H0: αk = 0 H1: αk ≠ 0 Las formulas de la media y la varianza del tratamiento j son las siguientes.



x

 x ij  x j  nj

ij 2

i 1



i 1

nj 1

La media general de las muestras, representada por

es la suma de todas las observaciones k

dividida entre el número total de observaciones. Esto es

x

 x j 1 i 1

Donde nT= n1 + n2 + … + nK Si el tamaño de cada muestra es n, nT = kn, en ese caso, la ecuación se reduce a k

x

 x j 1 i 1



x j 1

En otras palabras, cuando los tamaños de las muestras son iguales, la media muestral general es justamente el promedio de las medias de las k muestras. nj= número de observaciones para el j-ésimo tratamiento ̅ Media de la muestra del j-ésimo tratamiento 2 S j= Varianza de la muestra del j-ésimo tratamiento Sj= Desviación estándar de la muestra del j-ésimo tratamiento Cuadrado medio debido a tratamientos



SSTR   n j x j  x k

Donde

j 1

MSTR 



SSTR k 1

SSTR= Suma de cuadrados debido a tratamientos Cuadrado medio debido al error k

Donde

MSE 

SSE nT  k

SSE   n j  1 s j

j 1

SSE= Sumas de cuadrados debido al error Estadístico de prueba

F

MSTR MSE

Regla de rechazo: con el estadístico de prueba: Rechazar H0 si F>Fα Grados de libertad k – 1 en el numerador y nT – k en el denominador Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomo una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación Planta 1 Atlanta 1 85 2 75 3 82 4 76 5 71 6 85 Media de la muestra 79 Varianza de la muestra 34 Desviación estándar de la muestra 5.83 Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales

Planta 2 Dallas 71 75 73 74 69 82 74 20 4.47

Planta 3 Seattle 59 64 62 69 75 67 66 32 5.66

 x j 1 i1

x



x j 1





79  74  66  73 3



SSTR   n j x j  x  6 (79  73)2  6 (74  73)2  6 (66  73)2  516 k

j 1

MSTR 

SSTR 516   258 k 1 2

O bien

 x ij  x j  nj

sj  2

i 1

nj 1



2 2 2 (79  73)  (74  73)  (66  73) 86   43 31 2

 = n Sj = (6)(43)=258 2

SSE   n j  1s j  (6  1)(34)  (6  1)(20)  (6  1)(32)  430 2

j 1

MSE 

SSE 430   28.67 nT  k 18  3

O bien Estimación de  dentro de tratamiento es 2

F



34  20  32  28.67 3

MSTR 258  9 MSE 28.67

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68 Se rechaza la H0 por que 9 >3.68 Ejercicio. De tres poblaciones se toman muestras de cinco observaciones cada una. Los datos obtenidos son los siguientes: Observación Muestra 1 Muestra 2 Muestra 3 1 32 44 33 2 30 43 36 3 30 44 35 4 26 46 36 5 32 48 40 Promedio de la muestra 30 45 36 Varianza de la muestra 6 4 6.5 2 a) Calcule la estimación de  entre tratamientos 2 b) Calcule la estimación de  dentro de tratamientos c) ¿Se puede rechazar la hipótesis nula de que las medias de las tres poblaciones son iguales? Explique por qué

Solución: a) H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales k

x

 x j 1 i1





x j 1





30  45  36  37 3

SSTR   n j x j  x  5 (30  37)2  5 (45  37)2  5 (36  37)2  570 k

j 1

SSTR 570   285 k 1 2

MSTR  b) k

SSE   n j  1s j  (5  1)(6)  (5  1)(4)  (5  1)(6.5)  66 2

j 1

MSE 

SSE 66   5.5 nT  k 15  3

F

MSTR 285   51.818 MSE 5.5

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 15 – 3 = 12 Valor de la tabla 3.89 Se rechaza H0 por que 51.818 >3.89

2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). PENDIENTE

2.3 PAQUETE COMPUTACIONAL. 2.1.1 PRUEBA DE INDEPENDENCIA. Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una 2 muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x con α= 0.025.

Variable de renglón P Q Total

A 20 30 50

Variable de columna B 44 26 70

Total C 50 30 80

114 86 200

Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón.

(

)(

)

Frecuencias esperadas

(114)(50)  28.5 200 (86)(50) e21  200  21.5

(114)(70)  39.9 200 (86)(70) e22  200  30.1



A 28.5 21.5

P Q

B 39.9 30.1

(114)(80)  45.6 200 (86)(80) e23  200  34.4



C 45.6 34.4

 f ij  eij   (20  28.5)  (44  39.9)  (50  45.6)  (30  21.5)   2

28.5

39.9

45.6

21.5

( 26  30.1) (30  34.4)    7.86 30.1 34.4 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 2 X 0.025= 7.37776 Como 7.86 > 7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón. Solución con el software: Abrir el software MINITAB y se teclean los datos de frecuencias observadas en las columnas correspondientes. Por ejemplo C1 C2 C3 Columna A Columna B Columna C 20 44 50 30 26 30 Después: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione el menú desplegable Tables Paso 3. Elija Chi-Square Test Paso 4. Cuando aparezca el cuadro de dialogo Chi-Square Test: Teclee C1-C3 en el cuadro Columns containing the table Seleccione OK El valor p es 0.020 con p < 0.025, se rechaza H0. Chi-Square Test: COLUMNA A, COLUMNA B, COLUMNA C Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts 1

COLUMNA A 20 28.50 2.535

COLUMNA B 44 39.90 0.421

COLUMNA C 50 45.60 0.425

Total 114

30 21.50 3.360

26 30.10 0.558

30 34.40 0.563

Total

200

Chi-Sq = 7.863, DF = 2, P-Value = 0.020 Como 0.020 < 0.05 Se rechaza la H0. 2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20 H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20 Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40

 f  e   (60 80) 2

X  i 1 2

(120  80) (20  80)    35 80 80

Grados de libertad= k-1= 3-1= 2 2 X 0.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. Solución con el software: El usuario debe obtener las frecuencias observadas, calcular las frecuencias esperadas, y teclear tanto las frecuencias observadas como las esperadas en una hoja de cálculo MINITAB. La columna C1 se etiqueta como observada y contiene las frecuencias observadas. La columna C2 se identifica como esperadas y contiene las frecuencias esperadas: Por ejemplo C1 C2 Observada Esperada 60 80 120 80 20 40 Después: Paso 1. Seleccione el menú desplegable Calc Paso 2. Seleccione la opción Calculator Paso 3. Cuando aparezca el cuadro de dialogo calculator: Teclee ChiSquare en el cuadro Store result in variable Teclee Sum ((Observada-Esperada)**2/Esperada) en el cuadro Expression Seleccione OK Paso 4. Seleccione el menú desplegable Calc Paso 5. Seleccione Probability Distributions Paso 6. Elija Chi-Square Paso 7. Cuando Aparezca el cuadro de diálogo Chi-Square Distribution

Seleccione Cumulative Probability Teclee 2 en el cuadro Degrees of freedom Seleccione Input Column y teclee ChiSquare en el cuadro Teclee Cumprob en el cuadro Optional Storage Seleccione OK Paso 8. Seleccione el menú desplegable Calc Paso 9. Elija Calculator Cuando aparezca el cuadro de diálogo calculator: Teclee valor p en el cuadro Store results in variable Teclee 1-Cumprob en el cuadro Expression Seleccione OK El valor p es 0.020 con p < 0.05, se rechaza H0. Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad de ocurrencia 0 1 2 3 4 Total

Frecuencia observada 39 30 30 18 3 120

Solución:



(0)(39)  (1)(30)  (3)(18)  (4)(3)  1.3 120

e Probabilidades de Poisson f ( x )  x



1.3

Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888

 f e   (39  32.7)  (30  42.504)  (30  27.624)  (18  11.964)  (3  3.888) 2

X  i1 k

32.7

 8.344

42.504

27.624

11.964

3.888

Media Poisson Frec. esperada ChiSquare 0.272532 32.7038 8.33424 0.354291 42.5149 0.230289 27.6347 0.099792 11.9750 0.032432 3.8918

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomo una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación Planta 1 Atlanta 1 85 2 75 3 82 4 76 5 71 6 85 Media de la muestra 79 Varianza de la muestra 34 Desviación estándar de la muestra 5.83

Planta 2 Dallas 71 75 73 74 69 82 74 20 4.47

Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales k

x

 x j 1 i1





x j 1



79  74  66  73 3



SSTR   n j x j  x  6 (79  73)2  6 (74  73)2  6 (66  73)2  516 k

j 1

Planta 3 Seattle 59 64 62 69 75 67 66 32 5.66

MSTR 

SSTR 516   258 k 1 2

O bien

 x ij  x j  nj



i 1

nj 1

2 2 2 (79  73)  (74  73)  (66  73) 86    43 31 2

 = n Sj = (6)(43)=258 2

SSE   n j  1s j  (6  1)(34)  (6  1)(20)  (6  1)(32)  430 2

j 1

MSE 

SSE 430   28.67 nT  k 18  3

O bien Estimación de  dentro de tratamiento es 2

F



34  20  32  28.67 3

MSTR 258  9 MSE 28.67

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68 Se rechaza la H0 por que 9 >3.68 Solución con el software: Los datos de las muestras se registran por columnas separadas en una hoja de trabajo de MINITAB, después de capturar dichos datos siguen los siguientes pasos: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione ANOVA Paso 3. Seleccione Oneway (unstacked) Paso 4. Cuando aparezca el cuadro del dialogo Oneway Analysis of Variance: Teclee C1-C3 en el cuadro Responses (in separate columns) Seleccione Ok Atlanta 85 75 82 76 71 85

Dallas 71 75 73 74 69 82

Seattle 59 64 62 69 75 67

One-way ANOVA: Atlanta, Dallas, Seattle Source Factor Error Total

DF 2 15 17

S = 5.354

SS 516.0 430.0 946.0

MS 258.0 28.7

R-Sq = 54.55%

F 9.00

P 0.003

R-Sq(adj) = 48.48%

Level Atlanta Dallas Seattle

N 6 6 6

Mean 79.000 74.000 66.000

StDev 5.831 4.472 5.657

Individual 95% CIs For Mean Based on Pooled StDev --------+---------+---------+---------+(-------*------) (------*-------) (-------*-------) --------+---------+---------+---------+66.0 72.0 78.0 84.0

Pooled StDev = 5.354 El valor p es 0.003 con p < 0.05, se rechaza H0.

ACTIVIDAD 1 – Completar tema de la unidad faltante.

2.2.2 Inferencia sobre la varianza de dos poblaciones (anova) De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.

Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de varianzas, a fin de comprobar si ellas son homogéneas o no. Una aplicación de esta razón podría ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al parámetro q como

y su estimador

. Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q. Pues bien. Sea X1, X2,..., Xn1 una muestra aleatoria extraída a partir una población N (m1, s1²) y se Y1, Y2,..., Yn2 una muestra aleatoria extraída a partir una población N (m2, s2²).

son los estadísticos de la primera muestra, de tamaño n1 y son los estadísticos de la segunda muestra, de tamaño n2 en donde

así como

Entonces diremos que

es un estimador puntual para la razón o el

cociente de las varianzas poblacionales

ACTIVIDAD 2 â&#x20AC;&#x201C; Finalidad de los temas de la Unidad 2

ACTIVIDAD 3 – Mapas en “XMind” sobre Chi-cuadrada y análisis de varianza.

ACTIVIDAD 4 â&#x20AC;&#x201C; Ensayo sobre Chi-cuadrada (Ji-cuadrada).

100

UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE. 3.1 ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN. 3.1.1 DIAGRAMA DE DISPERSIÓN. 3.1.2 MÉTODO DE MÍNIMOS CUADRADOS. 3.1.3 INTERPRETACIÓN DEL ERROR ESTÁNDAR DE LA ESTIMACIÓN. 3.1.4 INTERVALOS DE PREDICCIÓN APROXIMADOS. 3.1.5 ANÁLISIS DE CORRELACIÓN. 3.1.6 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. 3.1.7 REGRESIÓN MÚLTIPLE Y ANÁLISIS DE CORRELACIÓN. 3.1.8 USOS DE VARIABLES FICTICIAS. (Pendiente) 3.1.9 RESIDUALES Y GRÁFICAS DE RESIDUALES. (Pendiente) 3.1.10 INTERPRETACIÓN DEL INTERVALO DE CONFIANZA. (Pendiente) 3.1.11 USO DEL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. (Pendiente) 3.1.12 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS.

101

UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE. 3.1 ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN. Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables. Por ejemplo, después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de mercadotecnia podría tratar de predecir las ventas para determinado nivel de gastos de publicidad. En otro caso, una empresa de electricidad podría usar la relación entre la temperatura máxima diaria y la demanda de electricidad para predecir el consumo de energía con base en las temperaturas máximas pronosticadas para el mes siguiente. A veces, un administrador confía en su intuición para juzgar como se relacionan dos variables. Sin embargo, si se pueden obtener datos, y si se puede emplear un procedimiento estadístico llamado análisis de regresión para plantear una ecuación que muestre cómo dependen las variables entre sí, sería mejor. En la terminología de la regresión, la variable que se va a predecir se llama variable dependiente. La o las variables que se usan para predecir el valor de la variable dependiente se llaman variables independientes. Por ejemplo, para analizar el efecto de gastos de publicidad sobre las ventas, el deseo de un gerente de mercadotecnia, de predecir las ventas, nos sugiere que “ventas” sea la variable dependiente. Los gastos de publicidad serían la variable independiente que se usa para poder predecir las ventas. En notación estadística, “y” representa la variable dependiente y “x” la variable independiente. El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria. En esta unidad se describirán el tipo más sencillo de análisis de regresión, donde intervienen una variable independiente y una variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se le llama regresión lineal simple. El análisis de regresión donde intervienen dos o más variables independientes se llama análisis de regresión múltiple.

3.1.1 DIAGRAMA DE DISPERSIÓN. El diagrama de dispersión permite observar gráficamente los datos y hacer conclusiones preliminares acerca de la relación posible entre las variables. Un diagrama de dispersión es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables dependiente e independiente. El valor de la variable independiente se grafica con respecto al eje horizontal, y el valor de la variable dependiente se traza con respecto al eje vertical. Los diagramas de dispersión o gráficos de correlación permiten estudiar la relación entre 2 variables. Dadas 2 variables X e Y, se dice que existe una correlación entre ambas si cada vez que aumenta el valor de X aumenta proporcionalmente el valor de Y (Correlación positiva) o si cada vez que aumenta el valor de X disminuye en igual proporción el valor de Y (Correlación negativa). En un gráfico de correlación representamos cada par X, Y como un punto donde se cortan las coordenadas de X e Y.

102

a) Relación lineal directa (fuerte)

c) Relación lineal directa (débil)

d) Relación exponencial

b) Relación lineal inversa (fuerte)

d) Relación nula (sin relación)

e) Relación compleja

3.1.2 MÉTODO DE MÍNIMOS CUADRADOS. El método de mínimos cuadrados es un procedimiento para encontrar la ecuación de regresión estimada usando datos de una muestra. En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable independiente “x i”, y los valores estimados de la variable dependiente “yi”. ̅̅ ̅

∑ ∑ ̅ ̂ Donde:

103

b1= Pendiente de la línea de regresión estimada b0= Ordenada al origen de la línea de regresión estimada ̂ = Ecuación de regresión X= Valor de la variable independiente Y= Valor de la variable dependiente n= Número total de observaciones ̅ = Valor medio de la variable independiente ̅ = Valor medio de la variable dependiente Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia. Estudiante muestreado

Horas de estudio X 20 16 34 23 27 32 18 22 192

1 2 3 4 5 6 7 8 Total

Calif. en el exam. Y

64 61 84 70 88 92 72 77 608

1280 976 2856 1610 2376 2944 1296 1694 15032

400 256 1156 529 729 1024 324 484 4902

Solución: a)

̅ ̅

∑

̅̅

∑

( )(

)(

( )(

(

̂ ̂

) )

)(

) (

)(

)

Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la altura de un hijo si el padre mide 75 pulgadas. Altura del padre X

Altura del hijo Y

104

65 63 67 64 68 62 70 66 68 67 69 71 X= 800

68 66 68 65 69 66 68 65 71 67 68 70 Y=811

4420 4158 4556 4160 4692 4092 4760 4290 4828 4489 4692 4970 XY=54107

4225 3969 4489 4096 4624 3844 4900 4356 4624 4489 4761 5041 2 X =53418

Solución: a)

b) ̅

∑

̅ ∑

∑

̅̅

∑

̅ ̂ c)

(

)( (

(

)( )((

)(

) ) )

)

(

)(

)

3.1.3 INTERPRETACIÓN DEL ERROR ESTÁNDAR DE LA ESTIMACIÓN. El error estándar del estimador es la desviación estándar condicional de la variable dependiente “Y”, dado un valor de la variable independiente “X”. Para datos poblacionales, el error estándar del estimador se representa mediante el símbolo Y,X. la formula de desviaciones que permite estimar este valor con base en datos muestrales es: ∑(

√

̂)

∑

√

∑

Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine, el error estándar del estimador. Estudiante muestreado

Horas de estudio (X)

1 2 3 4 5 6 7

20 16 34 23 27 32 18

Calif. en el exam. (Y) 64 61 84 70 88 92 72

105

1280 976 2856 1610 2376 2944 1296

400 256 1156 529 729 1024 324

4096 3721 7056 4900 7744 8464 5184

8 Total

22 192

77 608

1694 15032

484 4902

5929 47094

Solución: ̂)

√∑(

∑ √

∑

(

√

)(

)

(

)(

)

√ Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine, el error estándar del estimador. Altura del padre (X)

Altura del hijo (Y) 68 66 68 65 69 66 68 65 71 67 68 70 Y=811

65 63 67 64 68 62 70 66 68 67 69 71 X= 800

4420 4158 4556 4160 4692 4092 4760 4290 4828 4489 4692 4970 XY=54107

4225 3969 4489 4096 4624 3844 4900 4356 4624 4489 4761 5041 2 X =53418

4624 4356 4624 4225 4761 4356 4624 4225 5041 4489 4624 4900 2 Y =54849

Solución: √∑(

̂)

√

∑

√

)(

(

)

(

)(

)

√

3.1.4 INTERVALOS DE PREDICCIÓN APROXIMADOS. Encontraste con los intervalos de confianza, que son estimaciones de parámetros de poblaciones, en un intervalo de predicción se estima un valor individual y es, por lo tanto, un intervalo de probabilidad. Podría parecer posible construir un intervalo de predicción utilizando el error estándar del estimador que se definió en el tema anterior. Sin embargo, ese intervalo estaría incompleto, porque el error estándar del estimador no incluye la incertidumbre asociada con el hecho de que la línea de regresión basada en datos muestrales incluye también error muestral y, por lo general no es idéntica a la línea de regresión para la población. El error estándar completo para un intervalo de predicción se denomina error estándar del pronóstico, e incluye la incertidumbre asociado con la dispersión vertical con respecto a la línea de regresión y además la incertidumbre asociada con la posición del valor mismo en la línea de regresión. La formula básica para el error estándar del pronóstico es.

(

)

√

( ̅

√

106

∑

[

̅) (∑ )

]

Finalmente, el intervalo de predicción para un valor individual de la variable dependiente, utilizando n2 grados de libertad, es ̂ ( ) Ejemplo. Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. (De acuerdo al ejemplo). Solución: ( (

)

√

∑

[

̅) (∑ )

( √

]

√

) ( [

)

]

√

gl= n-2= 8-2= 6 ̂ ( ) 85 (2.447)(6.854) 85 16.771 (68.229, 101.771) Ejercicio. Determine, el intervalo de predicción del 95% para las alturas de los hijos mayores, si el padre mide 75 pulgadas. (De acuerdo al ejercicio). Solución: ( (

)

√

∑

[

̅) (∑ )

(

√ ]

√

) ( [

)

]

√ gl= n-2= 12-2= 10 ̂ ( ) 71.5 (2.228)(1.935) 71.5 4.311 (67.189, 75.811)

3.1.5 ANÁLISIS DE CORRELACIÓN. Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. El coeficiente de Correlación, describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Para propósitos de cálculo resulta conveniente la siguiente fórmula para el coeficiente de determinación muestral. ̅ ∑ ∑ ̅ ∑

107

√

El coeficiente de correlación muestral es: O bien

∑ √ ∑

∑

(∑ ) √ ∑

(∑ )

Ejemplo. Determine, la correlación de los datos. (De acuerdo al ejemplo). Solución:

∑

(

)(

)

(

)(

∑

√ O bien

∑ √ ∑

∑

( )( (∑ )

)

√

∑

(∑ ) √ ∑

√( )(

)

(

)(

√

) ( )( ( )( )

) (

(

)(

) √( )(

) )

(

)

Ejercicio. Determine el coeficiente de correlación. (De acuerdo al ejercicio). Solución: ∑

∑

√ ∑

√

)(

(

√ ∑

)

∑

O bien

)(

(

∑

( (∑ )

)(

(

)(

)

√

∑

(∑ ) √ ∑

)

√(

)(

(

√

)( )

)(

) (

(

) √(

)( )(

) )

(

)

3.1.6 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que dedico 30 horas al estudio de la materia. d) Determine el error estándar del estimador. e) Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. f) Determine el coeficiente de correlación.

108

Estudiante muestreado

Horas de estudio X 20 16 34 23 27 32 18 22 192

1 2 3 4 5 6 7 8 Total

Calif. en el exam. Y

64 61 84 70 88 92 72 77 608

1280 976 2856 1610 2376 2944 1296 1694 15032

400 256 1156 529 729 1024 324 484 4902

4096 3721 7056 4900 7744 8464 5184 5929 47094

Solución: a) b) c) d) e)

̂ ̂ (

)

gl= n-2= 8-2= 6 ̂ ( ) (68.229, 101.771) f) √ O bien

Solución con el software. 1. Habra Minitab, en la celda C1, escriba horas de estudios o “x” y en la columna C2, escriba calificación en el examen o “Y” 2. Haga clic en StatRegressionRegresion 3. En la caja de dialogo, Responce ingrese C2; en Predictors ingrese C1. Haga clic en Options. 4. En la caja de dialogo en Prediction intervals for new observations ingrese 30. Haga clic en Ok. 5. De regreso en la caja de dialogo original, haga clic en Ok. Para graficar, haga clic en StatRegressionRegresionGraphs, seleccione el tipo de grafica y haga clic en Ok y otra vez Ok. Regression Analysis: y versus x a) Residual Plots for y Residuals Versus the Fitted Values

Residual

Percent

Normal Probability Plot of the Residuals

50 10 1

-10

-5

0 Residual

0 -4 -8

Histogram of the Residuals

80 Fitted Value

Residuals Versus the Order of the Data 8

Residual

Frequency

2 1 0

-6

-4

-2

0 2 Residual

0 -4 -8

3 4 5 6 Observation Order

The regression equation is

109

b)y = 40.1 + 1.50 x Predictor Constant x

Coef 40.082 1.4966

d) S = 6.15761

SE Coef 8.890 0.3591

T 4.51 4.17

P 0.004 0.006

f)coef. De determ R-Sq = 74.3%

Analysis of Variance Source DF SS Regression 1 658.50 Residual Error 6 227.50 Total 7 886.00

MS 658.50 37.92

F 17.37

R-Sq(adj) = 70.0%

P 0.006

Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 c)84.98 3.06 (77.48, 92.47) e)(68.15, 101.81) Values of Predictors for New Observations New Obs x 1 30.0

3.1.7 REGRESIÓN MÚLTIPLE Y ANÁLISIS DE CORRELACIÓN. Es una extensión del análisis de regresión simple para aplicaciones en las que se usan dos o más variables independientes (predictores) para estimar el valor de la variable dependiente (variable de respuesta). El uso de más variables permite aumentar la precisión de la estimación. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones, la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación confiable, sin embargo, si agregamos los datos de mas variables independientes, podemos determinar una ecuación de estimación que describa la relación con mayor precisión. La regresión múltiple y el análisis de correlación implican un proceso de tres pasos como el que usamos en la regresión simple. En este proceso: 1. Describimos la ecuación de regresión múltiple; 2. Examinamos el error estándar de regresión múltiple de la estimación; y 3. Utilizamos el análisis de correlación múltiple para determinar qué también la ecuación de regresión describe los datos observados. La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técnicas de variables ficticias. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas técnicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nuestras ecuaciones de estimación. Ecuación de estimación que describe la relación entre tres variables ̂ Donde: ̂ = Valor estimado correspondiente a la variable dependiente. a= Ordenada Y X1, X2= Valores de las dos variables independientes. b1 y b2= Pendientes asociadas con X1 y X2 respectivamente. Ecuaciones normales:

110

na  b1  X 1  b2  X 2   Y a X 1  b1  X 12  b2  X 1 X 2   X 1Y a X 2  b1  X 1 X 2  b2  X 22   X 2Y Ejemplo. Determine la ecuación de regresión por mínimo cuadrados de acuerdo con los siguientes datos. 2 2 X1 X2 Y X1Y X2Y X1X2 X1 X2 30 12 94 47 10 108 25 17 112 51 16 178 40 5 94 51 19 175 74 7 170 36 12 117 59 13 142 76 16 211 489 127 1401 73665 18571 6173 26565 1793 Solución:

na  b1  X 1  b2  X 2   Y a X 1  b1  X 12  b2  X 1 X 2   X 1Y a X 2  b1  X 1 X 2  b2  X 22   X 2Y

10 a + 489 b1 + 127 b2 = 1 401 489 a + 26 565 b1 + 6 173 b2 = 73 665 127 a + 6 173 b1 + 1 793 b2 = 18 571

 87505739 a  1   18.368  4763960  9576442  2.01 b1  2   4763960 ?   4.737 b2  3   4763960 ̂ ̂ Ejemplo. Determine la ecuación de regresión por mínimo cuadrados de acuerdo con los siguientes datos. 2 2 X1 X2 Y X1Y X2Y X1X2 X1 X2 45 16 29 42 14 24 44 15 27 45 13 25 43 13 26 46 14 28 44 16 30 45 16 28 44 15 28

111

43 441

15 147

27 272

12 005

4 013

6 485

19 461

2 173

Solución:

na   X 1 b1   X 2 b2   Y

 X 1 a   X 12 b1   X 1 X 2 b2   X 1Y  X 2a   X 1 X 2 b1   X 22 b2   X 2Y 10 a + 441 b1 + 147 b2 = 272 441 a + 19 461 b1 + 6 485 b2 = 12 005 147 a + 6 485 b1 + 2 173 b2 = 4 013

? a  1   13.828  ?  ? b1  2   0.564  ?  ? b2  3   1.099  ? ̂ ̂

3.1.8 USOS DE VARIABLES FICTICIAS. 3.1.9 RESIDUALES Y GRÁFICAS DE RESIDUALES. 3.1.10 INTERPRETACIÓN DEL INTERVALO DE CONFIANZA. 3.1.11 USO DEL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. 3.1.12

PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. 1) Abra minitab. En la celda C1 escriba “Y”. En la celda C2 escriba “X1”. En la celda C3 escriba “X2”. Ingrese los datos en las columnas respectivas. 2) Haga clic en StatRegressionRegression 3) En la caja de dialogo, en response ingrese: C1.En predictors ingrese: C2-C3. Haga clic en Graphs. 4) En la caja de dialogo para graphs, verifique residuals versus fits. Haga clic en Ok. 5) De regreso en la caja de dialogo original, haga clic en Ok.

112

113

ACTIVIDAD 1 – Ejemplos de gráficas de correlación.

114

ACTIVIDAD 2 – Gráficas de dispersión. DIAGRAMA DE DISPERSIÓN

Ejercicio 1.

Ejercicio 2.

115

DIAGRAMAS DE DISPERSIÓN

EJERCICIO #1. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. . Determine: d) La grafica de dispersión. e) La ecuación de regresión por mínimos cuadrados. f) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia.

116

Diagrama de Dispersi贸n 100 y = 1.4966x + 40.082 R虏 = 0.7432

Calificaci贸n en el ex谩men (y)

80 70 60 50

XY Lineal (X Y)

40 30 20 10 0 0

Horas de Estudio (x)

117

EJERCICIO #2. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: d) La grafica de dispersión. e) La ecuación de regresión por mínimos cuadrados. f) Estime la altura de un hijo si el padre mide 75 pulgadas.

Diagrama de dispersión 72

y = 0.4764x + 35.825 R² = 0.4937

Altura del hijo (y)

XY Lineal (X Y)

64 61

Altura del padre (x)

EQUIPO:  Bautista Osorio Estefany  Díaz Maily Carolina  Fuentes Morales José Alexander  Ortiz Medina Tania Guadalupe  Varo Domínguez Jaricksa

118

119

ACTIVIDAD 4 – Investigación sobre temas pendientes de la unidad por equipos.

Introducción. El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes. En el análisis de regresión lineal podemos diferenciar entre análisis de regresión lineal simple y análisis de regresión lineal múltiple. Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión. Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una relación de causalidad. Solo cuando tenemos una variable que es causa o depende de otra, podremos realizar entonces una regresión. En este capítulo estudiaremos los usos que se les dan a las variables ficticias con ejemplos y veremos la interpretación de gráfico residual en histogramas.

120

3.1.8 Usos de variables ficticias Las variables ficticias recogen los efectos diferenciales que se producen en el comportamiento de los agentes económicos debido a diferentes causas como las siguientes: De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se producen las observaciones de las variables (por ejemplo, consumo en periodos de guerra o paz). De carácter espacial: Para tener en cuenta la pertenencia o no de la observación a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas). De tipo cualitativo: Para recoger los efectos de variables cualitativas como el género, el estado civil, tener o no cargas familiares, nivel de educación, etc. Sobre el comportamiento de los agentes económicos en decisiones de consumo, de oferta de trabajo, etc. Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre la variable endógena, distinguiendo por sub-muestras (por ejemplo, la propensión marginal al consumo de individuos de rentas altas o bajas). Permiten tratar información cualitativa

Sexo en la determinación de salarios Estación del año en el consumo de helados Pertenecer a la UE en la determinación del crecimiento económico Entrar en bancarrota en la predicción de beneficios -uno

La utilización de variables ficticias (variables dicotómicas o variables dummy) en un modelo econométrico permite la inclusión de aspectos cualitativos en el modelo. En este caso, vamos a dividir las familias de la muestra en tres grupos, de acuerdo con su tamaño familiar: Grupo 1: familias de tamaño pequeño (de 1 a 3 componentes). Grupo 2: familias de tamaño medio (de 4 a 6 componentes).

121

Grupo3: familias de tamaño grande (a partir de 7 componentes). Trampa de las variables ficticias. Formulas A la hora de incluir variables ficticias en el modelo debemos ser cautelosos puesto que podemos provocar un problema de multi-colinealidad perfecta, es decir, podemos caer en la denominada “trampa de las variables ficticias”. Modelos con un único factor cualitativo: Vamos a considerar, por ejemplo, las variables ﬁcticias o variables dummy de sexo:

Y consideremos el modelo para el salario por hora en función de la experiencia laboral que vimos en el Tema 1, en el que ahora incorporamos la dummy de ser hombre.

Si calculamos en este modelo la media del salario para hombres y mujeres que tengan los mismos años de experiencia laboral tenemos

Al incorporar la variable ﬁcticia Hombre t lo que estamos haciendo es permitir que el término independiente del modelo pueda ser distinto para hombres y mujeres, ya que para hombres el término constante es β1 + β2 mientras que para las mujeres es β1, y por tanto β2 reﬂeja las posibles diferencias en el término constante entre hombres y mujeres. Además,

Y por tanto β2 mide la diferencia en el salario medio entre hombres y mujeres con la misma experiencia laboral. La hipótesis de ausencia de diferencias entre hombres y mujeres sería β2 = 0

122

Alternativamente podríamos haber incorporado en el modelo la dummy de ser mujer:

Si calculamos ahora la media del salario para hombres y mujeres que tienen los mismos años de experiencia laboral tenemos

Y por tanto

Es decir α2 mide la diferencia en el salario medio entre mujeres y hombres con la misma experiencia laboral. Los modelos:

Por lo tanto, obviamente α2=β2. Esta relacion entre los parametros de modelos (1) y (2) tambien se verifica para los estimadores MCO de los dos modelos como ilustra el siguiente ejemplo: EJEMPLO:

123

124

3.1.9 Residuales y graficas de residuales

Como se ha indicado anteriormente, el análisis de los residuos es básico para chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación se exponen las propiedades matemáticas de los mismos. Considérese el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en forma matricial -1 t Como = H , siendo H = X X la matriz de proyección ortogonal. Es fácil probar que la matriz H es idempotente y simétrica . En base a esto = - = -H = = = X + -HX -H = , Donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, ei es una variable aleatoria con distribución

Donde hii es el valor de influencia de i. que mide la “distancia estadística” de i. a . Un residuo “grande” indica que la observación está lejos del modelo estimado y, por

125

tanto, la predicción de esta observación es mala. Las observaciones con residuos grandes se denominan observaciones atípicas o heterogéneas (outliers). Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y ), normalmente se tipifican

Los residuos tipificados siguen una distribución normal estándar, pero como 2 es desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los residuos estandarizados, definidos como

Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t con ngrados de libertad. Como ya se indicó en el estudio del modelo de regresión lineal simple, en el cálculo de ri existe el problema de que hay una relación de dependencia entre el numerador y el denominador de ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador R, , la varianza residual del modelo de regresión obtenido a partir de la muestra en la que se ha eliminado la observación . Ahora se definen los residuos estudentizados como

Los residuos estudentizados siguen una distribución t con grados de libertad. Si el tamaño muestral es grande, los residuos estandarizados y los estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes los residuos estandarizados tales que > 2. Con los residuos estandarizados o estudentizados se pueden construir los siguientes gráficos de interés: El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro tipo entre la respuesta y las regresoras y también da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad.

126

Figura 9.2. Figura 9.2. Gráfico matricial

El histograma de los residuos, que sirve para observar la existencia de normalidad, simetría y detectar observaciones atípicas.

El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de simetría, que permite contrastar la normalidad (simetría) de la distribución de los residuos.

El gráfico de residuos diferentes problemas:

frente a las predicciones

, que permite detectar

Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar mínimos cuadrados ponderados. Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos negativos se corresponden con los valores pequeños i y los errores positivos se corresponden con los valores grandes de i, o al revés. El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las mismas. O bien se deben introducir nuevas variables explicativas. Existencia de observaciones atípicas o puntos extremos. Tener en cuenta que se debe utilizar el gráfico de residuos frente a las predicciones en lugar del gráfico de residuos frente a las observaciones porque las variables e están corraladas, mientras que las variables e no lo están.

127

El gráfico de residuos frente a una variable explicativa , permite deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la variable explicativa representada. Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera de ellas se observa que la relación con la variable xj no es lineal y, probablemente, un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la homocedasticidad del modelo.

Figura 9.3. Gráfico de residuos frente a variable regresora . Ajuste no lineal. En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de este problema puede ser la variable explicativa xj. Por ello, la solución se basa en transformar el modelo teniendo en cuenta este hecho.

Figura 9.4. Gráfico de residuos frente a variable regresora . Heterocedasticidad.

128

El gráfico de residuos frente a una variable omitida, permite valorar si esta variable influye en el modelo y por lo tanto se debe incluir como una nueva variable regresora. En la Figura 9.5 de residuos frente a una variable omitida se observa que existe una relación lineal con esta variable y por tanto se mejora el ajuste si se incluye la variable xomit.

Figura 9.5. Gráfico de residuos frente a variable omitida. Una situación frecuente se produce cuando se tienen observaciones de diferentes poblaciones y se debe de incluir una variable de clasificación en el modelo de regresión. Esto se puede observar en el gráfico de residuos frente a predicciones como se puede ver en la Figura 9.6.

Figura 9.6. Necesidad de una variable de clasi ficación. El gráfico de los residuos frente a la variable de clasificación omitida se presenta en la Figura 9.7.

129

Figura 9.7. Residuos frente a variable de clasificación omitida. El gráfico parcial de residuos, es útil para valorar la influencia real de una variable regresora, esto es, conocer la información nueva que aporta la variable regresora en estudio y que no aportan las otras variables regresoras. Según el paquete estadístico que se utilice los gráficos parciales de residuos se pueden construir de diferentes formas. Tipo 1. Si se tienen k variables regresoras y se desea obtener el gráfico parcial de residuos respecto a la variable xk, se procede de la siguiente forma: se calcula el modelo de regresión respecto a las restantes variables regresoras,

Se calculan los residuos

Que representan la parte de Y no explicada por las variables x1,x2,...,xk-1. Por tanto, la gráfica de los residuos “parciales” ek* frente a la variable xk permite valorar la importancia real de esta variable. Tipo 2. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular = + k k= + k k k

130

= Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k* frente a la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores i* y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek* y k * . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular * = + k k= + k k k = Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k* frente a la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores * * i y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek * y k . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresora y la variable de interés.

131

Tipo 3. Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos es el siguiente (se quiere calcular el gráfico parcial respecto a xk): Se calculan los modelos de regresión de las variables Y y xk respecto a las restantes variables regresoras. Ahora se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto es, el gráfico de los pares. Este gráfico da una idea de la relación entre la variable Y y la variable xk una vez que se ha eliminado la influencia de las otras variables regresoras.

132

133

3.1.10 Interpretación del intervalo de confianza. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%. Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple 1: P (-1.96 < z < 1.96) = 0.95 (Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribución N ( , se cumple:

Despejando

), entonces el 95% de las veces

en la ecuación se tiene:

El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido.

Intervalo de confianza para un promedio: Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico. Si en el intervalo se reemplaza la desviación estándar poblacional desviación estándar muestral s, el intervalo de confianza toma la forma:

134

por la

La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande. Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96).

EJEMPLO: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión). 2 11 14 16 19

5 11 15 16 19

6 13 15 17 19

8 13 16 17 19

8 14 16 17 19

9 14 16 18 19

10 14 16 18 20

11 14 16 19 20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:

Luego, el intervalo de confianza para es (13,2, 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.

EJEMPLO 1. Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora 4000 pts, y varianza de dicha muestra 4000 pts al cuadrado. Obtener dicho intervalo con un nivel de confianza del 95.5 %.

135

Queremos construir un intervalo para la media con las siguientes características: Tamaño muestral = n =1000, muestreo aleatorio simple la población no es normal ni conocemos su varianza, el resultado de la muestra es : si bien se trata de un intervalo para la media con varianza desconocida y población no normal , dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así :

Dado que para nivel de confianza del 95,5% las valores de 2,-2 tendremos el intervalo:

son según tablas

Luego el intervalo será 3.1.11 Uso del coeficiente de determinación múltiple. El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

Algunas otras formas de presentar el coeficiente de determinación son:

136

Algunas de las equivalencias anteriores pueden verse a partir de la demostración de . Demostración de formula El coeficiente de determinación múltiple, es una generalización del valor de definida en la lección de R cuadrado definida para una línea recta. UTILIDAD Se utiliza para medir la reducción en la variabilidad total de

debido a la inclusión

de las variables regresora . Un valor grande de no necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de

, ya sea que las variables contribuyan o no al modelo. Es posible que

modelos con valor de

grande sean malos en la predicción o estimación.

OBSERVACIONES 1.

mide la correlación entre

2. Si existe error puro, es imposible que manera en que podría dar los datos en el cual 3. Si

modelo 4.

esto

. alcance el valor de . La única

, sería que se tuviera un perfecto ajuste de , lo cual es un improbable evento en la práctica,

(suponiendo

ha sido ajustado), entonces

que

es una medida de la utilidad de los términos en el modelo diferentes de

137

LA ESTADÍSTICA R2 AJUSTADA Como alternativa al uso de como medida de la idoneidad de un modelo, es común que se informe el coeficiente de determinación múltiple ajustado, denotado por

esta dado por

Se observa que

toma en cuenta ("ajusta por") tanto el tamaño de la muestra

como el número de parámetros del modelo.

Siempre es menor que

y lo que

es más importante, no puede "forzarse" hacia con sólo agregar más y más variables independientes al modelo. Por ello, algunos analistas prefieren el valor más conservador de modelo.

cuando deben elegir una medida de la idoneidad de un

138

Tenga en cuenta que: La estadística y son medidas descriptivas, y no debemos depender únicamente de sus valores para decidir si un modelo es útil o no para predecir la variable respuesta EJEMPLO: Para los datos del ejemplo se tiene que

Lo cual significa que el Ahora el valor de

de la variabilidad total es explicado por el modelo.

139

Conclusiones individuales

El análisis de correlación produce un número que resume el grado de la correlación entre dos variables, y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. Tales estimaciones le permiten entender mejor el efecto que probablemente tendrán en el mercado las decisiones referentes el precio y promoción. -

Fuentes Morales José Alexander.

Bibliografía:

http://rua.ua.es/dspace/bitstream/10045/19712/1/tema4.pdf http://ciberconta.unizar.es/leccion/ficticia/variables%20ficiticas.PDF http://webs.uvigo.es/cjardon/Practicas/practicaII-2.pdf http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_02_63.html http://www.monografias.com/trabajos82/regresion-y-correlacion-lineal/regresion-ycorrelacion-lineal2.shtml

140

ACTIVIDAD 5 –

141

142

143

144

145

146

147

UNIDAD 4. SERIES DE TIEMPO. 4.1 MODELO CLÁSICO SERIES DE TIEMPO. 4.2 ANÁLISIS DE TENDENCIA. 4.3 ANÁLISIS DE VARIACIONES CÍCLICAS. 4.4 MEDICIÓN DE VARIACIONES ESTACIONALES. 4.5 APLICACIÓN DE AJUSTES ESTACIONALES. 4.6 PRONÓSTICOS BASADOS EN FACTORES DE TENDENCIA ESTACIONALES. 4.7 PRONÓSTICOS, CICLOS E INDICADORES ECONÓMICOS. 4.8 PROMEDIOS MÓVILES. 4.9 SUAVIZACIÓN EXPONENCIAL COMO PRONOSTICO. 4.10 APLICACIONES DEL PAQUETE COMPUTACIONA

148

UNIDAD 4. SERIES DE TIEMPO. La planeación a futuro es un aspecto esencial en la administración de cualquier empresa, ya que su éxito, a la larga, se relaciona mucho con lo bien que la administración puede anticipar el futuro y desarrollar las estrategias adecuadas. El buen juicio, la intuición y la percepción del estado de la economía pueden dar a un administrador una idea tosca o sensación de lo que probablemente ocurrirá en el futuro. Sin embargo, es difícil convertir esa sensación en números que se puedan usar, como el número de ventas en el próximo trimestre, o el costo de las materias primas en el año venidero. El objetivo de esta unidad es explicar algunos métodos de pronósticos. Los métodos de pronósticos se clasifican en cuantitativos y cualitativos. Los métodos cuantitativos se usan cuando: 1. Se dispone de información histórica anterior acerca de la variable que se pronostica. 2. La información se puede cuantificar 3. Un supuesto razonable es que el patrón del pasado continuará en el futuro. En tales casos es factible la elaboración de un pronóstico, ya sea con un método de serie de tiempo o con un método casual. El análisis de serie de tiempo es un método cuantitativo que utilizamos para determinar patrones en los datos recolectados a través del tiempo. El análisis de series de tiempo se utiliza para determinar patrones de cambio en la información estadística en intervalos regulares, proyectamos estos patrones para obtener una estimación para el futuro. En consecuencia, el análisis de series de tiempo nos ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.

4.1 MODELO CLÁSICO SERIES DE TIEMPO. Una serie de tiempo es un conjunto de valores observados, tales como los datos de producción o de ventas, en períodos ordenados de manera secuencial. Ejemplos de este tipo son las ventas de un determinado producto en una serie de meses y el número de trabajadores empleados en una industria determinada en una serie de años. Una serie de tiempo se representa gráficamente mediante una gráfica de línea, con los períodos de tiempo representados en el eje horizontal y los valores de la serie de tiempo representado en el eje vertical. Por ejemplo. La figura siguiente es una gráfica de línea que ilustra las ventas anuales en dólares de una empresa de software gráfico (ficticia) formada en el 2000. Como se puede observar…… anuales, seguido por dos años de declinación en las ventas que culminaron en la sima de 2008, que entonces fue seguida por niveles crecientes de ventas durante los últimos años de los valores reportados en la serie de tiempo.

2000 2001 2002 2003 2004 2005 2006 2007 2008

Ventas (millones dólares) 0.2 0.4 0.5 1 1.1 1.5 1.4 1.2 1.7

Time Series Plot of Ventas

1.8 1.6 1.4 1.2

Ventas

Año

1.0 0.8 0.6 0.4 0.2 0.0 2000

2001

2002

149

2003

2004 Year

2005

2006

2007

2008

El análisis de series de tiempo es el procedimiento mediante el cual se identifican y separan factores relacionados con el tiempo que influyen en los valores que se observan en una serie de tiempo. Una vez identificado se pueden usar como ayuda en la interpretación de los valores históricos de las series de tiempo y para predecir valores futuros de las series de tiempo. El método clásico en el análisis de series de tiempo distingue cuatro influencias de este tipo o componentes: 1) Tendencia secular (T). El valor de la variable tiende a aumentar o disminuir en un período muy largo.

2) Fluctuaciones cíclicas (C). Son movimientos recurrentes hacia arriba y hacia abajo en relación con la tendencia que tienen una duración de varios años.

3) Variaciones estacionales (S). Este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse anualmente, es decir, son movimientos hacia arriba y hacia abajo en relación con la tendencia que ocurren durante un año y que tienen recurrencia anual. Por lo común estas variaciones se detectan en datos mensuales o trimestrales.

4) Variaciones irregulares (I). Son variaciones erráticas respecto de la tendencia que no se pueden atribuir a las influencias cíclicas o estacionales, es decir, en muchas situaciones, el valor de una variable puede ser completamente impredecible cambiando de manera aleatoria. Las variaciones irregulares describen esos movimientos.

150

El modelo que subyace al análisis clásico de series de tiempo está basado en la suposición de que para cualquier periodo que se tome de la serie de tiempo, el valor de la variable está determinado por los cuatro componentes antes descritos, y que además estos componentes tienen una relación multiplicativa. Así, si Y representa el valor observado en la serie de tiempo. Y = T x C x S x I El modelo representado por la formula anterior se usa como base para separar las influencias de los diferentes componentes que afectan a los valores de la serie de tiempo.

4.2 ANÁLISIS DE TENDENCIA. El análisis de tendencia investiga la dirección del movimiento en la serie de tiempo, generalmente este análisis se realiza con datos anuales. Se deben usar datos de 15 o 20 años, por lo menos, de modo que los movimientos cíclicos de varios años de duración no se consideren como indicativos de la tendencia general de los valores de la serie de tiempo. El método de mínimos cuadrados es el que se usa con mayor frecuencia para determinar el componente de tendencia en una serie de tiempo, determinando la ecuación de la recta de tendencia de mejor ajuste. Desde el punto de vista estadístico, una recta de tendencia no es una recta de regresión, ya que la variable dependiente “Y” no es una variable aleatoria, sino una serie de valores históricos. Además para cualquier periodo dado sólo puede haber un valor histórico (no una distribución de valores), y los valores correspondientes a los períodos adjuntos es probable que sean dependientes y no independientes. De cualquier manera, el método de los mínimos cuadrados es una base adecuada para determinar el componente de tendencia de una serie de tiempo. Si el incremento o decremento a largo plazo parecen seguir una tendencia lineal, la ecuación para los valores de la recta de tendencia, es: ̂ Donde ̂ = valor estimado de la variable dependiente X= variable independiente (tiempo en el análisis de tendencia) b0= ordenada Y (el valor de Y cuando X=0) b1= pendiente de la recta de tendencia. Pendiente de la recta de regresión de mejor ajuste: Ordenada Y de la recta de regresión de mejor ajuste:

̅̅

∑ ∑

Donde Y= valores de la variable dependiente X= valores de la variable independiente ̅ = media de los valores de la variable dependiente ̅ = media de los valores de la variable independiente n= número de datos en la serie de tiempo En el caso de una tendencia no lineal, un tipo de curva de tendencia que suele resultar útil es la curva de tendencia exponencial. Una curva de tendencia exponencial típica es la que refleja una tasa de crecimiento constante durante un período de años, como pueden ser las ventas de las computadoras personales durante la década de los ochenta.

151

Una curva exponencial se llama así porque la variable independiente “X” es el exponente de b 1 en la ecuación general. ̂ Donde b0= valor de ̂ en el año 0 b1= tasa de crecimiento Tomando logaritmos en ambos miembros de la ecuación se obtiene una ecuación lineal de tendencia logarítmica: log ̂ = log b0 + X log b1 La ventaja de la transformación a logaritmos es que la ecuación lineal para el análisis de tendencia puede aplicarse a los logaritmos de los valores cuando la serie de tiempo sigue una curva exponencial. Los valores logarítmicos pronosticados para ̂ Se pueden reconvertir después a las unidades originales de medición sacando el antilogaritmo de los valores. La curva Gompertz en forma de “S” una ecuación que se usa para ajustar esta curva de tendencia es: ̂ = b0 + b1(b2)X Los valores de b0, b1 y b2 se determinan sacando primero logaritmo a ambos miembros de la X ecuación, como sigue: log ̂ = log b0 + (log b1)(b2) Por último se calculan los valores que conforman la curva de tendencia sacando el antilogaritmo de los valores que se obtienen con la formula anterior. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 Y 6 11

3 9

4 14

5 15

Con base en ella determine: a) La grafica de serie de tiempo. b) Una ecuación del componente de tendencia lineal para la serie de tiempo. c) ¿Cuál es el pronóstico para x= 6? Solución: a) Time Series Plot of y 15.0

12.5

10.0

7.5

5.0 1

3 Index

b) X 1 2 3 4 5 X=15 ̅

Y 6 11 9 14 15 Y=55

XY 6 22 27 56 75 XY=186

∑

152

X 1 4 9 16 25 2 X =55

∑

̅̅

∑

( )( )( ( )(

) )

(

)( )

̂ ̂

(

)( )

Ejercicio. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Deduzca una ecuación del componente de tendencia lineal en esta serie de tiempo. Haga comentario acerca de lo que sucede con la inscripción en esta institución. Solución: X 1 2 3 4 5 6 X=21 ̅

∑

̅̅

∑

( )(

)(

( )(

Y 20.5 20.2 19.5 19 19.1 18.8 Y=117.1

XY 20.5 40.4 58.5 76 95.5 112.8 XY=403.7

X 1 4 9 16 25 36 2 X =91

) )

(

)(

)

̂ Que la inscripción decrece aproximadamente 350 alumnos por año.

4.3 ANÁLISIS DE VARIACIONES CÍCLICAS. La variación cíclica es la componente de una serie de tiempo que tiende a oscilar arriba y debajo de la línea de tendencia secular en períodos mayores que un año. El procedimiento utilizado para identificar la variación cíclica es el método de residuos. Métodos de residuos. Cuando observamos una serie de tiempo consiste en datos anuales, sólo se toman en cuenta las componentes de tendencia secular, cíclica e irregular. (Esto es así porque la variación estacional pasa por un ciclo completo y regular cada año y no afecta más un año que otro). Si utilizamos una serie de tiempo compuesta por datos anuales, podemos encontrar la fracción de la tendencia dividiendo el valor real (Y) entre el valor de la tendencia correspondiente ( ̂ ) para cada valor de la serie de tiempo. Luego se multiplica el resultado de este cálculo por 100. Esto da la medida de la variación cíclica como un porcentaje de tendencia.

153

̂ Donde: Y= valor real de la serie de tiempo ̂ = valor de tendencia estimado a partir del mismo punto de la serie de tiempo. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 Y 6 11

3 9

4 14

5 15

Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos Solución: a) X (Año)

Y (real)

Y (Esperado)

1 2 3 4 5

6 11 9 14 15

6.8 8.9 11 13.1 15.2



Y  b  b X  4.7  2.1X Y  4.7  2.1X  4.7  2.1(1)  6.8 0



Y  4.7  2.1X  4.7  2.1(2)  8.9 Y  4.7  2.1X  4.7  2.1(3)  11 Y  4.7  2.1X  4.7  2.1(4)  13.1 Y  4.7  2.1X  4.7  2.1(5)  15.2 



154

(Ciclo relativo) 88.23 123.59 81.81 106.87 98.68

Time Series Plot of Ciclico relativo

Ciclico relativo

120

110

100

80 1

3 Index

Ejercicios. 1. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos Solución:

X (Años)

Y (real)

Y (Esperado)

1 2 3 4 5 6

20.5 20.2 19.5 19 19.1 18.8

20.391 20.041 19.691 19.341 18.991 18.641



Y  b  b X  20.741  0.350 X 0

155

(Ciclo relativo) 100.534 100.793 99.030 98.236 100.573 100.852



Y  20.741  0.350 X  20.741  0.350(1)  20.391 Y  20.741  0.350 X  20.741  0.350(2)  20.041 Y  20.741  0.350 X  20.741  0.350(3)  19.691 Y  20.741  0.350 X  20.741  0.350(4)  19.341 Y  20.741  0.350 X  20.741  0.350(5)  18.991 Y  20.741  0.350 X  20.741  0.350(6)  18.641 



Time Series Plot of Ciclo relativo 101.0

Ciclo relativo

100.5 100.0 99.5 99.0 98.5 98.0 1

Index

2. La tabla siguiente presenta los datos correspondientes a un período de 11 años de una empresa de software gráfico formada en 1998. a) Realice la gráfica de tendencia para los datos. b) Determine la ecuación de la línea de tendencia para estos datos empleando el método de mínimos cuadrados, codifique 1998 como cero y aproxime todos los valores a dos cifras decimales. c) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. d) Construya un diagrama de ciclos con los datos. Solución: X 0 1 2 3 4 5 6 7 8 9 10 X=55

Y esperado

0.20 0.40 0.50 0.90 1.10 1.50 1.30 1.10 1.70 1.90 2.30 Y=12.9

0 0.4 1 2.7 4.4 7.5 7.8 7.7 13.6 17.1 23 XY=85.2

0 1 4 9 16 25 36 49 64 81 100 2 X =385

0.22 0.41 0.6 0.79 0.98 1.17 1.36 1.55 1.74 1.93 2.12

156

Ciclo relativo 90.90 97.56 83.33 113.92 112.24 128.20 95.58 70.96 97.70 98.44 108.49

Time Series Plot of y 2.5

2.0

1.5

1.0

0.5 1

6 Index

 X 55  5 n 11  Y 12.9 Y   1.17 n 11  XY  n X Y 85.2  (11)(5)(1.17) 20.85    0.19 b1  2 385  (11)(52) 110  x2  n X X 

b  Y  b X  1.17  0.19(5)  0.22 Y  b  b X  0.22  0.19 X Y  0.22  0.19 X  0.22  0.19(0)  0.22 Y  0.22  0.19 X  0.22  0.19(1)  0.41 Y  0.22  0.19 X  0.22  0.19(2)  0.6 Y  0.22  0.19 X  0.22  0.19(3)  0.79 Y  0.22  0.19 X  0.22  0.19(4)  0.98 Y  0.22  0.19 X  0.22  0.19(5)  1.17 Y  0.22  0.19 X  0.22  0.19(6)  1.36 Y  0.22  0.19 X  0.22  0.19(7)  1.55 Y  0.22  0.19 X  0.22  0.19(8)  1.74 Y  0.22  0.19 X  0.22  0.19(9)  1.93 0



 



  

157



Y  0.22  0.19 X  0.22  0.19(10)  2.12 Time Series Plot of y 130 120

110 100 90

80 70 1

Index

4.4 MEDICIÓN DE VARIACIONES ESTACIONALES. Además de la tendencia secular y de la variación cíclica, una serie de tiempo incluye la variación estacional. Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia en un año o menos. Con el fin de detectar la variación estacional, los intervalos de tiempo necesitan medirse en unidades pequeñas, como días, semanas, meses o trimestres. Ejemplo. El hotel de veraneo desea establecer el patrón estacional de demanda de cuartos por parte de sus clientes. La administración desea mejorar el servicio al cliente y está considerando varios planes de contratación de personal durante los períodos picos. La tabla siguiente presenta la ocupación por trimestre, es decir, el promedio de huéspedes durante cada trimestre de los últimos cinco años. Año Número de huéspedes por trimestres I II III IV 2005 1861 2203 2415 1908 2006 1921 2343 2514 1986 2007 1834 2154 2098 1799 2008 1837 2025 2304 1965 2009 2073 2414 2399 1967 Solución: Año Trimestre

2005

I II III IV

Ocupación

1861 2203 2415 1908

Total móvil de 4 trimestres

Promedio móvil de los 4 trimestres

8387

2096.75

158

Promedio móvil centrado de 4 trimestres

Porcentaje del valor real respecto al promedio móvil

2104.25 2129.25

114.8 89.6

2006

2007

2008

2009

I II III IV I II III IV I II III IV I II III IV

1921 2343 2514 1986 1834 2154 2098 1799 1837 2025 2304 1965 2073 2414 2339 1967

8447 8587 8686 8764 8677 8488 8072 7885 7888 7759 7965 8131 8367 8756 8791 8793

2111.75 2146.75 2171.5 2191 2169.25 2122 2018 1971.25 1972 1939.75 1991.25 2032.75 2091.75 2189 2197.75 2198.25

2159.125 2181.25 2180.125 2145.625 2070 1994.625 1971.625 1955.875 1965.5 2012 2062.25 2140.375 2193.375 2198

89 107.4 115.3 92.6 88.6 108 106.4 92 93.5 100.6 111.7 91.8 94.5 109.8

Columna 4: Total móvil de 4 trimestres 1861 + 2203 + 2415 + 1908 = 8387 2203 + 2415 + 1908 + 1921 = 8447 2415 + 1908 + 1921 + 2343 = 8587 1908 + 1921 + 2343 + 2514 = 8686 1921 + 2343 + 2514 + 1986 = 8764 Etc. Se usa el término móvil porque cada vez se dispone de una nueva observación para la serie de tiempo, se reemplaza la observación más antigua en la ecuación y se calcula un nuevo promedio. En consecuencia, el promedio cambia o se mueve a medida que se dispone de nuevas observaciones. Columna 5: Promedio móvil de los 4 trimestres 8387  4 = 2096.75 8447  4 = 2111.75 8587  4 = 2146.75 8686  4 = 2171.5 8764  4 = 2191 Etc. Con este cálculo se determina la ocupación trimestral promedio para cada año. El valor de 2096.75 corresponde a la segunda mitad del segundo trimestre y a la primera mitad del tercero. De la misma manera, si avanzamos al siguiente valor de promedio móvil de 2111.75 el medio corresponde a la última mitad del tercer trimestre y a la primera del cuarto. Columna 6: Promedio móvil centrado de 4 trimestres (2096.75 + 2111.75)  2 = 2104.25 (2111.75 + 2146.75)  2 = 2129.25 (2146.75 + 2171.5)  2 = 2159.125 (2171.5 + 2191)  2 = 2181.25 (2191 + 2169.25)  2 = 2180.125 Etc. Cada punto en un promedio móvil centrado representa el valor de la serie de tiempo como si no hubiera influencias estacionales e irregulares. Tienden a suavizar las fluctuaciones estacionales e irregulares de la serie de tiempo. Columna 7: Porcentaje del valor real respecto al promedio móvil (2415  2104.25) x 100 = 114.8 (1908  2129.25) x 100 = 89.6

159

(1921  2159.125) x 100 = 89 (2343  2181.25) x 100 = 107.4 (2514  2180.125) x 100 = 115.3 Año 2005 2006 2007 2008 2009

Trimestre I 89 88.6 93.5 94.5 182.5

Trimestre II 107.4 108 100.6 109.8 215.4

Trimestre III 114.8 115.3 106.4 111.7 226.5

Trimestre IV 89.6 92.6 92 91.8 183.8

Media modificada:

Total de índices = 404.1 Ejercicio. Se tiene la siguiente serie de tiempo: Trimestre 1 4 2 3 5

1 2 3 4

Año 2 6 3 5 7

3 7 6 6 8

a) Determine los valores de promedio móvil y promedio móvil centrado de cuatro trimestre para esta serie de tiempo. b) Calcule los índices estacionales para los cuatro trimestres.

4.5 APLICACIÓN DE AJUSTES ESTACIONALES. 4.6 PRONÓSTICOS BASADOS EN FACTORES DE TENDENCIA ESTACIONALES. 4.7 PRONÓSTICOS, CICLOS E INDICADORES ECONÓMICOS. 4.8 PROMEDIOS MÓVILES. 4.9 SUAVIZACIÓN EXPONENCIAL COMO PRONOSTICO. 4.10 APLICACIONES DEL PAQUETE COMPUTACIONAL.

160

161

ACTIVIDAD 1 – 4 componentes de una serie temporal.

Introducción. Las series temporales se usan para estudiar la relación causal entre diversas variables que cambian con el tiempo y se influyen entre sí. Desde el punto de vista probabilístico una serie temporal es una sucesión de variables aleatorias indexadas según parámetro creciente con el tiempo. Cuando la esperanza matemática de dichas variables aleatorias es constante o varía de manera cíclica, se dice que la serie es estacionaria y no tiene tendencia secular. El primer paso para analizar una serie de tiempo es graficarla, esto permite: identificar la tendencia, la estacionalidad, las variaciones irregulares (componente aleatoria). Un modelo clásico para una serie de tiempo, puede ser expresada como suma o producto de tres componentes: tendencia, estacional y un término de error aleatorio. A continuación se estudiará cómo construir un modelo para explicar la estructura y prever la evolución de una variable que observamos a lo largo del tiempo.

162

4.1 Los componentes de una serie de tiempos. Una serie temporal o cronológica es una secuencia de datos, observaciones o valores, medidos en determinados momentos y ordenados cronológicamente. Los datos pueden estar espaciados a intervalos iguales (como la temperatura en un observatorio meteorológico en días sucesivos al mediodía) o desiguales (como el peso de una persona en sucesivas mediciones en el consultorio médico, la farmacia, etc.). Para el análisis de las series temporales se usan métodos que ayudan a interpretarlas y que permiten extraer información representativa sobre las relaciones subyacentes entre los datos de la serie o de diversas series y que permiten en diferente medida y con distinta confianza extrapolar o interpolar los datos y así predecir el comportamiento de la serie en momentos no observados, sean en el futuro (extrapolación pronostica), en el pasado (extrapolación retrógrada) o en momentos intermedios (interpolación). Uno de los usos más habituales de las series de datos temporales es su análisis para predicción y pronóstico (así se hace por ejemplo con los datos climáticos, las acciones de bolsa, o las series de datos demográficos). Resulta difícil imaginar una rama de las ciencias en la que no aparezcan datos que puedan ser considerados como series temporales. Las series temporales se estudian en estadística, procesamiento de señales, econometría y muchas otras áreas. Existen 4 componentes de una serie de tiempo: el componente de tendencia, de variación cíclica, variación estacional, y la de componente irregular.

4.1.1 Componente de tendencia (T). Tendencia, es la componente de largo plazo que constituye la base del crecimiento o declinación de una serie histórica, como se presenta en la figura 1.1. Las fuerzas básicas que producen o afectan la tendencia de una serie son: cambios en la población, inflación, cambio tecnológico e incremento en la productividad. La Tendencia (T) es un componente de la serie temporal que refleja su evolución a largo plazo. Puede ser de naturaleza estacionaria o constante (se representa con una recta paralela al eje de abscisas), de naturaleza lineal, de naturaleza parabólica, de naturaleza exponencial, etc Se puede definir como un cambio a largo plazo que se produce en la relación al nivel medio, o el cambio a largo plazo de la media. La tendencia se identifica con un

163

movimiento suave de la serie a largo plazo.

Figura 1.1 Gráfica de una serie de datos con tendencia

4.1.2 Las variaciones cíclicas (C).

Es un componente de la serie que recoge oscilaciones periódicas de amplitud superior a un año. Estas oscilaciones periódicas no son regulares y se presentan en los fenómenos económicos cuando se dan de forma alternativa etapas de prosperidad o de depresión Es la segunda componente de un serie de Tiempo es la Variación Cíclica; ascenso y descenso de una serie de Tiempo en periodos mayores de un año. El componente cíclico es la fluctuación en forma de onda alrededor de la tendencia, afecta por lo regular por las condiciones económicas generales. Los patrones cíclicos tienden a repetirse en los datos aproximadamente cada dos tres o más años. Es común que las fluctuaciones cíclicas estén influidas por cambios de expansión y contracción económicas, a los que comúnmente se hace referencia como el ciclo de los negocios. Movimientos cíclicos o variaciones cíclicas o ciclo. Se refieren a las oscilaciones de larga duración alrededor de la curva de tendencia, los cuales pueden o no ser periódicos, es decir, pueden o no seguir caminos análogos en intervalos de tiempo iguales. Se caracterizan por tener lapsos de expansión y contracción. En general, los movimientos se consideran cíclicos solo si se produce en un intervalo de tiempo superior al año. En el Gráfico los movimientos cíclicos alrededor de la curva de tendencia están trazados en negrita.

164

Figura 2.2 Gráfica de una serie de datos con variaciones cíclicas 4.1.3 Las variaciones estacionales (E). Se refieren a las fluctuaciones periódicas que se observan en series de tiempo cuya frecuencia es menor a un año (trimestral, mensual, diaria, etc.), aproximadamente en las mismas fechas y casi con la misma intensidad. Es una componente de la serie que recoge oscilaciones que se producen alrededor de la tendencia, de forma repetitiva y en períodos iguales o inferiores a un año Su nombre proviene de las estaciones climatológicas: primavera, verano, otoño e invierno Las variaciones estacionales, como veremos, responden fundamentalmente a factores relacionados al clima, lo institucional o las expectativas y no a factores de tipo económico. En la gráfica no se observa ningún movimiento estacional, puesto que se trata de una serie anual. Las principales fuerzas que causan una variación estacional son las condiciones del tiempo, como por ejemplo: 1. En invierno las ventas de helado, de abrigos. 2. En Navidad las ventas de establecimientos se suelen incrementar 3. El consumo de gasolina aumenta la primera decena del mes y disminuye en la última 4. El clima afecta a la venta de determinados productos: los helados se venden fundamentalmente en verano y la ropa de abrigo en invierno Todos estos fenómenos presentan un comportamiento estacional (anual, semanal, etc.)

165

Figura 1.3 Gráfica de una serie con variaciones estacionales.

4.1.4 Componente irregular (I) El componente aleatorio mide la variabilidad de las series de tiempo después de que se retiran los otros componentes. Contabiliza la variabilidad aleatoria en una serie de tiempo ocasionada por factores imprevistos y no ocurrentes. La mayoría de los componentes irregulares se conforman de variabilidad aleatoria. Sin embargo ciertos sucesos a veces impredecibles como huelgas, cambios de clima (sequías, inundaciones o terremotos), elecciones, conflictos armados o la aprobación de asuntos legislativos, pueden causar irregularidad en una variable. Movimientos irregulares o al azar o ruido estadístico. Si bien pueden ser generados por factores de tipo económico, generalmente sus efectos producen variaciones que solo duran un corto intervalo de tiempo. Aunque debe reconocerse que en ocasiones sus efectos sobre el comportamiento de una serie pueden ser tan intensos que fácilmente podrían dar lugar a un nuevo ciclo o a otros movimientos. Al analizar una serie de tiempo es necesario, entonces, tener en consideración el comportamiento de cada uno de estos componentes. Para ello el criterio más lógico a seguir es aislarlos secuencialmente partiendo de la serie original para luego analizarlos de manera individual. Si bien esto supone la utilización de m‚ todos estadísticos adecuados, que mas adelante veremos, la mejor forma de apreciarlos es a través de su observación visual. a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observación de la serie que corresponde a un comportamiento anormal del fenómeno (sin incidencias futuras) o a un error de medición. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie. Por ejemplo, en un estudio de la producción diaria en una fabrica se presentó la siguiente situación ver figura 1.4. Figura 1.4

166

Los dos puntos enmarcados en un círculo parecen corresponder a un comportamiento anormal de la serie. Al investigar estos dos puntos se vio que correspondían a dos días de paro, lo que naturalmente afectó la producción en esos días. El problema fue solucionado eliminando las observaciones e interpolando.

167

Conclusión. El análisis de series de tiempo según la tendencia es válido si es que no se dan otros factores que puedan influenciar de manera significativa la tendencia de ocurrencia de los datos, en nuestro caso un avance tecnológico inesperado podría alterar considerablemente el comportamiento de la tendencia. Cómo pudimos observar, el análisis de series de tiempo desempeña un papel importante en el análisis requerido para el pronóstico de eventos futuros. Existen varias formas o métodos de calcular cual va a ser la tendencia del comportamiento del proceso en estudio.

Bibliografía http://es.wikipedia.org/wiki/Serie_temporal http://www.eumed.net/cursecon/libreria/drm/1m.htm http://www.estadisticas.gobierno.pr/iepr/LinkClick.aspx?fileticket=4_BxecUaZmg%3D &tabid=100 http://www.slideshare.net/emibellisanabria/componentes-de-una-serie-de-tiempo Berenson, M. & Levine, D., (1996) Estadística Básica para Administración (6ª Edición). Editorial Prentice Hall.

168

10.

ACTIVIDAD 2 – Dos ejemplos prácticos.

Ejercicio 1 Ángel Freire II Ajuste de tendencia Debido al éxito de los consejos dados respecto a los pronósticos semanales, Ángel Freire le pide ayuda nuevamente para pronosticar la tendencia de ventas del diario "El Profeta". Según reconoce en el último mes ha comenzado a ganar mayor porción del mercado (MARKET SHARE) Por tal motivo propone como herramienta de pronóstico "eficaz" alguna que ajuste dicha tendencia. Solución y gráfica. Ejercicio 2 Ángel Freire, editor del diario 'El Profeta" pide asesoramiento para pronosticar la tirada de cada día porque, según le comentó, reconoce la necesidad de establecer un criterio serio para la impresión de sus diarios ya que actualmente suele imprimir lo mismo que la semana anterior, y eso lo deja mal parado. Ud. le pide un detalle de las ventas del último mes, para poder tener información suficiente al momento de opinar. Según los datos aportados el primer objetivo es reconocer las impresiones para la semana siguiente, pero nunca se sabe dónde puede terminar el asesoramiento. Solución y gráfica.

Fuente de información: https://www.google.com.mx/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0C DEQFjAB&url=http%3A%2F%2Fmaterias.fi.uba.ar%2F7628%2FPronosticosEjercicio s.xls&ei=UoLU6DuJcSBqgaMkoHYAg&usg=AFQjCNGO8PGZQJl0mbkdsmzbGz1u7lJ0yA

169

170

11.

ACTIVIDAD 3 – Diagrama en “XMind” sobre el tema 4.2.

171

12.

ACTIVIDAD 4 – Vídeo sobre el tema 4.1.

172

173

174

UNIDAD 5. ESTADÍSTICA NO PARAMÉTRICA. Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas, las pruebas no paramétricas no requieren supuestos acerca de las distribuciones poblacionales. En consecuencia, las pruebas de hipótesis no paramétricas suelen llamarse pruebas de distribución libre. Aunque el término no parmétrica sugiere que la prueba no se basa en un parámetro, hay algunas pruebas no paramétricas que si dependen de un parámetro, como la media. Sin embargo, las pruebas no paramétricas no requieren una distribución en particular, por lo que algunas veces se les conoce como prueba de distribución libre. Aunque distribución libre es una descripción más precisa, por lo regular se utiliza el término no paramétrica. Ventajas de los métodos no paramétricos: 1. Los métodos no paramétricos se aplican a una amplia variedad de situaciones, puesto que no tienen los requisitos más estrictos de los métodos paramétricos correspondientes. En particular, los métodos no paramétricos no requieren poblaciones distribuidas normalmente. 2. A diferencia de los métodos paramétricos, los métodos no paramétricos con frecuencia se aplican a datos categóricos, como el género de quienes responden una encuesta. 3. Los métodos no paramétricos por lo regular implican cálculos más sencillos que los métodos paramétricos correspondientes, por lo tanto, son más fáciles de entender y aplicar. Desventajas de los métodos no paramétricos: 1. Los métodos no paramétricos tienden a desperdiciar información, pues los datos numéricos exactos suelen reducirse a una forma cualitativa. Por ejemplo, en la prueba del signo no paramétrica, las pérdidas de peso de las personas que se someten a una dieta se registran simplemente como signos negativos; las magnitudes reales de las pérdidas de peso se ignoran. 2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, por lo que para una prueba no paramétrica generalmente necesitaremos evidencia más fuerte para rechazar una hipótesis nula.

5.1 ESCALA DE MEDICIÓN. Escala nominal. En esta escala los números se usan solo para identificar categorías. No representan ninguna cantidad ni monto como tal. Ejemplo. Si cuatro áreas de ventas se numeran del 1 al 4 como números de identificación general. Entonces se emplea una escala nominal, ya que los números sirven simplemente como nombres de las categorías. Escala ordinal. En esta escala, los números representan rangos o grados. Los números indican magnitud relativa, pero las diferencias entre rangos no se suponen iguales. Ejemplo. Un analista de inversiones clasifica cinco acciones del 1 al 5 en términos de potencial aumento de valor. La diferencia entre en el potencial aumento de valor entre las acciones clasificadas como 1 y 2 por lo general no será igual que. Por ejemplo la diferencia entre las acciones clasificadas como 3 y 4. Escala de intervalos. En esta escala. Se representan las diferencias medidas entre valores. Sin embargo, el punto cero es arbitrario y no es un cero “absoluto”. Por tanto, los números no pueden compararse mediante cocientes. Ejemplo. En cualquiera de las dos escalas de temperatura Fahrenheit o Celsius, una diferencia de 5°, por ejemplo de 70°F a 75°F, es la misma diferencia en temperatura que de 80°F a 85°F. Sin embargo, no se puede decir que 60°F sea el doble de calor que 30°F, debido a que el punto correspondiente a 0°F no es un punto cero absoluto (de completa ausencia de cualquier forma de calor). Escala de razón. En esta escala existe un verdadero punto cero, y por tanto las mediciones se pueden comparar en forma de cocientes. Ejemplo. No solamente es verdad que una diferencia en el valor de inventario de $5 000 es la misma diferencia entre, por ejemplo, $50 000 y $55 000 o entre $60 000 y $65 000; también es verdad que un valor de inventario de $100 000 es dos veces mayor que un valor de inventario de $50 000.

175

5.2 MÉTODOS ESTADÍSTICOS CONTRA NO PARAMETRICOS. El punto central del análisis paramétrico es algún parámetro poblacional para el que el estadístico muestral sigue una distribución conocida, las mediciones que se realizan pertenecen a las escalas de intervalo o de razón. Cuando no se satisface uno o más de estos requisitos o supuestos, entonces se puede usar los métodos llamados no paramétricos. Un término alternativo es método de distribución libre, el cual se enfoca de manera especial al hecho de que no se conoce la distribución del estadístico muestral. Si se justifica el uso de una prueba paramétrica, tal como la prueba “t”, entonces siempre se preferirá su uso al de su equivalente no paramétrica. Esto se debe a que si se usa el mismo nivel de significancia para ambas pruebas, entonces la potencia correspondiente a la prueba no paramétrica siempre es menor que la prueba paramétrica equivalente (la potencia de una prueba estadística es la probabilidad de rechazar una hipótes nula falsa). Las pruebas no paramétricas con frecuencia se usan con muestras pequeñas, debido a que con este tIpo de muestra no se puede invocar el teorema del límite central. Las pruebas no paramétricas pueden estar dirigidas hacia hipótesis concernientes a la forma, la dispersión o la localización (la mediana) de una población. En la mayoría de las aplicaciones, las hipótesis se refieren al valor de la media, a la diferencia entre medias o la diferencia entre varias medias. Esto contrasta con los procedimientos paramétricos que se centran sobre todo en las medias poblacionales. La prueba Chi cuadrada representa un ejemplo de una prueba no paramétrica, ya que los datos que se analizan pertenecen a la escala nominal (datos categóricos).

5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD. Una corrida es una serie de observaciones iguales. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Ejemplo. Suponga que cuando una muestra aleatoria de n=10 personas se clasifica de acuerdo con el sexo, la secuencia de las observaciones es: M, M, M, M, F, F, F, F, M, M, en estos datos hay tres corridas o series de elementos iguales. Tratándose de datos numéricos, una manera de obtener un esquema de dos categorías es clasificar cada observación como superior o inferior a la mediana del grupo. En general, tanto muchas menos como muchas más corridas de las que se esperarían por azar conducen a rechazar la hipótesis nula de que la sucesión de las observaciones sea aleatoria. El número de corridas de elementos iguales se establece a partir de los datos muestrales usando el símbolo “R” para designar el número de corridas observadas. Si n 1 es el número de elementos de un tipo en la muestra y n2 es el número de elementos del otro tipo en la muestra, la media y el error estándar correspondiente a la distribución muestral del estadístico de la prueba “R” cuando la sucesión es aleatoria son:







2 n1 n2 1 n1  n2 2 n1 n2 2 n1 n2  n1  n2 

n  n  n  n  1 2

Si n1>20 o n2>20, la distribución muestral de “r” se aproxima a la distribución normal. Por tanto, bajo tales circunstancias el estadístico “R” se puede convertir en el estadístico de la prueba “z” como sigue:

Z

R  uR



Ejemplo: Se entrevistó a una muestra de 36 personas en una encuesta de investigación de mercados, con 22 mujeres (M) y 14 hombres (H) incluidos en la muestra. Las personas que integraron la muestra se obtuvieron en el siguiente orden: H, M, M, M, M, H, H, H, M, H, M, M, M, H,

176

H, M, M, M, M, H, M, M, M, H, H, M, M, M, H, M, H, H, M, M, M, H. Use la prueba de corridas para probar la aleatoriedad de este conjunto de observaciones, use un nivel de significancia de 5%. Solución.

2 n1 n2 (2)(22)(14) 616 1  1   1  18.1 22  14 36 n1  n2 2 n1 n2 2 n1 n2  n1  n2  ( 2)( 22)(14)( 2)( 22)(14)  22  14 (616)(616  36)   2 2 2 R (36) (35)  22  14 (22  14  1) n1 n2 n1  n2  1







357280  2.81 45360



Con un nivel de 5% de significancia. Los valores críticos de z=1.96

Z

R  uR





17  18.1  0.39 2.81

Por lo tanto no se puede rechazar la hipótesis nula de que la secuencia de mujeres y hombres haya ocurrido de forma aleatoria.

Ejercicios 1. Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usando los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B, A, B, B, B, A, A, A, B, B, A, B, B, B, B, A, A, A, A, B, A, B, A, A, B, B, B, A, A, B, A, A, A, A, B, B, A, B, B, A, A, A, A, B, B, A, B, B, B, B, A, A, B, B, A, B, A, A, B, B. Solución:

2 n1 n2 (2)(29)(31) 1798 1  1  1  30.97 29  31 60 n1  n2 2 n1 n2 2 n1 n2  n1  n2  ( 2)( 29)(31)( 2)( 29)(31)  29  31 (1798)(1738)   2 2 2 R (60) (59)  29  31 (29  31  1) n1 n2 n1  n2  1







3124924  3.83 212400



Con un nivel de 5% de significancia. Los valores críticos de z=1.96

Z

R  uR





29  30.97  0.513 3.84

No se rechaza la hipótesis nula y concluir que los muñecos se ponen en las cajas en orden aleatorio. 2. La tabla siguiente reporta una muestra de 40 montos de préstamos personales, la sucesión en la que se recolectaron los datos fue en sentido de los renglones de la tabla. La mediana del monto de los préstamos en la tabla es $944.50. Pruebe la aleatoriedad de esta sucesión de montos de préstamos clasificando cada cantidad como superior o inferior a la mediana. Use un nivel de significancia de 5%. 932 1000 356 2227 515 554 1190 954 452 973 300 2112 1900 660 1610 445 1200 720 1525 784 1278 1388 1000 870 2540 851 1890 630 586 329 935 3000 1650 1423 592 334 1219 727 655 590 Solución:



2 n1 n2 (2)(21)(19) 798 1  1   1  20.95 21  19 40 n1  n2

177



2 n1 n2 2 n1 n2  n1  n2 



n  n  n  n  1 2



( 2)( 21)(19)( 2)( 21)(19)  21  19

 21  19

( 21  19  1)



(798)(758) 2 ( 40) (39)

604884  3.11 62400

Con un nivel de 5% de significancia. Los valores críticos de z=1.96

Z

R  uR





28  20.95  2.26 3.11

Se rechaza la hipótesis nula

5.4 UNA MUESTRA: PRUEBA DE SIGNOS. La prueba de signos puede usarse para probar una hipótesis nula respecto al valor de la mediana poblacional. Por tanto, es el equivalente no paramétrico a una prueba de hipótesis respecto al valor de la media poblacional. Se requiere que los valores de la muestra aleatoria pertenezcan por lo menos a la escala ordinal, sin que requiera ningún supuesto acerca de la forma de la distribución de la población. Ejemplo: Se afirma que el número de unidades que se ensambla con un sistema rediseñado va a ser mayor que con el sistema anterior, para el cual la median poblacional es de 80 unidades por turno de trabajo. Sin otorgarle el beneficio de la duda al sistema rediseñado. Pruebe con un nivel de significancia de 55 Realice la prueba de signos. Turno de muestreo 1 2 3 4 5 6 7 8 9 10 11 12

trabajo

que

Unidades ensambladas (x)

Signo de la diferencia (X-80)

75 85 92 80 94 90 91 76 88 82 96 83

+ + 0 + + + + + + +

p=0.5 q=0.5 n=11 x=9.10.11 Respuesta 0.0328 La siguiente tabla reporta las ventas unitarias de una nueva herramienta en una muestra de 12 sucursales durante cierto mes. No se conoce la forma de la distribución y por tanto, dado el pequeño tamaño de la muestra, una prueba estadística paramétrica no es adecuada. Use la prueba de signos respecto a la hipótesis nula de que la mediana del monto de ventas en la población no es mayor que 10 unidades por sucursal. Use un nivel de significancia de 5% Herramientas/sucursal 8 18 9 12

178

10 14 16 7 14 11 10 20 Respuesta 0.1719 la hip贸tesis nula no puede rechazarse

5.5 UNA MUESTRA: PRUEBA DE WILCOXON. 5.6 DOS MUESTRAS: PRUEBA DE MANN-WHITNEY. 5.7 OBSERVACIONES PAREADAS: PRUEBA DE SIGNOS. 5.8 OBSERVACIONES PAREADAS PRUEBA DE WILCOXON. 5.9 VARIAS MUESTRAS INDEPENDIENTES: PRUEBA DE KRAUSKAL_WALLIS. 5.10 APLICACIONES DEL PAQUETE COMPUTACIONAL.

179

180

13.

ACTIVIDAD 1 – Ventajas y desventajas.

ANÁLISIS NO PARAMÉTRICOS. Qué es un análisis no paramétrico. Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal. La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro, hay algunas pruebas no paramétricas que dependen de un parámetro tal como la media. Las pruebas no paramétricas, sin embargo, no requieren una distribución particular, de manera que algunas veces son referidas como pruebas de libre distribución. Aunque libre distribución es una descripción más exacta, el término no paramétrico es más comúnmente usado. Las siguientes son las mayores ventajas y desventajas de los métodos no paramétricos.

VENTAJAS

DESVENTAJAS

1. Los métodos no paramétricos pueden ser aplicados a una amplia variedad de situaciones porque ellos no tienen los Requisitos rígidos de los métodos paramétricos Correspondientes. En

1. Los métodos paramétricos tienden a información porque numéricos exactos frecuentemente reducidos Forma cualitativa.

particular, los métodos no paramétricos no requieren poblaciones normalmente Distribuidas.

181

no perder datos son a una

2. Diferente a los métodos paramétricos, los métodos no paramétricos pueden frecuentemente ser aplicados a datos no numéricos, tal como el género de los que Contestan una encuesta.

3. Los métodos no paramétricos usualmente involucran simples computaciones que los correspondientes en los métodos paramétricos y son por lo tanto, más fáciles para entender y aplicar 4. Por lo general, son fáciles de Entender.

usar

2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, de manera que con una prueba no paramétrica generalmente se necesita evidencia más fuerte (así como una muestra más grande o mayores diferencias) antes de Rechazar una hipótesis nula. 3. desperdician Información.

A veces, ignoran, o pierden

4. No son tan eficientes como y las paramétricas.

5. Eliminan la necesidad de suposiciones 5. Llevan a una mayor Restrictivas de las pruebas paramétricas. probabilidad de no rechazar una hipótesis nula falsa (incurriendo en Un error de tipo II). Cuando los requisitos de la distribución de una población son satisfechos, las pruebas no paramétricas son generalmente menos eficientes que sus contrapartes paramétricas, pero la reducción de eficiencia puede ser compensada por un aumento en el tamaño de la muestra.

6. Se pueden usar con muestras pequeñas

182

7. Se pueden usar con datos cualitativos.

FUENTES DE INFORMACIÓN

Hernández, Fernández y Baptista, Metodología de Investigación, Ediciones 2º y5ª. Briones, Guillermo, Análisis e Interpretación de Datos, SECAB, 1992.

183

14.

ACTIVIDAD 2 –

Prueba del Signo para Muestras Pareadas EJEMPLO 1 Un artículo informa cerca de un estudio en el que se modela el motor de un cohete reuniendo el combustible y la mezcla de encendido dentro de un contenedor metálico. Una característica importante es la resistencia al esfuerzo cortante de la unión entre los dos tipos de sustancias. En la siguiente tabla se muestran los resultados obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hipótesis de que la mediana de la resistencia al esfuerzo cortante es 2000 psi, utilizando α= 0.05. Solución: Se mostrará la tabla del ejercicio y es función del investigador poner los signos con respecto a la mediana.

Observación Resistencia al esfuerzo cortante xi

Signo de la diferencia xi-2000

Observación Resistencia al esfuerzo cortante xi

Signo de la diferencia

xi-2000

1 2 3 4 5 6 7 8 9 10

2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.10 2357.90 2256.70

+ + + + + + +

11 12 13 14 15 16 17 18 19 20

2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70

+ + + + + + + -

De la tabla se puede observar que el estadístico de prueba r = 14. Regla de decisión: +

Si el valor de P correspondiente a r =14 es menor o igual que α =0.05 se rechaza H0. Cálculos:

184

Puesto que r =14 es mayor que n/2=20/2=10, el valor de P se calcula de +

P=2P(R α 14 cuando p = ½) La P se calcula con la fórmula de la distribución binomial:

Conclusión: Como P=0.1153 no es menor que α =0.05, no es posible rechazar la hipótesis nula de que la mediana de la resistencia al esfuerzo constante es 2000 psi.

EJEMPLO 2 Como parte de un estudio sobre transferencia del aprendizaje entre tareas simples y complejas, se diseña un experimento en el que cada sujeto se le presenta 5 tareas simples y a continuación 1 tarea compleja. Al finalizar ésta se le pregunta a cada sujeto si le ha parecido más fácil o más difícil que las 5 anteriores. Si algún sujeto contestaba “igualmente difícil”, se le seguía preguntando hasta decidirse por “más fácil “o “más difícil “. Las respuestas dadas por los 10 sujetos fueron: SUJETO

1 2 3 4 5 6 7 8 9 10

RESPUESTA D F F D F F F D F F ¿Podemos concluir que ha habido transferencia, a un nivel de significación de 0,01? Siendo D (Mas difícil = - ) y F = + H0: P (-) "½ (No ha habido transferencia) H1: P (-) <½ (Ha habido transferencia) Suponemos que las observaciones son independientes y que bajo H0 p (-) es constante por cada sujeto. Estadístico de contraste t1 = 7, t2 = 3, t = 3.

185

(3 + 0,5) - (10 / 2) Z = -0,949 10 / 4 Dado que: 0,01 y Z0, 01 = -2,33: P T " 3) = 0,172 > 0,01, mantenemos H0. -0,949 > -2,33, mantenemos H0. No hay evidencia suficiente para concluir que ha habido transferencia. Sólo si T hubiera tomado valor 0, podríamos haber llegado a tal conclusión ya que P (T " 0) " 0,001 < 0,01.

EJEMPLO 3 Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economía de combustible. Se equipan 16 automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con cinturón y se manejan una vez más por el recorrido de prueba. Se registra el consumo de gasolina, en kilómetros por litro, de la siguiente manera: Automóvil

Llantas radiales

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9

186

Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8

¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economías de combustible que los equipados con llantas regulares con cinturón? Solución:

Regla de decisión: Si zR> 1.645 no se rechaza Ho. Si zR> 1.645 se rechaza Ho. Se procede a realizar las diferencias entre de los kilómetros por litro entre llantas radiales y con cinturón: Automóvil

Llantas radiales

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9

187

Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8

d + + + + 0 + + 0 + + + + +

Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan + los valores de cero. Se tiene r = 11

Decisión y conclusión: Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un α = 0.05 que las llantas radiales mejoran la economía de combustible.

188

15.

ACTIVIDAD 3 – Investigación.

Introducción Existen algunos métodos disponibles para verificar varios aspectos de la calidad de los números. Si no existiera un generador particular de números aleatorios disponibles, se le recomienda al usar estos métodos cuando se realice una simulación. Uno de estos métodos es el de prueba de corridas. Las propiedades más importantes en los números aleatorios son uniformidad e independencia. Esta prueba puede ser utilizada mediante la pruebas de ajustes de bondad disponible. Los

números

pueden

estar

uniformemente

independientes uno del otro.

189

distribuidos

aun

ser

ACTIVIDAD 3 UNIDAD 5 Prueba de corridas para analizar la aleatoriedad. Una prueba de corridas es un método que nos ayuda a evaluar el carácter de aleatoriedad de una secuencia de números estadísticamente independientes ny números Una corrida es una serie de observaciones similares. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Ejemplo. En relación con una muestra aleatoria de n = 10 individuos, supongamos que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M, M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos semejantes. Respecto de datos numéricos, un medio para obtener el esquema requerido de dos categorías es clasificar cada observación según si es superior o inferior a la mediana del grupo. En general, mucho menos corridas o mucho más corridas que las que serían de esperar al azar resultarían en el rechazo de la hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria. El número de corridas de elementos semejantes se determina de acuerdo con los datos muéstrales, con el uso del símbolo R para designar el número de corridas observadas. Si n1 equivale al número de elementos muestreados de un tipo y n2 al número de elementos muestreados del segundo tipo, la media y el error estándar asociados con la distribución de muestreo de la estadística de prueba R cuando la secuencia es aleatoria son Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la distribución normal. Por lo tanto, en estas circunstancias la estadística R puede convertirse a la estadística de prueba z de la siguiente manera:

paramétrica se dispone de tablas de valores críticos de la estadística de prueba R.

190

CORRIDAS POR ARRIBA Y POR ABAJO DEL PROMEDIO Procedimiento Generar la muestra de tamaño N de números aleatorios. Con base en esta muestra, obtener una nueva sucesión binaria, según el criterio siguiente: Si rj es menor o igual a 0.50 entonces asignarle a rj el símbolo 0. Si rj es mayor a 0.50 entonces asignarle a rj el símbolo 1. La frecuencia esperada para cada longitud de corrida i, es:

EJEMPLO 1 Dada la siguiente muestra de tamaño 30 de números aleatorios, aplicar la prueba de corridas, para la independencia 0.15

0.31

0.81

0.48

0.01

0.60

0.26

0.34

0.70

0.31

0.07

0.06

0.33

0.49

0.77

0.04

0.43

0.92

0.25

0.83

0.68

0.97

0.11

0.00

0.18

0.11

0.03

0.59

0.25

0.55

Comparando los números aleatorios según el criterio establecido, se obtiene la siguiente sucesión binaria. Leyendo de izquierda a derecha se agrupan los símbolos del mismo tipo para formar las corridas.

191

En la siguiente tabla se resume la informaciĂłn necesaria para el cĂĄlculo de la Jicuadrada Longitud de

(FE-FO)2/FE

8.000

0.125

3.875

0.197

1.875

0.008

0.906

0.010

0.438

0.721

corrida i

Como para las longitudes de corrida i = 2, 3, 4, 5; las frecuencias observadas son menores o igual a cinco, agrupamos estas longitudes de corridas en una sola longitud de corrida ? 2. i

(FE-FO)2/FE

0.125

>=2

7.04

0.936 2

X0 = 1.061 2

El valor en tablas de X 1.5%= 3.84; entonces no se puede rechazar la independencia de los nĂşmeros aleatorios.

192

CORRIDAS ASCENDENTES Y DESCENDENTES Procedimiento 1. Generar

muestra de

tamaño

números aleatorios.

2. Construir la sucesión binaria de acuerdo al siguiente criterio: Si rj es menor

o igual a rj+1 entonces

asignarle

a rj el símbolo 0.

Si rj es mayor que rj+1 entonces asignarle a rj el símbolo 1. 2

3. Con base en la distribución X , efectuar la prueba, donde la frecuencia esperada de las longitudes de corrida i se calculará con:

EJEMPLO 2. Aplicar la prueba de las corridas ascendentes y descendentes a la muestra de números aleatorios del ejemplo anterior. Compararemos a los números por fila, pero es indistinto hacerlo por columna. 0.15

0.31

0.81

0.48

0.01

0.60

0.26

0.34

0.70

0.31

0.07

0.06

0.33

0.49

0.77

0.04

0.43

0.92

0.25

0.83

0.68

0.97

0.11

0.00

0.18

0.11

0.03

0.59

0.25

0.55

Ahora la sucesión binaria es 0

193

Obsérvese que la última celda se deja en blanco, pues no hay con qué número comparar. (Aquí N = 29)

Longitud de FE corrida i

(FE-FO) /FE

11.500 11

0.020

5.083

0.001

1.400

0.257

0.292

0.005

(FE-FO) /FE

11.500

0.020

>=2

6.483

0.004 2

X0 = 0.024 Como el valor calculado de 0.024 es menor que el valor en tablas de Ji-cuadrada 2

X 1.5%= 3.84, no se puede rechazar la independencia de los números aleatorios.

194

Bilbliografia

http://books.google.com.mx/books?id=0KVtr8EBZIQC&printsec=frontcover&dq=Pr ueba+de+corridas+para+aleatoriedad+conclusion&hl=es-419&sa=X&ei=YliRUqpGciIqgaUgoHABA&ved=0CFUQ6AEwCA#v=onepage&q&f=false

195

16.

ACTIVIDAD 4 – EJERCICIO 1 Los siguientes datos representan el número de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga. Solución: H0;

= 1.8

H1;

1.8

Se procederá a efectuar las diferencias y a poner rango con signo a los datos. Dato

di = dat 1.8

o -

1.5

-0.3

5.5

2.2

0.4

0.9

-0.9

1.3

-0.5

2.0

0.2

1.6

-0.2

1.8

Se anula

1.5

-0.3

5.5

2.0

0.2

1.2

-0.6

1.7

-0.1

Rangos

Regla de decisión: Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla A.16 muestra que la región crítica es w 8. Cálculos: w+ = 7 + 3 + 3 = 13

196

w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42 por lo que w = 13 (menor entre w+ y w-). Decisión y Conclusión: Como 13 no es menor que 8, no se rechaza H0 y se concluye con un = 0.05 que el tiempo promedio de operación no es significativamente diferente de 1.8 horas. EJERCICIO 2

Se afirma que un estudiante universitario de último año puede aumentar su calificación en el área del campo de especialidad del examen de registro de graduados en al menos 50 puntos si de antemano se le proporcionan problemas de muestra. Para probar esta afirmación, se dividen 20 estudiantes del último año en 10 pares de modo que cada par tenga casi el mismo promedio de puntos de calidad general en sus primeros años en la universidad. Los problemas y respuestas de muestra se proporcionan al azar a un miembro de cada par una semana antes del examen. Se registran las siguientes calificaciones del examen: Con Sin problemas problemas de de Par muestra muestra 1

531

509

621

540

663

688

579

502

451

424

660

683

591

568

719

748

543

530

575

524

197

Pruebe la hipótesis nula en el nivel de significancia de 0.05 de que los problemas aumentan las calificaciones en 50 puntos contra la hipótesis alternativa de que el aumento es menor a 50 puntos. Solución: La prueba de rango con signo también se puede utilizar para probar la hipótesis nula  d0. En este caso las poblaciones no necesitan ser simétricas. Como con la prueba de signo, se resta d 0 de cada diferencia, se clasifican las diferencias ajustadas sin importar el signo y se aplica el mismo procedimiento. En este caso d0 = 50, por lo que se procede a calcular las diferencias entre las muestras y luego restarles el valor de 50. Se representara con y  la calificación media de todos los estudiantes que resuelven el examen en cuestión con y sin problemas de muestra, respectivamente. H0;





H1;





Regla de decisión: Para n=10 la tabla muestra que la región crítica es w+ 11. Cálculos:

Par

Con Sin problemas problemas de de muestra muestra

di – Rangos d0

531

509

-28

621

540

663

688

81 25

-75

579

502

3.5

451

424

-23

198

660

683

-73

591

568

-27

3.5

719

748

-79

543

530

-37

575

524

w+ = 6 + 3.5 + 1 = 10.5 Decisión y Conclusión: Como 10.5 es menor que 11 se rechaza H0 y se concluye con un = 0.05 que los problemas de muestra, en promedio, no aumentan las calificaciones de registro de graduados en 50 puntos.

EJERCICIO 3

Un investigador desea comparar el nivel de C.I. en jóvenes universitarios del 1er semestre con el C.I. del los mismos universitarios cuando estén en 6to semestre. Elección de la prueba estadística. El modelo experimental tiene dos muestras dependientes. Las mediciones no tienen una escala de intervalo, por lo que su ordenamiento se hace en escala ordinal.

Planteamiento de la hipótesis. Hipótesis alterna (Ha). El nivel de C.I. de los jóvenes universitarios estando en 1er semestre es menor al que adquieren al estar en 6to semestre. Hipótesis nula (Ho). No habrá diferencia en el nivel de C.I. de los jóvenes universitarios estando en 1er semestre y cuando estén en 6to semestre.

199

Nivel de significación. Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho. Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha. Aplicación de la prueba estadística. Efectuar las diferencias entre los datos sobre le C.I. antes y después, elaborar los rangos de las diferencias y hacer la sumatoria de los rangos de signo de menor frecuencia.

Sumatoria de T = 201.5 La sumatoria del valor T de Wilcoxon es igual a 201.5 y, como se especificó en los pasos, éste se debe transformar en valor de Z, para conocer la probabilidad de que aquella sea o no significativa. Para ello debemos calcular primero el promedio y la desviación estándar de la T de Wilcoxon.

200

Una vez calculados el promedio y la desviación estándar del valor T de Wilcoxon, calculamos el valor Z.

El valor ZT calculado se localiza entre los valores Z de la distribución normal de la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribución normal. En la intersección de la hilera donde se encuentra el 0.6 y la columna 0.03, se puede observar la cifra 0.2643, la cual indica la probabilidad de que la magnitud de ZT difiera de T. Decisión. La probabilidad de 0.2643 es mayor que 0.05, por lo cual se acepta Ho y se rechaza Ha. 0.2643 > 0.05 se rechaza Ha

201

17.

ACTIVIDAD 5 –

202

Conclusión. En conclusión y en base a todo lo visto en este semestre, podemos decir que la estadística no sólo se basa en la recolección, clasificación y presentación de los hechos sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los fenómenos. En la primera unidad pudimos destacar la importancia conceptual que tienen los errores tipo I y II, en la estructura básica de la prueba de hipótesis y aprendimos sobre las dos muestras pareadas. Ya para la segunda unidad pudimos conceptualizar lo que es la metodología de la prueba de hipótesis por medio de dos procesos y analizamos la Ji-cuadrada. En la tercera unidad empezamos a abordar temas relacionados con los análisis de relación, de la correlación lineal simple y múltiple dónde analizamos sus conceptos entre otros. Para la cuarta unidad se complementó la información con temas como los análisis de series de tiempo, los promedios móviles y la suavización exponencial para que después realizar análisis de tendencias no lineales y buscar ejemplos prácticos para aplicar todas estas técnicas. Para finalizar en la quinta unidad aprendimos las ventajas y desventajas de utilizar la estadística no paramétrica y utilizar criterios para resolver problemas relacionados a nuestra carrera. Durante el transcurso utilizamos diversas herramientas para poder comprender mejor los temas, realizar investigaciones, reportes y mapas mentales ayudó a que analizáramos más a fondo la estadística.

203

204

205