Estadistica descriptiva con excel avanzado

Page 1

CURSO DE ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

D. Francisco Parra Rodríguez. Jefe de Servicio de Estadísticas Económicas y Sociodemográficas. Instituto Cántabro de Estadística. Dª. Mª Paz Moral Zuazo. Profesora Titular de Universidad. Universidad del País Vaco

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


ÍNDICE 1. El Método Estadístico 1.1. Introducción 1.2. El Método Estadístico 1.3. Conceptos y definiciones básicas 2. Introducción a las funciones estadísticas en Excel 2.1. Funciones en Excel 2.2. Gráficos 2.3. Tablas y gráficos dinámicos 2.4. Las macros “Análisis de datos” para el tratamiento estadístico 3. Análisis de distribuciones 3.1. Introducción 3.2. Distribuciones de frecuencias unidimensionales 3.3. Medidas de posición en una distribución de frecuencias unidimensional 3.4. Características de las medidas de dispersión 3.5. Distribuciones de frecuencias bidimensionales 3.6. Distribuciones de probabilidad. Algunas distribuciones de interés 4. Medidas de desigualdad y concentración 4.1. Medidas de forma 4.2. Medidas de concentración: índice de Gini y Curva de Lorenz 4.3. Cálculo e interpretación de los índices de concentración 5. Modelo de regresión lineal 5.1. El método de los mínimos cuadrados ordinarios 5.2. Bondad del ajuste 5.3. Inferencia acerca de los estimadores 5.4. Predicción en el modelo de regresión 5.5. Violación de los supuestos del modelo lineal de regresión 6. Regresión lineal múltiple 6.1. Introducción 6.2. Deficiencias muestrales: multicolinealidad y errores de medida 6.3. Modelo con variables cuantitativas y cualitativas como regresores 6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad 6.5. El modelo probabilístico lineal 7. Números índices 7.1. Introducción 7.2. Índices simples y complejos 7.3. Índices ponderados 7.4. Índices de precios 7.5. Enlaces y cambios de base 7.6. Deflactación de series económicas 7.7. Principales índices de precios españoles 8. Series temporales 8.1. Introducción a las series temporales 8.2. Componentes de una serie temporal 8.3. Análisis de la tendencia 8.4. Análisis de la estacionalidad Anexo I: Análisis de regresión con Excel Anexo II: Acceso a datos externos desde Excel Anexo III: Macros en Excel

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

5 5 7 9 10 13 17 23 23 31 44 47 51 55 57 57 61 65 66 68 69 79 82 84 88 92 95 96 97 98 99 101 102 107 110 111 121 131 141 149


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


1.- El método estadístico 1.1.- Introducción Aunque la palabra Estadística proviene del latín “status” o “estado”, esta palabra sólo describe en parte su significado real, es decir, solo describe la función de la Estadística de llevar registros ordenados de datos para describir el “estado” de las cosas. Sin embargo, la Estadística va más allá de esta simple función. En forma más general, la Estadística es la ciencia que se ocupa de la colección, clasificación, organización, análisis, síntesis e interpretación de datos. En palabras sencillas podríamos decir que la Estadística es la ciencia de los datos En términos generales la Estadística aborda dos tipos de problemas: • •

Resumir, describir y explorar datos. Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogió la muestra.

Así, la Estadística se divide en dos partes íntimamente relacionadas: Estadística Descriptiva: Esta es la parte de la Estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias es interpretar) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida. Estadística Inferencial: Esta rama de la Estadística trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos. El conjunto de individuos o entidades que se desea describir se denomina población, mientras que una muestra es un subconjunto de individuos seleccionados de la población.

1.2.- El método estadístico Según el diccionario de la RAE el significado de la palabra Ciencia es (en su primera acepción): CIENCIA: Conjunto de conocimientos obtenidos mediante la observación y el razonamiento, sistemáticamente estructurados y de los que se deducen principios y leyes generales. Según esta definición podemos fácilmente comprender la razón de catalogar la Estadística como ciencia, ya que como se puede ver la estadística se adapta perfectamente a esta definición. Analicemos ahora cuales son los pasos que se han de seguir en cualquier investigación estadística o lo que es lo mismo, vamos a ver en que consiste el método estadístico, que es un método científico. Es tarea propia de la ciencia, observar adecuadamente los hechos, discernir que elementos son constantes en ellos y determinar las leyes que lo rigen, es decir, sus relaciones constantes Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


y universales. Es el método propio a la ciencia, el Método Científico, el que se aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la evaluación de los resultados obtenidos. En el método científico podríamos distinguir en forma esquemática, y con las limitaciones que esto supone, las siguientes etapas: Elección y enunciado del problema La elección de un problema con el fin de averiguar sus causas o de encontrarle soluciones, dependerá de los juicios de valor del investigador y de las condiciones sociales, políticas y económicas en las cuales se desarrolla la ciencia. El enunciado puede hacerse a través de la descripción de la situación problema o mediante el planteamiento de una pregunta. Formulación de una Hipótesis La hipótesis es una explicación de la situación problema o una respuesta posible a la pregunta planteada. Se formula en términos afirmativos respecto a relaciones entre variables pertinentes. Deducción de consecuencias verificables de la hipótesis Siendo la hipótesis una explicación o una respuesta general, muchas veces no es posible investigar directamente su veracidad. Se procede en estos casos a deducir en forma lógica consecuencias particulares de la hipótesis Verificación de la hipótesis La verificación puede hacerse, sobre todo en las ciencias exactas, mediante demostraciones teóricas basadas en relaciones aceptadas en el estado actual del conocimiento. Interpretación de los resultados Con los datos obtenidos en la etapa anterior se decide si se ha rechazar o no la hipótesis en estudio. Poniendo todo lo anterior en relación a lo que nos ocupa en el curso podemos ver cuales son las etapas del Método Estadístico. Podemos decir que es un conjunto de procedimientos aplicados en secuencia lógica a la obtención y análisis de datos. Es el método estadístico el que nos proporciona las técnicas necesarias para recolectar y analizar la información requerida. Podríamos distinguir en él una etapa de Planificación y otra de Ejecución Etapa de Planificación En esta etapa debemos considerar las siguientes fases: - Definición de objetivos: Corresponde formalmente a la descripción del problema que da origen a la investigación. Se debe señalar detalladamente lo que se pretende investigar, es decir, el qué, cómo, donde, cuando y por qué. - Definición del Universo: Se debe definir el grupo del cual se extraerá la información y a la cuál se referirán los resultados. - Diseño de la muestra: La teoría del Muestreo o de Diseño y Análisis de Experimentos pueden garantizarnos que la información que generaremos nos permitirá proyecciones válidas al universo de interés. - Definición de las unidades de observación, escalas de clasificación y unidades de medida: En una misma investigación puede haber varios objetivos parciales que requieran estudiar unidades de observación diferentes. - Preparación del plan de tabulación y análisis: El cuidado en este aspecto nunca podría considerarse excesivo, debería llegarse, tal vez, hasta considerar alternativas de análisis adecuadas para compensar algunas alteraciones accidentales del plan de trabajo.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Etapa de Ejecución En esta etapa podemos reconocer las siguientes fases: - Recolección de la información: En esta fase se recogen los datos de acuerdo a los planes establecidos anteriormente. Generalmente es lo que se conoce como Trabajo de Campo. Es importante garantizar la obtención correcta de la información, para lo cual hay que establecer los correspondientes procesos encaminados al control de calidad del proceso. - Tratamiento y Elaboración de la información: Una vez que se tienen los datos estos han de pasar por procesos de validación y depuración, que garanticen que la información obtenida es correcta (sin datos imposibles o inconsistentes). Asimismo hay que garantizar una correcta codificación de los datos, para un tratamiento correcto. Con los datos verificados, y generalmente en un soporte informático, se procede a la elaboración de tablas, informes y de todos los procedimientos estadísticos necesarios para lograr un mejor análisis de los mismos. En esta fase es donde intervienen las técnicas de estadística descriptiva que se van a estudiar. - Análisis de los resultados: El análisis de los resultados es la última fase del proceso, que en general depende del tipo de estudio que estemos realizando, que puede ser descriptivo, inferencial, confirmatorio, …

1.3.- Conceptos y definiciones básicas En esta sección se presentan algunas nociones básicas sobre lo que se va a tratar en el curso: Estadística descriptiva: Conjunto de métodos de descripción, análisis y representación de conjuntos numerosos de datos. Utiliza métodos numéricos y gráficos con el fin de resumir, ordenar y simplificar la información contenida en los datos. Población estadística: Conjunto de elementos que poseen una o varias características comunes y sobre los cuales se va a realizar el estudio. Debe estar perfectamente determinada, sin ningún tipo de ambigüedad, de forma que se pueda distinguir fácilmente si un elemento pertenece o no a la misma. Por ejemplo: varones mayores de 25 años, productos alimenticios, ciudades con más de cincuenta mil habitantes, etc. Una población puede ser finita o infinita, según el número de elementos que la compongan. Los elementos de la población se denominan unidades estadísticas o individuos y al número total de individuos que constituyen la población se le denomina tamaño de la población. Un individuo es, por tanto, cualquier ente observable que posee características medibles o clasificables. Muestra: A menudo, es imposible o poco práctico realizar un estudio exhaustivo de la población, por lo que se hace necesario seleccionar un subconjunto representativo de la misma, llamado muestra, cuyo estudio permite extraer conclusiones generalizables a toda la población. El número de elementos de la muestra se denomina tamaño de la muestra. Como ya hemos indicado, la estadística descriptiva trata únicamente de recoger, clasificar y resumir los datos obtenidos a partir del estudio de una muestra, sin pretender obtener conclusiones o hacer inferencias acerca de la población completa (objetivo de la inferencia estadística). Caracteres: Cualidades o características comunes de los individuos de la población, que se desean estudiar en dicha población. Por ejemplo, en la población formada por los estudiantes matriculados en la Diplomatura de Estadística para el curso actual, los caracteres pueden ser sexo, edad, color de ojos, estatura, peso, etc. Cada uno de los posibles estados que puede presentar un carácter se denomina modalidad. Por ejemplo: hombre-mujer, 18-19-20-21-etc., negros-marrones-verdes-azules son las modalidades de los caracteres sexo, edad y color de ojos, respectivamente. Las modalidades Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


de un carácter han de ser exhaustivas y excluyentes, es decir, cada individuo de la población debe presentar una y sólo una de esas modalidades. Los caracteres se pueden clasificar en cualitativos y cuantitativos: Caracteres cualitativos o atributos son aquellos cuyas modalidades no son medibles, por ejemplo, el sexo, el color de ojos, el nivel de estudios, la profesión, el estado civil, el grupo sanguíneo, la nacionalidad, el nivel socio-económico, etc. serían caracteres cualitativos de una persona. Aunque los caracteres cualitativos no se pueden medir numéricamente, su información puede venir dada en escala nominal o en escala ordinal. Se dice que la información relativa a un carácter viene dada en escala nominal si entre las distintas modalidades o categorías (no numéricas) no se puede establecer ningún orden natural, por ejemplo: sexo, color de ojos, profesión, estado civil, grupo sanguíneo, nacionalidad, etc. Por el contrario, en una escala ordinal sí es posible establecer un orden o graduación entre las distintas modalidades del carácter, por ejemplo: nivel de estudios (primaria-secundaria-bachillerato-universitariospostgrado), nivel socio-económico (bajo-medio-alto), etc. Caracteres cuantitativos son aquellos cuyas modalidades son medibles numéricamente, es decir, a cada modalidad se le asigna un número de forma natural. Por ejemplo, la edad, la estatura o el peso de una persona, el número de empleados de una empresa, el tamaño de un municipio, etc. Variable estadística o aleatoria. En general, una variable estadística es la representación matemática de un carácter. Las variables estadísticas se suelen representar mediante las letras X, Y, Z, etc. El término “variable” se refiere a que cambia de valor según el individuo que se observe y el término “aleatoria” a que el valor observado varía en función de una función de distribución de probabilidad, que puede ser conocida o no. Una variable estadística podrá tomar tantos valores como modalidades presente el carácter correspondiente. Los valores de una variable X se representarán mediante {x1;x2;…} los de una variable Y mediante {y1;y2;…}, y así sucesivamente. Atendiendo a la clasificación de los caracteres establecida anteriormente, las variables estadísticas se clasifican asimismo en: Variables estadísticas cualitativas: representan caracteres cualitativos y tienen un tratamiento bastante especial. Su información puede venir dada en escala nominal u ordinal. Variables estadísticas cuantitativas: representan caracteres cuantitativos y pueden ser: Discretas: son aquellas que sólo pueden tomar valores aislados (en número finito o infinito numerable), normalmente enteros (por ejemplo: número de hijos de una familia, número de alumnos en una facultad, etc.). Continuas: son las que, en general, pueden tomar cualquier valor real dentro de un intervalo (por ejemplo: el peso o la estatura de una persona, la temperatura de un cuerpo, la velocidad de un móvil, etc.) Notemos que, con frecuencia, la distinción entre estos dos tipos de variables es más teórica que práctica, en el sentido de que una misma variable puede ser considerada discreta o continua, dependiendo de la precisión de los aparatos de medida. Así, muchas variables continuas serán tratadas como discretas y viceversa. Probabilidad: si un suceso puede ocurrir de n maneras mutuamente excluyentes e igualmente verosímiles, y si na de éstas poseen un atributo A, la probabilidad de A es la fracción na/n (Mood y Graybill, 1978).

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2. Introducción a las funciones estadísticas en EXCEL. En este tema se van a introducir un conjunto de aplicaciones de Excel útiles para realizar ejercicios de Estadística: funciones estadísticas, gráficos, tablas dinámicas y las herramientas para el análisis de datos.

2.1. Funciones en Excel Una función es una fórmula definida en Excel, que usaremos para realizar operaciones complejas sobre valores numéricos, de texto o de otro tipo. Podremos aplicar funciones a datos ubicados en celdas individuales o conjuntos de datos (filas, columnas, matrices). Una función siempre devuelve un valor, que puede ser un texto, un número o un valor lógico. Podemos utilizar funciones escribiendo directamente una expresión o bien utilizando el asistente , una vez posicionados en la celda en la que deseamos que aparezca el resultado de la función. Veamos un ejemplo de escritura directa de una función: supongamos que deseamos calcular la

suma de las cantidades que figuran en la columna A, fila 10, columna B desde la fila 5 hasta la 10, y las constantes 50 y 37, y que este resultado aparezca en la celda A20. Para ello, hacemos clic sobre la celda A20 y escribimos =SUMA(A10;B5:B10;50;37) Los argumentos de una función pueden ser constantes, variables, rangos de celdas u otras funciones o expresiones, siempre y cuando su resultado sea un valor del mismo tipo que el argumento requerido. Los argumentos de una función se separan por punto y coma. Si utilizamos el asistente de fórmulas nos aparecerá el cuadro de diálogo “Insertar función”. Las funciones se encuentran agrupadas por categorías, que podemos ver en la lista desplegable, o bien podemos utilizar la búsqueda para localizar la función que nos interesa. Para cada una de las funciones, Excel dispone de un texto de ayuda con la descripción de la función, de sus argumentos y ejemplos de uso.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Una vez seleccionada la función, en la siguiente pantalla introduciremos los argumentos de la misma, escribiéndolos directamente o seleccionando rangos de celdas

Excel 2003 dispone de 80 funciones estadísticas para cálculo de medidas de tendencia central, dispersión y forma, para series de datos, así como distribuciones de probabilidad, recuentos y valores del estadístico en contrastes de hipótesis. En este curso veremos como aplicar las más habituales para obtener una descripción de nuestros datos.

2.2. Gráficos Excel permite crear gráficos a partir de los datos contenidos en un libro. Los gráficos permiten visualizar la información de la hoja para poder comparar datos y deducir conclusiones. TIPOS DE GRÁFICOS •

COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un período de tiempo.

BARRAS: Ilustran las comparaciones entre elementos individuales.

LÍNEAS: Muestran las tendencias de los datos a intervalos temporales y compara categorías.

CIRCULAR: Muestran el tamaño proporcional de los elementos que conforman un todo.

GRÁFICO XY O DIAGRAMA DE DISPERSIÓN: Muestran las relaciones entre valores numéricos de varias series de datos.

ÁREAS: Destacan la magnitud de los datos en el transcurso del tiempo.

ANILLOS: Al igual que un gráfico circular muestra la relación de las partes con un todo, aunque puede contener más de una serie de datos.

RADIALES: Compara los valores de series de datos. Cada categoría tiene su propio eje de valores. Las líneas conectan todos los valores de las mismas series.

SUPERFICIE: Son útiles para conocer las combinaciones óptimas (máximos o mínimos) entre dos conjuntos de datos.

BURBUJAS: Es un gráfico de dispersión pero con tres variables.

COTIZACIONES: Se utiliza para ilustrar la cotización de acciones. Requieren entre tres y cinco series de datos (máximo, mínimo y cierre; apertura, máximo, mínimo y cierre; volumen, máximos, mínimos y cierre; volumen, apertura, máximo, mínimo y cierre).

CÓNICOS, CILÍNDRICOS Y PIRAMIDALES: Son equivalentes a los gráficos de columnas y barras, cambiando únicamente la presentación. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


ELEMENTOS DE UN GRÁFICO

Resumen de gastos Marca de graduación

12.000

8.000 6.000

Área del gráfico

Área de trazado

9.735 9.246

10.000

Eje de valores

Título del gráfico

Est e año

5.500 4.139

Leyenda

Pasado año

4.000 2.000 1.488

2.000

2.000 1.500

Rótulos de datos

0

Líneas de división

Personal

Alquiler

Eje de categorías

Viajes

Suminist ros

Series de datos

CREAR UN GRÁFICO Seleccionamos el rango de datos que vamos a representar y pulsamos el asistente de gráficos o en el menú “Insertar” seleccionamos “Gráfico”. Seleccionamos el tipo de gráfico, para cada categoría de gráfico se nos ofrece un subtipo. En la ficha Tipos personalizados podemos encontrar gráficos combinación de dos tipos de gráficos, por ejemplo, líneas y columnas, y gráficos con diseños más vistosos.

En el 2º paso del asistente si no he especificado el rango de datos o está mal podemos seleccionarlo en la ficha Rango de datos pulsando el icono , que contrae el cuadro de diálogo para poder seleccionar de la hoja el rango de datos y seleccionamos si los datos queremos representarlos en filas o columnas. En la ficha Serie seleccionamos el rango donde se encuentran los datos y nombres de las series de datos y el rango de los rótulos de los ejes de categoría. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


er

En el 3 paso del asistente añadimos y damos formato a Títulos, Eje, Líneas de división, Leyenda, Rótulos de datos y Tabla de datos. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


En el último paso del asistente elegimos la ubicación del gráfico.

2.3. Tablas y gráficos dinámicos Una tabla dinámica consiste básicamente en una agrupación de una o varias series de datos desagregados, de forma que obtengamos una vista resumida de los mismos. Con las tablas dinámicas no solamente podremos elaborar casi cualquier tipo de informe que necesitemos, sino que además podremos actualizar automáticamente los mismos a medida que dispongamos de nuevos datos. Los informes de tablas y gráficos dinámicos constituyen potentes herramientas para la elaboración de publicaciones o informes. Para crear una tabla dinámica, acudiremos al menú “Datos” -> “Informe de tablas y gráficos dinámicos”

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


El Asistente nos guiará en tres pasos en el proceso de creación del informe. En primer lugar especificaremos la ubicación de los datos y el tipo de informe que vamos a generar. A continuación, marcamos el rango de celdas que contienen los datos

Por último indicamos donde vamos a situar la tabla dinámica

Una vez hecho esto, la tabla se muestra sin contenidos. Debemos especificar en qué posición de la tabla se presentarán los datos agregados. Para ello, seleccionaremos cada uno de los elementos de la lista y lo agregaremos a una de las áreas de filas, columnas, datos o página.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Destacar que la opción Área Página nos permite seleccionar otro campo, de forma que la tabla mostrará los datos para cada valor del campo que se ha especificado en Página, pero sólo uno cada vez. Hay un botón por cada título o campo de la base, esos botones se arrastran a: Página: Si queremos que el elemento se presente de manera individual, por páginas. Fila: Muestra los datos como cabecera de las filas. Columnas: muestra los datos como cabecera de columna. Área de datos: Siempre serán las columnas o campos que tengan datos numéricos, ya que con ellos se realizan los cálculos, por defecto la suma. Disponemos de las siguientes funciones de agregación de los datos: - Suma - Cuenta - Promedio - Máximo - Mínimo - Producto - Contar números - Desviación típica - Desviación típica de la población - Varianza - Varianza poblacional En el ejemplo se han elegido para las columnas las variables AÑO y MUNICIPIO, y para las filas las variables GRUPO_EDAD y SEXO. Como valor agregado se ha añadido la suma de POBLACION.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Una vez creada la tabla, podemos modificarla mediante las siguientes acciones, disponibles en el menú que aparece cuando hacemos clic con el botón derecho del ratón sobre la tabla: -

Crear un gráfico dinámico, a partir de los datos de la tabla Ejecutar el asistente para modificar el diseño o las opciones de la tabla

-

Actualizar los datos desde el origen. Esta opción es especialmente útil si los datos proceden de una base de datos externa, puesto que nos permitirá actualizar el informe sin tener que realizar los pasos previos de importar los datos desde la fuente Seleccionar un conjunto de filas o columnas para ocultar/mostrar el detalle o agregar y desagregar elementos Especificar la función o funciones de agregación que aplicamos en el área de datos

-

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


-

Opciones generales de tabla: título, formato, totales sí o no, tratamiento de valores erróneos o nulos, etc.

-

-

Ocultar/mostrar la barra de herramientas y la lista de campos de la tabla dinámica

2.4. Las macros “Análisis de datos” para el tratamiento estadístico Los principales desarrollos estadísticos que contiene la hoja de cálculo de Excel 2003 se encuentran en el menú “Herramientas” -> “Análisis de datos”. En caso de no encontrar esta opción activada en nuestro ordenador entonces tendremos que cargar la macro Herramientas para análisis desde el apartado “Complementos”, tal como se muestra en la figura siguiente.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Una vez cargada la macro las posibilidades de efectuar análisis y operaciones estadísticas son numerosas. Muchas de estas posibilidades que se irán desarrollando a lo largo del curso.

A continuación ofrecemos una breve descripción de los componentes de la macro Análisis de Datos, esta es la que aparece en la opción ayuda que incorpora la hoja de cálculo EXCEL: a) Análisis de varianza de un factor Realiza un análisis simple de varianza para comprobar la hipótesis según la cual dos o más muestras son iguales (extraídas de poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medias, por ejemplo, la prueba t. El ANOVA, creado por R.A. Fisher en 1925 para resolver diversos problemas agrícolas, tiene por objetivo descomponer la variabilidad de los datos asociados a un experimento en componentes independientes, las cuales son asignables a distintas causas. b)Análisis de varianza de dos factores con varias muestras de grupo Realiza una extensión del análisis de varianza de un factor con más de una muestra por cada grupo de datos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


c) Análisis de varianza de dos factores con una sola muestra por grupo Realiza un análisis de dos factores con una sola muestra por grupo que comprueba la hipótesis según la cual las medias de dos o más muestras son iguales (extraídas de poblaciones con la misma media). Esta técnica profundiza en las pruebas para dos medidas como, por ejemplo, la prueba t. d) Coeficiente de correlación Mide la relación entre dos conjuntos de datos que han sido calculados en escala para ser independientes de la unidad de medida. El cálculo de la correlación de población devuelve la covarianza de dos conjuntos de datos dividida por el producto de sus desviaciones estándar. Podrá utilizar la herramienta Coeficiente de correlación para determinar si dos conjuntos de datos varían conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están relacionados (correlación tiende a cero). Covarianza Devuelve el promedio del producto de desviaciones de puntos de datos partiendo de las medias respectivas. La covarianza es una medida de la relación entre dos rangos de datos. Podrá utilizar la herramienta Covarianza para determinar si dos rangos de datos varían conjuntamente, es decir, si los valores altos de un conjunto están asociados con los valores altos del otro (correlación positiva), si los valores bajos de un conjunto están asociados con los valores bajos del otro (correlación negativa) o si los valores de ambos conjuntos no están relacionados (correlación tiende a cero). Estadística descriptiva Genera un informe de estadísticas de una sola variable para datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos. Suavización exponencial Predice un valor basándose en el pronóstico correspondiente al período anterior, ajustado al error de dicho pronóstico. Utiliza la constante de suavización a, cuya magnitud determina la exactitud con la que los pronósticos responden a errores del pronóstico anterior. Prueba F para varianzas de dos muestras Realiza una prueba F de dos muestras para comparar las varianzas de dos poblaciones. Por ejemplo, puede utilizar una prueba F para determinar si los tiempos de una carrera de atletismo difieren en la varianza de las muestras de dos corredores. Análisis de Fourier Resuelve problemas de sistemas de líneas y analiza datos periódicos, transformándolos mediante el método Fast Fourier Transform (FFT). Esta herramienta también realiza transformaciones inversas, en las que el inverso de los datos transformados devuelve los datos originales.

Histograma Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y de clases de datos. Genera datos acerca del número de apariciones de un valor en un conjunto de datos. Por ejemplo, en una clase con 20 alumnos se desea obtener la distribución de Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


calificaciones mediante una categoría de puntuación por letras. Una tabla de histograma presentará los límites de las calificaciones por letras así como el número de calificaciones que hay entre el límite más bajo y el actual. La calificación más frecuente es la moda de los datos. Media móvil Proyecta valores en el período pronosticado, basándose en el valor promedio de la variable calculada durante un número específico de períodos anteriores. Una media móvil proporciona información de tendencias que quedaría enmascarada por una simple media de todos los datos históricos. Utilice esta herramienta para pronosticar ventas, inventarios u otras tendencias. Generación de números aleatorios Llena un rango con números aleatorios independientes extraídos de uno de varias distribuciones. Podrá utilizar esta herramienta para caracterizar a los sujetos de una población con una distribución de probabilidades. Por ejemplo, puede utilizar una distribución normal para caracterizar la población de estatura de las personas, o utilizar una distribución de Bernoulli con dos resultados posibles para caracterizar la población de resultados cuando se lanza una moneda al aire. Jerarquía y percentil Crea una tabla que contiene los rangos ordinales y porcentuales de cada valor de un conjunto de datos. Podrá utilizar este procedimiento para analizar la importancia relativa de los valores en un conjunto de datos. Regresión Realiza un análisis de regresión lineal utilizando el método de mínimos cuadrados para ajustar una línea a un conjunto de observaciones. Podrá utilizar esta herramienta para analizar la forma en que una sola variable dependiente se ve afectada por los valores de una o más variables independientes, por ejemplo, varios factores inciden en el rendimiento de un atleta, entre ellos la edad, la altura y el peso. Basándose en un conjunto de datos acerca del rendimiento, la regresión determina la parte de cada uno de los factores en las medidas de rendimiento. Los resultados de la regresión podrán utilizarse entonces para predecir el rendimiento de un atleta nuevo no sometido a prueba. Muestra Crea una muestra de la población tomando los datos del rango de entrada como población. Es posible utilizar una muestra en lugar de toda la población cuando ésta sea demasiado grande para procesarla o para presentarla gráficamente. Además, si cree que los datos de entrada son periódicos, puede crear una muestra que contenga sólo los valores de una parte determinada de un ciclo. Por ejemplo, si el rango de entrada contiene cifras de ventas trimestrales, la muestra realizada con una tasa periódica de 4 permitirá colocar los valores del mismo trimestre en la tabla de resultados. Prueba t para medias de dos muestras emparejadas Realiza una prueba t de Student en dos muestras emparejadas para determinar si las medias de una muestra son distintas. En este tipo de prueba no se supone que las varianzas de ambas poblaciones sean iguales. Puede utilizar la prueba emparejada cuando exista un par de observaciones de las muestras, por ejemplo, cuando un grupo de muestra se somete dos veces a prueba, antes y después de un experimento.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Prueba t para dos muestras suponiendo varianzas iguales Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son iguales, y se conoce con el nombre de prueba t homoscedástica. Se emplea para determinar si las medias de dos muestras son iguales. Prueba t para dos muestras suponiendo varianzas desiguales Realiza una prueba t de Student en dos muestras. En este tipo de prueba se supone que las varianzas de ambos rangos son desiguales, y se conoce con el nombre de prueba t heteroscedástica. Utilícela para determinar si las medias de dos muestras son iguales y a partir de qué momento se diferencian los grupos sometidos a estudio. Utilice una prueba emparejada cuando exista un grupo antes del tratamiento y después de él. Prueba z para medias de dos muestras Realiza una prueba z en las medias de dos muestras con varianzas conocidas. Esta herramienta se emplea para comprobar las hipótesis acerca de la diferencia existente entre las medias de dos poblaciones, por ejemplo, puede utilizarla para estudiar las diferencias en el rendimiento de dos modelos de vehículos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


3.- Análisis de distribuciones 3.1.- Introducción En este tema y los siguientes se van a introducir técnicas estadísticas para una sola variable, es decir, que con lo que se va a tratar es una serie de valores {x1, x2, … , xn} que se habrán obtenido de medir una variable en una serie de individuos. Si la serie corresponde a una variable medida en un individuo a lo largo del tiempo tendremos una “serie temporal”, y si es una variable medida en diversas localizaciones geográficas tendremos una “serie espacial”. Estas dos últimas, aunque se les puede aplicar algunas de las técnicas explicadas, no constituyen el objetivo de este capítulo.

3.2.- Distribuciones de frecuencias unidimensionales 3.2.1.- Tablas de Frecuencias en variables cualitativas o cuantitativas discretas. Una vez que se tienen los datos de una variable hay que ordenarlos y resumirlos. Una forma de hacerlo es agrupar los valores iguales y contar las veces que se repite cada uno de ellos. En variables cualitativas o cuantitativas discretas esta es la forma habitual de proceder, en variables cuantitativas continuas se procederá primero a una agrupación de los datos. Las definiciones de los distintos tipos de frecuencias se dan a continuación: Frecuencia absoluta: Llamaremos así al número de repeticiones que presenta una observación. Se representa por ni. Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos, se suele representar por fi.

fi =

ni n

Propiedad: La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad. Si la variable que se está tratando es cualitativa ordinal o bien cuantitativa se pueden definir otros dos tipos de frecuencias. Este tipo de frecuencias se pueden calcular para variables cualitativas nominales, pero en ese caso el sentido de las mismas es escaso, ya que no existe un orden natural para los valores de este tipo de datos. Frecuencia absoluta acumulada: Es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al nº de casos: Suponiendo que hay k valores distintos N1 = n1 N2 = n1+ n2 Nk = n1 + n2 + . . . . . . + nk-1 + nk=n Frecuencia relativa acumulada: es el resultado de dividir cada frecuencia absoluta acumulada por el número total de datos, se la suele representar con la notación: Fi Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La última frecuencia relativa acumulada es igual a la unidad. Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será: xi x1 x2 x3

ni n1 n2 n3 Σni=N

Ni N1 N2 N

fi f1 f2 f3 1

Fi F1 F2 1

3.2.2.- Tabla de frecuencias para variable continua: recorrido, intervalo, amplitud, marca de clase, densidad de frecuencia. Cuando nos encontramos con una distribución con un gran número de valores, se suelen agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio un inconveniente: se pierde información sobre la propia distribución. [Li-1 , Li) Se indica por Li-1 al extremo inferior del intervalo y por Li al extremo superior. Cerramos el intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo ser al contrario. Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los extremos, y dividir entre 2. L ++L ci = = i −−1−− ++ i == 2

La amplitud del intervalo, sería la longitud del intervalo, se representa por: a = Li - Li-1 NOTA: ¿Cómo obtener, a partir de los datos, una tabla de frecuencias agrupada? Nº de intervalos: A partir de la raíz cuadrada del número de datos redondeando podemos obtener el número de intervalos. Recorrido: Valor mayor, menos valor menor de los datos. Re= xn-x1 Amplitud: División entre el Recorrido y el número de intervalos que hayamos decidido. Se puede redondear también. Re ai = N º de int ervalos NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de frecuencia del intervalo -iésimo, como el cociente entre el número total de observaciones de un intervalo y la amplitud del mismo

n di = i ai 3.2.3.- Ejemplos Ejemplo 1 El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos: 2

4

2

3

1

2

4

2

3

0

2

2

2

3

2

6

2

3

2

2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

3

2

3

3

4


3

3

4

5

2

0

3

2

1

2

3

2

2

3

1

4

2

3

2

4

3

3

2

2

1

Se pide: a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) Construir la tabla de frecuencias? e) ¿Cuál es el número de familias que tiene como máximo 2 hijos? f) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3? ¿Qué porcentaje de familias tiene más de 3 hijos? Solución: a) La población objeto de estudio es el conjunto de familias de un determinado país. b) La variable que estamos estudiando es el número de hijos por familia c) El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados valores enteros (es imposible tener medio o un cuarto de hijo). d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un determinado número de hijos. Podemos ver que el número de hijos, toma los valores existentes entre 0 hijos, los que menos y 6 hijos, los que más y tendremos: ni 2 4 21 15 6 1 1 N = 50

xi 0 1 2 3 4 5 6

Ni 2 6 27 42 48 49 50

fi 0,04 0,08 0,42 0,30 0,12 0,02 0,024 1

Fi 0,04 0,12 0,54 0,84 0,96 0,98 1

e) El número de familias que tienen dos o menos hijos es: 2+4+21 = 27 f) El número de familias que tienen más de un hijo pero tres como máximo es: 21 + 15 = 36 Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que tienen 4; 5 y 6 es decir 6+1+1= 8 El porcentaje será el tanto por uno multiplicado por cien es decir, la frecuencia relativa de dichos valores multiplicado por 100: ( 0,12+0,02+0,02)* 100 = 0,16 + 100 = 16 %

Ejemplo 2 Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la misma categoría de esa ciudad. Los datos obtenidos en euros fueron 23,4 31,8 19,8 24

28,2 23,4 25,8 32,4

22,2 25,8 24,6 23,4

33,6 30 34,8 28,2

25,8 36 26,4 19,8

29,4 28,2 28,8 27

30 30,6 36,6 28,2

36,6 25,2 25,8 25,2

Se pide: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

30,6 26,4 31,8 27

27 34,8 27 28,8


a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) ¿Qué problema plantea la construcción de la tabla de frecuencias? e) ¿Cuánto hoteles tienen un precio entre 19 y 22 euros? f) ¿Cuánto hoteles tienen un precio superior a 28? g) ¿Qué porcentaje de hoteles cuestan como mucho 25?

SOLUCIONES: a) La población objeto de estudio son los hoteles de una ciudad. b) La variable que estamos estudiando es el precio. c) El tipo de variable es continua. d) El problema que plantea es que existen muchos valores diferentes. Por tanto es conveniente agrupar la serie en intervalos. La manera de hacerlo sería la siguiente: primero, calculamos el recorrido Re = xn– x1= 36,6 – 19,8 = 16,8 Cuando no se nos dice nada sobre el nº de intervalos a tomar, éste se suele obtener calculando la raíz cuadrada del nº de datos observado. Veremos que la raíz cuadrada de 40 es igual a 6,32 por lo tanto tomaremos 6 intervalos, que es el entero más próximo. Como el recorrido es 16,8, si lo dividimos por el nº de intervalos tendremos la amplitud de cada uno de ellos y así: 16,8/6 = 2,8. Tomaremos 3 como amplitud del intervalo, puesto que resulta más sencillo y claro operar con enteros y, puesto que la elección del número y amplitud de los intervalos se deja a criterio del investigador, siempre preferiremos la opción más simple.

[Li-1,, Li) [19 - 22) [22 - 25) [25 - 28) [28 - 31) [31 - 34) [34 - 37)

ni

Ni 2 6 12 11 4 5

fi

Fi

2 8 20 31 35 40

0,05 0,15 0,3 0,275 0,1 0,125

0,05 0,2 0,5 0,775 0,875 1

N= 40 e) 2 f) 20 g) %=F2*100=0,2*100=20

3.2.4.- Primeros Gráficos estadísticos. Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una representación gráfica, los sistemas de gráficos más usuales son: Diagrama de puntos Este tipo de representación se suele utilizar con variables cuantitativas continuas, y consiste en representar sobre una recta los valores obtenidos. Permite apreciar la distribución de los datos a lo largo de su recorrido.

-2

-1

0

1

2

3

4

5

Diagrama de tallo-hojas Este tipo de diagrama permite visualizar la distribución de una variable numérica. Si se tienen los datos: 52

23

36

45

11

20

40

26

38

54

12

18

43

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

38

46

57


53 16 25

34 24 55

40 38 29

18 54 64

26 52 52

32 44 28

54 53 45

35 64 49

21 18 31

23 52 22

62 14 62

31 65 45

59 56 24

21 69 44

53 62 55

El diagrama es el siguiente: 1246888 011233445667789 11245688 003445569 222233344455679 22244589 En la parte izquierda está el primer dígito de los datos (pueden ser 2 o más dígitos). En la parte derecha se encuentra el dígito final, de forma que cada dígito corresponde a un valor (podrían ser también grupos de dos o más dígitos). Diagrama de barras Se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una variable. En el eje horizontal, situaremos los diferentes valores de la variable. En el eje vertical la frecuencia. Levantaremos barras o columnas separadas de altura correspondiente a la frecuencia adecuada. 18 16 14 12 10 8 6 4 2 0 a

b

c

d

e

Las barras se podrían dibujar en horizontal.

e d c b a 0

5

10

15

20

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases. Diagrama de sectores El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta o relativa. Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente proporción: ni/N=α/360 Como resulta ni /N = fi , tendremos que α = f i * 360

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

27 27 68


11%

20%

9% a b c d e

24% 36%

Este tipo de diagramas se puede utilizar para cualquier tipo de variables, pero para variables continuas se han de agrupar en clases.

100 0

50

Frecuencia

150

200

Histograma Cuando la variable es continua se puede utilizar un histograma para su representación. En este caso se dibujan rectángulos cuya base corresponde a la amplitud del intervalo (clase) y de forma que el área del rectángulo corresponde a la frecuencia relativa de la clase.

-4

-2

0

2

4

x

Los intervalos pueden no ser iguales:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


0.30 0.25 0.20 0.00

0.05

0.10

0.15

Frecuencia

-4

-2

0

2

4

x

Polígono de frecuencias Es la recta que une los extremos superiores de un diagrama de barras (que no se dibuja normalmente), o bien los puntos centrales de la base superior de los rectángulos de un histograma.

18 16 14 12 10 8 6 4 2 0

a

b

c

d

e

Diagramas con frecuencias acumuladas Son diagramas de barras o polígonos de frecuencias en los que se emplean las frecuencias acumuladas. 6 5 4 3 2 1 0 1

2

3

4

5

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


6 5 4 3 2 1 0 1

2

3

4

5

Pictograma Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la variable (ejemplo un pez) y su tamaño suele guardar relación con la frecuencia

Cartograma Se representa la información mediante un diagrama convencional insertado en un mapa. Este tipo se aplica a variables en la que los individuos son regiones geográficas. Si las frecuencias o el valor de la variable se representa con colores tenemos lo que se llama un mapa temático.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Más de 9

(0)

(7 9]

(2)

(3 7]

(4)

(1 3]

(2)

hasta 1

(1)

Se pueden también representar barras con las frecuencias en cada una de las zonas,o bien diagramas de sectores o cualquier otro.

3.3.- Medidas de posición en una distribución de frecuencias unidimensional

3.3.1.- Introducción En este tema y el siguiente vamos a obtener unos números que cuantifiquen las propiedades fundamentales de la distribución de frecuencias. Estos números podemos clasificarlos en: Medidas de localización (posición). Son coeficientes de tipo promedio que tratan de representar la situación una determinada distribución, pueden ser de dos tipos: 1.-Centrales: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


-Medias: Aritmética Geométrica Armónica -Medianas -Moda 2.-No centrales: -Cuantiles: Cuartiles Deciles Centiles o percentiles Medidas de dispersión: Son complementarias de las de posición en el sentido que señalan la dispersión en conjunto de todos los datos de la distribución respecto de la medida o medidas de localización adoptadas. Medidas de forma: Estudian la asimetría-simetría y deformación (apuntamiento, aplastamiento) respecto de una distribución modelo denominada distribución NORMAL Medidas de concentración: Estudian la concentración de una distribución frente a la uniformidad.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


3.3.2.- Medidas de centralización. MEDIA ARITMÉTICA: Es la suma de todos los valores de la variable dividida entre el número total de elementos. n

x + x2 + x3 + ....xn −1 + xn X = 1 = n

∑x i =1

i

n

Si el valor xi de la variable X se repite ni veces, aparece en la expresión de la media aritmética de la forma:

X =

∑xn

i i

,

n fi =

Como

ni otra posible expresión será N

n

X = ∑ xi fi i =1

Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg. xi ni xi ni 54 2 108 59 3 177 63 4 252 64 1 64 10 601

X=

∑x n

i i

n

=

601 = 60,1 10

kg

NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribución. Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos indistintamente ci = xi Ejemplo: [Li-1,Li) [30 , 40) [40 , 50) [50 , 60)

xi = ci 35 45 55

X=

ni 3 2 5 10

∑x n

i i

n

=

ci ni 105 90 275 470

470 = 47 10

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


MEDIA ARITMÉTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el mismo peso. Esta importancia que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en tantas veces como consideremos su peso. Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable

∑x wn ∑w n Siendo w la ponderación de la variable x y ∑ w la suma de todas las ponderaciones. Xw =

Se la suele representar como:

i

i i

i i

i

i

i

Ejemplo: Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media. Xi 5 8 7

ni 1 1 1 3

Wi 1 2 3 N=6

xi wi 5 16 21 42

Si calculamos la media aritmética tendremos que :

∑x n

X=

=

i i

n

5+8+7 = 6, 67 . 3

Ahora bien, si calculamos la media ponderada, obtendremos:

( 5 x1) + ( 8 x 2 ) + ( 7 x3) 5 + 16 + 21 42 = = =7 6 6 (1 + 2 + 3)

xw =

Propiedades de la media aritmética PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0. n

Veamos que resulta al operar la siguiente expresión:

∑ (x

i

i =1

n

∑ (x

i

i =1

− X)

  ∑ xi ni − 

ni 1 = ∑ ( xi ni − X ni ) = ni ni

− X ) . Tendremos que

( ∑ x n − ∑ X n ) n1 = ( ∑ x n − X ∑ n ) n1 = ( ∑ x n − X n ) n1 = i i

i

i i

i

i

i i

i

1 1 . n = 0 = 0 ni  ni

xi ni n

PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la media aritmética (Teorema de KÖRING).

∑( x D (k ) =

i

Para

− k ) ni 2

n

∑( x =

i

)

2

− x ni n

= prop 1 = 0

ni =0 n

k = x (media aritmética) el valor de las desviaciones será mínima. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

i


PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda aumentada en dicha cantidad: Supongamos que tenemos una variable x de la que conocemos su media. Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la siguiente forma: yi = xi + k . Si ahora queremos calcular la media de esta segunda variable: n

y= =

∑yn

i i

i =1

n ∑ xi ni

como

+

n

i

kn = n

∑xn

i i

n

∑(x

=

+ k ) ni

n ∑ xi ni n

=

∑( x n

i i

+ kni )

=

n

∑ x n + ∑ kn i i

i

n

=

∑ x n + ∑ kn i i

i

n

n

=

+k

= X si sustituimos tendremos Y = X + k

PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma constante la media aritmética queda multiplicada por dicha constante. La demostración se realizaría de manera análoga a la anterior. NOTA: De las dos propiedades anteriores se deduce que la resta y la división se realizarían de igual manera para la propiedad 3 y 4 respectivamente. Corolario: Si una variable es transformación lineal de otra variable (suma de un número y multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación lineal con respecto a la media aritmética de la 2ª variable, siendo yi = a xi + b , donde a y b son números reales:

y=

∑yn

i i

n

=

∑ (ax

+ b)ni

i

n

=

∑ (ax n

i i

+ bni )

n

=

a ∑ xi ni n

+

b∑ ni n

= ax + b

Podemos utilizar esta metodología para calcular la media de la siguiente distribución. Xi 38432 38432 38436 38438 38440

ni 4 8 4 3 8

Si efectuamos un cambio de variable

yi =

xi − 38436 tomando como nueva variable el 2

valor más centrado, tendremos: xi 38432 38432 38436 38438 38440

y=

ni 4 8 4 3 8 n = 27

yi (38432 - 38436)/2 = -2 (38432 - 38436)/2 = -1 (38436 - 38436)/2 = 0 (38438 - 38436)/2 = 1 (38440 - 38436)/2 = 2

yi ni -8 -8 0 3 16 3

yi ni 3 1 = = n 27 9

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


x − 38436 , entonces 2 1 x = 2 y + 38436 = 2 + 38436 = 0, 222 + 38436 = 38436, 222 9 y=

Como

PROPIEDAD 5: - Si en un conjunto de valores se pueden obtener 2 ó más subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media aritmética de cada uno de los subconjuntos disjuntos de la siguiente forma: N

X =

∑x N i

I =1

i

n Siendo xi la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto. Veamos la demostración de la propiedad: Sea la distribución x1, x2,…, xn, xn+1, xn+2,…,xk, observando que habrían como dos subconjuntos de n y k-n elementos cada uno. Si consideramos la media aritmética de la distribución:

X =

∑x n

i i

n

y calculamos los sumatorios

para los dos subconjuntos, la expresión de la media quedaría: n

∑x n X =

j

j =1

j

+

k

r = n +1

n

n

∑xn r

∑x n

r

=

j

j =1

n

k

j

+

∑xn

r = n +1

r

r

n

Si multiplicamos numerador y denominador de cada una de las fracciones por una misma cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la expresión quedará:  n   n   ∑ x jnj   ∑ x jnj   j =1   j =1  N1  N2    n n k  N1   N2  xjnj N1 ∑ x j n j N 2 ∑ x r nr     j = 1 j =1     X= como = x1 y + r = n +1 = + N 1n N 2n n n N1

kn

∑x

r = n +1

rj

N2

n jr

= x2 son la media del primer y segundo subconjunto, la expresión la podemos

expresar de la siguiente manera:

X = X1

N1 N X N + X 2 N2 + X2 2 = 1 1 que es lo que n n n

queríamos demostrar ya que si las frecuencias se multiplican o dividen por un mismo número, la media no varía IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, o pequeños que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de resolverlo, que veremos más adelante.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


MEDIA GEOMÉTRICA Y ARMÓNICA. Media geométrica: Responde a la siguiente expresión

G = n x1n1 x2n2 x3n2 ......xknk y se la puede define, como la raíz n-ésima del producto de todos los valores de la variable. También la podemos representar como: 1 n1 n2 n3 nk n 1 2 3 k NOTA: En muchas ocasiones, los valores de la distribución nos impiden poder efectuar los cálculos al exceder la capacidad de la calculadora. Utilizaremos las propiedades de los logaritmos: lg (a.b) = lg a + lg b lg an = n lg a

G = (x x x .......x )

1

lg G = lg( x1n1 x2n2 x3n3 .......xknk ) n =

1 lg( x1n1 x2n2 x3n3 .......xknk ) = n

1 = (lg x1n1 + lg x2n22 + lg x3n3 + .... + lg xknk ) n sabiendo que lo podemos expresar en notación compacta:

n lg xi 1 (n1 lg x1 + n2 lg x2 + n3 lg x3 + ...... + nk lg xk ) = ∑ i = lg G , por lo que podemos n n decir que G = anti lg

ni lg xi n

El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo. Suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes. Ejemplo: Hallar la media geométrica de la siguiente distribución: xi 100 120 125 140

lg G =

Ni 10 5 4 3 n = 22

∑ n lg x i

i

n

por lo tanto será conveniente ampliar la tabla con lo que nos quedará xi 100 120 125 140

ni

lg xi

ni lg xi

10 5 4 3 n = 22

lg 100 = 2 lg 120 = 2.079 lg 125 = 2.097 lg 140 = 2.146

20 10,396 8,387 6,438 45.221

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


lg G =

∑ n lg x i

i

n

=

45, 221 = 2, 056 22

G = anti lg. 2,0555 = 113,632

Media armónica. La representaremos como H: Es la inversa de la media aritmética de las inversas de los valores de la variable, responde a la siguiente expresión:

H=

n n = n n n n ∑ xi x1 + x 2 + x3 + .... i 1 21 3

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.

Ejemplo: calcular la media armónica de la siguiente distribución: xi 100 120 125 140

Ni 10 5 4 3

Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos la tabla con 2 columnas adicionales: xi 100 120 125 140

H=

ni 10 5 4 3 N= 22

n 22 = 112,82 = ni 0,195 ∑x i

1/xi 1/100 1/120 1/125 1/140

X=

ni/xi 0.1 0.042 0.032 0.021 0.195

∑ x i ni n

=

Xini 1000 600 500 420 2520

2520 = 114,545 22

Entre la media aritmética la media geométrica y media armónica se da siempre la siguiente relación:

H ≤G≤ X MEDIANA: Me La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden dentro de la ordenación. El lugar que ocupa se determina dividiendo el nº de valores entre 2:

n 2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Cuando hay un número impar de valores de la variable, la mediana será justo el valor de orden central, aquel cuya frecuencia absoluta acumulada coincida con

n . Es decir: 2

n ≤ N i ⇒ Me = xi . Por tanto la mediana coincide con un valor de la variable. 2 n resulta El problema está cuando haya un número par de valores de la variable. Si al calcular 2 N i −1 <

que es un valor menor que una frecuencia absoluta acumulada, el valor de la mediana será aquel valor de la variable cuya frecuencia absoluta cumpla la misma condición anterior:

n N ≤ N i ⇒ Me = xi . Por el contrario si coincide que = N i , para obtener la 2 2 x + xi +1 mediana realizaremos el siguiente cálculo: Me = i 2 N i −1 <

Ejemplo: Sea la distribución xi 1 2 5 7 10 13

Ni

Ni

3 4 9 10 7 2 N = 35

3 7 16 26 33 35

n 35 = = 17,5 2 2

lugar que ocupa

como se produce que

N i −1 <

n < N i ⇒ 16 < 17,5 < 26 ⇒ Me = xi ,por lo tanto Me = 7 2

El otro caso lo podemos ver en la siguiente distribución: xi 1 2 5 7 10

Lugar que ocupa = 32/2 = 16 ==>

Ni

Ni

3 4 9 10 6 N= 32

3 7 16 26 32

Me =

x1 + xi +1 5 + 7 = =6 2 2

Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta acumulada superior a 16. En este caso se calcularía como en el ejemplo anterior. En distribuciones agrupadas, hay que determinar el intervalo mediano

[ Li−1 , Li ) , la forma de

hacerlo será calcular el valor de la mitad de n, y observar que intervalo tiene una frecuencia absoluta acumulada que cumpla

N i −1 <

n < Ni . 2

Después de saberlo haremos el siguiente cálculo:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Me = Li −1

N − N i −1 + 2 ai ni

Siendo: [ Li-1, Li) el intervalo que contiene a la frecuencia acumulada N/2 ai = amplitud de dicho intervalo.

Ejemplo: [ Li-1, Li)

ni

Ni

[20 , 25) [25 , 30) [30 , 35) [35 , 40) [40 , 45)

100 150 200 180 41 N = 671

100 250 450 630 671

671/2 = 335.5 ; Me estará en el intervalo [30 - 35 ). Por tanto realizamos el cálculo:

n − N i −1 33, 5 − 250 2 Me = Li −1 + ai = 30 + * 5 = 32,138 ni 200 MODA: Mo Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor frecuencia absoluta. Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc. En las distribuciones sin agrupar, la obtención de la moda es inmediata. Ejemplo: xi ni 1 2 2 7 3 5 4 7 5 4 Moda {2, 4}, en este caso tenemos una distribución bimodal. En los supuestos que la distribución venga dada en intervalos, es decir, sea agrupada, se pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta. Si tienen la misma amplitud, en primer lugar tendremos que encontrar el intervalo modal, será aquel que tendrá mayor frecuencia absoluta [ Li −1 , Li ) . Posteriormente realizaremos el siguiente cálculo:

Mo = Li −1 +

ni +1 ai ni −1 + ni +1

Siendo: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Li-1 = extremo inferior del intervalo modal ai amplitud de dicho intervalo ni-1 y ni+1 densidades de frecuencia de los intervalos anterior y posterior respectivamente al que contiene la moda. Cuando los intervalos sean de distinta amplitud, el intervalo modal será el de mayor densidad de frecuencia , es decir

di =

ni ,ya que consideraremos la “calidad” del intervalo en función ai

de la frecuencia y de la amplitud. Para realizar el cálculo, tendremos en cuenta la siguiente expresión:

Mo = Li −1 +

di +1 ai di −1 + di +1

Nota: 1.- Cuando hay una única moda, la mediana suele estar comprendida entre 2.- Cuando la distribución es simétrica (con 1 moda) se cumple que:

x y Mo.

x = Me=Mo

Ejemplo: Hallar la moda de la siguiente distribución [Li-1,Li)

ni

Di = ni/ai

[0 , 25) [25 , 50) [50 , 100) [100 , 150) [150 , 200)

20 140 180 40 20

0.8 5.6 3.6 0.8 0.4

Calculamos el intervalo modal [25 – 50). Operamos:

Mo = Li −1 +

di +1 3, 6 25 = 45,5 ai = 25 + di −1 + di +1 0,8 + 3, 6

3.3.3.- Cuantiles: cuartiles, deciles y percentiles Son medidas de localización similares a las anteriores. Se las denomina CUANTILES (Q). Su función es informar del valor de la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de variables. Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en un cierto número de partes de manera que en cada una de ellas hay el mismo de valores de la variable. Las más importantes son: CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisiones). C1,C2,C3, correspondientes a 25%, 50%,75%. DECILES, dividen a la distribución en 10 partes iguales (9 divisiones).D1,...,D9, correspondientes a 10%,...,90% PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones).P1,...,P99, correspondientes a 1%,...,99%. Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y así veremos

2 5 50 = = 4 10 100 Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Distinguiremos entre distribuciones agrupadas, y las que no lo están: En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa: Entonces tendremos que: Ni-1 < (%)n < Ni Q = xi en el supuesto que (%)n = Ni

Q=

xi + xi +1 2

En distribuciones agrupadas primero encontraremos el intervalo donde estará el cuantil, lugar en el que Ni=1 < (%)n< Ni Intervalo [Li-1, Li) , en este caso:

Q = Li −1 +

( % ) N − Ni −1 ni

ai

Ejemplo: DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución xi 5 10 15 20 25

ni

Ni

3 7 5 3 2 n = 20

3 10 15 18 20

Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90 percentil (P90) Mediana (Me) Lugar que ocupa la mediana lugar 20/2 = 10 Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es cálculo:

Me =

xi + xi +1 10 + 15 = = 12, 5 2 2

Primer cuartil (C1) Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 < (25%).n < Ni , es decir 3 < 5 < 10 esto implicara que C1 = xi = 10 Tercer cuartil (C3) Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo:

C3 =

xi + xi −1 15 + 20 = = 17, 5 2 2

Cuarto decil (D4) Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8. Como Ni-1 < (%).n < Ni ya que < 8 < 10 por tanto D4 =10.

3

Nonagésimo percentil (P90) Lugar que ocupa en la distribución (90/100). 20 = 1800/100 = 18. que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo:

P90 =

xi + xi −1 20 + 25 = = 22, 5 2 2

Ejemplo: DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente distribución: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


[Li-1 , Li)

ni

Ni

[0 , 100) [100 , 200) [[200 , 300) [300 , 800)

90 140 150 120 n = 500

90 230 380 500

Primer cuartil (C4) Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto C4 estará situado en el intervalo [100 – 200).Aplicando la expresión directamente, tendremos:

C4 = 100 +

125 − 90 100 = 125 140

Cuarto decil (D4) Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D4 estará situado en el intervalo [100 – 200). Aplicando la expresión tendremos:

D4 = 100 +

200 − 90 100 = 178,57 140

Nonagésimo percentil (P 90) Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estará situado en el intervalo [300 – 800). Aplicando la expresión tendremos:

P90 = 300 +

450 − 380 70 500 = 300 + 500 = 591, 67 120 120

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


3.4.- Características de las medidas de dispersión. Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una distribución. Llamaremos DISPERSIÓN O VARIABILIDAD, a la mayor o menor separación de los valores de la muestra, respecto de las medidas de centralización que hayamos calculado. Al calcular una medida de centralización como es la media aritmética, resulta necesario acompañarla de otra medida que indique el grado de dispersión, del resto de valores de la distribución, respecto de esta media. A estas cantidades o coeficientes, les llamamos: MEDIDAS DE DISPERSIÓN, pudiendo ser absolutas o relativas Medidas de dispersión absolutas: Recorrido Recorrido intercuartílico. Varianza Desviación típica Desviación media respecto de la mediana Medidas de dispersión relativas Coeficiente de variación de PEARSON Indice de variación respecto de la mediana

3.4.1.- Medidas de dispersión absolutas Recorrido: Se define como la diferencia entre el mayor y menor valor de las variables de una distribución:

R = xn − x1 Recorrido intercuartílico:

Se define como la diferencia entre el tercer y el primer cuartil:

Ri = C3 − C1 Desviación media respecto de la mediana: Es la media aritmética de los valores absolutos de las desviaciones de los valores de la variable con respecto de la mediana.

D Me =

∑x

i

− Me ni n

Varianza: Es la media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto de la media de la distribución. Responde a la expresión

S2 =

∑ (x

i

− X )2 ni n

Cuando se trabaja con muestras se suele utilizar la cuasi-varianza, que se obtiene como la anterior pero en el divisor aparece n-1. Esta medida tiene mejores propiedades asintóticas (muestras grandes) que la varianza. NOTA: Su problema son las unidades ya que minutos al cuadrado no existen, y si hablamos de longitud m x m nos daría metros al cuadrado o sea superficie. El valor de la varianza no lo podemos tomar, pues, como la cantidad que resulta, en las unidades que nos proporcionan los datos. Para hacernos una idea aproximada, nunca exacta, hay que obtener la raíz cuadrada, y así esta nueva medida, es la desviación típica: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Si operamos, podemos obtener la siguiente expresión, que es mucho más sencilla de operar, y obtenemos menos error de redondeo:

S

2

∑ (x =

∑x n =

− X )2 ni

i

2 i i

n

n

− X2

Propiedades de la varianza : 1ª.Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando todos los valores de la variable sean iguales. 2ª.Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:

S

2

∑ (x =

− X ) 2 ni

i

Si a xi

n

le sumamos una constante

∑ ( x ' − X ') n = ∑ [( x = 2

S

2

i

i

i

xi ’ = xi + k

tendremos (sabiendo que

+ k ) − ( X '+ k )]2 ni

n

n

∑ (x =

i

− X ) 2 ni n

x' = x + k )

= S2

3ª.Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el cuadrado de dicha constante. Veámoslo: Si a

xi’ = xi · k

tendremos (sabiendo que

∑ ( x ' − X ') n = ∑ [( x ·k ) − ( X '·k )] n = 2

S

=

2

X ' = X ·k )

i

2

i

N 2 ∑ k ( xi − X )2 ni

n

i

N 2 k ∑ ( xi − X ) 2

=

n

i

∑ [k ( x =

i

− X )]2 ni N

=

= k 2 ·S 2

4ª.Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante la expresión

S

2 x

∑N S = i

2 i

n

Siendo Ni el nº de elementos del subconjunto (i) y S2i la varianza del subconjunto (i)

Desviación típica: La desviación típica o standard, es la raíz cuadrada, con signo positivo, de la varianza. Se representa por S, y tiene la siguiente expresión:

S = + S2 = +

∑ (x

i

− X ) 2 ni N

Propiedades de la desviación típica A su vez la desviación típica, también tiene una serie de propiedades que se deducen fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada de la varianza): 1ª.La desviación típica es siempre un valor no negativo S será siempre ≥0 por definición. Cuando S = 0 X = xi (para todo i). 2ª.Si a todos los valores de la variable se le suma una misma constante la desviación típica no varía. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


3ª.Si a todos los valores de la variable se multiplican por una misma constante, la desviación típica queda multiplicada por el valor absoluto de dicha constante.

3.4.2.- Gráficos con medidas de posición y dispersión: Diagrama de caja. Una forma de representar gráficamente la distribución es la utilización de medidas para tener una idea de la distribución de los valores. Para construir un Diagrama de caja se utiliza la mediana y los cuartiles. En el gráfico siguiente se indica la forma de hacerlo.

F1 f1 Q1 Me Q3 Me es la mediana Q1 y Q3 son el primer y tercer cuartil f1 es Q1-1,5(Q3-Q1) o el mínimo (el que sea más grande) f2 es Q3+1,5(Q3-Q1) o el máximo (el que sea más pequeño) F1 es Q1-3(Q3-Q1) F2 es Q3+3(Q3-Q1)

f2

Los puntos entre f1 y F1 se representan de una forma, lo mismo que los que están entre f2 y F2 Los puntos menores de F1 o mayores que F2 se representan de otra. Ambos tipos de observaciones son lo que se conoce como observaciones atípicas.

2

5

10

20

50

100

También son útiles estos gráficos para comparar distribuciones.

A

B

C

D

E

F

G

H

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

F2


3.4.3.- Medidas de dispersión relativa. Coeficiente de variación de PEARSON. El problema de las medidas de dispersión absolutas es que normalmente son un indicador que nos da problemas a la hora de comparar. Comparar muestras de variables que entre sí no tienen cantidades en las mismas unidades, de ahí que en ocasiones se recurra a medidas de dispersión relativas. El coeficiente de variación de PEARSON es una de las más significativas y lo podemos definir, como el cociente entre la desviación típica y la media aritmética de una distribución. Es necesario tener en cuenta que al efectuar el cociente eliminamos las unidades por tanto V es adimensional.

Vx =

S X

El coeficiente de variación no se ve influido si multiplicamos todos los valores de la variable por una constante

Vx =

kS kX

=

kS k X

= Vx

Propiedad: Si a todos los valores de la variable se le suma una misma constante el coeficiente de variación queda alterado. Es consecuencia inmediata de las propiedades de la media.

3.5.- Distribuciones de Frecuencias Bidimensionales De forma general, si se estudian sobre una misma población y se miden por las mismas unidades estadísticas una variable X y una variable Y, se obtienen series estadísticas de las variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos ante una variable estadística bidimensional.

3.5.1.- Distribuciones estadísticas bidimensionales: tablas de doble entrada o de contingencia o de correlación Tablas de doble entrada o de contingencia Sea una población estudiada simultáneamente según dos caracteres X e Y; que representaremos genéricamente como (xi; yj; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, la cual podemos representar como sigue: Y y1 y2 ….. yj ….. yk X x1 n11 n12 ….. n1j ….. n1k x2 n21 n22 ….. n2j ….. n2k . . . . . . . . . . …. . …. . . . . Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

ni . n1 . n2 . . .


xi . . . xh n. j

ni1 . . . nh1 n. 1

ni2 . . . nh2 n. 2

….. . …. . ….. …..

nij . . . nhj n. j

….. . …. . ….. …..

nik . . . nhk n. k

ni . . . . nh . N

En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1; n12, nos indica la frecuencia conjunta de x1 con y2, etc.

3.5.2.- Distribuciones marginales Dada la distribución bidimensional (xi ; yj ; nij), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribución bidimensional; Y X

y1

Y2

Y3

y4

ni.

x1

n11

n12

n13

n14

n1 .

x2

n21

n22

n23

n24

n2.

x3

n31

n32

n33

n34

n3 .

x4

n41

n42

n43

n34

n4.

n.j

n.1

n.2

n.3

n.4

N

podemos obtener las siguientes distribuciones marginales X

Y

xi

ni.

yj

n.j

x1

n1.

y1

n.1

x2

n2.

y2

n.2

x3

n3 .

y3

n.3

x4

n4. n

y4

n.4 n

Por tanto, podemos decir:

n

N

i =1

j =1

∑n j. = ∑n. j = ∑∑nij = n

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


3.5.3.- Distribuciones condicionadas. Caso de independencia estadística Al poner una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como: X/Y , indica que el valor de X viene condicionado por Y Y/X indica que el valor de Y viene condicionado por X Independencia estadística Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir:

nij n

=

ni. n. j ·· Para todo i, j n n Si esto no se cumple para todos los valores se dice que hay dependencia estadística.

3.5.4.- Covarianza. Caso de independencia En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente con el diagrama de dispersión. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación: n

k

S xy = ∑∑ i =1 j =1

( xi − x)( y j − y )nij n

Si Sxy >0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores de y. Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal. Si Sxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y. Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos:

Sxy >0

Sxy<0

PROPIEDADES DE LA COVARIANZA: 1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les sumamos una constante k’, la covarianza no varía. 2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes. 3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


4.- Otra forma de calcular la Covarianza sería:

S xy = ∑∑ i

j

xi y j nij n

− X Y . Será la que

utilizaremos en la práctica. NOTA: El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Habrá que definir una nueva medida, que no está afectada por los cambios en las unidades de medida. Esta medida será el coeficiente de correlación lineal rxy, con la siguiente expresión:

rxy =

S xy Sx S y

siendo Sx y Sy las desviaciones típicas de x e y. Este coeficiente es adimensional y siempre estará entre –1 y 1. Si hay relación lineal positiva, rxy>0 y próximo a 1. Si hay relación lineal negativa rxy<0 y próximo a –1. Si no hay relación lineal rxy será próximo a 0. NOTA: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.

Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación: Altura Peso

175 80

180 82

162 57

157 63

180 78

173 65

171 66

168 67

165 62

165 58

Los cálculos que necesitamos:

x = 169 '6

sx = 7 '2139

y = 67 '8

s y = 8'7567

sxy =

175 ⋅ 80 + 180 ⋅ 82 + 162 ⋅ 57 + L − 169 '6 ⋅ 67 '8 = 52 '32 10

Ahora se puede calcular el coeficiente de correlación lineal rxy y el de determinación lineal R2

rxy =

52 '32 = 0 '8282 7 ' 2139 ⋅ 8'7567

que nos indica que las variables están relacionadas.

3.5.5.- Representaciones gráficas: diagrama de dispersión o nube de puntos Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Nube de puntos

Pesos (kg.)

82 77 72 67 62 57 150

155

160

165

170

175

180

Alturas (cm.) Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos entre paréntesis, el número nii.

3.6.- Distribuciones de probabilidad. Algunas distribuciones de interés Una distribución de probabilidad es, en términos generales, cualquier regla o mecanismo que determine la probabilidad de que una variable aleatoria X tome un determinado valor x (v.a. discreta) o se encuentre comprendida en un rango (v.a.continua). Esta regla o mecanismo puede ser un gráfico, una tabla o una función. Toda distribución de probabilidad, ha de cumplir estos dos requisitos: x

1)

P ( X ≤ x) ≥ 0∀x si la v.a. es discreta o bien

∫ f ( x)dx ≥ 0∀x si es continua

−∞ ∞

2)

∑ P( X = x) = 1 si es discreta o ∫ f ( x)dx =1 si es continua −∞

Una función de distribución de probabilidad es la expresión que nos indica cual es la probabilidad de que la variable aleatoria tome un valor menor o igual que x. En notación matemática

F ( x) =P ( X ≤ x) La función de densidad de probabilidad es la derivada de la función de distribución y nos indica la probabilidad de que la v.a. X tome un determinado valor x (v.a. discreta). En el caso de una v.a. continua, la integral definida en un intervalo [a,b] de la función de densidad proporciona la probabilidad de que la v.a. se encuentre en [a,b].

Distribución binomial La distribución binomial es una distribución de probabilidad discreta del número de éxitos en una secuencia de n experimentos independientes, cada uno de los cuales tiene probabilidad θ de ocurrir. Su función de densidad de probabilidad está dada por:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


para , siendo elementos tomados de x en x)

las combinaciones de n en x (n

Por ejemplo, la distribución binomial se usa para encontrar la probabilidad de sacar 5 caras y 7 cruces en 12 lanzamientos de una moneda. En este caso se tiene que y resulta:

Su media y su varianza son:

Distribución hipergeométrica Una v.a. X que toma todos los valores comprendidos entre 0 y n, sigue una distribución hipergeométrica cuando:

 Np  Nq     x  n − x   P X n =x = N   x 

[

]

Esta función proporciona la probabilidad de obtener un número determinado de "éxitos" en una muestra, conocidos el tamaño de la muestra, n, el número de éxitos de la población, p, y el tamaño de la población, N. Esta distribución proporciona la base teórica para el muestreo aleatorio sin reposición en poblaciones finitas. Su esperanza (media) y varianza son

E ( X n ) =np

y

σ

2

=

N −n npq N −1

Distribución Normal Se hace necesario, para la teoría siguiente, conocer la distribución normal , ya que tiene gran importancia al querer estudiar el apuntamiento o curtosis. Se dice que una distribución tiene un apuntamiento u otro, siempre en comparación con la distribución normal. También es conocida como “campana de Gauss”, debido a su forma. Esta “campana” responde a la representación gráfica de la función de densidad de la distribución:

f ( x) =

σ

1

e 2π

(x−µ) −

σ

2

2

2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


La importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal: • Características biométricas • Caracteres fisiológicos como el efecto de un fármaco • Caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos • Caracteres psicológicos como el cociente intelectual • Nivel de ruido en Telecomunicaciones • Errores cometidos al medir ciertas magnitudes • Valores estadísticos muestrales como la media La representación gráfica de la función de densidad de la distribución normal, de parámetros µ y σ, N(µ, σ), tiene las siguientes características: a) es simétrica respecto a la media (parámetro µ) b) creciente para x < µ y decreciente para x > µ c) hay un máximo en x = µ d) el valor de f(x) se acerca asintóticamente a 0 cuando x -> ±∞ Cuando µ

= 0 y σ = 1, la distribución se conoce con el nombre de normal estándar.

Dada una variable aleatoria normal X, con media µ y desviación típica σ, si definimos otra variable aleatoria , entonces la variable aleatoria Z tendrá una distribución normal estándar de media 0 y desviación típica 1. Se dice que se ha tipificado la variable X.

Distribuciones derivadas de la normal Las distribuciones que se explican a continuación se obtienen como combinaciones de funciones de distribución de variables aleatorias independientes que siguen una distribución normal. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2

Distribución Χ de Pearson La variable aleatoria resultante de sumar k variables aleatorias independientes, que siguen una distribución normal estándar (media = 0 y desviación típica = 1), tiene una distribución que se 2 denomina X con k grados de libertad. La función de densidad de la variable así construída viene dada por la siguiente expresión:

donde

y fk(x) = 0 para

.

Γ es la función gamma. La esperanza matemática es igual a k y la varianza es 2k. 2

La distribución X es asimétrica y su propiedad fundamental es que, si sumamos dos variables 2 2 aleatorias X independientes de grados de libertad n y m, se obtiene una nueva v.a. X con n+m grados de libertad. Esta distribución tiene muchas aplicaciones en inferencia estadística, por ejemplo en el test jicuadrado y en la estimación de varianzas. También está involucrada en el problema de estimar la media de una población normalmente distribuida y en el problema de estimar la pendiente de una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en todos los problemas de análisis de varianza, por su papel en la distribución F de Snedecor, que es la distribución del cociente de dos variables aleatorias de distribución ji-cuadrado e independientes.

Cuando k es suficientemente grande se aproxima por la distribución normal.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


4.- Medidas de desigualdad y concentración 4.1.- Medidas de forma Las medidas de forma de una distribución se pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis.

4.1.1.- Asimetría Cuando al trazar una vertical, en el diagrama de barras o histograma, de una variable, según sea esta discreta o continua, por el valor de la media, esta vertical, se transforma en eje de simetría, decimos que la distribución es simétrica. Diremos pues, que es simétrica, cuando a ambos lados de la media aritmética haya el mismo nº de valores de la variable, equidistantes de dicha media dos a dos, y tales que cada par de valores equidistantes tiene la misma frecuencia absoluta. En caso contrario, dicha distribución será asimétrica o diremos que presenta asimetría. Asimétrica a la derecha

Asimétrica a la izquierda

Simétrica

Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que representaremos como g1 y responderá a la siguiente expresión matemática:

g1

∑ (x =

i

− x)3 ni

ns 3

Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea: Si g1 > 0 la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha). Si g1 < 0 la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda). Si g1 = 0 la distribución será simétrica.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Otra posibilidad de calcular la asimetría, es por medio del coeficiente de PEARSON (Ap), el cual responde a la siguiente expresión.

Ap =

X − Mo S

Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior, casi no lo utilizaremos ya que solo es cierto cuando la distribución tiene las siguientes condiciones: Unimodal Campaniforme Moderada o ligeramente asimetrica. Si Ap > 0 la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha). Si Ap < 0 la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda). Si Ap = 0 la distribución será simétrica. NOTA: Otro coeficiente es el coeficiente de asimetría de Bowley, menos utilizado. El cual esta basado en la posición de los cuartiles y la mediana, para lo cual los relacionaremos de acuerdo con la siguiente expresión:

Ab =

C3 + C1 − 2Me C3 + C1

4.1.2.- Curtosis Para calcularlo utilizaremos la expresión

g2 =

∑ (x

i

− X ) 4 ni ns 4

−3

Si g2> 0 la distribución será leptocúrtica o apuntada Si g2 = 0 la distribución será mesocúrtica o normal Si g2 < 0 la distribución será platicúrtica o menos apuntada que lo normal.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


4.2.- Medidas de concentración: Indice de Gini y Curva de Lorenz. Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribución de la variable. Para este fin, están concebidos los estudios sobre concentración. Denominamos concentración a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.). Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos extremos: 1.Concentración máxima, cuando uno solo percibe el total y los demás nada, en este caso, nos encontraremos ante un reparto no equitativo: x1 = x2 = x3 = ………… = xn-1 = 0 y xn. 2.Concentración mínima, cuando el conjunto total de valores de la variable esta repartido por igual, en este caso diremos que estamos ante un reparto equitativo x1 = x2 = x3 = ………… = xn-1 = xn De las diferentes medidas de concentración que existen nos vamos a centrar en dos: Indice de Gini, Coeficiente, por tanto será un valor numérico. Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.

4.3..- Cálculo e interpretación de los índices de concentración Sea una distribución de rentas (xi, ni) de la que formaremos una tabla con las siguientes columnas: 1.Los productos xi ni, que nos indicarán la renta total percibida por los ni rentistas de renta individual xi. 2.Las frecuencias absolutas acumuladas Ni . 3.Los totales acumulados ui que se calculan de la siguiente forma: u1= x1 n1 u2 = x1 n1 + x2 n2 u3 = x1 n1 + x2 n2+ x3 n3 Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


… un = x1 n1 + x2 n2+ x3 n3+ … + xn nn n

Por tanto podemos decir que

un = ∑ xi ni i =1

4.La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como pi y que vendrá dada por la siguiente notación

pi =

Ni 100 n

5.La renta total de todos los rentistas que será un y que dada en tanto por ciento, la cual representaremos como qi y que responderá a la siguiente notación:

qi =

ui 100 un

Por tanto ya podemos confeccionar la tabla que será la siguiente: Xi

ni

xi ni

Ni

ui

pi =

x1

n1

x1 n1

N1

x2

n2 ... nn

x2 n2

N2

u1 u2

p1 p2

... Xn

Ni 100 n

qi =

q1 q2

ui 100 un

pi - qi p1 - q1 p2 - q2

... ... ... ... ... ... xn nn Nn un pn qn pn - qn Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su diferencia seria cero. Si esto lo representamos gráficamente obtendremos la curva de concentración o curva de Lorenz .La manera de representarlo será, en el eje de las X, los valores pi en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será un cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores (0,0), y (100,100), y quedará siempre por debajo de la diagonal. La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal, menor concentración habrá, o más homogeneidad en la distribución. Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor concentración.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Veamos dos ejemplos, el de la izquierda de poca concentración y el de la derecha de más concentración.

Analíticamente calcularemos el índice de Gini el cual responde a la siguiente ecuación k −1

IG =

∑( p

i

i =1

− qi )

k −1

∑p i =1

i

Este índice tomara los valores de IG = 0 cuando pi = qi concentración mínima y de Ig = 1 cuando qi = 0 Esto lo veremos mejor con un ejemplo Frecuencia marca Li-1 – Li xi 0 – 50 25 50 – 100 75 100 – 125 150 150 – 175 200 200 – 225 250 250 – 275 300 300 – 325 350 350 – 375 400 400 – 425 450 450 – 475

xini

Σ un

ni 23 72 62

Ni 23 95 157

575 5400 7750

48

205

19

qi =(ui/un) 100

pi = (Ni/n) 100

pi - qi

575 1,48 5975 15,38 13725 35,33

8,85 36,54 60,38

7,37 21,16 25,06

8400

22125 56,95

78,85

21,90

224

4275

26400 67,95

86,15

18,20

8

232

2200

28600 73,62

89,23

15,61

14

246

4550

33150 85,33

94,62

9,29

7

253

2625

35775 92,08

97,31

5,22

5

258

2125

37900 97,55

99,23

1,68

2

260

950

38850 100,00

100,00

0,00

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


500 260

38850

651,15

Se pide Índice de concentración y Curva de Lorenz correspondiente Indice de concentración de GINI k −1

IG =

∑( p i =1

i

− qi )

k −1

∑p i =1

=

125, 48 = 0,193 651,15

i

Observamos que hay poca concentración por encontrarse cerca del 0. Curva de Lorenz La curva la obtenemos cerca de la diagonal, lo que indica que hay poca concentración: 100,0 90,0 80,0 70,0 60,0 50,0 40,0 30,0 20,0 10,0 0,0 0,0

10,0

20,0

30,0

40,0

50,0

60,0

70,0

80,0

90,0

100,0

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

125,48


5. MODELO DE REGRESIÓN LINEAL 5.1.- El Método de los Mínimos Cuadrados Ordinarios. La regresión lineal es una de las técnicas más utilizadas en el trabajo econométrico. Mediante dicha técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endógena, Y, respecto de una o varias variables explicativas o endógenas, X. En este epígrafe comenzaremos el estudio del caso de una única ecuación de tipo lineal con una variable dependiente y una independiente, dejando para el próximo epígrafe la generalización del modelo al caso de multiples variables exógenas. Se trata de estudiar una ecuación o un modelo del siguiente tipo:

Yt = a + bX t + et Nuestra labor consiste en estimar los parámetros a y b de la ecuación anterior a partir de los datos muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos hacer ciertas hipótesis sobre el comportamiento de las variables que integran el modelo.

A la variable et la denominamos término de perturbación o error, y es una variable que recoge todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin embargo, no están reflejados en la variable explicativa X. Estos factores deben ser poco importantes, es decir, no puede existir ninguna variable explicativa relevante omitida en el modelo de regresión. De ser así, estaríamos incurriendo en lo que se conoce como un error de especificación del modelo. El término de perturbación también recoge los posibles errores de medida de la variable dependiente, Y. De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de vital importancia que dicho término de error no ejerza ninguna influencia determinante en la explicación del comportamiento de la variable dependiente. Por ello, cuando se aplica el método de mínimos cuadrados ordinarios, se realizan las siguientes hipótesis de comportamiento sobre el término de error: 1. La esperanza matemática de et es cero, tal que E(et) = 0. Es decir, el comportamiento del término de error no presenta un sesgo sistemático en ninguna dirección determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estarán compensados. 2. La covarianza entre ei y ej es nula para i ≠ j tal que E(ei·ej) = 0. Ello quiere decir que el error cometido en un momento determinado, i, no debe estar correlacionado con el error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen influencia unos sobre otros. En caso de existir correlación, nos encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide realizar una estimación por mínimos cuadrados válida. 3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que 2 Var(ei) = σ I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos una variable, se produce un cierto error, resulta deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta condición es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediría un uso legítimo de la estimación lineal por mínimos cuadrados. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Estas hipótesis implican que los errores siguen una distribución Normal de media cero y varianza constante por lo que, dado su carácter aleatorio, hace que los errores sean por naturaleza impredecibles. Asimismo, las variables incluidas en el modelo deben verificar que: 1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo el periodo muestral, es decir, no se produce un cambio importante en la estructura de comportamiento de Y a lo largo de la muestra considerada. 2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en muestreos repetidos. 3. El número de variables explicativas, k, siempre debe ser menor que el tamaño muestral, n. Es decir, siempre debemos disponer de más observaciones que parámetros haya en el modelo. Veamos a continuación, suponiendo que se verifican los supuestos anteriores, como se realiza la estimación de los parámetros a y b. Gráficamente, el resultado que obtendremos al estimar dichos parámetros será una recta que se ajuste lo máximo posible a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el gráfico 5.1.

Gráfico 5.1. Nube de puntos o gráfico de dispersión con variables relacionadas linealmente El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la imagen de Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es 1 decir :

n

Min

∑ i =1

ei2 =

n

∑ i =1

(Yi −Yˆi ) 2 =

n

∑ (Y

i

− aˆ − bˆX i ) 2

i =1

1

Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son estimadas por lo que no se corresponden con el valor real de la variable sino que con el calculado por nosotros.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Derivando esta expresión respecto a los coeficientes a y b e igualando a cero obtenemos el siguientes sistema de ecuaciones: n

Yi = na + b

i =1 n

n

∑X

i

⇒ Y = aˆ + bˆX

i =1

Yi X i = aˆ

i =1

n

X i + bˆ

i =1

n

∑X

2 i

i =1

donde n representa el tamaño muestral y X e Y representan las medias de dichas variables. Resolviendo dicho sistema de ecuaciones obtenemos la solución para los parámetros a y b:

n

∑( X b=

i

− X )(Yi − Y )

i =1

n

∑( X

i

− X )2

i =1

a = Y − bX

Ejemplo 5.1. Se pretende estimar el siguiente modelo:

Yt = a + bX t + et donde Yt es la cantidad vendida anualmente del bien Y en el año t, y Xt es el precio medio al cual se vendió el bien Y durante el año t. Se dispone de los siguientes datos muestrales:

Año

Yt

Xt

1988

10

19

1989

12

18

1990

13

16

1991

14

15

1992

15

15

1993

17

14

1994

20

14

1995

21

13

1996

22

12

1997

20

13

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


A partir de estos datos iniciales podemos calcular la siguiente tabla:

Yt

Xt

(Yi − Y )

(Xi − X )

(Yi − Y ) · ( X i − X )

( X i − X )2

(Yi − Y ) 2

10

19

-6,4

4,1

-26,24

16,81

40,96

12

18

-4,4

3,1

-13,64

9,61

19,36

13

16

-3,4

1,1

-3,74

1,21

11,56

14

15

-2,4

0,1

-0,24

0,01

5,76

15

15

-1,4

0,1

-0,14

0,01

1,96

17

14

0,6

-0,9

-0,54

0,81

0,36

20

14

3,6

-0,9

-3,24

0,81

12,96

21

13

4,6

-1,9

-8,74

3,61

21,16

22

12

5,6

-2,9

-16,24

8,41

31,36

20

13

3,6

-1,9

-6,84

3,61

12,96

Total

164

149

0

0

-79,6

44,9

158,4

Media

16, 4

14, 9

0

0

Aplicando las formulas vistas anteriormente: n

∑( X b=

i

− X )(Yi − Y )

i =1

=

n

∑( X

i

− X )2

− 79.6 = −1.7728 44.9

i =1

a = Y − bX = 16.4 − ( −1.7728·14.9) = 42.82 de donde la ecuación de la recta estimada será Yt = 42.82 − 1.7728 X t + et Finalmente, sustituyendo en la expresión anterior los valores de Xt, podemos obtener los valores de Yˆi y el valor de los términos de error, ei:

Yˆi

ei = Yi − Yˆi

9.13140312

0.86859688

10.9042316

1.09576837

14.4498886

-1.44988864

16.2227171

-2.22271715

16.2227171

-1.22271715

17.9955457

-0.99554566

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


17.9955457

2.00445434

19.7683742

1.23162584

21.5412027

0.45879733

19.7683742

0.23162584

5.2. Bondad de Ajuste Como ya hemos comentado anteriormente, el modelo de regresión lineal se plantea para explicar el comportamiento de la variable dependiente Y. Por ello, en dicho estudio será interesante analizar la variación que experimenta esta variable y, dentro de esta variación, estudiar qué parte está siendo explicada por el modelo de regresión y qué parte es debida a los errores o residuos. Para ello, a partir de los términos de error, se puede obtener la expresión:

Y ' Y = Yˆ 'Yˆ + e' e En el caso de que exista término independiente en el modelo, la descomposición anterior quedaría como:

SCT = SCE + SCR donde: − SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la variable dependiente. − SCE es la Suma de Cuadrados Explicados por el modelo de regresión. − SCR es la Suma de Cuadrados de los Errores

Cada una de estas sumas viene dada por las siguientes expresiones:

SCT = Y ' Y − nY 2 =

n

∑Y

2

− nY 2

i =1

SCE = β ' X ' Y − nY 2 n

SCR = ∑ ei2 = Y ' Y − β ' X ' Y = SCT − SCE i =1

A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación 2 (R ), que se define como:

R2 = 1−

SCR 2 , 0≤R ≤1 SCT

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


y en el caso particular de modelo con término independiente, como:

R2 =

SCE 2 , 0≤R ≤1 SCT

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el mismo número de variables exógenas, ya que la capacidad explicativa de un modelo es mayor cuanto más elevado sea el valor que tome este coeficiente. Sin embargo, hay que tener cierto 2 cuidado a la hora de trabajar con modelos que presenten un R muy cercano a 1 pues, aunque podría parecer que estamos ante el modelo “perfecto”, en realidad estaría encubriendo ciertos problemas de índole estadística como la multicolinealidad que veremos más adelante. Por otra parte, el valor del coeficiente de determinación aumenta con el número de variables exógenas del modelo por lo que, si los modelos que se comparan tienen distinto número de 2 variables exógenas, no puede establecerse comparación entre sus R . En este caso debe emplearse el coeficiente de determinación corregido R 2 , el cual depura el incremento que experimenta el coeficiente de determinación cuando el número de variables exógenas es mayor.

La expresión analítica de la versión corregida es:

R2 =1−

(

SCR n − k n −1 =1− 1 − R2 SCT n − 1 n−k

)

cuyo valor también oscila entre 0 y 1

5.3. Inferencia acerca de los Estimadores Hasta el momento hemos visto como la estimación por Mínimos Cuadrados Ordinarios permite obtener estimaciones puntuales de los parámetros del modelo. La inferencia acerca de los mismos permite completar dicha estimación puntual, mediante la estimación por intervalos y los contrastes de hipótesis. Los primeros posibilitan la obtención de un intervalo dentro del cual, con un determinado nivel de confianza, oscilará el verdadero valor de un parámetro, mientras que los segundos nos permitirán extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parámetros. Veamos la expresión analítica de la estimación por intervalos y las reglas a seguir para realizar un contraste de hipótesis. Intervalos De Confianza a) Intervalo de confianza para el parámetro βˆi Su cálculo se realiza mediante la siguiente expresión:

IC βi : ( βˆi ± S βi t n −k ) donde S βi es la desviación típica estimada para el coeficiente βˆi , que se obtiene de la matriz de varianzas y covarianzas de los estimadores expresada como:

Σ ββ

 σ β2 1   σ β 2 β1 =  ... σ β β  K 1

σ β1β 2 σ β22 ...

σ β K β2

... σ β1β K   ... σ β22 β K   ... ...  ... σ β2K 

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


cuyos estimadores serán:

S βˆβˆ

 S β2ˆ  1 Sˆ ˆ =  β 2 β1  ... S  βˆK βˆ1

S βˆ βˆ

1 2

S β2ˆ

2

... S βˆ

K β2

ˆ

... S βˆ βˆ  1 K  ... S β2ˆ βˆ  2 K  ... ...  ... S β2ˆ  K  n

obtenidos a partir de la expresión S βˆβˆ = S e2 ( X ' X ) , donde −1

varianza del término de error y ( X ' X ) regresores utilizados (ver Tema 7).

−1

S e2 =

∑e i =1

2 i

n−k

es la estimación de la

la inversa de la matriz de productos cruzados de los

b) Intervalo de confianza para la varianza del término de error La expresión del intervalo de confianza para la varianza del término de error es:

    S 2 ( n − k ) S 2 ( n − k )   SCR SCR e e ≡ : ; ; IC σ e2  χ α2 χ 2 α   χ α2 χ 2 α    1− 1− 2 2 2   2 

     

donde α representa el nivel de significación del contraste y generalmente se utiliza un 5% de significación. Contrastes de Hipótesis a) Contraste individual sobre un parámetro Formulación de la hipótesis:

H 0 : β j = β *j H 1 : β j ≠ β *j

Estadístico experimental:

t exp =

βˆ j − β *j S βˆ

j

Estadístico teórico:

ttco = tn −k (α / 2)

Regla de decisión:

Si

texp > ttco se rechaza la hipótesis nula

b) Contraste de significación individual Formulación de la hipótesis:

H0 : β j = 0 H1 : β j ≠ 0

βˆ j

Estadístico experimental:

t exp =

Estadístico teórico:

t tco = t n− k (α / 2)

S βˆ

j

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Regla de decisión:

Si

texp > ttco se rechaza la hipótesis nula

c) Contrastes para un conjunto de hipótesis lineales

H 0 : Rβ = r

Formulación de la hipótesis:

H 0 : r11β1 + r12 β 2 + ... + r1k β K = r1 o alternativamente:

r21β1 + r22 β 2 + ... + r2 k β K = r2 ............. rq1β1 + rq 2 β 2 + ... + rqk β K = rq

(Rβˆ − r )′ ·[R·( X ' X ) R'] ·(Rβˆ − r ) −1

−1

Estadístico experimental:

q

Fexp =

SCR

n−k

donde q representa el número de ecuaciones de la hipótesis nula Estadístico teórico: Regla de decisión:

Ftco = F (q, n − k ,α ) Si Fexp > Ftco se rechaza la hipótesis nula

d) Contraste de significación global

H 0 : β 2 = β 3 = ... = β K = 0

Formulación de la hipótesis:

R2 k − 1 k −1 = = SCR 1 − R2 n−k n−k SCE

(

Estadístico experimental:

Fexp

Estadístico teórico:

Ftco = F (k − 1, n − k , α )

Regla de decisión:

Si

Fexp > Ftco

)

se rechaza la hipótesis nula

5.4. Predicción en el Modelo de Regresión Una vez estimado y validado el modelo, una de sus aplicaciones más importantes consiste en poder realizar predicciones acerca del valor que tomaría la variable endógena en el futuro o para una unidad extramuestral. Esta predicción se puede realizar tanto para un valor individual como para un valor medio, o esperado, de la variable endógena, siendo posible efectuar una predicción puntual o por intervalos. Su cálculo se realiza mediante las expresiones que figuran a continuación: a) Predicción individual: se trata de hallar el valor estimado para la variable Y un periodo hacia delante. En este caso basta con sustituir el valor de las variables exógenas en el modelo en el siguiente periodo y calcular el nuevo valor de Y. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


b) Intervalo de predicción. Para hallar un intervalo de predicción debe utilizarse la siguiente expresión:

IC : Yˆt +1 − t n − k S 

1 + X t' +1 ( X ' X ) X t +1 −1

ˆ +t S ; Y t +1 n −k

1 + X t' +1 ( X ' X ) X t +1   −1

c) Intervalos de predicción para un valor medio o esperado. La expresión a utilizar en este caso será:

IC E (Yt +1 ) : Yˆt +1 − t n −k S 

X t' +1 ( X ' X ) X t +1 −1

ˆ +t S ;Y t +1 n −k

X t' +1 ( X ' X ) X t +1   −1

5.5. Violación de los Supuestos del Modelo Lineal de Regresión Como veíamos en anteriores epígrafes, el modelo de regresión lineal requiere que se cumplan las siguientes hipótesis sobre los términos de error: • • •

Media cero : E(ei) = 0 i=1,…,n 2 Varianza constante : Var(ei) = σ I i=1,…,n Residuos incorrelacionados : Cov(ei,ej) = 0

El incumplimiento de alguna de dichas hipótesis, implica la no aleatoriedad de los residuos y, por tanto, la existencia de alguna estructura o relación de dependencia en los residuos que puede ser estimada, debiendo ser considerada en la especificación inicial del modelo. Los principales problemas asociados al incumplimiento de las hipótesis de normalidad de los residuos son, por un lado, la heteroscedasticidad, cuando la varianza de los mismos no es constante, y la autocorrelación o existencia de correlación entre los diferentes residuos, lo que violaría el supuesto de términos de error incorrelacionados. Si se construye una gráfica de los resultados de una estimación mínimo cuadrática (en abcisas) frente al valor absoluto de los residuos (en ordenadas), cuando éstos últimos presentan una 2 distribución Normal de media cero y varianza constante, N (0, σ ), el resultado obtenido (gráfico 6.2.) muestra que el tamaño del error es independiente del tamaño de la variable estimada, ya que errores con valor elevado se corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una distribución de residuos con problemas de heteroscedasticidad da lugar a una figura como la que puede observarse en el gráfico 6.3., en donde se manifiesta una clara relación de dependencia entre la variable estimada y el tamaño del error. En este caso los errores de mayor tamaño se corresponden con los valores más altos de la variable estimada.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


V a ri a b le e s ti m a d a ( y )

R e s id u o s a le a to rio s d e m e d ia c e ro y v a ria n z a c o n s ta n te 3500 3000 2500 2000 1500 1000 500 0 0

200

400

600

800

R e si d u o s v a l o r a b so l u to (e ) Gráfico 5.2. Residuos Homocedásticos

V a ria b le e s tim a d a (y )

R e s id u o s c o n h e te ro c e d a s tic id a d 3500 3000 2500 2000 1500 1000 500 0 0

200

400

600

800

1000

R e s id u o s va lo r a b s o lu to (e ) Gráfico 5.3. Residuos Heteroscedásticos

La representación gráfica de los errores en forma de serie temporal, es decir, poniendo en el eje de abcisas los errores y en ordenadas el periodo temporal en que están datados, permite apreciar la ausencia o presencia de correlación ya que a los residuos no correlacionados (gráfico 5.4.) le corresponde una representación gráfica en la que no se aprecia pauta temporal alguna, sucediéndose de forma impredecible o aleatoria, mientras que en los residuos con problemas de autocorrelación, la pauta temporal es evidente, evidenciándose que cada residuo puede ser predicho en función de la sucesión de los errores correspondientes a periodos temporales pasados (gráfico 5.5.) Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Residuos aleatorios con media cero y varianza constante 1000 500 0 -5001940

1950

1960

1970

1980

1990

2000

2010

-1000 Gráfico 5.4. Residuos sin Autocorrelación

Residuos con problema de autocorrelación 1000 500 0 1940 -500

1950

1960

1970

1980

1990

2000

2010

-1000 Gráfico 5.5. Residuos con Autocorrelación Estos problemas asociados a los errores pueden detectarse con test estadísticos diseñados para ello. A continuación se describen dichos test y la forma en que debe procederse para estimar modelos en donde la estimación mínimo-cuadrática presenta problemas de este tipo asociados a los residuos. Heteroscedasticidad Decimos que el término de error de una estimación mínimo-cuadrática presenta heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones que integran la muestra, lo que implica que la variabilidad de los errores mínimo-cuadráticos obtenidos están relacionados de alguna manera con los datos utilizados en el modelo, ya sea por estar relacionados con la escala temporal de los datos recogidos o por presentar alguna relación de dependencia con alguna de las variables exógenas utilizadas. Las consecuencias para la estimación mínimo-cuadrática son que los estimadores de los coeficientes seguirán siendo insesgados y lineales pero ya no serán de mínima varianza o eficientes.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


La detección de la heteroscedasticidad se realiza a través de diversos contrastes paramétricos, entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de GoldfeldQuandt (1965) y el contraste de White (1980), los cuales pasamos a ver a continuación. Test de Bartlett El test de Bartlett se basa en de que la suposición de que las n observaciones de los datos de la variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable explicativa, de tal manera que n1 sería el número de observaciones correspondientes al primer grupo, n2 el número de observaciones asociadas al segundo grupo y, en general, nG es el número de observaciones asociadas al grupo g-ésimo. A cada grupo le corresponde un valor medio de la variable dependiente y una varianza para este valor medio. El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido para la variable dependiente, admitiéndose la hipótesis de existencia de heteroscedasticidad si la varianza es significativamente diferente entre los grupos formados.

Los pasos a seguir en la práctica para realizar el test de Bartlett son los siguientes: 2

1. Se estima la varianza ( sg ) de cada grupo de observaciones, g=1, 2, ..., G mediante la siguiente expresión: ng

∑( y s g2 =

i

− yg )2

g =1

ng

2. Se calcula el estadístico S:

 G ng 2  G n log s  − n log sg2  g =1 n g  g =1 g   S= G  1 1 1   1+ − 3(G − 1)  g =1 n g n 

2

Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (χ ) con G–1 grados de libertad. Por lo tanto, se rechazará la hipótesis de igual varianza en todos los grupos si S es mayor que el valor crítico de la distribución chi-cuadrado al nivel de significación estadística fijado.

Contraste de Goldfeld-Quant El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relación monótona –creciente o decreciente– respecto a alguna variable exógena (que denominaremos variable z). La operativa de este test es la siguiente: 1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en función de la variable z. 2. Eliminar c observaciones centrales de la ordenación anterior, de tal forma que queden dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


tal forma que (n-c)/2 sea sustancialmente mayor que el número de parámetros del modelo. 3. Estimar dos veces el modelo original mediante Mínimos Cuadrados Ordinarios, utilizando en cada estimación una de las submuestras. 4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas submuestras (de manera que el subíndice 1 corresponda a la submuestra con la menor suma) se define el estadístico F:

F=

SR1 SR2

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad entonces, con la ordenación de la muestra, la varianza del término de error será mayor hacia el final de la muestra que al principio de la misma. Como el cuadrado de los residuos está asociado con la varianza de los mismos, entonces SR2 debería ser sensiblemente mayor que SR1. Por ello, se rechazara la hipótesis nula de homocedasticidad siempre que el valor del estadístico F excede el valor en tablas de la distribución F(n-c-2k)/2, (n-c-2k)/2, aceptándose la existencia de heteroscedasticidad en caso contrario.

Contraste de White El contraste de White se desarrolló también para evitar la necesidad de considerar una forma específica para la heteroscedasticidad. El contraste se basa en que, bajo la hipótesis nula de homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de β es:

σ 2 ( X ' X ) −1 Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada por:

( X ' X ) −1 X ' ΩX ( X ' X ) −1 , Ω = diag (σ 12 , σ 22 ,...,σ n2 ) Por tanto, si tomamos la diferencia entre ambas queda:

( X ' X ) −1 X ' ΩX ( X ' X ) −1 − σ 2 ( X ' X ) −1 Por ello, basta con contrastar la hipótesis nula de que todas estas diferencias son iguales a cero, lo que equivale a contrastar que no hay heteroscedasticidad. Los pasos a seguir para realizar el contraste de White son los siguientes: 1. Estimar el modelo original y obtener la serie de residuos estimados 2. Realizar una regresión del cuadrado de la serie de residuos obtenidos en el paso anterior sobre una constante, las variables exógenas del modelo original, sus cuadrados y los productos cruzados de segundo orden (los productos resultantes de multiplicar cada variable exógena por cada una de las restantes hasta completar . Es decir, se trata de estimar por MCO la relación:

eˆt2 =α +ϕ1X1 +...+ϕk Xk +η1X12 +...+ηk Xk2 +ω1X1X2 +...+ωk X1Xk +ν1X2 X3 +...+νk X2 Xk +...+ ρ1Xk−1Xk 2

3. Al aumentar el tamaño muestral, el producto nR (donde n es el número de 2 observaciones y R es el coeficiente de determinación de la última regresión) sigue una distribución Chi-cuadrado con p – 1 grados de libertad, donde p es el número de variables exógenas utilizadas en la segunda regresión. Se aceptará la hipótesis de Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


existencia de heteroscedasticidad cuando el valor del estadístico supere el valor crítico de la distribución Chi-cuadrado al nivel de significación estadística fijado.

Corrección de la heteroscedasticidad Los problemas de heteroscedasticidad se resuelven utilizando una técnica de estimación lineal que recibe el nombre de Mínimos Cuadrados Generalizados (MCG). El uso de Mínimos Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de regresión tal que todas ellas quedan divididas por la desviación típica de los residuos:

Yi * =

Yi

σe

, X *ji =

X ji

σe

, j = 2,..., k , ei* =

ei

σe

Posteriormente se realiza la regresión mínimo cuadrática con el modelo transformado:

Y * i = β1 + β 2 X *2 i + β 3 X *3i +... + β k X *ki + e *i La transformación descrita del modelo original requiere del conocimiento previo de una estimación de la varianza de los residuos. Si no se dispone de una estimación previa de dicha varianza, ésta puede estimarse mediante la siguiente expresión: n

2 σ MCG =

∑ eˆ

2 t

i =1

T −k

Autocorrelación Decimos que existe autocorrelación cuando el término de error de un modelo econométrico está correlacionado consigo mismo a través del tiempo tal que E(ei, ej) ≠ 0. Ello no significa que la correlación entre los errores se dé en todos los periodos sino que puede darse tan sólo entre algunos de ellos. En presencia de autocorrelación, los estimadores mínimo-cuadráticos siguen siendo insesgados pero no poseen mínima varianza, debiéndose utilizar en su lugar el método de Mínimos Cuadrados Generalizados. La existencia de autocorrelación en los residuos es fácilmente identificable obteniendo las funciones de autocorrelación (acf) y autocorrelación parcial (acp) de los errores mínimocuadráticos obtenidos en la estimación. Si dichas funciones corresponden a un ruido blanco, se constatará la ausencia de correlación entre los residuos. Sin embargo, el mero examen visual de las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la práctica econométrica se utilizan diversos contrastes para la autocorrelación, siendo el más utilizado el de Durbin-Watson (1950), que pasamos a ver seguidamente.

Contraste de Durbin-Watson Si se sospecha que el término de error del modelo econométrico tiene una estructura como la siguiente:

eˆt = ρ ·eˆt −1 + ut entonces el contraste de Durbin-Watson permite contrastar la hipótesis nula de ausencia de autocorrelación. Dicho contraste se basa en el cálculo del estadístico d, utilizando para ello los errores mínimo-cuadráticos resultantes de la estimación:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


n

∑ (eˆ − eˆ

i −1 )

i

d=

i=2

2

n

∑ eˆ

2 i

i =1

El valor del estadístico d oscila entre 0 y 4, siendo los valores cercanos a 2 los índicativos de ausencia de autocorrelación de primer orden. La interpretación exacta del test resulta compleja, ya que los valores críticos apropiados para contrastar la hipótesis nula de no autocorrelación requieren del conocimiento de la distribución de probabilidad bajo el supuesto de cumplimiento de dicha hipótesis nula, y dicha distribución depende a su vez de los valores de las variables explicativas, por lo que habría que calcularla en cada aplicación. Para facilitar la interpretación del test Durbin y Watson derivaron dos distribuciones: di y ds, que no dependen de las variables explicativas y entre las cuales se encuentra la verdadera distribución de d, de forma que a partir de un determinado nivel de significación, se adopta la siguiente regla de decisión: • • •

Si d ≤ di rechazamos la hipótesis nula de no autocorrelación frente a la hipótesis alternativa de autocorrelación positiva. Si d ≥ 4 – di rechazamos la hipótesis nula de no autocorrelación frente a la hipótesis alternativa de autocorrelación negativa. Si ds ≤ d ≤ 4- ds aceptamos la hipótesis nula de no autocorrelación.

En la siguiente página presentamos la tabla con la distribución desarrollada por Durbin y Watson para los valores de di y ds Ejemplo 5.2. En el siguiente ejercicio planteamos una regresión lineal entre el consumo de energía eléctrica en España y el PIB a precios de mercado valorado en moneda constante (millones de euros).

Consumo de Energía Eléctrica (miles de TEP) 198 7 198 8 198 9 199 0 199 1 199 2 199 3 199 4 199 5 199 6 199 7 199 8

9427

PIB (millones de euros) 355312

9876

373412

10410

391443

10974

406252

11372

416582

11488

420462

11569

416126

11999

426041

12462

437787

12827

448457

13331

466513

14290

486785

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


199 15364 9 200 16309 0 200 17282 1 200 17756 2 Fuente: INE y OCDE

507346 528714 543746 554852

Con los datos de la tabla anterior la estimación MCO entre el consumo de energía eléctrica y el PIB sería la siguiente: Yt=-6234.4+0.043Xt+εt Siendo Yt el consumo de energía eléctrica y Xt el PIB en moneda constante. Los resultados de la estimación se presentan a continuación:

Estadísticas de la regresión Coeficiente de correlación 0.9961969 múltiple 9 2 Coeficiente de determinación R 0.9924084 4 2 0.9918661 R ajustado 9 Error típico 233.80585 3 Observaciones 16 Coeficientes Error típico Intercepción -6234.453 451.562 PIB-$ 0.043 0.001

Estadístico t Probabilidad -13.806 0.000 42.780 0.000 2

Como vemos las estadísticas de la regresión realizada son buenas, se obtiene un R muy elevado, y los parámetros son estadísticamente significativos, ya que el valor teórico de la tStudent es 2.51 al 95% de probabilidad.

No obstante, la representación gráfica de los errores apunta a la posibilidad de un problema de autocorrelación entre los residuos:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Grafico de los residuos 600,0 500,0 400,0 300,0 200,0 100,0 0,0 -100,01986

1988

1990

1992

1994

1996

1998

2000

2002

2004

-200,0 -300,0 -400,0

Para verificarlo calculamos el estadístico t de Durbin-Watson:

1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Total

n

d=

∑ (eˆ i =2

i

− eˆi −1 ) 2

n

∑ eˆ i =1

2 i

2

2

Y*

et

et

et-et-1

(et-et-1)

8933 9705 10475 11107 11548 11714 11529 11952 12453 12909 13680 14545 15423 16335 16977 17451

494.2 170.5 -65.2 -133.3 -176.3 -225.9 40.2 46.9 8.5 -81.9 -348.7 -255.1 -58.8 -25.9 305.4 305.3 0.0

354817.8 373241.5 391508.2 406385.3 416758.3 420687.9 416085.8 425994.1 437778.5 448538.9 466861.7 487040.1 507404.8 528739.9 543440.6 554546.7 7179830.0

-323.6 -235.7 -68.2 -43.0 -49.6 266.1 6.8 -38.4 -90.5 -266.8 93.6 196.3 32.9 331.3 -0.1 -188.8

104742.4 55551.6 4645.2 1845.5 2462.8 70804.9 45.6 1474.9 8185.4 71161.5 8769.2 38536.6 1079.7 109776.4 0.0 479081.7

=

479,081.7 = 0.0667 7,179,830.0

Los valores teóricos del estadístico para n=16 observaciones y k=1 variables explicativas, son dD=0.98 y dU=1.24. Dado 0.0667 < 0.98 no podemos rechazar la hipótesis de la existencia de autocorrelación positiva.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


6. Regresión Lineal Múltiple 6.1.- Introducción. Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias variables exógenas, de tal forma que se trata de determinar la relación que existe entre la variable endógena Y y variables exógenas, X1 ,X2,…, Xk. Dicho modelo se puede formular matricialmente de la siguiente manera:

Y = X ·β + e = β 1 X 1t + β 2 X 2 t + ... + β k X kt + et , i=1,2, …, n donde:

 Y1     Y2  Y =   es el vector de observaciones de la variable endógena ...    Yn   X11 X12  X 22 X X =  21 ... ...   X n1 X n2

... X1k   ... X 2k  = [X1 X2 ... Xk ] es la matriz de observaciones de las variables ... ...   ... X nk 

exógenas

 β1    β  β =  2  es el vector de coeficientes que pretendemos estimar ...   βK   e1     e2  e =   es el vector de términos de error ...    en  Si en la expresión anterior se considerara que existe término independiente, α, la matriz X quedaría como:

 1 X 12   1 X 22 X = ... ...   1 X n2

X 1k   ... X 2 k  = [1 X 2 ... ...   ... X nk  ...

X 3 ...

Xk ]

y el modelo quedaría así:

Yi = α + β1 X i1 + β 2 X i 2 + ... + β k X ik + ui

i=1,2,..., n

Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver nuevamente es la minimización de la suma de los cuadrados de los términos de error tal que: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


n

Min

ei2 =

i =1

n

(Yi −Yˆi ) 2 =

i =1

n

∑ (Y

i

− βX i ) 2

i =1

Desarrollando dicho cuadrado y derivando respecto a cada βi obtenemos el siguiente sistema de ecuaciones expresado en notación matricial:

X ' X ·β = X ' Y en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz ( X ' X ) para obtener la estimación de los parámetros del modelo tal que:

βˆ = ( X ' X ) −1 X ' Y donde:

 n 2  X i1  i =1  n X ' X =  X i 2 X i1  i =1  .....  n  X ik X i1  i =1

   i =1 n  X i 2 X ik   i =1  ..... n  2 X ik  i =1 

n

∑X

i1 X i 2

...

∑X

∑X

2 i2

...

.....

...

i =1 n

i =1 n

∑X

 n   X i1Y i   i =1    n X Y   i 2 i X `Y =  i =1   ....    n X ik Y i    i =1 

n

ik

X i2

i1 X ik

...

i =1

Si en el modelo existiera término independiente, α, las matrices anteriores serían:

  n   n X ' X =  X i1  i =1  .....  n  X ik  i =1

n

   i =1 n  X i1 X ik   i =1 .....  n  X ik2  i =1 

 n   Yi   i =1   n  X Y   i 1 i X `Y =  i =1   ....   n   X ik Yi   i =1 

n

...

2 i1

...

.....

...

X i1

i =1 n

∑X i =1 n

∑X

ik

X i2

...

i =1

X ik

El resultado de multiplicar dichas matrices conduce a la obtención de la estimación de los parámetros βi del modelo:

 n 2  X i1  i =1  n −1 ˆ β = ( X ' X ) X ' Y =  X i 2 X i1 i =1  .....  n  X ik X i1  i =1

n

∑X

i1 X i 2

...

∑X

2 i2

...

.....

...

i =1 n

i =1 n

∑X

ik

X i2

i =1

...

−1

  n  X i1 X ik   X i1Yi    i =1   βˆ  i =1 n   n   1 X i 2 X ik  ⋅  X i 2Yi  =  βˆ2    i =1   ...  i =1   ....    ..... n   n   βˆk  2 X ik   X ik Yi  i =1   i =1  n

Cada uno de los coeficientes estimados, βˆi , son una estimación insesgada del verdadero parámetro del modelo y representa la variación que experimenta la variable dependiente Y Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


cuando una variable independiente Xi varía en una unidad y todas las demás permanecen constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadísticas muy interesantes ya que, si se verifican los supuestos antes comentados, son insesgados, eficientes y óptimos.

Ejemplo 6.1. Se dispone de información relativa al grado de ocupación hotelera (Y), número medio de turistas (X1), medido en miles de turistas, y estancia media (X2), medida en días. Los datos disponibles son de corte transversal y pertenecen a cada una de las 17 Comunidades Autónomas. Se quiere conocer como variará el empleo del sector turístico en Cantabria en función del aumento de las estancias medias. Tabla 6.1. Viajeros, pernoctaciones y estancia media. Año 2003 Datos por comunidades autónomas y provincias Empleo (en Número de viajeros Estancia miles) (miles) media Andalucía 28,4 11.902,5 3,1 Aragón 3,6 1.848,0 2,1 Asturias (Principado de) 2,4 1.088,2 2,3 Balears (Illes) 25,9 6.716,0 7,2 Canarias 27,2 4.875,7 7,8 Cantabria 2,0 933,8 2,4 Castilla y León 6,2 3.647,6 1,7 Castilla-La Mancha 2,8 1.805,1 1,7 Cataluña 23,5 10.771,7 3,4 Comunidad Valenciana 13,4 5.579,7 3,9 Extremadura 2,2 1.000,7 1,7 Galicia * 6,3 3.040,5 2,1 Madrid (Comunidad de) 10,7 5.748,9 2,1 Murcia (Región de) 2,0 882,5 3,0 Navarra (Comunidad Foral de) 1,1 557,7 2,0 País Vasco 3,2 1.540,6 1,9 Rioja (La) 0,7 446,2 1,8 161,8 62.385,5 50,3 Fuente:INE. El modelo teórico a estimar con la información disponible es el siguiente: Yi = α+β1 X1i + β2 X2i + ei donde Y es el empleo X1 el numero de viajeros y X2 la estancia media. Obtenemos los sumatorios de los productos cruzados: Y Y

X1 3.193

X1

X2 1.101.921

709

426.702.792

227.645

X2

203

En consecuencia:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


(X ' X )

−1

62386 50   17   =  62386 426702792 227645   50 227642 203  

 162    ( X 'Y ) = 1101921  709   

Vamos a estimar el modelo propuesto por Mínimos Cuadrados Ordinarios. Para ello, basta con multiplicar las matrices tal que:

 − 5,702    βˆ = ( X ' X ) X ' Y =  0,002   2,672    −1

Por lo que el modelo queda como sigue:

ˆ = = -5,702+0,002X1i + 2,67X2 Y i donde

βˆ1 = 0,002

indica el efecto, sobre el grado de ocupación hotelera, de las variaciones

unitarias del número medio de turistas y βˆ 2 = 2,67 mide la variación que se produciría en el grado de ocupación hotelera si la estancia media aumentara en una unidad. En consecuencia un aumento de las estancias medias de los turistas en Cantabria de 2,4 días a 3 día significaría un aumento del empleo del sector en 1.607 personas.

6.2. Deficiencias Muestrales: Multicolinealidad y Errores de Medida Multicolinealidad El fenómeno de la multicolinealidad aparece cuando las variables exógenas de un modelo econométrico están correlacionadas entre sí, lo que tiene consecuencias negativas para la estimación por Mínimos Cuadrados Ordinarios pues, en ese caso, en la expresión:

βˆ = ( X ' X ) −1 X ' Y la matriz ( X ' X ) no será invertible por lo que resultará imposible hallar la estimación de los parámetros del modelo y la varianza de los mismos. Esto es lo que se conoce por el nombre de multicolinealidad exacta. Sin embargo, en la práctica no nos encontraremos con un caso tan extremo como el que acabamos de exponer, sino que generalmente nos encontraremos ante multicolinealidad aproximada, siendo una de las columnas de la matriz ( X ' X ) , aproximadamente, una combinación lineal del resto por lo que será una matriz aproximadamente singular. Al no ser el determinante de ( X ' X ) igual a cero, existirá inversa y podrán estimarse los parámetros pero con las siguientes consecuencias: −

Por un lado, pequeñas variaciones muestrales producidas al incorporar o sustraer un número reducido de observaciones muestrales podrían generar importantes cambios en los parámetros estimados.

Por otro lado, la matriz de covarianzas del estimador MCO, S βˆβˆ = S e2 ( X ' X ) , al −1

ser un múltiplo de ( X ' X ) −1 , será muy grande por ser el determinante de ( X ' X ) Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


muy pequeño por lo que la estimación realizada será muy poco precisa al ser la desviación típica de cada parámetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variados, si bien en general resultan poco satisfactorios: −

Una posibilidad, sugerida por Johnston (1984) consiste en excluir aquella variable exógena que puede estar muy correlacionada con el resto y posteriormente estimar el coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el modelo.

También se ha sugerido la posibilidad de reformular el modelo, convirtiéndolo en un modelo de varias ecuaciones .

Errores de medida Cuando hablamos de errores en las variables nos referimos a los errores de medición de las mismas. Como el alumno ya debería conocer, al medir las relaciones existentes en Economía recurrimos a variables obtenidas, la mayoría de las veces por medio de estimaciones muestrales, esto es, a través de un muestreo representativo de las unidades que las generan (consumo interior de un país, producción, etc.) o derivadas de éstas (Producto Interior Bruto, etc.). Estas estimaciones de las variables macroeconómicas van asociadas a un error de muestreo. Las variables cuantificadas a través de muestreos representativos, no sólo se dan al trabajar con macromagnitudes, encontrándoselas también el investigador en todas las disciplinas (Marketing, Contabilidad, etc.) Es importante, por tanto, que al efectuar cualquier tipo de investigación y análisis, se conozca la fuente y origen de los datos, así como sus características básicas (error de muestreo, nivel de confianza, tipo de muestreo, tamaños muestrales, universo de referencia, influencia o sesgo de la no respuesta, etc.). El hecho de que los errores en las variables a medir existan, ha producido una controversia a lo largo del tiempo entre los económetras, existiendo partidarios de su tratamiento así como partidarios de no tenerlos en cuenta. A estos errores se les propuso como los causantes de las discrepancias en los valores observados y la regresión, fundamentándose en la diferencia existente entre las variables teóricas y las variables empíricas. La aceptación de la existencia de errores en la medición de las variables produce un problema de aceptación de inconsistencia en las estimaciones mínimo cuadráticas debido a que, evidentemente, si una variable esta medida con error éste se reflejará en la perturbación aleatoria, produciéndose una correlación entre ambos componentes de la ecuación. En estos casos se utiliza la definición de variable latente, como la variable real, que no siempre coincidirá con la variable empírica u observada. La variable latente se describe como la variable observada más el término de error. Llevado el problema a un modelo concreto, se puede observar como sustituyendo las variables a analizar (siempre se supone que se desea trabajar con variables reales “latentes”) por las variables observadas más el error de medida, se llega al problema descrito. Este problema difiere en su magnitud según si el error se da en las variables explicativas o en las variables endógenas. Así, si sólo existen errores en la variable endógena, los estimadores mínimo cuadráticos serán insesgados y consistentes, pero presentarán un problema de eficiencia (se incrementa la varianza del error). Si, por el contrario, los errores de medición se encuentran en las variables explicativas del modelo, los estimadores mínimo cuadráticos serán sesgados e inconsistentes. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Otro hecho a tener en cuenta es que habitualmente no se conoce el valor real de la variable, no conociéndose, por tanto, el error cometido en su medición (estimación), debiendo el investigador trabajar con la variable observada, lo que conduce a la necesidad de trabajar con estimadores consistentes. Actualmente existe una línea de investigación en la cual se trabaja con errores en las variables, conocida como el análisis de ecuaciones estructurales los cuales, partiendo del hecho de que no se miden perfectamente las variables latentes mediante la información disponible, incorporan dentro de su implementación los errores de medida. Dentro de esta línea de investigación cabe destacar los siguientes métodos: •

Método de Agrupación de las Observaciones, que consiste en la división de los valores muestrales en grupos o submuestras a partir de los cuales, una vez ordenados de menor a mayor los valores de la variable explicativa, se calculan las medias aritméticas, obteniéndose de esta manera tanto la pendiente como el término independiente. Los estimadores así obtenidos son consistentes, pero no eficientes.

Método de Variables Instrumentales (VI), consiste en encontrar un instrumento o variable que, no estando incluida en el modelo, esté incorrelacionada con el término de error y correlacionada con la variable explicativa para la que actúa de instrumento y que posee errores de medida. El estimador obtenido de esta manera será un estimador consistente, si bien el método plantea ciertas dificultades, ya que es difícil encontrar en la práctica instrumentos de una variable medida con error que no estén correlacionados con el término de error.

Método de la Regresión Ponderada, en la que se da una ponderación igual a los errores de X y de Y. Posteriormente, y una vez fijada la relación entre las varianzas de los errores, se procede a estimar X en función de Y, y de Y en función de X, debiendo encontrarse la regresión verdadera entre ambas estimaciones.

6.3. Modelo con variables cuantitativas y cualitativas como regresores. En un modelo econométrico, se entiende por variable al concepto económico que queremos analizar. Normalmente utilizaremos variables cuantitativas, es decir, aquellas cuyos valores vienen expresados de forma numérica. Sin embargo, también existe la posibilidad de incluir en el modelo econométrico información cualitativa, siempre que la información cualitativa pueda expresarse de forma cuantitativa. Dentro de este tipo de variables se distinguen:: •

Variables proxies: son variables aproximadas a la variables objeto de análisis. Por ejemplo, si quiero utilizar una variable que mida el nivel cultural de un país (variable cualitativa) puedo utilizar como variable proxy el número de bibliotecas existentes en un país, que si bien no recoge el concepto exacto que yo quiero medir, si se aproxima al mismo.

Variables ficticias o dummy: estas variables toman únicamente (en principio) dos valores arbitrarios según se de o no cierta cualidad en un fenómeno. Habitualmente a la variable ficticia se le asigna el valor 1 si ocurre un determinado fenómeno y 0 en caso contrario. Estas variables, a su vez, pueden ser de dos tipos: −

Ficticia de intervalo: Por ejemplo si estoy analizando la variable exportaciones en España desde 1970 hasta el año 2000, hay un hecho importante que es la entrada de España en la Unión Económica que debo recoger a través de la utilización de la variable ficticia.

Ficticia de escalón: Por ejemplo si está analizando el crecimiento económico de un país en el que en un año determinado hubo un acontecimiento meteorológico que tuvo una repercusión negativa sobre la economía, al

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


tratarse éste un dato casual (y no equilibrado con el resto de valores que toma la serie) debo introducir en el modelo este tipo de información para que la tenga en cuenta en la estimación y cometa un menor error.

Variables definidas por su pertenencia o no a un grupo: si yo tengo una variable cualitativa que me define la pertenencia o no de un país a un grupo (por ejemplo renta alta, media y baja) podré introducir esta variable cualitativa en el modelo codificándola, es decir expresando sus valores en números de tal forma que puedo asociar cada nivel de renta con un valor número arbitrario (por ejemplo 1: renta baja; 2: renta media; y 3: renta alta).Se entiende por datos, los diferentes valores que toma una variable. Los datos pueden corresponder a los valores de una variable en el tiempo (serie temporal), o avalores para diferentes sujetos en un momento dado (datos de corte transversal).

A continuación vamos a plantear el ejercicio de la inclusión de una variables cualitativa dicotómicas ó dummy en un modelo de regresión lineal. Supongamos que tenemos el siguiente modelo: Yt=β1+β2Xt+εt (1) siendo i=1,….,T1, T1+1…T En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la evolución de la variable dependiente, y queremos lógicamente saber el efecto que causa dicho suceso extraordinario sobre la ecuación a estimar. Por ello habremos de definir las siguientes variables dummy:

1 si t ≤ T1 D1t =  0 si t > T1

0 si t ≤ T1 D 2 t = (1 − D 2 t ) =  1 si t > T1

La estructura de ambas variables sería la siguiente:

1   0 .  . .  .     1   0 D1 =   D 2 =   0 1 .  .      .  .  0 1 D1 tienen tantos 1 como observaciones hay hasta T1 y D2 tiene tantos 1 como observaciones hay entre T1 y T. Analizar el efecto del suceso extraordinario sobre la regresión, puede realizarse de forma separada para cada periodo de 1 a T1 y T1 a T o conjuntamente para todo el periodo, bien sobre el termino constante B1 o sobre la pendiente B2. Para el análisis del término constante tendremos que plantear los siguientes modelos de regresión: Yt=β1+α1D1t+β2Xt+εt (2) Yt=β1+α2D2t+β2Xt+εt (3) Yt=α1D1t+α2D2t +β2Xt+εt (4) En este caso : Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Si se utiliza la especificación del modelo (2) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α1=0

Si se utiliza la especificación del modelo (3) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α2=0

Si se utiliza la especificación del modelo (2) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α1=α2

Si queremos analizar la pendiente del modelo, plantearemos las siguientes ecuaciones de regresión: Para el análisis del término constante tendremos que plantear los siguientes modelos de regresión: Yt=β1+β2Xt+δ1(D1t Xt)+εt (5) Yt=β1+β2Xt+δ2(D2t Xt)+εt (6) Yt=β1+δ1(D1t Xt)+ +δ2(D2t Xt)+εt (7)

En cuyo caso: −

Si se utiliza la especificación del modelo (5) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ1=0

Si se utiliza la especificación del modelo (6) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ2=0

Si se utiliza la especificación del modelo (7) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ1=δ2

Las variables dummy también pueden ser utilizadas para modelizar variables definidas por su pertenencia o no a un grupo. Supongamos ahora que estamos modelizando la relación que existe entre la renta disponible y las primas de seguro contratadas por un grupo “N” de individuos, a partir de datos del importe de las primas de seguro contratadas por cada individuo Yi, y la renta o los ingresos que declara cada uno de ellos Ri: Yi=β1+β2Ri+εt (8), siendo i=1…..N De este grupo de individuos conocemos algunas otras características que pueden ser transcendentes a la hora de nuestro análisis, por ejemplo el nivel de estudios. En concreto disponemos de información sobre el nivel de estudios que han completado: sin estudios, primarios, secundarios o universitarios. Utilizando dicha información creamos las siguientes variables dummy:  1 si i tiene estudios universitarios 1 si i no tiene estudios universitarios D1t =  D 2 t = (1 − D 2 t ) =  0 si i no tiene estudios universitarios  0 si i tiene estudios universitarios

Si por ejemplo la muestra de individuos que tenemos es de 10 (N=10), de los cuales tres de ello tienen estudios universitarios, las variables dummy tendrían la siguiente estructura:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


1   0 0   1 0   1     1   0 D1 = 0 D 2 = 1  0   1 0  1      0  1  1   0     Al igual que en el ejemplo anterior el investigador puede estar interesado en analizar el efecto que tiene el nivel de formación en el gasto en primas de seguros de los diferentes individuos. Al igual que en el ejemplo anterior podemos contrastar el efecto que tiene el nivel de estudios en el termino independiente (α), o en el coeficiente (β) que relaciona el nivel de renta con el importe pagado en primas. El planteamiento del problema para el análisis del término constante sería entonces: Yi=β1+α1D1i+β2Ri+εi (9) Yi=β1+α2D2i+β2Ri+εi (10) Yi=α1D1i+α2D2i +β2Ri+εi (11) En este caso: −

Si se utiliza la especificación del modelo (9) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α1=0

Si se utiliza la especificación del modelo (10) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α2=0

Si se utiliza la especificación del modelo (11) el análisis de la invariabilidad de β1 exige contrastar la hipótesis nula H0: α1=α2

Para el análisis de la pendiente tendremos que plantear los siguientes modelos de regresión: Yi=β1+β2Ri+δ1(D1i Ri)+εi (12) Yi=β1+β2Ri+δ2(D2i Ri)+εi (13) Yi=β1+δ1(D1i Ri)+ +δ2(D2i Ri)+εi (14) En cuyo caso: −

Si se utiliza la especificación del modelo (12) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ1=0

Si se utiliza la especificación del modelo (13) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ2=0

Si se utiliza la especificación del modelo (14) el análisis de la invariabilidad de β2 exige contrastar la hipótesis nula H0: δ1=δ2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


6.4. El empleo de variables cualitativas para el tratamiento de la estacionalidad En Economía se suele trabajar con datos anuales, pero en muchos casos y derivado del carácter predictivo del modelo o bien de la objetiva utilización del mismo, se hace necesario trabajar con series de datos diarias, mensuales o trimestrales, y muchas series en economía generalmente adolecen del carácter estacional de las mismas (consumos bajos en los meses de verano, consumos turísticos altos en este periodo, disminución de las ventas en domingos y lunes, etc.) Las variables dummy pueden utilizarse para recoger el efecto de la estacionalidad en el modelo econométrico que estimamos. Las variables dummy para ajuste estacional son variables artificiales que asumen valores discretos, generalmente de 0 y 1. Estas fueron originalmente aplicadas por Lovell a inicios de los años 60 y sirven para "explicar" la estacionalidad en las series de tiempo, la cual, como se señalo en el apartado 6.3, es un patrón de comportamiento regular de una serie a lo largo de cada año, que puede obedecer a factores tales como costumbres, días festivos decretados, vacaciones de verano, época de navidad y otros factores similares que ocasionan incrementos o disminuciones en las magnitudes de ciertas variables, como por ejemplo la producción, las ventas, etc. Si se trabaja con datos trimestrales, cabría pensar en utilizar una variables artificial para cada trimestre, que definidas como: q1, q2, q3 y q4; su representación matricial para dos años cualesquiera sería:

1 0  0  0 X = 1  0 0  0 . 

0 0 0 1 x1  1 0 0 1 x 2  0 1 0 1 x3   0 0 1 1 x4  0 0 0 1 x5   1 0 0 1 x6  0 1 0 1 x7   0 0 1 1 x8  . . . 1 . 

No obstante hay que tener presente que las columnas correspondientes a las variables estacionales darían lugar a una combinación lineal exacta con la constante, lo cual produciría que el determinante de la matriz X'X fuera igual a cero y, por tanto, singular (no invertible), lo que impide estimar los coeficientes del modelo de regresión. Para evitar este inconveniente se utilizan únicamente tres de las cuatro variables dummy y por supuesto la constante. Así, si se excluye la variable q4 en la matriz X, el efecto estadístico de la variable omitida estaría implícitamente recogido con la columna de la constante. En definitiva, la matriz de variables exógenas estaría determinada por las tres dummy: q1, q2, q3 y la constante, y las variables exógenas cuantitativas con lo cual la matriz sería:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


1 0  0  0 X = 1  0 0  0 . 

0 0 1 x1  1 0 1 x 2  0 1 1 x3   0 0 1 x4  0 0 1 x5   1 0 1 x6  0 1 1 x7   0 0 1 x8  . . 1 . 

Otra forma muy utilizada consiste en expresar las variables artificiales estacionales como desviaciones con respecto a la que corresponde al cuarto trimestre. Estas nuevas variables, que podrían denominarse S1, S2 y S3, corresponderían a las siguientes diferencias vectoriales: S1 = q1 - q4 S2 = q2 - q4 S3 = q3 - q4 Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la nueva matriz X queda definida de la siguiente manera:

0 0 1 1 0 1 0 1  0 0 1 1  − 1 − 1 − 1 1 X =1 0 0 1  0 1 0 1 0 0 1 1  − 1 − 1 − 1 1  . . . 1 

x1  x 2  x3   x4  x5   x6  x7   x8  . 

Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han sido definidos de forma tal que su suma sea cero en cada año, por lo que este sistema permite que el efecto estacional se anule en el año y que se obvie el problema de singularidad de la matriz. A manera de ejemplo, considérese un modelo de regresión con cifras trimestrales, en donde la variable Y depende de la variable X y en el que se incorporan tres variables dummy trimestrales (Si, para todo i = 1, 2, 3) y un término de error ( ). Este modelo estaría representado de la siguiente manera: Y = 0 + 1X + 1S1 + 2S2 + 3S3 + La estimación se llevaría a cabo con las tres variables dummy trimestrales S1, S2 y S3. Los coeficientes de las tres variables dummy identifican las diferencias con respecto al cuarto trimestre. Es importante mencionar que en el caso de variables con periodicidad mensual, se crearían únicamente once variables estacionales, en forma equivalente a lo explicado en esta sección. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Sin embargo, en este caso se presenta el inconveniente de que se requiere gran cantidad de observaciones. No obstante hay que tener presente que el uso de las variables estacionales presenta problemas cuando la estacionalidad de la serie Y es móvil, es decir, cuando varía año con año. En este caso, es difícil que modelos de este tipo capturen de una forma adecuada la estacionalidad de la variable dependiente. Ejemplo 6.2. Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al consumo de electricidad en GWh en España (Yt) y al PIB a precios de mercado en millones de euros constantes de 1995. Tabla 7.2 Demanda de Electricidad (GWh) 1996 1 40919 2 37275 3 38070 4 39981 1997 1 40246 2 39070 3 40464 4 42602 1998 1 43263 2 41535 3 43273 4 45010 1999 1 46551 2 43735 3 45908 4 48160 2000 1 49922 2 46861 3 48208 4 50020 2001 1 52029 2 49314 3 50887 4 53405 2002 1 53928 2 51523 3 51950 4 53762 2003 1 57156 2 53231 3 56516 4 56990 Fuente: Ministerio de Economía

Año

Q

PIB (millones de euros) 109275 111875 111211 116096 113396 115566 115744 121807 118399 120735 121472 126179 122424 126471 126474 131977 129443 133021 130743 135507 134079 135900 134475 139292 136892 138746 137060 142154 140080 141861 140207 146163

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


En la figura 6.1 se aprecia el carácter estacional de la demanda de energía eléctrica: Consumo de Electricidad (GWh) 60.000 55.000 50.000 45.000 40.000 35.000 30.000 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

1996

1997

1998

1999

2000

2001

2002

2003

Fig. 6.1. Consumo Trimestral de Electricidad Los trimestres de mayor consumo son los terceros y cuartos (otoño e invierno) y los de menor, el segundo y tercero (primavera y verano).

Para evitar la multicolinealidad estimamos con las cualitativas de los tres primeros trimestres:

Yt = -24,705.2+3,087.2Q1t-996.1Q2t +1,066.2Q3t +0.55Xt+et con los siguientes resultados: Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R

2

2

R ajustado Error típico Observaciones

Intercepció n PIB Q1 Q2 Q3

Coeficiente s 24705.2227 0.55474441 3087.18799 996.097068 1066.19716

0.9908421 7 0.9817682 1 0.9790672 1 854.45583 1 32

Error típico 1999.20037 0.01492667 439.461556 432.19015 434.284718

Estadístico t 12.3575521 37.1646554 7.024933 2.30476578 2.45506488

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Para considerar la hipótesis H0: βi=0, hay que tener presente que el valor teórico de la t-Student correspondiente a una distribución con (32-5) grados de libertad es 1.69 para α=0.05/2 (95% de confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos de cero.

6.5. El modelo probabilístico lineal El modelo de probabilidad lineal se caracteriza por tener la variable endógena “y” dicotómica o binaria, es decir toma el valor “y=1” si un determinado suceso ocurre y el valor “y=0” en caso contrario. Estos modelos son gran utilización en análisis estadístico en las ciencias sociales, pero encuentran una difícil aplicación en el análisis estadístico en economía debido a las dificultades de interpretación económica de los resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que estos modelos lo que realmente investigan es la probabilidad de que se de una opción (determinada por la variable endógena) o no se de (valores y=1 o y=0). A pesar del carácter dicotómico de la variable endógena, el modelo de probabilidad lineal se especifica de la forma habitual, teniendo presente que las variables exógenas no son dicotómicas sino continuas: Yi=β1+β2Xi+εi (1) siendo i=1,……N De acuerdo con la expresión (1) el hecho de que la variable endógena tome valores discretos (1 ó 0), el término de perturbación εi, únicamente puede tomar dos valores: −

Si Yi=0 ⇒ εi = -β1- β2Xi con probabilidad p.

Si Yi=1 ⇒ εi = 1-β1- β2Xi con probabilidad (1-p).

Dado que la esperanza del término de error ha de ser nula E(εi)=0, entonces se demuestra que p= 1-β1-β2Xi y (1-p) = β1+β2Xi , lo que permite evaluar la probabilidad de que la variable endógena tome el valor correspondiente: −

Prob (Yi=0) = Prob (εi = -β1- β2Xi ) = p = 1-β1- β2Xi.

Prob (Yi=1) = Prob (εi = 1-β1- β2Xi ) = (1-p) = β1+ β2Xi .

A su vez la varianza del término de perturbación, se calcularía a partir de p: Var(εi)= (1-β1-β2Xi )( β1+β2Xi)=p*(1-p) Una problemática inherente a los estimadores MCO de estos modelos, son los siguientes: −

La perturbación aleatoria (εi) no sigue una distribución normal. Es sencillo observar este hecho ya que el carácter binario (1 o 0) de la variable endógena afecta a la distribución de la perturbación, teniendo esta una distribución Binomial. Este problema se aminora cuando se utilizan tamaños de muestra (N) grandes en donde la distribución Binomial es susceptible de aproximarse a una Normal.

La perturbación aleatoria no tiene una varianza constante (es heteroscedástica), lo cual supone una falta de eficiencia. Para solucionarlo habría que realizar transformaciones que nos diesen una perturbación homocedástica, esta transformación consiste en multiplicar todas las variables por una cierta cantidad que elimine el problema de la heteroscedasticidad. Dicha cantidad puede ser:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


)

)

1

) ) ( β 1 + β 2 X i )(1 − β 1 − β 2 X i ) siendo β los estimaciones MCO del modelo. −

El mayor problema que plantean estos modelos es no obstante que las predicciones realizadas sobre la variable endógena no siempre se encuentran en el intervalo [0,1], ya que pueden ser mayores que cero y menores que 1. Este problema tiene dos soluciones, una es tomar como valor 0 todas las estimaciones de la variable endógena con valores negativos, y 1 cuando estas resulten mayores que 1. La segunda, solución es utilizar funciones de distribución que estén acotadas entre cero y uno. Según sea esta distribución tendremos las distintas versiones de los modelos con variable dependiente dicotómica. Las más utilizadas son los modelos Probit y Logit.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


7. NUMEROS INDICES 7.1. Introducción El número índice es un valor expresado como porcentaje de una cifra que se toma como unidad base. Por ejemplo, cuando decimos que el índice de precios de consumo (base media de 1992=100) correspondiente al mes de diciembre de 1997 es 122,9, estamos señalando que los precios en diciembre de 1997 eran un 22,9 más elevados que los que estaban en vigor a lo largo de 1992. Los números índices no tienen unidades y pueden referirse tanto a precios (índice de precios de consumo, índice de precios percibidos por los agricultores, índice de precios industriales) como a cantidades (índice de producción industrial). El número índice es un recurso estadístico para medir diferencias entre grupos de datos. Un número índice se puede construir de muchas formas distintas. La forma de cada índice en particular dependerá del uso que se le quiera dar. Los números índices se elaboran tanto con precios (p) como con cantidades (q). El año en que se inicia el cálculo de un número índice se denomina año base y se nombran por p0 o q0 según tratemos de precios o de cantidades, a los precios o las cantidades de los años sucesivos los indicamos por pt o qt . Si trabajamos con diferentes tipos de mercancías utilizamos los subíndices (i) para referirnos a un tipo de mercancía, de modo que utilizamos los símbolos pit o qit para señalar el precio o la cantidad de la mercancía i en el período t. Si hubiese N mercancías el valor total de la cesta de productos durante el periodo t se expresa : N

Valor total durante el periodo

t = ∑ pit qit i =1

Los números índices se clasifican en ponderados y no ponderados. Los números índices no ponderados son los más sencillos de calcular, pero deben de utilizarse con especial cuidado. Los números índices ponderados requieren que definamos previamente a su construcción los criterios de ponderación o de peso. Una vez definida una ponderación debe de respetarse en los sucesivos períodos. En este apartado estudiaremos los índices ponderados que son de aplicación común. A la hora de elaborar un número índice hay que tener presente una serie de propiedades que el índice debe de cumplir. Dichas propiedades son: a) Existencia: Todo número índice ha de tener un valor finito distinto de cero. b) Identidad: Si se hacen coincidir el período base y el período actual el valor del índice tiene que ser igual a la unidad (o 100 si se elabora en porcentajes). c) Inversión: El valor del índice ha de ser invertible al intercambiar los períodos entre sí. Es decir :

I to =

1 el índice del año o calculado con la base del año t, ha de ser igual al inverso I ot

del índice del año t calculado en base del año o. d) Proporcionalidad: Si en el período actual todas las magnitudes experimentan una variación proporcional, el número índice tiene que experimentar también dicha variación. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


e) Homogeneidad: Un número índice no puede estar afectado por los cambios que se realicen en las unidades de medida.

7.2. Índices simples y complejos Considerado un período determinado (por ejemplo, enero de 1990) como período base del índice, se elabora el índice simple a partir de la razón de precios (precios relativos) o cantidades (cantidades relativas) respecto al valor de aquéllos en el período base multiplicados por 100:

Iit =

xit 100 xio

En el siguiente período el índice simple sería

Ii ( t + 1) =

xi ( t +1) xio

100

Al comparar los números índice Iit e Ii(t+1) se ve el incremento del precio de dicho producto en cuestión. Los índices simples pueden agregarse de diferentes formas, a dichas agregaciones se les conoce como índices complejos. Si suponemos que tenemos “N” diferentes productos, obtendríamos operando los siguientes índices complejos: a) índice media aritmética de índices simples cuando operamos del siguiente modo : N

Ii ∑ I1 + I 2 +...+ I N i =1 I= = N N b) índice media geométrica de índices simples cuando operamos del siguiente modo : N

I = N I1 . I 2 .... I N = N ∏ I i i =1

c) índice media armónica de índices simples cuando operamos del siguiente modo :

I=

N 1 1 1 + +...+ I1 I 2 IN

=

N N

1

i =1

i

∑I

d) índice media agregativa de índices simples cuando operamos del siguiente modo : N

x + x 2t + ... + x Nt I = it = x1o + x 2 o + ... + x No

∑x i =1 N

∑x i =1

it

io

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


7.3. Índices ponderados. Una ponderación wi es un valor de referencia para cada producto que determina su importancia relativa en el índice total. Al ser el ponderador un valor relativo lo normal es que se presente calculado en tanto por uno, por ciento ó por mil, expresando así el porcentaje que representa dicho producto en la cesta de productos que cubre el índice:

Wi =

pi 0 qi 0 n

∑p q i0

i0

Una vez obtenidos los ponderadores (wi) se calculan el índice media aritmética ponderada de índices simples cuando operamos del siguiente modo : N

I w + I w +...+ I N wN I= 1 1 2 2 = w1 + w2 +...+ wN

∑ I .w i

i

i =1 N

∑w

i

i =1

Ejemplo 7.1. En la tabla 7.1 aparece la información que disponemos sobre una cesta de productos: 2000 2001 2002 Productos Precio venta Unidades Precio venta Unidades Precio venta Unidades M1 1 3000 1,2 4000 1,4 5500 M2 1,5 4000 1,5 3000 1,6 4500 M3 2 2500 2 2500 2,4 2000 M4 4 2000 4,5 1500 4,5 2000 Calculamos los índices simples de precios para los productos de la cesta: Productos M1 M2 M3 M4

2000 100 100 100 100

2001 120,00 100,00 100,00 112,50

2002 140,00 106,67 120,00 112,50

Los índices simples para la cesta de productos serán: Indices simples Media aritmética Media geométrica Media armónica Media agregativa

2000

2001

2002

100

108,13

119,79

100

107,79

119,16

100

107,46

118,55

100

108,13

119,79

El ponderador sería tanto por uno el valor del producto, es decir el precio por la cantidad vendida, en el total vendido: 2000

2001

2002

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


M1 M2 M3 M4

0,13636364 0,27272727 0,22727273 0,36363636

0,2280285 0,21377672 0,23752969 0,32066508

0,26829268 0,25087108 0,16724739 0,31358885

Y el índice media aritmetica ponderado resultarán ser los siguientes: Indice ponderado Media aritmética

2000

2001

2002

100

108,57

119,67

7.4. Índices de precios. Los índices de precios se elaboran usualmente utilizando índices complejos ponderados, siendo los más utilizados los denominados índices de Laspeyres, Paasche y Fisher. a) Índice de Laspeyres El índice de Laspeyres es una media aritmética ponderada de índices simples, cuyo criterio de ponderación es wi=pio.qio. La fórmula que define el índice de Laspeyres es la siguiente: N

N

∑I w ∑p i

Lp =

∑I

it

qio

io

qio

i

i =1 N

= i

i =1

i =1 N

∑p i=1

Se suele utilizar este índice a la hora de elaborar los índices de precios por cuestiones prácticas ya que únicamente requiere investigar en el año base el valor de los ponderadores, que es la parte mas costosa de la elaboración del índice, (téngase en cuenta que en el IPC se realiza una encuesta de presupuestos familiares en los años base que requiere una muestra de 20.000 hogares). Una vez determinados los ponderadores el índice de Laspeyres únicamente requiere que se investigue en los sucesivos períodos la evolución de los precios. b) Índice de Paasche También es una media aritmética ponderada de los índices simples, pero utilizando como coeficiente ponderador wi=pio.qit; por tanto su definición queda como: N

N

∑ I i wi Pp =

i =1 N

∑I i =1

∑p =

i

it

qit

io

qit

i =1 N

∑p i=1

La diferencia entre el índice Paasche y el índice Laspeyres es que exige calcular las ponderaciones para cada periodo corriente “t”, haciendo su cálculo estadístico más laborioso, y presentando el inconveniente de que sólo permite comparar la evolución del precio de cada año con el año base, dado que las ponderaciones varían de período en período. Ambas razones han determinado que este índice sea más inusual que el anterior. c) Índice de Fisher. El índice de Fisher es la media geométrica de los índices de Laspeyres y Paasche, es decir : Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Ep = Lp. Pp Como los índices de precios de consideran un año determinado para calcular el ponderador bien sea a partir de q0 .p0 , o de qt .p0, utilizan la denominación de año base para referirse al año “0” a partir del que se calcula el ponderador wi.

7.5. Enlaces y cambios de base. Uno de los problemas que tienen los índices ponderados como el índice de Laspeyres es que pierden representatividad a medida que los datos se alejan del periodo base. Téngase presente que, por ejemplo, el IPC que el INE calculó en 1991 utilizó los ponderadores obtenidos en la Encuesta de Presupuestos Familiares de 1983 que, a su vez, reflejaba la estructura media de consumo de los españoles en aquel año. El tiempo transcurrido entre 1983 y 1991 era lo suficientemente dilatado para que se hubieran producido cambios en los hábitos de consumo y en consecuencia el INE procedió a elaborar una nueva Encuesta de Presupuesto Familiares (la de 1992), cuya estructura de consumo ó cesta de compra es la que actualmente se utiliza como base para obtener el IPC. La decisión que tomó el INE de realizar un nuevo IPC con la estructura de consumo resultante de la Encuesta de Presupuestos Familiares de 1992 es lo que provoca el Cambio de Base del IPC. Al ser los ponderadores distintos los utilizados entre 1983 y 1991 y los actuales, los índices de precios son esencialmente distintos, y por lo tanto no se pueden comparar a priori entre sí. El procedimiento a través del cual hacemos comparables números índices obtenidos con bases distintas es lo que se denomina Enlace. El enlace de índices se basa en la propiedad de inversión de los números índices. Supongamos que queremos efectuar un cambio de base desde un índice construido con base 1992, a otro en base 2001. t

t

Sea I 92 el índice construido en base 1992 e I 01 el índice construido con la base 2001, entonces: t I 01 =

t 91

01 01 01 92

I .I I

=

I I I

t 92 01 92 01 01

En el caso del IPC español el INE publica el valor del cociente

I 9201 que denomina coeficiente I 0101

legal de enlace. El valor del coeficiente legal de enlace el la serie del IPC base 2001 y el construido con la base 1992 para España y Cantabria, figuran en la tabla siguiente: Tabla nº 7.2 Indice de Precios de Consumo. Base 2001. Coeficientes de Enlace IPC. Base 2001. Coeficientes de Enlace. Comunidades Autónomas. Grupos COICOP

Nacional

Cantabria

General. Base 2001

0,740268

0,746689

Alimentos Y Bebidas No Alcohólicas

0,780515

0,769814

Bebidas Alcohólicas Y Tabaco

0,546851

0,528061

Vestido Y Calzado

0,843242

0,858994

Vivienda

0,701667

0,726533

Menaje

0,780330

0,859012

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Medicina

0,766029

0,876321

Transporte

0,712176

0,708012

Comunicaciones

0,825968

0,820249

Ocio Y Cultura

0,753008

0,719466

Enseñanza

0,575517

0,561891

Hoteles, Caf‚s Y Restaurantes

0,681374

0,667208

Otros Bienes Y Servicios

0,702260

0,699994

Fuente: Instituto Nacional de Estadística

Las series enlazadas se calculan multiplicando cada uno de los índices en base 92 por este coeficiente. No obstante, hay que tener presente que estos coeficientes mantienen las tasas de variación publicadas hasta diciembre de 2001 de los índices en base 1992 pero no permiten calcular tasas de variación entre periodos de distintas bases, ya que no solucionan la ruptura ocasionada por la inclusión de los precios rebajados. Por lo tanto, las tasas de variación entre periodos de distintas bases obtenidas mediante los índices en base 1992 enlazados con el coeficiente de enlace legal y los índices en base 2001 no estarían bien calculadas.

Ejemplo 7.2 A continuación vamos ha realizar un ejercicio de enlace de diferentes bases del índice de precios percibidos por los agricultores. En la Tabla nº 7.3 tenemos una tabla con las series 1996-2001 del Índice de Precios Percibidos por la Agricultores en España del producto Leche, base 1995; y la serie 2000-2006 de dicho índice en base 2000. El enlace de la serie 1996-2011 a la base 2000 se realiza conforme a la regla antes expuesta: Tabla nº 7.3 Indice de precios percibidos por los agricultores en España. Precio de la leche.

Años 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Precios de la leche (Base 1995) 99,96 101,70 105,21 104,02 103,33 114,62

Precios Leche (Base 2000)

100,00 110,23 104,16 104,20 110,01 109,52 107,54

Precios Leche (Enlace 1996-2000) 96,74 98,42 101,82 100,67 100,00 110,23 104,16 104,20 110,01 109,52 107,54

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


7.6. Deflactación de series económicas. La utilidad más importante que tienen los índices de precios, aparte de describir el comportamiento de los precios durante un período concreto, es la de deflactar series cronológicas o temporales valoradas en pesetas. Deflactar es eliminar el componente de subida de precios que es inherente a toda serie temporal que viene referida a un valor monetario (ventas de una empresa, los depósitos y créditos bancarios, el PIB, etc...). Las ventas de una empresa, por ejemplo, se incrementan de un año a otro (ó de un mes a otro), bien por haber aumentado el número de pedidos que realizan los clientes o bien por que la empresa o el mercado haya decidido una subida en los precios de los artículos pedidos. Si nosotros valoramos el número de pedidos del año actual utilizando los precios vigentes el ejercicio pasado dispondríamos de un elemento comparativo con respecto al ejercicio anterior que nos señalaría de manera inequívoca si nuestro volumen de negocio se ha incrementado con independencia de lo ocurrido con los precios En consecuencia, cuando obtenemos el valor de la serie utilizando como referencia para su valoración el precio que rige en un período determinado (un año en concreto), realizamos una valoración a precios constantes en tanto que dicha serie valorada a los precios vigentes en cada período nos da su valor a “precios corrientes”. En la práctica, para pasar de una serie en pesetas corrientes a pesetas constantes se realiza dividiendo la primera por un índice de precios adecuado. Este procedimiento recibe el nombre de deflactación y al índice de precios elegido se le denomina deflactor. No obstante, hay que señalar que, cuando utilizamos como deflactor un índice de Laspeyres:

vt Σpit . qit Σpit . qit = = Σpio. qio Σpit . qio lp Σpit. qio Σpio . qio No pasamos exactamente valores corrientes a constante, cosa que si ocurre con el Indice de Paasche cuando es utilizado como del

vt Σpit . qit = = Σpio. qio Σpit . qit lp Σpio . qit En el cuadro siguiente se ha deflactado la serie de salarios ordinarios en la construcción de Cantabria por trabajador en el periodo 2002 a 2006 utilizando el Índice General de Precios al Consumo de Cantabria de 2002 a 2006 (media trimestral) en base 2006: Tabla nº 7.2

Año

Trimestre 2002 2002 2002 2002 2003 2003 2003 2003 2004

1 2 3 4 1 2 3 4 1

Coste salarial ordinario IPC 1105,61 1163,12 1197,78 1203,04 1180,87 1216,98 1200,49 1226,42 1215,01

87,04 88,84 88,80 90,16 90,05 91,06 90,96 92,44 91,77

Coste salarial en euros del 2006 1270,30 1309,25 1348,92 1334,33 1311,40 1336,41 1319,81 1326,78 1323,91

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2004 2004 2004 2005 2005 2005 2005 2006 2006 2006 2006 2007 2007 2007

2 3 4 1 2 3 4 1 2 3 4 1 2 3

1265,44 1247,24 1280,62 1288,86 1301,36 1295,75 1320,46 1359,89 1368,91 1386,91 1362,92 1355,71 1389,98 1428,71

93,79 93,66 95,30 94,52 96,58 96,89 98,43 98,31 100,43 100,31 100,94 100,52 102,66 102,76

1349,28 1331,68 1343,79 1363,55 1347,48 1337,41 1341,50 1383,21 1363,00 1382,57 1350,25 1348,71 1353,99 1390,35

Fuente : ICANE.

7.7 Principales índices de precios españoles. A continuación exponemos las principales carácterísticas de los índices de precios españoles: Índice de Precios al Consumo (IPC) El IPC es una medida estadística de la evolución del conjunto de precios de los bienes y servicios que consume la población residente en viviendas familiares en España. El consumo se define en el IPC a través de todos los gastos que los hogares dedican al consumo; se excluyen, por tanto, las inversiones que realizan los hogares. Además, sólo se tienen en cuenta los gastos reales que realiza la población, lo que implica la exclusión de cualquier operación de gasto imputada (autoconsumo, autosuministro, alquiler imputado, salario en especie o consumos subvencionados, como los sanitarios o educacionales). La cesta de la compra para elaborar el IPC se obtenía de una encuesta de gastos de consumo de los hogares. Tradicionalmente, el IPC cambiaba de base cada ocho o nueve años; esto era así porque la fuente utilizada para la elaboración de las ponderaciones y de la cesta de la compra era la Encuesta Básica de Presupuestos Familiares (EBPF), cuya periodicidad marcaba la de los cambios de base del IPC. De hecho hasta 1997 convivían dos encuestas de presupuestos familiares: una continua, con periodicidad trimestral, y una básica, que se realizaba cada ocho o nueve años. A partir de ese año ambas encuestas fueron sustituidas por una sola, cuya periodicidad es trimestral y la información que proporciona está más cercana a la encuesta básica, en cuanto al nivel de desagregación. Esta nueva encuesta, denominada Encuesta Continua de Presupuestos Familiares (ECPF), proporciona la información necesaria para realizar un cambio de sistema del IPC, la actualización de las ponderaciones así como la renovación de la composición de la cesta de la compra. Pero, además, posibilita la actualización permanente de dichas ponderaciones así como la revisión de la cesta de la compra. Para calcular el IPC en las bases anteriores al 2001 correspondiente al período t se utiliza el índice de Laspeyres. La ponderación de un artículo (wi=pio.qio) representa la proporción del gasto efectuado en ese artículo respecto al gasto total efectuado por los hogares. La estructura de ponderaciones permanecía fija durante el período de vigencia del Sistema de Índices de Precios de Consumo. La nueva fórmula de cálculo del IPC Base 2001 se denomina Laspeyres encadenado, el período de referencia de los precios varía cada año. Durante el año 2002 coincide con el año base y para Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


años posteriores al 2002 será el mes de diciembre del año inmediatamente anterior al considerado. El principal inconveniente de estos índices es la falta de aditividad, no permite obtener el indice medio a partir de la suma ponderada de los indices que lo componen. El índice general no se puede obtener como media ponderada de los doce grupos. El número total de artículos que componen la cesta de la compra del IPC base 2001 es 484. La estructura funcional del IPC consta de 12 grupos, 37 subgrupos, 80 clases y 117 subclases. También, a diferencia de las bases anteriores, los precios medios utilizados en el cálculo del índice se obtienen a partir de medias geométricas. La entrada en vigor del Sistema 2001 supuso también una ruptura en las series de índices debido a la inclusión de los precios rebajados. Esta ruptura afecta al cálculo de las tasas de variación cuando los índices de los períodos de tiempo seleccionados están medidos en bases diferentes; cuando esto ocurre, la fórmula general para calcular las tasas de variación debe ser modificada. El IPC que elabora el INE se armoniza a escala europea en el IPCA, este es un indicador estadístico cuyo objetivo es proporcionar una medida común de la inflación que permita realizar comparaciones internacionales y examinar, así, el cumplimiento que en esta materia exige el Tratado de Maastricht para la entrada en la Unión Monetaria Europea. La base legal del proceso de armonización del IPC es el Reglamento del Consejo nº 2494/95 de 23 de octubre de 1995 que establece las directrices para la obtención de índices comparables, así como un calendario de obligado cumplimiento para todos los países de la Unión Europea. La principal diferencia entre el IPC y el IPCA es que este excluye los Servicios médicos y la Enseñanza reglada. Diferencias menores se dan en la ponderación de los Seguros, para los que sólo se consideran los gastos ligados a las primas netas, los Automóviles, de los cuales se elimina los gastos correspondientes a ventas entre consumidores, o los Medicamentos y productos farmacéuticos, que sólo incluyen los no subvencionados. El IPCA está formado por doce grandes grupos. Para definir estos grupos se ha utilizado la COICOP. Índice de Precios Industriales (IPRI) El IPRI es un indicador coyuntural que mide la evolución mensual de los precios de los productos industriales fabricados y vendidos en el mercado interior, en el primer paso de su comercialización, es decir, mide la producción a precios de venta a salida de fábrica obtenidos por los establecimientos industriales en las transacciones que estos efectúan, excluyendo los gastos de transporte y comercialización y el IVA facturado. Se elabora a partir de una encuesta de periodicidad mensual, que investiga más de 8.000 establecimientos industriales. La cobertura del índice se extiende a todos los sectores industriales excluida la construcción. El IPRI investiga los precios de las ramas de actividad industriales al nivel de 4 dígitos de la CNAE (subgrupos). Cada una de estas ramas de actividad aparece representada por una cesta de productos. Estos productos, a su vez, se desagregan en variedades (desagregación de productos con características físicas suficientemente homogéneas) y subvariedades (modelos concretos de una variedad que fabrica un establecimiento determinado). En total se seleccionan 1.500 variedades y alrededor de 26.000 datos elementales o datos primarios de precios. Se calcula como un Índice de Laspeyres, que se pondera de acuerdo a la importancia de las ramas de actividad y de los productos en 2000, según la información que suministra la Encuesta Industrial, de la siguiente forma: •

Al nivel de rama de actividad (división, agrupación, grupo y subgrupo de la CNAE) según el valor de la cifra de negocios.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Al nivel de productos, según el valor de la producción.

En el nuevo sistema del índice de precios industriales se ofrece información para las distintas Comunidades Autónomas. Índice de Coste de la Construcción. El Índice de Coste de la Construcción ó Índice de Consumos intermedios de la construcción se elabora a partir de datos procedentes de la Encuesta de la Estructura de la Construcción, y del IPRI. El Índice de Coste de la Construcción tiene como base el año 1990. Es un índice de Laspeyres que aplica la estructura de ponderaciones de “materiales y consumos diversos" obtenida a partir de la Encuesta de Estructura de la Construcción a la evolución de los precios industriales del IPRI, base 1990. El Índice de Coste a la Construcción se desagrega en tres índices de precios de los consumos de construcción según la tipología de las obras.

Índices de precios percibidos por el agricultor.

El Ministerio de Agricultura y Pesca elabora desde 1953 la estadística Índice de Precios Percibidos por el agricultor, que con periodicidad mensual suministra información sobre los precios medios nacionales de los productos agrarios, e índices de precios agregados para la totalidad de los productos agrarios y para los grupos más significativos. Los índices de precios agregados son índices de Laspeyres que necesitan de ponderadores referidos a un año base para formar los números índices compuestos de diferentes especificaciones de productos. La base actual con la que se elabora el índice es la de 1990, otros cambios de base tuvieron lugar en 1965, 1976 y 1985. La metodología de elaboración del Índice de precios percibidos por el agricultor se apoya en un análisis de la estructura productiva y comercial de la producción agraria en el año base, que da lugar a una definición de las especificaciones de productos a considerar, la distribución geográfica (áreas territoriales) y frecuencia mensual de las tomas de datos necesarios. Ello origina una estructura de ponderaciones para cada área geográfica que se utiliza para la elaboración de los precios mensuales, y una ponderación para cada especificación que se utiliza para elaborar los Índices agregados. En definitiva, para cada año base se confecciona una matriz en donde figuran las cantidades comercializadas en el período base en cada área territorial (provincia) y mes, que tiene en cuenta la estacionalidad de la producción y la diversidad agronómica de las áreas. De dicha matriz se obtiene el calendario de precios que es investigado mes a mes por las unidades provinciales. El precio percibido se define como el precio de mercado, sin incluir gastos de transporte, adecuación del producto, impuestos indirectos o tasas. En conjunto se investigan 5555 precios en el conjunto de las áreas, lo que da lugar a XX especificaciones de productos. Índices de precios hoteleros. El Indice de Precios Hoteleros (IPH) es una medida estadística de la evolución mensual del conjunto de las principales tarifas de precios que los empresarios aplican a sus clientes. Para su obtención se utiliza la Encuesta de Ocupación en Alojamientos Turísticos: Establecimientos Hoteleros (EOH) con la información que se obtiene, mensualmente, de unos 8.500 establecimientos a los que se les envía un cuestionario. A partir de esta encuesta se obtiene información sobre la ocupación hotelera (viajeros entrados, pernoctaciones, grado de ocupación etc.), su estructura (plazas, personal, etc.) y demás variables de interés, con una amplia desagregación geográfica y por categorías de los establecimientos. En el cuestionario, Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


se les pide, entre otras variables, los precios aplicados a distintos tipos de clientes por una habitación doble con baño. Esos precios se desglosan en las siguientes tarifas: • Tarifa normal. • Tarifa fin de semana. • Tarifa especial a tour-operador. • Tarifa especial a empresas. • Tarifa especial a grupos. El índice de precios se calcula a partir de: 5

I sT = 100∑ I tsT wt t =1

donde y , I

sT t

M t0 Bt0 M tST = y wt = 5 M t0 ∑ M t0 Bt0 t =1

que representa el porcentaje de ingresos percibidos por los hoteleros por las habitaciones ocupadas en una tarifa concreta sobre los ingresos obtenidos por el total de tarifas; y siendo, sT Mt : precio de la habitación doble con baño (sin incluir IVA ni desayuno) en la tarifa t, en el mes 0 s del año T. Bt : número total de habitaciones ocupadas a las que se les aplicó la tarifa t en el año base. 0 Mt : precio medio, en el año base 2001, de la habitación doble con baño (sin incluir IVA ni desayuno) en la tarifa t. En la encuesta se solicita a los hoteleros que indiquen el porcentaje de aplicación de cada una de las tarifas sobre el total de habitaciones ocupadas. De ahí se extrae la información para calcular el total de habitaciones ocupadas en cada tarifa para todos los meses del año base. La 0 suma de esa variable a lo largo de los doce meses del año 2001 (Bt ) es la que se utiliza en el cálculo de las ponderaciones (W t). Las ponderaciones se calculan a nivel de provincia, categoría del establecimiento y tarifa, y posteriormente se agregan por tarifas, categorías o comunidades autónomas según el índice agregado que se quiera obtener. Dichas ponderaciones permanecen fijas hasta que se actualiza la base, lo cual está previsto realizar anualmente A diferencia del Índice de Precios de Consumo, el IPH es un indicador desde la óptica de la oferta, ya que mide la evolución de los precios que efectivamente perciben los hoteleros en aplicación de las distintas tarifas por las que facturan. Por tanto, no mide la evolución de los precios que pagan los hogares ni la tarifa oficial que aplican los hoteleros, sino el comportamiento de los precios facturados por los hoteleros a distinto tipo de clientes (hogares, empresas, agencias de viaje y tour-operadores). Se calculan y difunden índices para las diecisiete comunidades autónomas, Ceuta y Melilla; además, también se publican índices para las distintas tarifas a nivel nacional.

Índices de costes laborales. El Indice de Costes Laborales es una operación estadística continua, de carácter coyuntural y periodicidad trimestral, que tiene por objetivos proporcionar información sobre: - El Coste Laboral medio por trabajador y mes. - El Coste Laboral medio por hora efectiva de trabajo. - El tiempo trabajado y no trabajado. Se obtienen resultados nacionales y por comunidades autónomas. La encuesta se extiende al conjunto de la industria, la construcción y los servicios, en concreto se investigan a aquellas cuentas de cotización con actividades económicas comprendidas en las secciones de la C a la K y de la M a la O de la Clasificación Nacional de Actividades Económicas 1993 (CNAE-93). En total se investigan 54 divisiones de la CNAE-93. Quedan excluidas, la Administración Pública, Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Defensa y Seguridad Social Obligatoria (Sección L de la CNAE-93), el servicio doméstico (Sección P) y los organismos extraterritoriales (Sección Q). Los trabajadores objeto de encuesta son todos los trabajadores asociados a la cuenta de cotización por los que haya existido obligación de cotizar durante al menos un día en el mes de referencia. A efectos del cálculo del coste laboral por trabajador, aquellos que han estado de alta en la cuenta de cotización durante un periodo de tiempo inferior al mes se contabilizan como la parte proporcional al tiempo que han estado de alta en dicha cuenta. Para los resultados obtenidos de coste salarial y jornada laboral, los trabajadores se clasifican según su tipo de jornada en trabajadores a tiempo completo y a tiempo parcial. Se consideran trabajadores a tiempo completo aquellos que realizan la jornada habitual de la empresa en la actividad de que se trate. Son trabajadores a tiempo parcial, y así debe quedar reflejado en su contrato, aquellos que realicen una jornada inferior a la jornada considerada como habitual de la empresa en la actividad de que se trate o, en caso de no existir ésta, inferior a la máxima legal establecida. En la encuesta se define como el coste total en que incurre el empleador por la utilización de factor trabajo. Incluye el Coste Salarial más los Otros Costes. El coste salarial comprende todas las remuneraciones, tanto en metálico como en especie, realizadas a los trabajadores por la prestación profesional de sus servicios laborales por cuenta ajena, ya retribuyan el trabajo efectivo, cualquiera que sea la forma de remuneración, o los periodos de descanso computables como de trabajo. El Coste Salarial incluye por tanto el salario base, complementos salariales, pagos por horas extraordinarias, pagos extraordinarios y pagos atrasados. Los Otros Costes incluyen las Percepciones no Salariales (las retribuciones percibidas por el trabajador no por el desarrollo de su actividad laboral sino como compensación de gastos ocasionados por la ejecución del trabajo o para cubrir necesidades o situaciones de inactividad no imputables al trabajador) y las Cotizaciones Obligatorias a la Seguridad Social.

La Jornada Laboral se define como el número de horas que cada trabajador dedica a desempeñar su actividad laboral. Se distinguen los siguientes conceptos: - Horas pactadas: Son las horas legalmente establecidas por acuerdo verbal, contrato individual o convenio colectivo entre el trabajador y la empresa. - Horas efectivas: Son las horas realmente trabajadas tanto en periodos normales de trabajo como en jornada extraordinaria, incluyendo las horas perdidas en lugar de trabajo, que tienen la consideración de tiempo efectivo en virtud de la normativa vigente.Se obtienen como la suma de las horas pactadas más las horas extras y/o complementarias menos las horas no trabajadas excepto las horas perdidas en el lugar de trabajo. - Horas no trabajadas: Son las horas no trabajadas durante la jornada laboral por cualquier motivo (vacaciones y fiestas, incapacidad temporal, maternidad, adopción y motivos personales, descansos como compensación por horas extraordinarias, horas de representación sindical, cumplimiento de un deber inexcusable, asistencia a exámenes y visitas médicas, días u horas no trabajadas por razones técnicas, organizativas o de producción, horas perdidas en el lugar de trabajo, conflictividad laboral, absentismo, guarda legal, cierre patronal, …). En la Encuesta de Coste Laboral se calculan índices simples de variación de los Costes Laborales medios. Para ello, se toma como período base el año 2000, de forma que los Indices de Costes de 2000 se hacen 100. Un índice cualquiera se calcula mediante la fórmula:

It =

Ct Co

Donde C0 es el coste medio en el período base 2000 y Ct es el coste medio en el trimestre actual.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


8.

SERIES TEMPORALES

8.1. Introducción a las series temporales El presente epígrafe pretende ser una breve introducción al estudio de las series temporales, las cuales poseen una gran importancia en el campo de la Economía dada la abundancia de este tipo de observaciones; de hecho, las series temporales constituyen la mayor parte del material estadístico con el que trabajan los economistas. Pero, ¿qué es una serie temporal? Por definición, una serie temporal es una sucesión de observaciones de una variable realizadas a intervalos regulares de tiempo. Según realicemos la medida de la variable considerada podemos distinguir distintos tipos de series temporales: −

Discretas o Continuas, en base al intervalo de tiempo considerado para su medición.

Flujo o Stock. En Economía, se dice que una serie de datos es de tipo flujo si está referida a un período determinado de tiempo (un día, un mes, un año, etc.). Por su parte, se dice que una serie de datos es de tipo stock si está referida a una fecha determinada (por ejemplo, el 31 de Diciembre de cada año). Un ejemplo de datos de tipo flujo serían las ventas de una empresa ya que éstas tendrán un valor distinto si se obtiene el dato al cabo de una semana, un mes ó un año; por su parte, la cotización de cierre de las acciones de esa misma empresa sería una variable de tipo stock, ya que sólo puede ser registrado a una fecha y hora determinadas. Obsérvese que existen relación entre ambos tipos de variables, pues la cotización al cierre de las acciones no es más que el precio de cierre del día anterior más, o menos, el flujo de precios de la sesión considerada.

Dependiendo de la unidad de medida, podemos encontrar series temporales en pesetas o en diversas magnitudes físicas (kilogramos, litros, millas, etc.)

En base a la periodicidad de los datos, podemos distinguir series temporales de datos diarios, semanales, mensuales, trimestrales, anuales, etc.

Antes de profundizar en el análisis de las series temporales es necesario señalar que, para llevarlo a cabo, hay que tener en cuenta los siguientes supuestos: −

Se considera que existe una cierta estabilidad en la estructura del fenómeno estudiado. Para que se cumpla este supuesto será necesario estudiar períodos lo más homogéneos posibles.

Los datos deben ser homogéneos en el tiempo, o, lo que es lo mismo, se debe mantener la definición y la medición de la magnitud objeto de estudio. Este supuesto no se da en muchas de las series económicas, ya que es frecuente que las estadísticas se perfeccionen con el paso del tiempo, produciéndose saltos en la serie debidos a un cambio en la medición de la magnitud estudiada. Un caso particularmente frecuente es el cambio de base en los índices de precios, de producción, etc. Tales cambios de base implican cambios en los productos y las ponderaciones que entran en la elaboración del índice que repercuten considerablemente en la comparabilidad de la serie en el tiempo.

El objetivo fundamental del estudio de las series temporales es el conocimiento del comportamiento de una variable a través del tiempo para, a partir de dicho conocimiento, y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar predicciones, es Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


decir, determinar qué valor tomará la variable objeto de estudio en uno o más períodos de tiempo situados en el futuro, mediante la aplicación de un determinado modelo calculado previamente. Dado que en la mayor parte de los problemas económicos, los agentes se enfrentan a una toma de decisiones bajo un contexto de incertidumbre, la predicción de una variable reviste una importancia notoria pues supone, para el agente que la realiza, una reducción de la incertidumbre y, por ende, una mejora de sus resultados. Las técnicas de predicción basadas en series temporales se pueden agrupar en dos grandes bloques: −

Métodos cualitativos, en los que el pasado no proporciona una información directa sobre el fenómeno considerado, como ocurre con la aparición de nuevos productos en el mercado. Así, por ejemplo, si se pretende efectuar un estudio del comportamiento de una acción en Bolsa, y la sociedad acaba de salir a cotizar al mercado, no se puede acudir a la información del pasado ya que ésta no existe.

Métodos cuantitativos, en los que se extrae toda la información posible contenida en los datos y, en base al patrón de conducta seguida en el pasado, realizar predicciones sobre el futuro.

Indudablemente, la calidad de las previsiones realizadas dependerán, en buena medida, del proceso generador de la serie: así, si la variable observada sigue algún tipo de esquema o patrón de comportamiento más o menos fijo (serie determinista) seguramente obtengamos predicciones más o menos fiables, con un grado de error bajo. Por el contrario, si la serie no sigue ningún patrón de comportamiento específico (serie aleatoria), seguramente nuestras predicciones carecerán de validez por completo. Generalmente, en el caso de las series económicas no existen variables deterministas o aleatorias puras, sino que contienen ambos tipos de elementos. El objeto de los métodos de previsión cuantitativos es conocer los componentes subyacentes de una serie y su forma de integración, con objeto de realizar de su evolución futura. Dentro de los métodos de predicción cuantitativos, se pueden distinguir dos grandes enfoques alternativos: −

Por un lado, el análisis univariante de series temporales mediante el cual se intenta realizar previsiones de valores futuros de una variable, utilizando como información la contenida en los valores pasados de la propia serie temporal. Dentro de esta metodología se incluyen los métodos de descomposición y la familia de modelos ARIMA univariantes que veremos más adelante.

El otro gran bloque dentro de los métodos cuantitativos estaría integrado por el análisis multivariante o de tipo causal, denominado así porque en la explicación de la variable o variables objeto de estudio intervienen otras adicionales de ella o ellas mismas.

En el tratamiento de series temporales que vamos a abordar, únicamente se considerará la información presente y pasada de la variable investigada. Si la variable investigada es Y y se dispone de los valores que toma dicha variable desde el momento 1 hasta T, el conjunto de información disponible vendrá dado por: Y1, Y2, Y3, …, YT-1, YT

Dada esa información, la predicción de la variable Y para el período T+1 la podemos expresar como: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


YˆT +1 / T Con esta notación queremos indicar que la predicción para el periodo T+1 se hace condicionada a la información disponible en el momento T. El acento circunflejo sobre la Y nos indica que esa predicción se ha obtenido a partir de un modelo estimado. Conviene también hacer notar que T+1 significa que se está haciendo la predicción para un período hacia delante, es decir, con la información disponible en t hacemos una predicción para el período siguiente. Análogamente, la predicción para el período T+2 y para el período T+m, con la información disponible en T, vendrá dada, respectivamente, por:

YˆT + 2 / T ; YˆT + m / T que serán predicciones de 2 y m períodos hacia adelante. Si, genéricamente, para el período t se efectúa una predicción con la información disponible en t–1, y a la que designamos por

Yˆt / t −1 , para el período t podemos hacer una comparación de

este valor con el que realmente observemos (Yt). La diferencia entre ambos valores será el error de predicción de un período hacia adelante y vendrá dado por: et / t −1 = Yt − Yˆt / t −1

Cuando un fenómeno es determinista y se conoce la ley que lo determina, las predicciones son exactas, verificándose que et / t −1 = 0 . Por el contrario, si el fenómeno es poco sistemático o el modelo es inadecuado, entonces los errores de predicción que se vayan obteniendo serán grandes. Para cuantificar globalmente los errores de predicción se utilizan los siguientes estadísticos: la Raíz del Error Cuadrático Medio (RECM) y el Error Absoluto Medio (EAM). En el caso de que se disponga de T observaciones y se hayan hecho predicciones a partir de la observación 2, las fórmulas para la obtención de la raíz del Error Cuadrático Medio y el Error Absoluto Medio son las siguientes: T

T

∑e

∑ (Y − Yˆ

2 t / t −1

t =2

RECM =

=

T −1

T

∑ EAM =

t =2

t

t =2

t / t −1 )

2

T −1

T

∑ Y − Yˆ

et / t −1

T −1

t

=

t =2

t / t −1

T −1

De forma análoga se pueden aplicar la RECM y el EAM en predicciones de 2, 3, …, m períodos hacia adelante. En el análisis de series temporales se aplican, en general, métodos alternativos a unos mismos datos, seleccionando aquel modelo o aquel método que, en la predicción de períodos presentes y pasados, arroja errores de predicción menores, es decir, arroja una RECM o un EAM menor.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


8.2. Componentes de una Serie Temporal Tradicionalmente, en los métodos de descomposición de series temporales, se parte de la idea de que la serie temporal se puede descomponer en todos o algunos de los siguientes componentes: −

Tendencia (T), que representa la evolución de la serie en el largo plazo

Fluctuación cíclica (C), que refleja las fluctuaciones de carácter periódico, pero no necesariamente regular, a medio plazo en torno a la tendencia. Este componente es frecuente hallarlo en las series económicas, y se debe a los cambios en la actividad económica. Para la obtención de la tendencia es necesario disponer de una serie larga y de un número de ciclos completo, para que ésta no se vea influida por la fase del ciclo en que finaliza la serie, por lo que, a veces, resulta difícil separar ambos componentes. En estos casos resulta útil englobar ambos componentes en uno solo, denominado ciclotendencia o tendencia generalizada.

Variación Estacional (S): recoge aquellos comportamientos de tipo regular y repetitivo que se dan a lo largo de un período de tiempo, generalmente igual o inferior a un año, y que son producidos por factores tales como las variaciones climatológicas, las vacaciones, las fiestas, etc.

Movimientos Irregulares (I), que pueden ser aleatorios, la cual recoge los pequeños efectos accidentales, o erráticos, como resultado de hechos no previsibles, pero identificables a posteriori (huelgas, catástrofes, etc.)

En este punto, cabe señalar que en una serie concreta no tienen por qué darse los cuatro componentes. Así, por ejemplo, una serie con periodicidad anual carece de estacionalidad. La asociación de estos cuatro componentes en una serie temporal, Y, puede responder a distintos esquemas; así, puede ser de tipo aditivo: Y=T+C+S+I También puede tener una forma multiplicativa: Y=TCSI

O bien ser una combinación de ambos, por ejemplo: Y=TCS+I

Una forma sencilla para ver como están asociadas las componentes de una serie temporal es representar gráficamente la serie que estamos analizando. Si al realizar la representación gráfica se observa que las fluctuaciones son más o menos regulares a lo largo de la serie, sin verse afectadas por la tendencia (véase Fig. 9.1), se puede emplear el esquema aditivo.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Figura 8.1. Esquema aditivo Si, por el contrario, se observa que la magnitud de las fluctuaciones varía con la tendencia, siendo más altas cuando ésta es creciente y más bajas cuando es decreciente (véase Fig. 8.2), se debe adoptar entonces el esquema multiplicativo.

Figura 8.2. Esquema multiplicativo.

8.3. Análisis de la tendencia Como decíamos en el apartado anterior, la tendencia es el componente de la serie temporal que representa la evolución a largo plazo de la serie. La tendencia se asocia al movimiento uniforme o regular observado en la serie durante un período de tiempo extenso. La tendencia es la información más relevante de la serie temporal ya que nos informa de si dentro de cinco, diez o quince años tendrá un nivel mayor, menor o similar al que la serie tiene hoy día. El análisis de la tendencia se realiza fundamentalmente con dos objetivos: por un lado, para conocer cuáles son las pautas de comportamiento a lo largo del tiempo, de la variable objeto de estudio, y por otro, para predecir sus valores futuros. Las tendencias suelen representarse mediante funciones de tiempo continuas y diferenciables. Las funciones de tendencia más utilizadas son: 1. Lineal. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2. 3. 4. 5. 6. 7.

Polinómica. Exponencial. Modelo autorregresivo Función Curva de Gompertz Modelo logarítmico recíproco

Si una serie temporal Xt se ajusta a una tendencia lineal, la función de tiempo que se plantea es la siguiente: Xt =α+βt t= 1, 2, …, n Una tendencia polinómica de grado p se ajustará a una función del siguiente tipo: f(t) = α+β1 + β2t + …+βpt 2

p

Si la tendencia sigue una ley exponencial, entonces la función de ajuste será: rt

f(t) = ae donde a y r son constantes. Un modelo autorregresivo ajusta la tendencia de la forma siguiente: Xt =γ0+γ1xt-1 + ut

siendo γ>0

La curva logística se representa mediante la función:

T (t ) =

T 1 − be − rt

donde t, b y r son constantes positivas. La curva de Gompertz responde a la siguiente ecuación: e-rt

f (t) = T·b

donde T, r, b son parámetros positivos. Finalmente, el modelo logarítmico recíproco, viene definido por la relación: f(t) = a + b 1/t

B<0

Para calcular las funciones de tendencia, lo habitual es linealizar las formas de las funciones no lineales y proceder a su estimación como si fuera una función de tendencia lineal. Una vez establecido un modelo teórico para la tendencia, se debe proceder a la determinación o cálculo de los parámetros que desconocemos mediante diversos procedimientos estadísticos, que pasamos a describir a continuación. Método de los semipromedios El método de los semipromedios es la forma más rápida de estimar una línea de tendencia recta. El método requiere dividir la serie de datos en dos mitades y calcular el promedio de cada mitad que se centra en el punto medio. La recta que una ambas medias (o semipromedios) será la línea de tendencia estimada. Ejemplo 8.1. Utilizando la serie cronológica de ventas de gasolina en Cantabria sobre la que vamos a realizar un ajuste de una tendencia basada en el método de semipromedios: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Tabla 8.1. AÑOS Tm. 1997 105.329 1998 105.525 1999 95.429 2000 88.350 2001 102.230 2002 94.142 2003 98.082 2004 97.321 2005 90.566 2006 87.920 Tabla 8.1. Tendencia de la evolución de las ventas de gasolinas en Cantabria. Años 1997-2006. (miles de tm). Fuente: ICANE Dividimos la serie en dos mitades, cada una de cinco años, y calculamos los promedios de cada mitad. Los promedios los centramos en las observaciones centrales, las correspondientes a 1999 y 2004: Promedio centrado en 1999 =

105.329 + 105.525 + 92.429 + 88.350 + 102.230 = 99.373 5

Promedio centrado en 2004 =

94.142 + 98.082 + 97.321 + 90.566 + 87.920 = 93.606 5

La ecuación de la línea de tendencia será: *

Yt = a + bt *

donde Yt es el valor de la tendencia estimada de las ventas de gasolina. El valor de a se obtiene al hacer t=0, y se hace corresponder con el valor del primer promedio:

a = Y0* = 99.373 El coeficiente de la pendiente de la recta b representaría el incremento anual de la tendencia, y se calcula a partir de los dos promedios:

b=

93.603 − 99.373 = −1.153 5

Nótese que al ser cinco los años que hay de diferencia entre 2004 y 1999, años en los que hemos centrado los promedios, el denominador que utilizamos para calcular el incremento anual es igual a 5. *

La ecuación Yt =99.373-1.153t nos sirve para obtener la tendencia una vez conocidos los valores t o del regresor, que ha de tener necesariamente valor cero en 1987. Los valores de Xt se elaboran a partir de una sucesión de puntuaciones consecutivas que van desde un mínimo de -2 de 1997 hasta un máximo de 7 en 2006: Tm. Semipromedio t Tendencia 1997 105.329 -2 101.679 1998 105.525 -1 100.526 Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


1999 95.429 99.373 0 99.373 2000 88.350 1 98.219 2001 102.230 2 97.066 2002 94.142 3 95.913 2003 98.082 4 94.759 2004 97.321 93.606 5 93.606 2005 90.566 6 92.453 2006 87.920 7 91.300 Tabla 8.2. Tendencia de la evolución de las ventas de gasolinas en Cantabria. Años 1997-2006. (miles de tm.).Método de semipromedios.

Representamos en el gráfico 8.2 la tendencia:

110.000 105.000 100.000 95.000

Tm. Tendencia

90.000 85.000

19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06

80.000

Gráfico 8.2.

Método de mínimos cuadrados El método de mínimos cuadrados es el que más se utiliza para ajustar tendencias. Este método da los mismos resultados que el método anterior cuando es utilizado para obtener tendencias lineales. Si realizamos sencillas transformaciones aritméticas de los datos puede también ser utilizado para representar funciones de tendencias no lineales. Estimar una tendencia lineal por el método de MCO equivale a estimar la siguiente función: *

Yt = a + bt utilizando como variable explicativa un vector de números secuenciales {1,2,3,…,n} representativos del periodo. Si se quiere obtener una tendencia exponencial, debemos linealizar la función lo que requiere su transformación en logaritmos: rt

Y = be

entonces: ln Yt = ln b + rt Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Una vez estimada la tendencia lineal por mínimos cuadrados, calculamos la exponencial del logaritmo para devolver la tendencia a la escala de los datos originales. Ejemplo 8.2 Veamos un ejemplo: consideremos la siguiente tabla en la que se muestra la evolución de las ventas de gasolina en Cantabria. Con dichos datos vamos a estimar una tendencia exponencial mediante el método de mínimos cuadrados. Tm.(Y)

Logaritmo X Tendencia Tendencia (Y) logarítmica 1997 105.329 11,56 1 11,54 102.715 1998 105.525 11,57 2 11,53 101.252 1999 95.429 11,47 3 11,51 99.810 2000 88.350 11,39 4 11,50 98.389 2001 102.230 11,53 5 11,48 96.987 2002 94.142 11,45 6 11,47 95.606 2003 98.082 11,49 7 11,45 94.244 2004 97.321 11,49 8 11,44 92.902 2005 90.566 11,41 9 11,42 91.579 2006 87.920 11,38 10 11,41 90.275 Tabla 8.3. Tendencia de la evolución de las ventas de gasolina en Cantabria. Años 1997-2006. (miles de tm.).Método de mínimos cuadrados. Veamos la representación de dichos datos en el gráfico 8.3.; en él comprobamos cómo se ajusta a los datos de venta de gasolina en Cantabria:

110.000 105.000 Tm.

100.000

Tendencia

95.000

Tendencia exponencial

90.000 85.000

19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06

80.000

Gráfico 8.3. Para analizar la calidad del ajuste realizado hay que considerar los estadísticos de la regresión 2 mínimo cuadrada :

Estadísticas de la regresión Coeficiente de correlación múltiple 2 Coeficiente de determinación R 2

0,64744046 0,41917914

El capítulo 5.1 dedicado a la regresión minimo-cuadrada estudia los fundamentos de dicha técnica y los estadísticos que se mencionan. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2

R ajustado Error típico Observaciones

0,34657654 0,05422273 10

2

El coeficiente R es una medida de que la magnitud de los errores con respecto al tamaño de la variable Y; errores muy pequeños en relación al tamaño de Y determinan que el coeficiente 2 R se aproxime a 1; por el contrario errores muy altos en relación al tamaño de la variable Y, 2 darán lugar a valores de R más alejados de 1 y más cercanos a cero. En el ejercicio que 2 hemos realizado la magnitud del coeficiente de determinación (R =0,4192) sería indicativo de un mal ajuste. Otros estadísticos que debemos considerar son los que hace referencia al grado de significación de los coeficientes b y m: Coeficientes Intercepción

Error típico Estadístico t

11,5540567 0,03704118

311,924649

-0,01434426 0,00596973

-2,40283376

Probabilidad

Variable X

Inferior 95% Superior 95% Inferior 95,0%

Superior 95,0%

1,2494E-17 11,4686396 11,6394738 11,4686396 0,04298622 0,02811047 -0,00057805 -0,02811047

11,6394738 -0,00057805

La intercepción en el origen es el coeficiente a, y la “Variable X 1” es el coeficiente b. La tabla da el abanico de valores más probables para ambos coeficientes al nivel de confianza del 95%, estos valores son los que figuran en las casillas Inferior y Superior. En el caso del coeficiente a, el ajuste mínimo-cuadrado da como resultado que lo más probable es que se encuentre entre el intervalo que va desde el valor 11,47 hasta el 11,63, siendo su valor medio 12,55; en tanto que el coeficiente b estará en el intervalo que va desde -0,03 hasta -0,0006, resultando ser su valor medio -0,01. Como entre estos intervalos no figura el valor cero, señalamos que los coeficientes estimados son estadísticamente significativos.

En el ejemplo la función lineal estimada sería: *

Yt = 11,47 - 0,01t que en forma exponencial quedaría: -0,011t

Yt = 104198,9.e

Medias móviles En el análisis de series temporales, el método de medias móviles tiene diversas aplicaciones: así, este método puede sernos útil si queremos calcular la tendencia de una serie temporal sin tener que ajustarnos a una función previa, ofreciendo así una visión suavizada o alisada de una serie, ya que promediando varios valores se elimina parte de los movimientos irregulares de la serie; también puede servirnos para realizar predicciones cuando la tendencia de la serie tiene una media constante. Veamos qué es una media móvil: se trata, sencillamente de una media aritmética que se caracteriza porque toma un valor para cada momento del tiempo y porque en su cálculo no entran todas las observaciones de la muestra disponible. Entre los distintos tipos de medias móviles que se pueden construir nos vamos a referir a dos tipos: medias móviles centradas y medias móviles asimétricas. El primer tipo se utiliza para la representación de la tendencia, mientras que el segundo lo aplicaremos para la predicción en modelos con media constante. Las medias móviles centradas se caracterizan porque el número de observaciones que entran en su cálculo es impar, asignándose cada media móvil a la observación central. Así, una media móvil centrada en t de longitud 2n + 1 viene dada por la siguiente expresión: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


MM ( 2n + 1) t =

n Y + Yt − n +1 + ... + Yt + ... + Yt + n −1 + Yt + n 1 Yt +i = t −n ∑ 2n + 1 i = − n 2n + 1

Como puede observarse, el subíndice asignado a la media móvil, t, es el mismo que el de la observación central, Yt. Obsérvese también que, por construcción, no se pueden calcular las medias móviles correspondientes a las n primeras y a las n últimas observaciones. Por su parte, en el caso de las medias móviles asimétricas se asigna cada media móvil al período correspondiente a la observación más adelantada de todas las que intervienen en su cálculo. Así la media móvil asimétrica de n puntos asociada a la observación t tendrá la siguiente expresión:

MMA( n ) t =

Y + Yt − n + 2 + ... + Yt −1 + Yt 1 t Yt +i = t −n +1 ∑ n i =t − n +1 n

Este tipo de medias móviles se emplea en la predicción de series cuya tendencia muestra una media constante en el tiempo, utilizándose la siguiente ecuación:

MMA( n ) T +1 =

Y 1 T +1 Y Yt = MMA( n ) T + T +1 − T −n +1 ∑ n i =T − n + 2 n n

Es decir, para predecir el valor de la serie en el período siguiente se suma a la media móvil, la media aritmética de los n últimos períodos, siendo n la longitud de la media móvil. La utilización de medias móviles implica la elección arbitraria de su longitud u orden, es decir, del número de observaciones que intervienen en el cálculo de cada media móvil. Cuanto mayor sea la longitud, mejor se eliminarán las irregularidades de la serie, ya que al intervenir más observaciones en su cálculo se compensarán las fluctuaciones de este tipo, pero por el contrario, el coste informativo será mayor. Por el contrario, cuando la longitud es pequeña, la media móvil refleja con mayor rapidez los cambios que puedan producirse en la evolución de la serie. Es conveniente, pues, sopesar estos factores al decidir la longitud de la media móvil.

Ejemplo 8.3 Veamos a continuación un ejemplo, continuando con la serie de ventas de gasolina, optamos por calcular una media móvil trienal que ofrece los siguientes resultados: Tm.

Media móvil trienal

1997 105.329 1998 105.525 102.094 1999 95.429 96.435 2000 88.350 95.336 2001 102.230 94.907 2002 94.142 98.151 2003 98.082 96.515 2004 97.321 95.323 2005 90.566 91.936 2006 87.920 Tabla 9.4. Tendencia de la evolución de las ventas de gasolina en Cantabria. Años 1997-2006. (miles de tm.).Media móvil trienal El valor de la media móvil trienal asignado a 1998 se calcula así:

102094 =

105329 + 105525 + 95429 3

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


A su vez, el valor de la media móvil trienal asignado a 1999 se calcula así:

96435 =

105525 + 95429 + 88350 3

Media movil trienal 110.000 105.000 100.000

Tm.

95.000

Media móvil trienal

90.000 85.000

20

05

03 20

01 20

99 19

19

97

80.000

Gráfico 8.4. Como se aprecia en el gráfico 9.4., el inconveniente que tiene la media móvil es que perdemos información de la tendencia en los ejercicios inicial y final. En este sentido, volvemos a resaltar que las medias móviles, comparadas con métodos basados en ajustes aritméticos, tienen un coste informativo. Alisado Exponencial Simple El método del alisado exponencial simple consiste, al igual que en el caso de las medias móviles, en una transformación de la variable original. Si una variable Y es sometida a un proceso de alisado exponencial simple se obtiene como resultado la variable alisada St. Teóricamente, la variable alisada St se obtendría según la expresión: 2

3

St = (1 – w) Yt + (1 – w) wYt-1+ (1-w) w Yt-2 + (1 – w) w Yt-3 + … (1) donde w es un parámetro que toma valores comprendidos entre 0 y 1, y los puntos suspensivos indican que el número de términos de la variable alisada puede ser infinito. La 3 expresión anterior en realidad no es más que una media aritmética ponderada de infinitos valores de Y. Se denomina alisada ya que suaviza o alisa las oscilaciones que tiene la serie, al obtenerse como una media ponderada de distintos valores. Por otra parte, el calificativo de exponencial se debe a que la ponderación o peso de las observaciones decrece exponencialmente a medida que nos alejamos del momento actual t. Esto quiere decir que las observaciones que están alejadas tienen muy poca incidencia en el valor que toma St. Finalmente, el calificativo de simple se aplica para distinguirla de otros casos en que, como veremos más adelante, una variable se somete a una doble operación de alisado.

3 Para que pueda aceptarse que es una media aritmética ponderada debe verificarse que las ponderaciones, sumen 1. La demostración, que excede las pretensiones de este texto, se basa en el cálculo de la suma de infinitos términos de una progresión geométrica convergente.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Una vez que se han visto estos aspectos conceptuales, vamos a proceder a la obtención operativa de la variable alisada, ya que la expresión no es directamente aplicable, por contener infinitos términos. Retardando un período en la expresión anterior se tiene que: 2

St-1 = (1 – w) Yt-1 + (1 – w) wYt-2 + (1-w) w Yt-3 + … (2) Multiplicando ambos miembros por w se obtiene: 2

3

wSt-1 = (1 – w) wYt-1 + (1 – w) w Yt-2 + (1 – w) w Yt-3 + … (3) Restando (3) de (1) miembro a miembro y ordenando los términos se tiene que: St = (1 - w) Yt + wSt-1 O también: St = αYt + (1 - α) St-1 donde α = 1 – w. Ahora ya sólo nos falta calcular los valores de α y S0, parámetros a partir de los cuales resulta sencillo hallar los valores de la variable alisada de forma manera recursiva, tal que: S1 = αY1 + (1 - α) S0 S2 = αY2 + (1 - α) S1 S3 = αY3 + (1 - α) S2 ……………………… Al asignar un valor a α hay que tener en cuenta que un valor pequeño de α significa que estamos dando mucho peso a las observaciones pasadas a través del término St-1. Por el contrario, cuando α es grande se da más importancia a la observación actual de la variable Y. En general, parece que un valor de α igual a 0.2 es apropiado en la mayor parte de los casos. Alternativamente, se puede seleccionar aquel valor de α para el que se obtenga una Raíz del Error Cuadrático Medio menor en la predicción del período muestral. Respecto a la asignación de valor a S0 se suelen hacer estos supuestos: cuando la serie tiene muchas oscilaciones se toma S = Y1; por el contrario, cuando la serie tiene una cierta estabilidad se hace S0 =

Y.

Ejemplo 8.4 En este ejemplo se presenta un alisado exponencial para la serie de ventas de gasolina, utilizando como factor de alisado el valor 0,5. Alisado Tm.(Y) Media movil a=0,50 1997 105.329 1998 105.525 102.094 102.094 1999 95.429 98.762 2000 88.350 93.556 2001 102.230 97.893 2002 94.142 96.017 2003 98.082 97.050 2004 97.321 97.185 2005 90.566 93.876 2006 87.920 90.898 Tabla 8.5. Tendencia de la evolución de las ventas de gasolina en Cantabria. Años 1997-2006. (miles de tm.). Alisado exponencial

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


El valor inicio del alisado, S0 , es la media de los tres primeros años:

102094 =

105329 + 105525 + 95429 3

Alisado exponencial 110.000 105.000 100.000

Tm.(Y)

95.000

Alisado a=0,50

90.000 85.000

19 97 19 99 20 01 20 03 20 05

80.000

Gráfico 8.5.

Alisado Exponencial Doble Una variante más avanzada del método anterior es el Alisado Exponencial Doble, también conocido como método de Brown. Básicamente, lo que se hace mediante este método es someter a la variable a una doble operación de alisado: en la primera operación se alisa directamente la variable objeto de estudio, mientras que en la segunda operación se procede a alisar la variable alisada previamente obtenida. Así pues, las fórmulas del Alisado Exponencial Doble son las siguientes: Primer alisado: S’t = αYt + (1–α) S’t-1 Segundo alisado: S’’t = αS’t + (1–α) S’’t-1 Obsérvese que en los dos alisados se utiliza el mismo coeficiente α. A partir de las dos variables alisadas se estiman los coeficientes de la recta para utilizarlos en la predicción. Las fórmulas que permiten pasar de los coeficientes de alisado a los coeficientes de la recta son las siguientes:

b0t = 2 S t' − S t'' b1t =

α 1−α

( S t' − S t'' )

Finalmente, si con la información disponible en t, deseamos realizar una predicción de la variable para el momento t+m, aplicaremos la siguiente fórmula:

Yˆt +m = b0t + b1t m Asimismo, al igual que en el caso del Alisado Exponencial Simple, para poder obtener St' y St’’ es necesario conocer los valores iniciales, que en este caso serían dos, S0’ y S0’’. Para determinarlos se utilizan las siguientes relaciones que permiten obtener b0t y b1t, aunque en sentido inverso. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Realizando un ajuste de la recta por mínimos cuadrados con toda la información disponible se obtendrán las estimaciones

bˆ0t y bˆ1t .

Haciendo que: b00 =

bˆ0t y b10 = bˆ1t

y tomando t = 0, se obtiene:

S 0' = b00 − b10

1−α

S 0'' = b00 − 2b10

α

1−α

α

A partir de estos valores se inicia la recursión ya señalada. En lo que respecta al valor de α, es válido lo que se dijo en el caso del Alisado Exponencial Simple, siendo aconsejable tomar α = 0.2 o, alternativamente, seleccionar aquel valor de α que haga mínima la Raíz del Error Cuadrático Medio cuando realicemos predicciones.

8.4. Análisis de la estacionalidad En este apartado pasamos a examinar el análisis de la estacionalidad de las series temporales, entendiéndose por tal, aquellos ciclos regulares cuya duración es inferior al año. Las variaciones o ciclos estacionales son muy frecuentes en las series temporales, sea cual sea su naturaleza, y pueden presentar un esquema horario, diario, semanal, mensual, trimestral o incluso semestral, no siendo necesario que tengan alguna relación con las estaciones del año. Lo verdaderamente importante de los ciclos estacionales es su temporalidad o repetición regular. Algunos ejemplos de ciclos estacionales serían: −

El aumento de viajeros en los autobuses urbanos en determinadas horas del día.

Las ventas diarias de un supermercado que suelen presentar entre semana un esquema bastante regular.

El movimiento de viajeros en los establecimientos hoteleros que se concentra en determinados meses del año.

El consumo de energía eléctrica que suele ser mayor los meses de invierno.

El motivo principal que induce a estudiar los ciclos estacionales es que, de no tenerse en cuenta estas variaciones, se obtienen bastantes distorsiones a la hora de analizar la evolución de las series, actuando muchas veces el factor estacional como una máscara que impide captar adecuadamente la evolución del fenómeno objeto de estudio. Un ejemplo de estas distorsiones ocurre, por ejemplo, cuando se compara el consumo de electricidad en el primer y segundo trimestre del año, ya que el ciclo estacional al delimitar un aumento del consumo en los meses de invierno, impide una interpretación correcta sobre el uso subyacente de la energía de dicho período.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Por ello, será conveniente eliminar el influjo de los ciclos estacionales en la serie, a fin de poder realizar comparaciones entre dos estaciones sucesivas y predecir correctamente el comportamiento futuro de la variable.

Para ello, existen diferentes procedimientos: utilización de filtros lineales, X11-ARIMA, SEATS (Signal Extraction in ARIMA Time Series), etc., cuya solución requiere de un cálculo matemático relativamente complejo; aquí únicamente estudiaremos los procedimientos de desestacionalización más sencillos: el método de porcentaje promedio y el método del porcentaje promedio móvil. Asimismo, cabe señalar que, con carácter previo a la desestacionalización, a menudo hay que realizar una serie de ajustes en la serie temporal para tener en cuenta hechos o eventos que pueden afectar al ciclo estacional que tratamos de analizar. Estos eventos que suelen ser festividades, interrupciones del trabajo debido a huelgas, paros, regulaciones de empleo, etc., no siempre son eliminados por los promedios dentro del mes o trimestre en que se producen, de ahí que sea necesario corregir previamente los datos iniciales. Una forma de compensar estas variaciones es multiplicar la serie de datos origínales por la siguiente razón:

Número de días efectivos de un mes en un promedio de años (ó en un calendario laboral) Número de días efectivos del mes dado en la que la definición de los días efectivos dependerá de la serie cronológica que nos interesa y de los motivos por los que realizamos el ajuste. Finalmente, para saber si una serie temporal presenta variaciones estacionales de relevancia, se suele hacer un análisis de la varianza del componente estacional-irregular de la serie, utilizando como factor de variación la referencia temporal de la serie (semanal, mensual, trimestral, etc.…). Dicho análisis proporciona como estadístico la F de Snedecor, cuyo valor comparado con el que figura en las tablas del Anexo, nos permite determinar si tiene significación el factor temporal para explicar la varianza de la serie; de admitirse dicha posibilidad, quedaría demostrado que los movimientos estacionales de la serie son lo suficientemente determinantes como para proceder a su desestacionalización posterior.

Ejemplo 8.5 Veamos a continuación un ejemplo: vamos a realizar un test de presencia de estacionalidad a la serie mensual de ventas de gasolina en Cantabria durante el período 1997-2006. Años Meses 1997 1998 1999 2000 2001 1 7405 8098 6596 5951 7242 2 6323 7756 6675 5846 6913 3 8799 8939 8054 6762 8076 4 8337 8777 7957 7013 8634 5 8517 7843 7561 6744 7973 6 8169 8351 8049 6745 8690 7 11051 10575 10101 9638 10416 8 12188 12229 10992 10996 12817 9 9465 8638 8032 8865 8607 10 8752 8114 7374 5900 7662 11 7629 7731 6661 6405 7114 12 8694 8474 7377 7485 8086 TOTAL 105329 105525 95429 88350 102230 Tabla 8.6. Ventas de Gasolina en Cantabria

2002 6230 6236 7798 7661 7645 7676 9882 9858 6915 9768 6923 7550 94142

2003 6458 6240 7305 8410 8278 8235 10151 11749 8529 8049 6838 7840 98082

2004 6818 6654 7661 8353 7772 8319 9780 10894 8357 7592 7151 7970 97321

2005 6195 6013 7564 7206 7614 7823 9334 10649 7762 7081 6407 6918 90566

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

2006 6186 6013 7118 7329 7402 7322 8591 9906 7634 7026 6466 6927 87920


Para ello, obtenemos la componente estacional-irregular de la serie como diferencia entre la serie original y una tendencia que calculamos mediante una media móvil centrada de 12 términos. Años 1985

Meses 1986 1987 1988 1989 1990 1991 1992 1993 1994 1 0 -824 -1752 -1477 -891 -1888 -1550 -1379 -1614 -1212 2 0 -1170 -1570 -1582 -1372 -1635 -1925 -1472 -1776 -1323 3 82 -141 -736 -187 68 -995 -450 -175 -208 0 4 -27 -176 -362 224 -245 254 280 -491 8 0 5 -969 -483 -610 -496 -245 129 -327 -21 76 0 6 -608 -443 97 -618 171 -169 62 209 276 -5 7 2216 1906 2202 2168 1981 2018 1948 1722 1788 0 8 3233 3651 3162 3437 4439 1994 3511 2889 3103 0 9 133 310 1197 252 -908 261 360 253 0 499 10 -322 -269 -1904 -612 1882 -214 -309 -439 0 -251 11 -682 -914 -1501 -1133 -1016 -1383 -737 -1095 0 -1318 12 -268 86 -90 -583 -76 -435 -388 123 -542 0 Tabla 8.7. Ventas de Gasolina en Cantabria. Componente Estacional-Irregular

Para realizar un test de presencia de estacionalidad utilizamos la técnica de Análisis de Varianza de un factor, utilizando como factor la agrupación por meses de los datos de ventas de gasolina. El análisis de varianza ofrece en este caso los siguientes resultados: ANÁLISIS DE VARIANZA Grados de libertad

Suma de cuadrados

11

185129269

16829933,6

97

19843099,7

204568,038

108

204972369

Entre grupos Dentro de los grupos Total

Promedio de los cuadrados

F

Valor crítico de F

82,2705918

3,9469E-44

Como se puede apreciar, el valor de la F es lo suficientemente grande para admitir la hipótesis H 0 de que el factor temporal mensual explica una parte de la varianza que tiene toda la serie. El valor crítico de la F por debajo del cual rechazamos la hipótesis H0 en las tablas estaría en torno a 2.

Método del porcentaje promedio El método del porcentaje promedio es un procedimiento rápido y simple para elaborar un índice estacional. El primer paso consiste en expresar la información de cada mes (o trimestre) como un promedio para el año; en un segundo paso se obtienen porcentajes de los promedios anuales; y, finalmente, en un tercer paso, dichos porcentajes se promedian en cada mes, obteniéndose como resultado el índice estacional. Ejemplo 8.6. Para ilustrar el método del porcentaje promedio utilizamos el anterior ejemplo de las ventas mensuales de gasolina en Cantabria para el período 1997-2006. •

En primer lugar obtenemos el promedio mensual de las ventas anuales:

Meses

Años 1997

1998

1999

2000

2001

2002

2003

2004

2005

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

2006


1 7405 8098 2 7756 6323 3 8799 8939 4 8777 8337 5 8517 7843 6 8169 8351 7 11051 10575 8 12188 12229 9 9465 8638 10 8752 8114 11 7731 7629 12 8474 8694 TOTAL 105329 105525 MEDIA 8777 8794 Tabla 8.8. •

5951 7242 5846 6913 6762 8076 7013 8634 6744 7973 6745 8690 9638 10416 10996 12817 8865 8607 5900 7662 6405 7114 7485 8086 88350 102230 7363 8519

6230 6236 7798 7661 7645 7676 9882 9858 6915 9768 6923 7550 94142 7845

6458 6240 7305 8410 8278 8235 10151 11749 8529 8049 6838 7840 98082 8174

6818 6654 7661 8353 7772 8319 9780 10894 8357 7592 7151 7970 97321 8110

6195 6013 7564 7206 7614 7823 9334 10649 7762 7081 6407 6918 90566 7547

6186 6013 7118 7329 7402 7322 8591 9906 7634 7026 6466 6927 87920 7327

Después calculamos en cada año el porcentaje del promedio, que es la relación que se da entre las ventas de cada mes y su promedio anual.

Años Meses 1997 1 84% 2 72% 3 100% 4 95% 5 97% 6 93% 7 126% 8 139% 9 108% 10 100% 11 87% 12 99% Tabla 8.9.

6596 6675 8054 7957 7561 8049 10101 10992 8032 7374 6661 7377 95429 7952

1998 92% 88% 102% 100% 89% 95% 120% 139% 98% 92% 88% 96%

1999 83% 84% 101% 100% 95% 101% 127% 138% 101% 93% 84% 93%

2000 81% 79% 92% 95% 92% 92% 131% 149% 120% 80% 87% 102%

2001 85% 81% 95% 101% 94% 102% 122% 150% 101% 90% 84% 95%

2002 79% 79% 99% 98% 97% 98% 126% 126% 88% 125% 88% 96%

2003 79% 76% 89% 103% 101% 101% 124% 144% 104% 98% 84% 96%

2004 84% 82% 94% 103% 96% 103% 121% 134% 103% 94% 88% 98%

2005 82% 80% 100% 95% 101% 104% 124% 141% 103% 94% 85% 92%

El índice estacional sería el promedio para cada mes de los diez datos anuales: Años

Índice estacional

Meses 1 2 3 4 5 6 7 8 9 10 11 12

1997 84% 72% 100% 95% 97% 93% 126% 139% 108% 100% 87% 99%

1998 92% 88% 102% 100% 89% 95% 120% 139% 98% 92% 88% 96%

1999 83% 84% 101% 100% 95% 101% 127% 138% 101% 93% 84% 93%

2000 81% 79% 92% 95% 92% 92% 131% 149% 120% 80% 87% 102%

2001 85% 81% 95% 101% 94% 102% 122% 150% 101% 90% 84% 95%

2002 79% 79% 99% 98% 97% 98% 126% 126% 88% 125% 88% 96%

2003 79% 76% 89% 103% 101% 101% 124% 144% 104% 98% 84% 96%

2004 84% 82% 94% 103% 96% 103% 121% 134% 103% 94% 88% 98%

2005 82% 80% 100% 95% 101% 104% 124% 141% 103% 94% 85% 92%

2006 84% 82% 97% 100% 101% 100% 117% 135% 104% 96% 88% 95%

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral

83,42% 80,43% 97,04% 99,05% 96,30% 98,76% 123,80% 139,60% 103,11% 96,11% 86,23% 96,14% 1200%

2006 84% 82% 97% 100% 101% 100% 117% 135% 104% 96% 88% 95%


Tabla 8.10. El índice nos señala que en el período estudiado las ventas de enero han estado un 83.42% por debajo de las ventas mensuales promedio de cada año, y que en el mes de agosto el nivel de ventas fue un 139.60% superior al nivel de venta mensuales promedio anual. Dado que el valor medio mensual del índice ha de ser igual a 100, la suma de los 12 datos de que consta el índice mensual debe ser igual a 1200. •

Para obtener una serie de las ventas ajustadas estacionalmente, esto es, descontando el efecto que provoca el ciclo estacional, se dividiría las ventas de cada mes por el correspondiente índice estacional y se multiplicaría por 100:

Años Meses 1997 1 8876 2 7861 3 9067 4 8417 5 8845 6 8271 7 8926 8 8731 9 9180 10 9106 11 8847 12 9043 Tabla 8.11.

1998 9707 9643 9211 8861 8145 8456 8542 8760 8378 8442 8965 8814

1999 7907 8299 8299 8033 7852 8150 8159 7874 7790 7672 7725 7673

2000 7133 7268 6968 7080 7003 6829 7785 7877 8598 6139 7428 7786

2001 8681 8595 8322 8717 8280 8799 8413 9181 8348 7972 8250 8411

2002 7468 7753 8036 7734 7939 7772 7982 7062 6707 10163 8028 7853

2003 7741 7758 7528 8491 8596 8338 8199 8416 8272 8375 7930 8155

2004 8173 8273 7894 8433 8071 8423 7900 7804 8105 7899 8293 8290

2005 7426 7476 7795 7275 7907 7921 7539 7628 7528 7368 7430 7196

2006 7415 7476 7335 7399 7687 7414 6939 7096 7404 7310 7498 7205

Método del porcentaje del promedio móvil El método del porcentaje del promedio móvil es uno de los métodos más usados para la medición de la variación estacional. Su cálculo es también bastante sencillo: en primer lugar se obtiene un promedio móvil de 12 meses de la serie de datos originales (o de 4 trimestres si se utilizan los datos trimestrales) tal que: L/2

MM ( L) t +0.5 =

Yt +i ( − L / 2 ) +1 L

, t=

L L L , + 1,..., N − 2 2 2

Luego se recurre a un promedio móvil de 2 meses para centrar convenientemente el promedio anterior, al que se le denomina promedio móvil centrado de doce meses; es decir:

MM ( L x 2) t =

MM ( L) t −0.5 + MM ( L) t +0.5 L L L , t = + 1, + 2,..., N − 2 2 2 2

Finalmente se obtiene el índice dividiendo los datos originales por el promedio móvil centrado, MM(L x 2)t:

EI t =

Yt MM ( L x 2) t

es decir, una estimación conjunta del componente estacional y del componente irregular. A los valores obtenidos mediante la expresión anterior se los denomina índices brutos de variación estacional. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Si disponemos de información para K años completos, el número total de observaciones es N y la longitud del período estacional es L, se verificará que K·L = N. Bajo estos supuestos, para cada estación se dispone de K–1 índices brutos de variación estacional, ya que se pierden L/2 datos al principio y L/2 datos al final, es decir, se pierde un dato en cada estación. Para cada estación se puede calcular una media de todos los índices brutos disponibles. Así, para la estación h, la media se obtendrá sumando todos los índices brutos de variación estacional correspondientes a esa estación y dividiendo por K–1, que es el número de datos disponibles en cada caso; es decir:

E h* =

∑ EI

t

K −1

, h = 1,2,..., L

Al haber realizado un promedio de K–1 datos, el componente irregular queda eliminado si K es suficientemente grande. En todo caso, al promediar siempre se atenuará el efecto del componente irregular. Por ello, el resultado obtenido es un índice de variación estacional en el que se supone que el componente irregular ha desaparecido completamente. Sin embargo, estos índices no van a ser los definitivos, ya que se trata de índices no normalizados. Si existe estacionalidad, ésta no debe afectar al nivel de la serie, por lo que es razonable exigir a los coeficientes de estacionalidad el requisito de que su media sea 1, ó, alternativamente, que su suma sea L. Cuando los índices de estacionalidad cumplen este requisito se dice que están normalizados. Los índices de variación estacional normalizados se pueden calcular fácilmente aplicando una proporción. Así, si utilizamos el símbolo Eˆ h para designar el índice de variación estacional de la estación h, su expresión vendrá dada por

Eˆ h =ˆ E h*

L L

∑E

* h

h =1

Finalmente, la serie desestacionalizada se obtendrá dividiendo cada valor de la serie original por el índice de variación estacional correspondiente. Así, en el caso de que el período t pertenezca a la estación h, entonces el valor de la serie desestacionalizada, al que designaremos por Dt, vendrá dado por:

Dt =

Yt Eˆ

h

Ejemplo 8.7. Veamos a continuación un ejemplo, utilizando de nuevo la serie de ventas de gasolina de Cantabria para obtener dicho índice estacional. Años

Meses

Ventas Media móvil 12 meses 1 7.405 2 6.323 3 8.799 4 8.337 5 8.517 6 8.169 8.777 7 11.051 8.835 8 12.188 8.955 9 9.465 8.966 10 8.752 9.003 11 7.629 8.947 12 8.694 8.962 Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 1997

Profesores: Francisco Parra, Mª Paz Moral


1998

1 2 3 4 5

8.098 7.756 8.939 8.777 7.843

8.922 8.926 8.857 8.804 8.812

Tabla 8.12. El primer promedio móvil se centra en el 6º mes (Junio), lo que implica dejar sin valores seis meses al final de la serie. El segundo promedio, que es una media móvil de dos meses, se realiza para centrar convenientemente el promedio móvil anterior, el primer valor que aparece es el valor promedio de 8.777 y 8.835, y se centra en el 7º mes (Julio), quedando así ambos extremos de la serie resultante con seis meses de ausencia de datos: Años

Meses 1997

Ventas 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5

1998

Media móvil 12 meses

7.405 6.323 8.799 8.337 8.517 8.169 11.051 12.188 9.465 8.752 7.629 8.694 8.098 7.756 8.939 8.777 7.843

Promedio móvil centrado

8.777 8.835 8.955 8.966 9.003 8.947 8.962 8.922 8.926 8.857 8.804 8.812

8.806 8.895 8.960 8.985 8.975 8.954 8.942 8.924 8.891 8.830 8.808

Tabla 8.13. Finalmente se calcula el índice dividiendo los datos originales por el promedio móvil centrado y multiplicando por cien: Años

Meses

1997

1998

Ventas

1 2 3 4 5 6 7 8 9 10 11 12 1 2

7.405 6.323 8.799 8.337 8.517 8.169 11.051 12.188 9.465 8.752 7.629 8.694 8.098 7.756

Media móvil Promedio 12 meses móvil centrado

8.777 8.835 8.955 8.966 9.003 8.947 8.962 8.922 8.926

8.806 8.895 8.960 8.985 8.975 8.954 8.942 8.924

Índice estacional

125,49% 137,02% 105,63% 97,41% 85,00% 97,09% 90,56% 86,91%

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


3 4 5

8.939 8.777 7.843

8.857 8.804 8.812

8.891 8.830 8.808

100,54% 99,40% 89,05%

Tabla 8.14 La serie desestacionalizada de las ventas de gasolina en Cantabria sería el promedio móvil centrado de 12 meses:

14.000 12.000 Ventas

10.000 8.000 6.000

Promedio móvil centrado

4.000

Serie desestacionalizada

2.000

1997

0

Gráfico 8.4. Predicción con estacionalidad estable Los coeficientes de estacionalidad calculados en el epígrafe anterior pueden ser utilizados para realizar predicciones de la variable. Para ello, vamos a considerar el supuesto de que disponemos de una muestra de tamaño T y deseamos realizar predicciones para los L períodos siguientes (por ejemplo, si los datos son trimestrales y la muestra comprende años completos, se trataría de predecir los valores que toma la variable en los trimestres del primer año postmuestral). Bajo el supuesto de estacionalidad estable, el predictor vendrá dado por la siguiente expresión:

Yˆt + h / T = TˆT + h Eˆ h , h = 1, 2, …, L donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los datos desestacionalizados. Desestacionalización con Estacionalidad Cambiante Hasta ahora hemos considerado el supuesto de que los coeficientes de estacionalidad eran estables, es decir, que se repetían año tras año. Sin embargo, en muchas ocasiones este supuesto no es realista, pudiendo ocurrir que estos coeficientes estén afectados por una tendencia. Bajo el supuesto de estacionalidad cambiante, las fases para la aplicación del método de la razón a la media móvil son las siguientes: 1. 2. 3. 4.

Obtención de unas medias móviles de orden estacional. Obtención de unas medias móviles centradas. Obtención de los índices brutos de variación estacional. Obtención de los índices de variación estacional sin normalizar. Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Las tres primeras fases son las mismas que se aplicaban bajo el supuesto de estacionalidad estable. Una vez obtenidos los índices brutos de variación estacional, se debe proceder a la representación de este indicador para cada estación por separado. A la vista de esta representación se tomará la decisión de cuál es la función matemática adecuada para representar la tendencia de la estacionalidad. Recuérdese que los índices brutos de variación estacional son una estimación conjunta del componente estacional y del componente irregular. Por ello, al realizar el ajuste de modelos que recojan la tendencia de la estacionalidad, lo que estamos haciendo en realidad es separar estos dos componentes. Así, adoptando el supuesto de que están integrados de forma aditiva, se tendrá la siguiente descomposición:

EI t = E t* + I t , h = 1, 2, …, L donde Et* son los valores estimados al ajustar una función del tiempo en la que la variable dependiente es EI. En la mayor parte de las ocasiones es adecuado el ajuste de una recta para tal finalidad. Si éste es el caso resulta:

E t* = aˆ h 0 + aˆ h1 r , h = 1, 2, …, L donde r es el año en que se encuentra el período t. Teniendo en cuenta que al calcular los índices brutos de variación estacional se pierden L/2 datos al principio y L/2 al final y suponiendo que se dispone de información sobre K años completos, entonces r variará, según los casos, entre 2 y K o entre 1 y K–1. Después de realizado el ajuste se procederá a la predicción de los coeficientes de estacionalidad de cada uno de los años que integran la muestra. De esta forma se obtienen unos índices de variación estacional sin normalizar, aunque distintos para cada año. Seguidamente, la obtención de los índices de variación estacional normalizados se realizará haciendo una ligera modificación en la fórmula ya estudiada. Concretamente, la fórmula a aplicar será la siguiente:

Eˆ t =ˆ E t*

L

∑E

* m

, m = 1, 2, …, r

m

Como puede verse en la fórmula anterior, la normalización se realiza año a año. Por ello, el factor de normalización es igual a L dividido por la suma de los índices de variación estacional correspondientes al mismo año (r) en que se encuentra el período t. Finalmente, la serie desestacionalizada, al igual que antes, se obtiene dividiendo la serie original por el índice de variación estacional correspondiente, es decir,

Dt =

Yt Eˆ

t

Obsérvese que, bajo el supuesto de estacionalidad cambiante, a cada dato de la variable le corresponde un índice de variación estacional distinto, a diferencia de lo que ocurría bajo el supuesto de estacionalidad constante, donde el índice de variación estacional permanecía fijo dentro de cada estación.

Desestacionalización y Predicción con Estacionalidad Cambiante Bajo el supuesto de estacionalidad cambiante, el predictor vendrá dado por la siguiente expresión: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Yˆt + h / T = TˆT + h Eˆ h , h = 1, 2, …, L donde TˆT + h es la predicción obtenida de la tendencia mediante el ajuste de una función a los datos desestacionalizados y E es la predicción de la estacionalidad para el período T+h, obtenida a partir de un ajuste y su posterior normalización.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Anexo I: Análisis de regresión con Excel La notación de la regresión lineal en EXCEL es la siguiente: Y = mX + b Siendo, Y la variable dependiente, X , la variable independiente, el parámetro m es la pendiente y el parámetro b es una constante que indica que cuando X=0, Y=b. Para calcular los parámetros de la regresión lineal se procedería: m=Cov(xy)/Var(x) Cov(xy)=Covarianza de XY = Media Aritmética(XY)-Media A(X)*Media A(Y) b=Media A(X)-Media A(Y)*m

COVARIANZA Obtiene el promedio del producto de desviaciones de puntos de datos partiendo de las medias respectivas. La covarianza es una medida de la relación entre dos rangos de datos y está vinculada a la unidad de medida correspondiente a X e Y. Sintaxis: Cálculo de Covarianza de X1 e Y Escribimos en la celda

Covar(b3:b24;c3:c24)

COEFICIENTE DE CORRELACIÓN Mide el grado de relación existente entre las variables, y se calcula mediante: Corr(XY)=Cov(XY)/(Desv(x)*Desv(y)) Este toma valores entre 1 y -1, Si Corr(XY)=

Sintaxis:

1 0 -1

Relación Directa y Absoluta (Aumento de X=>Aumento Y). No existe Correlación (X e Y son incorreladas). Relación Indirecta y Absoluta (Aumento de X=>Dism. Y).

Cálculo de Coef. de Correlación de X1 e Y Escribimos en la celda

Asistente:

=Coef.de.Correl(b3:b24;c3:c24)

Nos situamos en Asistente de funciones, estadísticas, y COEF. DE CORREL. y en el paso 2 de 2

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


en Matri 1 situamos el rango de valores de Y, y en Matriz2 el de la X1

COEFICIENTE DE DETERMINACIÓN Muestra la bondad de la recta de regresión para estudiar la relación de dependencia entre las variables. Su valor fluctúa entre 0 y 1. En 1 nos indicaría que la recta es perfecta para determinar esa relación y en 0 que no nos es útil la recta de regresión para determinarla.

En el caso de que fuera 1, nos indicaría que no existirían diferencias entre valores estimados y valores reales.

Sintaxis:

=COEFICIENTE.R2(matriz_ymatriz_x)

ESTIMACIÓN LINEAL para 2 variables Calculamos ahora la recta de regresión lineal entre dos variables, Y y X1 mediante :

Y=m*X1 + b

Sintaxis:

ESTIMACION.LINEAL(Matrix_Y;Matriz_X;constante;estadística)

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Conocido_y

Valores de la Variable dependiente (Obligatorio).

Conocido_x

Valores de la Variable independiente.

Constante Determina si b debe de calcularse (se omite o pone Verdadero), lo que debe ser lo habitual, salvo que se sepa con certeza que cuando X=0, Y es distinto de cero. En este último caso, debe de ponerse 0 o FALSO. Estadística

Determina si se calcula estadísticos adicionales de la recta de regresión.

La función devuelve una MATRIZ, por lo que debe de seleccionarse el rango de salida :

Seleccionar el rango de salida, Entrar en el asistente de funciones y confirmar con Ctrl + Shift+ Return

las salidas de los indicadores se nos muestran de la siguiente forma Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


m se(m) R2 F ss(reg)

b se(b) se(y) df ss(res)

m

Pendiente de la recta de regresión. Puede ser calculada separadamente mediante la función PENDIENTE Sintaxis =Pendiente(matriz_y;matriz_x)

b

Punto de intersección con eje Y. Puede calcularse independientemente con la función INTERSECCION.eje Sintaxis =Interseccion.eje(matriz_y;matrix_x)

se(m)

Valor del error típico de la pendiente.

se(b)

Valor del error típico de la intersección.

R2 Coeficiente de Determinación de la recta de regresión. Puede calcularse separadamente mediante la función COEFICIENTE.R2 Sintaxis

se(y)

=Coeficiente.R2(matriz_y;matriz_x)

Error típico de la estimación Puede calcularse independientemente con la función ERROR.TIPICO.XY Sintaxis

F

=Error.Tipico.XY(Matriz_y;Matriz_x)

Estadístico F o valor F observado. Puede calcularse independientemente con la función DISTR.F Sintaxis

=Distr.F(X;grados_libertad1;grados_libertad_2)

df

Grados de libertad para la prueba F.

se(reg)

Suma de los cuadrados de la regresión.

se(resid)

Suma de los cuadrados de los residuos.

TENDENCIA Una vez calculados los valores m y b de la recta y analizado los dos estadísticos anteriores, podemos realizar el pronóstico de valores que alcanzará Y en función de los nuevos valores de X.

y$ =mX+b Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Mediante esta función podemos calcular, tanto los valores que obtendría la Y para distintos valores de X1, como las diferencias entre los valores reales de X1 y los valores estimados para cada X1. Para ello utilizamos el asistente de funciones, Tendencia

con lo que hemos calculado los valores estimados, para los datos reales que tenemos. Mediante el asistente de gráficas podemos representar las diferencias entre los valores reales y los obtenidos por regresión lineal. (Para ello ordenamos los datos de la tabla anterior de menor a mayor). Así mismo, vamos a calcular valores de tendencia para datos ajenos a la muestra utilizada, para ello hay que escribir en la matriz de Nuevas_X, las deseadas.

También se puede realizar, calculando mediante la función PRONOSTICO para un valor determinado de X1

Sintaxis:

=Pronóstico(xmatriz_ymatriz_x)

REGRESIÓN LINEAL MÚLTIPLE Al igual que hemos realizado la regresión lineal mínimo cuadrática para establecer la dependencia entre Y e X, también podemos realizarlas para observar dicha dependencia de Y respecto a varias variables (X1..Xn). En este caso la regresión será del tipo :

Y=m1X1+..+mnXn+b

De la misma manera calcularemos el coeficiente de determinación y los coeficientes de correlación parciales entre variables.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


En Excel es posible calcular otros estadísticos que pueden ser muy útiles, tales como ‘EL Valor F Observado’, los grados de libertad, la suma de regresión de cuadrados, la suma residual de los cuadrados, error típico de la estimación...

Veamos ahora el caso de que la variable dependiente está relacionada con más de una variable independiente.

Para n variables dependientes, la recta de regresión será :

Y=x1*m1 + ...+xn*mn + b

Para 3 variables independientes:

Y=X1*m1+X2*m2+X3*m3+b

y los resultados se muestran en la siguiente matriz de datos :

Seleccionamos la regresión mediante el asistente de fórmulas :

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


ESTIMACIÓN EXPONENCIAL En ocasiones la dependencia entre variables no se ajusta a una recta o al ajustarla nos sale un coeficiente de determinación que indica que no es útil, y podemos realizar la estimación mediante una curva exponencial.

En Excel podemos realizar la tendencia de datos mediante la función crecimiento que ajusta los datos de X, Y a lo largo de la curva.

Hasta ahora, hemos realizado la estimación mediante regresión lineal, pero todos los procesos obtenidos en la lineal (univariante y multivariante), se pueden realizar de igual forma con una ica. regresión exponencial mediante una estimación logarítm

La curva obtenida será de la forma: y=(b*(m1x1)..(mnxn)) o matricialmente y=b*mx

En este caso si al especificar la constante en el asistente ponemos Falso, el valor que no calcula se asume igual a 1.

Ya que Excel calcula la formula para los cálculos: Ln(Y)=Ln(b)+ x1 * Ln(m1) + .. + Xn * Ln(mn)

los estadísticos que nos resultan serán :

se(m)

Errores típicos de Ln(m)

se(b)

Error típico de Ln(b)

En el asistente seleccionaremos la función ESTIMACION.LOGARITMICA. La tendencia de los datos la realizamos mediante la función CRECIMIENTO.

Estimación de un Modelo de Regresión Lineal con la macro “Análisis de datos” A continuación, vamos a estimar los parámetros de un determinado modelo por Mínimos Cuadrados Ordinarios utilizando la macro “Análisis de datos”, programa que simplifica notablemente los cálculos a realizar cuando disponemos de muchas observaciones y/o variables exógenas. Supongamos que la cantidad demandada de manzanas viene determinada en función de su precio, y queremos cuantificar dicha relación. Partimos de la siguiente tabla de datos: Cantidad (Kg.)

Precio (u.m. / Kg.)

2.456

82

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


2.325 2.250 2.200 2.100 2.082 2.045 2.024

92 94 99 106 108 112 115

Si realizamos un diagrama de dispersión mediante la opción Gráfico, dentro del menú Insertar de Excel, obtendremos un gráfico como el siguiente en el que puede comprobarse la relación que aparentemente existe entre cantidades demandadas de manzanas y su precio. Curva de demanda 120 115 110 105 100

Precio (u.m. / Kg.)

95 90 85 80 2.000

2.100

2.200

2.300

2.400

2.500

Relación entre la demanda de manzanas y su precio Pasamos a continuación a estimar la recta de regresión por Mínimos Cuadrados Ordinarios. Para ello, el alumno debe verificar que tiene instalada la opción Herramientas para el Análisis dentro la opción Complementos del menú Herramientas.

En caso de no tener dicha opción instalada en nuestro ordenador, deberemos marcar las casillas que se ven en la figura, insertando seguidamente el CD-Rom de Microsoft Office para proceder a su instalación. Una vez instaladas estas opciones, dispondremos de una nueva opción en el menú Herramientas llamada Análisis de Datos. Si pinchamos en ella, nos aparecerá una ventana similar a la siguiente, en la que seleccionaremos la opción Regresión:

Al seleccionar dicha opción nos aparecerá un cuadro de diálogo como el siguiente:

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


En este cuadro de diálogo podemos seleccionar el rango de nuestra hoja de cálculo que contiene los datos referidos a la variable endógena (Rango Y de entrada) y a las variables exógenas (Rango X). Asimismo, se incluyen otras opciones sumamente útiles tales como eliminar el término independiente del modelo (Constante igual a cero), determinar el nivel de confianza al cual se realizarán los tests de significación de los parámetros, la posibilidad de obtener una tabla con los términos de error del modelo (Residuos) y su gráfico (Grafico de Residuales), etc. Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos (no debemos olvidar indicar en qué Hoja, Rango o Libro deseamos que nos aparezcan los resultados), pulsamos en Aceptar y nos aparecerá una ventana similar a ésta:

La estimación de los parámetros del modelo aparecen en la columna Coeficientes, junto con su Desviación Típica o Error Típico y el estadístico t de significatividad individual (obsérvese que al término independiente del modelo, Excel lo denomina Intercepción). A la vista de los resultados, el modelo estimado tiene la siguiente forma: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Cantidad = 3534.27 – 13.36· Precio (48.1)

(-18.46)

donde entre paréntesis se muestra el estadístico t experimental asociado a cada parámetro, siendo ambas claramente superiores a 2.365 (valor en tablas de una t de Student con n – k = 7 grados de libertad al 95% de confianza. Para el análisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados: a) Por un lado, si marcamos la casilla Curva de Regresión Ajustada obtenemos un gráfico con los valores originales y estimados de la variable endógena, lo que nos permitirá realizar un primer acercamiento visual al grado de ajuste de la recta (véase grafico)

Precio Curva de regresión ajustada 2.500 Cantidad

Cantidad

2.400

Pronóstico Cantidad

2.300 2.200 2.100 2.000 1.900 80

85

90

95

100

105

110

115

120

Precio

Recta de regresión entre la demanda de manzanas y su precio

b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del coeficiente de determinación que, en nuestro caso, es del 98%, lo que nos indica un grado de ajuste muy bueno. Para evaluar la significatividad estadística de los parámetros estimados, además de los estadísticos t asociados a cada parámetro estimado y los respectivos intervalos de confianza para cada uno de ellos, Excel nos muestra también el estadístico F que aparece en la tabla Análisis de Varianza, mediante el que se realiza un contraste de significación global de los parámetros estimados. En los resultados obtenidos, el estadístico F tomo un valor 340.8 asociado a un p-value de 0.0000016, valor que es claramente inferior a 0.05, por lo que se rechaza la hipótesis nula, lo que nos permite afirmar que todos los parámetros del modelo son globalmente significativos, es decir, todos son significativamente distintos de cero. En este punto, cabe señalar que si estimamos un modelo con varias variables exógenas y nos encontramos con que alguno de los parámetros del modelo es estadísticamente igual a cero, deberíamos eliminar dicha variable del modelo al no haberse encontrado una relación de causalidad con la variable endógena. Respecto al análisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores Ajustados (Pronóstico Cantidad), los Residuos del modelo y los Residuos Estándares (es decir, tipificados). Según la teoría que hemos estudiado hasta ahora, los residuos estándares deben seguir una distribución Normal de media 0 y desviación estándar 1; por tanto, aquellos residuos cuyo valor absoluto supere 1.96 se corresponderán con valores atípicos, también denominados outliers en la literatura estadística. En nuestro ejemplo, afortunadamente, no se observa ningún outlier como puede apreciarse en la siguiente tabla de Análisis de Residuos: Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Análisis de los residuos Observación

Pronóstico Cantidad

1 2 3 4 5 6 7 8

2439,03 2305,46 2278,75 2211,96 2118,47 2091,75 2038,33 1998,26

Residuos

Residuos estándares

16,97 19,54 -28,75 -11,96 -18,47 -9,75 6,67 25,74

0,79 0,91 -1,33 -0,56 -0,86 -0,45 0,31 1,20

El gráfico de los residuos también constituye una herramienta de análisis importante, ya que nos permite evaluar la aleatoriedad de los mismos. En nuestro ejemplo, se observa una ligera falta de aleatoriedad, derivada de que los cuatro últimos residuos presentan una marcada racha creciente. Precio Gráfico de los residuales 40 30

Residuos

20 10 0 -10 -20 -30 -40 80

85

90

95

100

105

110

115

120

Precio

Gráfico de residuos del modelo de demanda de manzanas frente al precio

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


Anexo II: Acceso a datos externos desde Excel Además de poder utilizar ficheros de datos en distintos formatos (HTML, XML, texto, etc.), Excel permite importar datos desde servidores de bases de datos (SQL Server, Oracle, MySQL, p. ej.), siempre y cuando tengamos instalado en nuestro PC el controlador correspondiente. En el caso de que los datos de interés se encuentren en una base de datos Access, podremos acceder a los mismos de dos maneras: bien como fichero o bien como servidor de bases de datos, mediante la creación de una conexión ODBC u OLEDB.

Vamos a explicar dos ejemplos de acceso a una BD Access.

Caso 1: Acceso como archivo Procedemos a abrir el fichero Access desde el menú “Archivo” -> “Abrir”. En “Tipo de archivo” seleccionamos “Bases de datos de Access (*.mdb; *.mde)

La advertencia de seguridad nos informa sobre la posibilidad de que la consulta de datos proporcione un acceso a información no autorizada. Una BD Access, además de los datos de interés, puede contener consultas a otras fuentes de datos y debemos tener esto en cuenta cuando utilizamos archivos procedentes de otro usuario o departamento. En este caso, abrimos el fichero puesto que es de confianza.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


La ventana “Seleccionar tabla” nos muestra las tablas y vistas o consultas existentes en la BD, para seleccionar la que nos interese. Solamente podemos seleccionar una tabla, por lo que, si deseamos cargar datos procedentes de diferentes tablas, tendremos que repetir esta operación para cada una de ellas. Una vez seleccionada una tabla, se cargan los datos en la hoja activa, incluyendo las cabeceras con el nombre de las columnas.

Una vez cargados los datos, la barra de herramientas de datos externos nos permitirá: - modificar la consulta, por ejemplo filtrar los datos mediante una sentencia SQL

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


-

establecer propiedades del rango de datos y comportamiento de la hoja de datos (actualizaci贸n al abrir, refresco cada cierto tiempo, etc.)

-

actualizar los datos inmediatamente

Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


Caso 2: Acceso como servidor base de datos Para importar datos desde un servidor de BBDD, acudiremos al menú “Datos” -> “Obtener datos externos” -> “Importar datos”

Por defecto, Excel nos muestra los ficheros existentes para orígenes de datos ya definidos. Si no disponemos de una conexión para la base de datos, podemos crearla pulsando el botón “Nuevo origen…”. El Asistente para la conexión de datos nos guiará paso a paso para establecer una conexión. En primer lugar, seleccionamos el tipo de origen de datos.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


En el ejemplo, seleccionamos DSN (nombre de origen de datos) ODBC para abrir el origen de datos Access instalado por defecto

En la ventana de exploración, buscamos el fichero “datos_climaticos.mdb”

A continuación, seleccionaríamos una tabla, tal y como hicimos en el caso anterior

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Por 煤ltimo, guardamos los datos de conexi贸n, para su uso posterior

Centro de Estudios de la Administraci贸n Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, M陋 Paz Moral


Anexo III: Macros en Excel ¿Qué son las macros? Las tareas que se realizan con frecuencia pueden automatizarse mediante macros. Una macro (macroinstrucción) consiste en una serie de comandos y funciones que se almacenan en un módulo de Visual Basic y que pueden ejecutarse siempre que sea necesario realizar la tarea. Son, por lo tanto, programas sencillos pero que pueden resultar tremendamente útiles en nuestro trabajo diario, con la ventaja de que no es necesario conocer un lenguaje de programación para crearlas. Simplemente dejaremos que Excel lo haga por nosotros. Grabar macros Al grabar una macro, Excel almacena información sobre cada paso dado cuando se ejecutan de forma manual una serie de comandos. A continuación, se ejecuta la macro para que repita los comandos. Si se comete algún error mientras se graba la macro, también se graban las correcciones que se realicen. Visual Basic almacena cada macro en un nuevo módulo adjunto a un libro.

Para que una macro se ejecute cada vez que haga clic en un botón determinado o presione una combinación de teclas específica, asigne la macro a un botón de la barra de herramientas, a un método abreviado de teclado o a un objeto gráfico de una hoja de cálculo. Ejecutar fácilmente una macro Se puede ejecutar una macro seleccionándola de una lista en el cuadro de diálogo “Macro”.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Administrar macros Tras grabar una macro, se puede ver el código de macro con el Editor de Visual Basic para corregir errores o modificar lo que hace la macro. Por ejemplo, si la macro de ajuste de texto también tiene que aplicar el formato de negrita al texto, se puede grabar otra macro para aplicar el formato de negrita a una celda y, a continuación, copiar las instrucciones de esa macro a la macro de ajuste de texto. El Editor de Visual Basic es un programa diseñado para que los usuarios principiantes puedan escribir y editar fácilmente código de macro, y proporciona mucha Ayuda en pantalla. No es preciso saber cómo se programa o se utiliza el lenguaje de Visual Basic para realizar cambios sencillos en las macros. El Editor de Visual Basic permite modificar macros, copiarlas de un módulo a otro, copiarlas entre diferentes libros, cambiar el nombre de los módulos que almacenan las macros o cambiar el nombre de las macros. Seguridad de macros Excel incluye protecciones para ayudar a proteger contra virus susceptibles de ser transmitidos por macros. Si se comparten macros con otros usuarios, se puede certificar esas macros con una firma digital de modo que los demás usuarios pueden comprobar que proceden de una fuente fidedigna. Al abrir un libro que contiene macros, se puede comprobar su origen antes de habilitarlas.

Centro de Estudios de la Administración Regional de Cantabria. Curso 2011-C-026-01 Profesores: Francisco Parra, Mª Paz Moral


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.