Page 1

2019 Análisis Exploratorio de Datos.

Oscar Diaz Piensa Estadística. 26-2-2019


Unidad I Introducción al Anålisis Exploratorio de Datos (EDA) Por Óscar R. Díaz Resumen—En esta unidad se presentan al estudiante las primeras herramientas que le ayudar ån a desarrollar el pensamiento estadístico, una forma de pensamiento que parte de la existencia de la variabilidad, trata de entender su estructura y aplica ese entendimiento en el resumen, descripción y representación de datos en un ambiente de variabilidad e incertidumbre. La primera herramienta que se proporciona es el Anålisis Exploratorio de Datos, una forma de pensar y actuar sobre el anålisis de datos que requiere de cierto enfoque, de cierta perspectiva que se apoya en un conjunto de herramientas gråficas y de síntesis de datos que tienen como finalidad maximizar lo que se aprend e de los datos.

I.

VARIABILIDAD DĂ?STICO.

Y PENSAMIENTO

ESTA-

ÂżQuĂŠ es la variabilidad?

L

a idea de variabilidad reviste una gran importancia en la estadística, pues dota a Êsta ciencia de su razón de ser y puede ser abordada, tanto desde la estadística descriptiva, como de la probabilidad y la inferencia. Lingßísticamente, variabilidad es la cualidad del adjetivo variable, lo que significa que algo es propenso o tendiente a variar o cambiar. Resulta imposible imaginarnos nuestra realidad inmediata sin la variabilidad. Usamos alarmas porque la variabilidad a la hora de despertarnos podría ponernos en serios aprietos todas las maùanas. Luego, el tiempo para desplazarnos desde nuestro hogar a la Universidad varía día con día, por lo que solemos salir temprano previendo algún retraso importante —es decir previendo una variabilidad en este tiempo. Por lo general la clase no iniciarå siempre a la misma hora y quizå ocupe un asiento diferente al que ocupó en la última clase. El tiempo utilizado para regresar a casa por la tarde seguramente tendrå una alta variabilidad que ronda lo caótico. Esta variabilidad que experimentamos en la vida diaria, tambiÊn se presenta en el åmbito laboral. Un ingeniero tendrå que trabajar a diario con la variabilidad ya que la encontrara presente en todos los procesos productivos. Al hacer un pronóstico de la demanda de energía elÊctrica, al medir el volumen de ventas de un producto durante un período específico o al medir el tiempo de una reacción química, encontrara variabilidad en las medidas. La variabilidad es la responsable de que dos productos fabricados por la misma måquina, en el mismo turno, por el mismo operario y con la misma materia prima sean diferentes entre sí con respecto a algún criterio de calidad. En resumen, la variabilidad describe una situación en la cual las observaciones o las medidas deberían ser las mismas, pero no los son. A medida avancemos en el curso tendremos un concepto mås completo de la variabilidad. Ejemplo 1: La variabilidad en acción. Imagine que para ensamblar un componente mecånico se requiere del uso de tornillos de una longitud específica para unir las distintas

piezas que forman el componente, por lo que la longitud de estos tornillos resulta ser una caracterĂ­stica de calidad importante. La empresa ha solicitado lotes de tornillos a los proveedores A y B. Al inspeccionar tres tornillos de cada uno de estos proveedores resultan las siguientes lecturas (en pulgadas) Proveedor A: 2.03, 1.95, 2.02 Proveedor B: 2.50, 1.80, 1.70 Si solo tomamos en consideraciĂłn la longitud promedio, no reconocerĂ­amos diferencia entre los tornillos que fabrican cada uno de los proveedores puesto que: đ?‘ĽĚ…đ??´ =

2.03 + 1.95 + 2.02 = 2.00 3

đ?‘ĽĚ… đ??ľ =

2.50 + 1.80 + 1.70 = 2.00 3

Sin otro anĂĄlisis adicional, no habrĂ­a diferencia entre adquirir los tornillos del proveedor A o los del B. Sin embargo, al hacer una inspecciĂłn visual de los tornillos notamos que los del proveedor A parecen tener longitudes muy similares entre sĂ­ (figura 1), mientras que los del proveedor B presentan una mayor variabilidad en las longitudes (figura 2). Si para la empresa que comprarĂĄ los tornillos la longitud de los mismos es una caracterĂ­stica crĂ­tica, el criterio de la longitud promedio no sirve, pero al analizar la variabilidad de la longitud parece un poco mĂĄs claro que los tornillos del proveedor A son de mejor calidad que los del proveedor B ya que su variabilidad en la longitud es menor. En otro escenario, imagine que la empresa A tarda entre 11 y 17 dĂ­as en surtir los pedidos y la empresa B entre 7 y 21 dĂ­as. Nuevamente ambas empresas tardan en promedio lo mismo (14 dĂ­as), pero si le compra a la empresa A tendrĂĄ menos incertidumbre (menos variabilidad) acerca de cuĂĄndo van a surtir su pedido. En los procesos de fabricaciĂłn la variabilidad juega un papel muy importante en la calidad de los productos fabricados. Se logra una mejor calidad a travĂŠs de una variaciĂłn menor, es decir que, si la variabilidad de las caracterĂ­sticas


importantes de un producto disminuye, la calidad del producto aumenta.

Figura 1

Figura 2

¿Qué causa la variabilidad? ¿Qué pudo causar que las longitudes de los tornillos del proveedor B difieran tanto entre sí? o ¿Por qué el proveedor A tarda menos que el B en entregar un pedido? Una posible explicación a la primera pregunta tiene que ver con los errores humanos. Por ejemplo, un operario inexperto pudo cortar los tornillos y por eso resultaron con las longitudes tan diferentes. Otra posible explicación tiene que ver con la máquina que hace los cortes que en ese momento pudo estar desajustada. En general, cualquier proceso puede concebirse como un sistema con una serie de entradas y salidas (figura 3). En este sistema se tiene control sobre algunas de las entradas (temperaturas, cantidades de materia prima, tiempos, etc.) pero sobre otras no o resulta difícil hacerlo (por ejemplo, factores ambientales o las propiedades de la materia prima suministradas por un proveedor). Estas dos entradas interactúan y producen la salida del sistema, que puede ser un producto o un servicio. En ocasiones, el efecto de estas variables sobre las cuales no se tiene control (también llamadas variables de ruido o no explicadas) es pequeño y puede ignorarse, pero en otras su efecto genera una variabilidad tan grande con respecto a las características deseadas que produce un producto o un servicio defectuoso. Un modelo que trata de explicar esta variabilidad es la metodología de las 6M. Este modelo parte del principio que en todo proceso interactúan Materiales, Maquinas, Mano de obra, Mediciones, Medio ambiente y Métodos (las 6M) y que cada uno de estos elementos aporta algo de la variabilidad total observada, de modo que si existe un cambio significativo en el desempeño del proceso, su razón se puede explicar por alguna de las 6M (figura 3). Por ejemplo, los materiales no son completamente idénticos, ni todos los empleados tienen las mismas habilidades y entrenamientos o las máquinas pueden desajustarse y desgastarse por el uso continuo. Entonces, para responder a la pregunta ¿Qué causa la variabilidad? Podemos responder que cada M aporta una parte, no necesariamente igual, de la variabilidad total observada.

Figura 3

El Pensamiento Estadístico. Snee (1990) define el pensamiento estadístico como una filosofía de aprendizaje (cómo adquirimos información) y acción (cómo respondemos a esa información) basada en tres principios: 1. Todo el trabajo ocurre en un sistema de procesos interconectados. 2. La variabilidad existe en todos los procesos. 3. Entender y reducir la variabilidad son claves para el éxito. El pensamiento estadístico es la forma en que la información se ve, se procesa y se convierte en información que nos permite aprender de los datos. Pensar en forma estadística implica tomar conciencia de la variabilidad que existe y se transmite en los datos, así como de la incertidumbre originada por la variabilidad no explicada y tomarla en cuenta en cada paso de acción para la toma de decisiones. Uno de los principales objetivos de este curso es desarrollar en el futuro ingeniero el pensamiento estadístico, ya que esto le ayudará a visualizar la realidad de otra manera (con variabilidad) y dirigir de manera más adecuada sus esfuerzos de mejora, ya sea a nivel estratégico (creando estrategias y comunicándolas, usando datos de diversas fuentes para la toma de decisiones, desarrollando sistemas de medición del proceso) a nivel directivo (desarrollando proyectos estructurados, fijando metas tomando en cuenta la variabilidad) o a nivel operacional (conoce la variación, identifica oportunidades de mejora tomando en cuenta la variabilidad). II.

VARIABLES Y SUS MEDIDAS

Para el desarrollo del pensamiento estadístico es necesario comprender el concepto de variable. Una variable es una


característica o atributo que puede asumir diferentes valores. Por ejemplo, en la tabla 1 se muestran las mediciones hechas por 12 inspectores de calidad para el diámetro de una pieza de acero usando un micrómetro y un vernier. En este caso la característica de interés es el diámetro de la pieza. A pesar de que se está midiendo una sola pieza, las lecturas son diferentes para cada uno de los inspectores y más aún, resultan ser diferentes según el tipo de instrumento utilizado (la variabilidad en acción). Decimos entonces que el diámetro de la pieza es una variable. Inspector 1 2 3 4 5 6 7 8 9 10 11 12

Micrómetro Vernier 0.150 0.151 0.151 0.150 0.151 0.150 0.151 0.152 0.152 0.151 0.151 0.150 0.151 0.152 0.152 0.153 0.152 0.150 0.153 0.151 0.151 0.151 0.151 0.151 T abla 1 Mediciones hechas por 12 inspectores

Clasificación de las Variables. Las variables se pueden clasificar como cualitativas o cuantitativas. En las variables cualitativas (también conocidas como categóricas) la medición describe un elemento colocándolo en una categoría o grupo de acuerdo a alguna característica o atributo. Por ejemplo, si clasificamos personas de acuerdo al género (masculino o femenino) entonces, la variable género es cualitativa. Otros ejemplos de estas variables son la preferencia religiosa, el estado civil, la afiliación política, la etnia, el color de ojos y el tipo de sangre. En el caso de las variables cuantitativas, las mediciones resultan en valores numéricos que podemos ordenar y realizar operaciones aritméticas con ellos. Por ejemplo, la variable edad es numérica y las personas pueden ser ordenadas de acuerdo a su edad o podemos encontrar una edad promedio. Otros ejemplos de este tipo de variables son el peso de la persona, la altura y la temperatura corporal. Las variables cuantitativas pueden ser clasificadas en dos grupos: discretas y continuas. las variables discretas pueden asumir valores como 0, 1, 2, 3, ... y se dice que son contables. Por ejemplo, el número de niños de una familia, el número de estudiantes en el salón de clase y el número de llamadas que recibe un operador cada día durante un mes. En este caso el proceso de medición está asociado a conteos. Las variables continuas pueden asumir un numero infinito de valores en un intervalo entre dos valores específicos. Por ejemplo, la temperatura, ya que la variable puede asumir un infinito número de valores entre dos temperaturas dadas. Para este tipo de variables el proceso de medición está asociado a mediciones.

Escalas de Medición. Además de clasificarse como cualitativas o cuantitativas, las variables pueden ser clasificadas por como son categorizadas, contadas o medidas. En 1946 S. S. Steven [1] introdujo un esquema muy elaborado para la clasificación de variables, vigente aún en nuestros días, en el cual se definieron las diferentes reglas para la asignación de números, las propiedades matemáticas de las escalas resultantes, y las operaciones estadísticas que pueden aplicarse a las mediciones hechas en cada escala. Steven propuso que una variable puede ser clasificada en una de cuatro escalas: nominal, ordinal, de intervalo y de razón. Desde el punto de vista de las propiedades matemáticas y estadísticas, la escala de medición más rudimentaria es la nominal y la más completa la de razón. Escala Nominal: En esta categoría la característica o variable de interés consiste en clases excluyentes según determinada propiedad. Además, no existe un orden lógico particular para las distintas clasificaciones o categorías que permita, por ejemplo, ordenarlas; es decir que los números en esta escala solo se usan como identificadores o nombres. Por ejemplo, si nuestro estudio incluye la variable género, codificamos femenino como 1 y masculino como 2. Pero los números 1 y 2 representan categorías de datos: son simples identificadores de una cualidad que se está midiendo y son completamente arbitrarios ya que puede usarse F o M o cualquier otra alternativa para la codificación. A este nivel la operación matemática permitida es el conteo. Escala Ordinal: Posee todas las características de la escala nominal, pero además los datos o mediciones pueden ser colocados en categorías que pueden ordenarse de manera que reflejen diferentes grados o cantidades de la característica bajo estudio. Los números representan una cualidad que se está midiendo, y expresan si una observación tiene más de la cualidad medida que otra. Por ejemplo, un estudiante de inglés puede ser clasificado como básico, intermedio o avanzado, que codificamos con 1, 2 y 3 respectivamente. En este caso 3 indica que una persona está más avanzada que un 2 o que un 1. Sin embargo, note como en esta escala —por la falta de una unidad de medida común— no se pueden distinguir las diferencias entre las categorías. ¿Es la diferencia entre básico e intermedio la misma que entre intermedio y avanzado? No se puede saber, hay un cierto orden, pero no una cantidad mensurable. Además del conteo, en esta categoría se pueden ordenar los datos. Escala de Intervalo: Esta posee todas las características de las dos escalas anteriores, con la propiedad adicional de que las mediciones son generalmente números y la diferencia entre un par de ellos da un resultado significativo debido a la existencia de una unidad de medida común y constante. Una limitante de esta escala es que carece de un punto inicial o de referencia natural que indique la ausencia de atributo. Por ejemplo, en el caso de un termómetro cuyas lecturas son medidas en grados Celsius, el cero de esta escala


(0°C) es arbitrariamente fijado al punto al cual el agua se congela (a nivel del mar). En contraste, la ausencia de calor (la temperatura a la cual la actividad molecular cesa) es aproximadamente -273°C. Como consecuencia, no podemos afirmar que 0°C indique la ausencia de calor. Esta falta de un cero natural impide establecer que un día con 30°C sea tres veces más caliente que uno con 10°C, pero sí podemos decir que la distancia entre 25°C y 30°C es la misma que la existente entre 20°C y 25°C. Si la temperatura en un lugar es de 20°C y en otro de 25°C podemos jerarquizar según lo frío o caliente que son: el primero es más frío que el segundo ya que la escala fija de medición (1°C) permite decir que el primer sitio es 5°C más frío que el segundo. En esta escala las diferencias y las sumas de datos tienen un significado numérico racional, pero no la multiplicación y división. Escala de Razón: Esta escala tiene todas las características de la escala de intervalo, pero además, tiene un cero natural que indica la ausencia del atributo. Esto tiene como consecuencia que —además de las operaciones lógicas de ordenación y comparación, las diferencias y las sumas—la división y multiplicación de datos tiene un sentido numérico racional. Por ejemplo, la cantidad de litros de agua consumido por una persona en un día. Cero litros indica la ausencia de la característica medida (la persona no ha consumido agua ese día). Además, si alguien consume 2 litros de agua, podemos decir que ha consumido el doble de una persona que haya consumido 1 litro ese mismo día. Otros ejemplos de este tipo de variables son: la altura de una persona, el diámetro de una pieza, el consumo de combustible de un automóvil y la presión sanguínea. En resumen ¿Por qué es importante conocer las escalas de medición? Para entender y usar apropiadamente las diferentes técnicas del análisis estadístico, es necesario identificar previamente la escala de medición correspondiente, ya que cada escala tiene sus propiedades matemáticas, que determinan el análisis estadístico apropiado en cada caso, de manera que los datos se puedan explorar convenientemente, organizarlos, resumirlos, presentarlos y aprender de ellos. La tabla 2 resume las principales características de las escalas de medición. Escala Nominal Ordinal Intervalo Razón

Operación Matemática permitida Conteo Ordenar Suma, Resta Multiplicación, División

Operación Estadística permitida Frecuencia, Moda Mediana, Rango Media, Varianza Coeficiente de Variación

T abla 2 Principales Características y Propiedades de las Escalas de Medición.

III. ANÁLISIS EXPLORATORIO DE DATOS.

En ingeniería es común trabajar con datos que provienen de mediciones que han sido tomadas bajo condiciones controladas —para reducir la variabilidad— con el propósito de tomar alguna decisión. Por lo general, la cantidad de datos es voluminosa y sin ningún significado a primera vista, por lo que se hace necesario procesar los datos a fin

de que puedan proporcionar la información requerida por el usuario para la toma de decisiones. Para asegurarnos que las principales características de una serie de datos —como patrones, diferencias, tendencias, anomalías— sean claramente descritas y resulten fáciles de visualizar, necesitamos de algunos «traductores» que nos permitan procesar todo este volumen de información de manera que tenga un significado menos complejo a una «escala humana». El enfoque conocido como EDA (Exploratory Data Analysis) es por hoy la mejor alternativa con la que disponemos. Este enfoque nos permite procesar esta gran cantidad de datos y «dibujar» una imagen general que nos permita entender cosas —y por lo tanto aprender— acerca de los datos. El EDA es una manera de pensar –una filosofía de pensamiento– con respecto al análisis de datos. Esta manera de pensar requiere de ciertas técnicas, de ciertas maneras de aproximarse a los datos —desde una cierta perspectiva— durante el análisis. Las técnicas del EDA son apropiadas tanto para datos cualitativos como para cuantitativos y su énfasis se centra en usar representaciones visuales que revelen información vital sobre los datos que están siendo examinados. Visualizar es una forma de tratar de empezar a interactuar con la información. Una buena visualización de datos permite descubrir algún tipo de relación, estructura o patrones que serían difíciles de describir a partir de los datos en bruto. En esta primera parte del curso nos centraremos en las diferentes técnicas del EDA que buscan organizar y desplegar los datos gráficamente de manera que sean evidentes algunos valores distintivos de la serie de datos tales como: valores centrales (aquellos valores que parecen ocupar el centro de la serie de datos), valores extremos (valores que parecen estar muy lejos de los valores centrales), conglomerados (grupos de datos muy cercanos entre sí), brechas (separaciones de magnitud considerable entre conglomerados), anomalías (algo que no encaja en un patrón) y la identificación de patrones globales (The big picture). La aplicación de estas técnicas también determinará en gran parte qué otras técnicas alternativas de análisis pueden aplicarse posteriormente a los datos en estudio. Distribuciones de Frecuencias y Gráficos para Variables Cualitativas. En esta sección estudiaremos cómo las distribuciones de frecuencia y los gráficos de barra pueden ser usados para resumir datos categóricos. Ambas técnicas están íntimamente ligadas: a partir de una distribución de frecuencias construimos el gráfico de barras. Para construir la distribución de frecuencias siga los siguientes pasos:


1. Liste las categorías que componen las variables. Recuerde que la única operación que puede hacer a este nivel es contar, así que el orden en que se listen las categorías es irrelevante, sin embargo, para evitar algún tipo de sesgo se recomienda listarlas alfabéticamente, o en orden descendente o ascendente de frecuencia. 2. Registre la frecuencia asociada f con cada categoría y, si lo desea, su correspondiente frecuencia relativa. Incluya además el número total de datos, n, al final de la tabla. 3. No olvide considerar las recomendaciones dadas en la guía rápida de buenas prácticas para tablas.

visualizar la distribución de los datos, es decir cómo se distribuyen los datos a través de las diferentes categorías que pueden observarse, o comparar visualmente dos o más series de datos según alguna característica de interés. En la figura 4 se muestra el gráfico de barras para el ejemplo 2.

En el siguiente ejemplo se muestra cómo construir una distribución de frecuencias y a partir de ella, el gráfico de barras. Ejemplo 2: En el artículo «Nearly Half of American Adults are Smartphone Owners» (Pew Research Center, pewresearch.org, March 1, 2012) se examina el tipo de teléfono celular preferido por los adultos estadounidenses. Esta variable es categórica, y por tanto, la única operación matemática que podemos efectuar es contar; de manera que los resultados de la encuesta se pueden resumir a partir del artículo en una tabla de distribución de frecuencias como se muestra en la tabla 3. Tipo de Celular Preferido Android Smartphone iPhone Smartphone Blackberry Smartphone Celular no inteligente No posee teléfono celular

Frecuencia

Frecuencia Relativa

458 437 141 924 293

20.33% 19.40% 6.26% 41.01% 13.00%

Figura 4

También podemos representar las frecuencias relativas como se muestra en la figura 5

Total

2253 100% Tabla 3 Distribución de Frecuencias para el ejemplo 2 Fuente: www.pewinternet.org/wp -content/uploads/sites/9/media/Files/Reports/2012/Smartphone-ownership-2012.pdf

Por lo general la información en la distribución de frecuencias resulta más ilustrativa si se calculan las frecuencias relativas de los conteos (también conocidas como proporciones). Por ejemplo, para la categoría Android Smartphone la frecuencia relativa se calcula como 458⁄2253 = 0.2033 ó 20.33%. De manera similar se calculan las demás frecuencias relativas como se muestra en la tabla 3. La proporción es un resumen estadístico que nos permite hacer comparaciones sin hacer referencia al total de observaciones. Así, sabemos que la proporción de adultos que no poseen teléfono celular es del 13.00 %. Si no hacemos uso de la proporción tendríamos que decir que 293 de un total de 2253 adultos no usan teléfono. A partir de la distribución de frecuencias podemos construir fácilmente el gráfico de barras, que no es más que una representación gráfica de esta tabla, que nos permite 1 Una consecuencia inevitable del uso de gráficos es la «pérdida» de precisión en la información. Note como en el análisis se habla de cantidades aproximadas (cerca de la mitad, porcentaje cercano al 20%, cerca del 40%, un poco más del 10%). Esto en realidad no es una

Figura 5

Análisis: El gráfico muestra que cerca de la mitad (46%) de los adultos estadounidenses prefieren Smartphones. De éstos, los basados en sistemas Android y los iPhone son los preferidos, con un porcentaje cercano al 20% cada uno, seguidos por los Blackberry con menos del 10%. Cerca del 40% prefiere usar celulares no inteligentes. Finalmente, un poco más del 10% no poseen celulares 1 .

limitante de los métodos gráficos, ya que el objetivo de su uso es hacernos un panorama general (the big picture) del comportamiento de los datos y para eso no interesan las cantidades exactas sino las tendencias. Por supuesto, es una buena práctica siempre citar la fuente


Nota: todo análisis de este tipo de variables debe de incluir: tendencias (el reparto casi igual de los Android y iphone), anomalías (el alto porcentaje de personas que usan celulares no inteligentes) y toda información que ayude al usuario de la información dibujar un panorama completo del comportamiento de los datos (the big picture).

Es importante mencionar que no existe un análisis único para una serie de datos. El objetivo de este apartado es desarrollar en el estudiante la capacidad de describir el panorama general que él visualiza en los datos, que por supuesto varía de individuo en individuo y ahí radica su carácter no único. En este sentido, otra posible interpretación de la figura 5 es la siguiente: Del gráfico podemos concluir que la mayoría de adultos prefieren teléfonos celulares no inteligentes. De los que prefieren teléfonos inteligentes no parece haber una diferencia significativa entre los que prefieren dispositivos Android o iPhone pero es evidente que la proporción de los que prefieren Blackberry es menor que estas dos. Un pequeño grupo de adultos (cercano al 10 %) no poseen teléfono celular.

para cada una de las categorías. También resulta muy común construir ambos gráficos en forma horizontal.

Figura 6. Diagrama de Barras Comparativo para el Ejemplo 3.

Gráfico de Barras Comparativo Los gráficos de barras también pueden ser usados para comparar visualmente dos o más grupos. Esto se logra construyendo dos o más gráficos de barras usando el mismo par de ejes horizontal y vertical. Ejemplo 3: El artículo «The Need to Be Plugged In» (Associated Press, December 22, 2005) describe una encuesta donde participaron 1006 adultos. La tabla 5 resume las respuestas sobre qué tan esenciales se consideran algunas tecnologías. Para poder comparar las variables se construye un gráfico de barras comparativo. En este tipo de gráfico usaremos siempre las frecuencias relativas en lugar de las frecuencias absolutas para construir la escala del eje vertical ya que esto nos permitirá hacer comparaciones que tengan sentido, aunque los tamaños de los grupos de estudio sean diferentes. Respuesta PC No podría vivir sin 0.46 Podría vivir sin 0.28 Definitivamente podría vivir sin 0.26 Tabla 5: Datos para el ejemplo 3

Celular 0.41 0.25 0.34

DVD 0.19 0.35 0.46

Una alternativa para representar las variables se muestra en la figura 6, donde las tecnologías se muestran como las categorías y en el eje vertical se colocan las proporciones de cada una de las respuestas de la encuesta. En la figura 7 se muestra un gráfico de uso muy común en los artículos científicos conocido como diagrama de barras apilado, en el cual las barras se apilan una sobre otra

o proporcionar la tabla de frecuencias en caso de que algún lector desee más detalle en la información. Por lo general, gastar esfuerzo en calcular las cantidades exactas a partir de un gráfico es una tarea que se volverá tediosa y de poco aporte para el EDA.

Figura 7: Diagrama de Barras Apilado para el Ejemplo 3

Análisis: El gráfico sugiere que resulta más difícil prescindir de las computadoras personales y los teléfonos celulares que de los DVD. Distribuciones de Frecuencias y Gráficos para Variables Cuantitativas. En el caso de variables cuantitativas, usaremos las distribuciones de frecuencias e histogramas para estudiar su comportamiento. En el ejemplo 4 se muestra el procedimiento para construir una distribución de frecuencias y el histograma. Ejemplo 4: En la tabla 6 se muestran las notas de 50 alumnos de Probabilidad y Estadística correspondientes a la primera evaluación. Construya una distribución de frecuencias para la nota de los estudiantes. (Las notas se han multiplicado por 10 por facilidad).


en la columna de frecuencias absolutas. En la tabla 7 se muestran los resultados obtenidos y el cĂĄlculo de las frecuencias relativas. Las marcas de clase son el punto medio de cada una de las clases. Por ejemplo, la marca de 51+59 clase para la primera clase es = 55. Estas marcas 2 de clase suelen emplearse como valores representativos de su respectiva clase. Por ejemplo, podemos decir que un valor representativo de los 20 datos comprendidos en la cuarta clase es 82. Tabla 6: Datos para el ejemplo 4

SoluciĂłn: para construir la distribuciĂłn de frecuencias seguiremos los siguientes pasos: 1. Encuentre el mayor y el menor de los valores en la serie de datos. Para nuestro ejemplo estos valores son 99 y 51 respectivamente. 2. Calcule el Rango de los valores restando el menor valor del mayor. đ?‘… = đ?‘šđ?‘Žđ?‘Ľ − đ?‘šđ?‘–đ?‘› = 99 − 51 = 48. 3. Calcule el nĂşmero de clases que usarĂĄ. La cantidad 2đ?‘˜ = đ?‘› se usa a menudo para estimar el nĂşmero de clases conociendo el total de datos disponibles. En nuestro caso 2đ?‘˜ = 50. Con đ?‘˜ = 5 obtenemos 32 y con đ?‘˜ = 6 obtenemos 64. Seleccionamos este Ăşltimo valor por estar mĂĄs cerca de 50. Entonces usaremos 6 clases. Se recomienda usar entre 5 y 20 clases. 4. Determine el ancho de clases por medio de la ecuaciĂłn đ?‘? = đ?‘…â „đ?‘˜ = 48â „6 = 8. En este paso, si el resultado no es un nĂşmero entero redondee al siguiente entero. Adicionalmente, para asegurarnos de que las clases incluyan a todos los datos este resultado lo aproximaremos siempre al entero siguiente, por lo que el ancho de clase que usaremos serĂĄ de 9. 5. Construya el primer intervalo sumando al valor menor (51) el ancho de clase (9). Entonces, nuestro primer intervalo irĂĄ desde 51 hasta 60. El siguiente de 60 hasta 69 y asĂ­ sucesivamente hasta el Ăşltimo intervalo que va desde 96 hasta 105.

Sin embargo, debemos acomodar estas clases de la siguiente manera: restamos 1 del lĂ­mite superior de la primera clase: 60-1=59. Entonces, la primera clase es 5159, la segunda 60-68 y asĂ­ sucesivamente.

6. Finalmente, contamos cuantos de los datos corresponden a cada una de los intervalos y anotamos el resultado

đ?‘“đ?‘&#x;(%) M arca de Clase 4 55 10 64 22 73 40 82 20 91 4 100 100 Tabla 7 DistribuciĂłn de Frecuencias para el ejemplo 4

Límites de Clase 51 – 59 60 – 68 69 – 77 78 – 86 87 – 95 96 – 104 Totales

đ?‘“ 2 5 11 20 10 2 50

ÂżQuĂŠ informaciĂłn nos proporciona una distribuciĂłn de frecuencias? Organizar los datos de esta manera nos permite hacernos una idea general e inmediata del comportamiento de las notas de los alumnos. Por ejemplo, la nota mĂĄs frecuente estĂĄ entre 7.8 y 8.6 y un valor representativo de esta nota es 8.2 que es la marca de clase. Hay dos estudiantes con notas sobresalientes entre 9.6 y 10.0, casi el doble de la nota que obtuvieron los dos alumnos con menor nota, pero solo representan un 4 % de los estudiantes. Si consideramos que 6.0 es la nota requerida para aprobar el examen, podemos decir que la mayorĂ­a de estudiantes (48) aprobaron el examen, lo cual representa un 96 % de aprobados. (Recuerde que al inicio hemos multiplicado por 10 los datos, por lo que hay que tener en cuenta eso a la hora de obtener conclusiones). RepresentaciĂłn GrĂĄfica de una DistribuciĂłn de Frecuencias. Para representar grĂĄficamente una distribuciĂłn de frecuencias usaremos el histograma de frecuencias, un grĂĄfico muy parecido al grĂĄfico de barras que construimos en la secciĂłn anterior. La diferencia mĂĄs importante es que en el histograma, ambos ejes poseen escala ya que vamos a representar variables cuantitativas. Iniciamos introduciendo el concepto de limites reales de clase (los cuales nos permitirĂĄn. Estos se obtienen restando 0.5 a los lĂ­mites inferiores de clase y sumando 0.5 a los superiores. Luego marcamos en el eje đ?‘Ľ los lĂ­mites reales de clases y levantamos barras con altura proporcionales a las frecuencias absolutas o relativas. En este caso como se trata de analizar las notas de los alumnos usaremos las frecuencias absolutas. El histograma se muestra en la figura 8.


resulta evidente porque hay mayor cantidad de barras a la derecha de 6.0) En resumen, del histograma podemos obtener la misma informaciĂłn que de una distribuciĂłn de frecuencias, pero ÂŤde otra maneraÂť. Esta otra manera de hacerlo, por lo general, implica la perdida de precisiĂłn; es decir, un menor detalle de la informaciĂłn, lo cual, como se ha explicado antes, no es una limitante, sino mĂĄs bien un componente bĂĄsico del pensamiento estadĂ­stico: el saber describir a grandes rasgos y de manera rĂĄpida el escenario al que nos transporta una serie de datos (the big picture). CaracterĂ­sticas de una DistribuciĂłn de Datos

Figura 8

ÂżQuĂŠ informaciĂłn nos proporciona el histograma? Podemos obtener las mismas conclusiones que ya hemos mencionado anteriormente a partir de la distribuciĂłn de frecuencias, pero ÂŤde otra maneraÂť. Retomemos las ideas principales y explicaremos como obtenerlas a partir del grĂĄfico: 1. La nota mĂĄs frecuente estĂĄ entre 7.8 y 8.6 y un valor representativo de esta nota es 8.2. En el histograma, esto se refleja en la barra con mayor altura. No olvide usar los lĂ­mites de clase en lugar de los reales (sino dirĂ­amos que la nota mĂĄs frecuente estĂĄ entre 7.75 y 8.65, lo cual serĂ­a incorrecto ya que las notas no estĂĄn reportadas hasta la centĂŠsima) 2. Hay dos estudiantes con notas sobresalientes entre 9.6 y 10.0, casi el doble de la nota que obtuvieron los dos alumnos con menor nota, pero solo representan un 4 % de los estudiantes. En el histograma esto se ve en la Ăşltima barra a la derecha. A menudo, como en este caso, la lectura en el eje đ?‘Ś resulta un poco difĂ­cil a simple vista, por lo que establecer esta relaciĂłn de ÂŤcasi el dobleÂť resulta un tanto difĂ­cil. Sin embargo, esto no representa una limitaciĂłn del grĂĄfico, ya que, como hemos mencionado antes, una informaciĂłn tan detallada por lo general no es necesaria, bastarĂĄ con decir que hay ÂŤmuy pocos estudiantesÂť con notas sobresalientes. Si usamos las frecuencias relativas estas comparaciones resultan mĂĄs fĂĄciles. En los subsiguiente se recomienda el uso de las frecuencias relativas para facilitar el anĂĄlisis. 3. Si consideramos que 6.0 es la nota requerida para aprobar el examen, podemos decir que la mayorĂ­a de estudiantes (48) aprobaron el examen, lo cual representa un 96 % de aprobados. En el histograma a lo mejor no logramos tanta precisiĂłn, asĂ­ que esta informaciĂłn podrĂ­a quedar como: Si consideramos que 6.0 es la nota requerida para aprobar el examen, podemos decir que la mayorĂ­a de estudiantes aprobaron el examen (lo cual

Hay un aspecto muy importante que revela el histograma: la forma o perfil de la distribuciĂłn de los datos, lo cual nos proporciona un elemento mĂĄs de anĂĄlisis para una serie de datos. En las secciones siguientes veremos que la forma de la distribuciĂłn determina el mĂŠtodo estadĂ­stico apropiado que debe usarse para analizar los datos. Al describir la forma de la distribuciĂłn resulta conveniente aproximar el histograma por una curva suavizada, tal como en la figura 9.

Figura 9: Histograma Suavizado

Una distribuciĂłn puede tener muchas formas, pero para los propĂłsitos de este curso nos bastarĂĄn algunas de ellas y nos centraremos principalmente en las siguientes caracterĂ­sticas: 1. El nĂşmero de picos o modas: Una distribuciĂłn de datos puede ser unimodal, si tiene un pico (a), bimodal, si tiene dos picos (b) y multimodal si tiene mĂĄs de dos picos (c). Para el desarrollo de este curso nos centraremos exclusivamente en distribuciones unimodales

Figura 10

2. La simetrĂ­a: Un histograma es simĂŠtrico si existe una lĂ­nea vertical tal que la porciĂłn del histograma a la izquierda de esta lĂ­nea es similar a la porciĂłn que estĂĄ a la derecha (a). Si esta lĂ­nea no existe, entonces el histograma tendrĂĄ un sesgo a la derecha (b) o a la izquierda (c)


Uso de Histogramas para Comparar dos Series de Datos. Si desea comparar dos series de datos, tenga en mente las siguientes dos recomendaciones: • Figura 11: Simetría de una Distribución de Datos.

3. La variabilidad: ÂżSe agrupan los datos alrededor de su valor representativo o se dispersan a lo largo del eje đ?‘Ľ? estas preguntas tienen que ver con la variabilidad de los datos en una distribuciĂłn, que en el histograma se ve en el ÂŤanchoÂť que este tiene. En (a) se muestran dos distribuciones que tienen el mismo valor central o tĂ­pico, pero tienen diferente variabilidad (la distribuciĂłn mĂĄs ÂŤaltaÂť tiene una menor variabilidad). En (b) se muestran dos distribuciones con diferente variabilidad, y con diferente valor central.

Figura 12: Variabilidad en una DistribuciĂłn de Datos.

Con respecto al ejemplo 4, ÂżQue nuevas caracterĂ­sticas posee la distribuciĂłn de notas? Al observar el histograma (figura 13), notamos que es unimodal (por lo general este serĂĄ el caso mĂĄs comĂşn, de manera que puede omitirse del anĂĄlisis y solo hacer referencia a esta caracterĂ­stica si el histograma es bimodal o multimodal), ademĂĄs posee un sesgo a la izquierda, lo cual indica que la mayorĂ­a de puntuaciones fueron altas.

•

Use siempre las frecuencias relativas para construir el histograma, ya que los grupos que compara podrĂĄn ser de tamaĂąos diferentes. Use las mismas escalas en ambos ejes para hacer que las comparaciones se vuelvan mĂĄs fĂĄciles.

Ejemplo 5: El artĂ­culo ÂŤEarly Television Exposure and Subsequent Attention Problems in ChildrenÂť investiga los hĂĄbitos televisivos de los niĂąos de EU. Los datos fueron obtenidos en un estudio a nivel nacional. En la tabla 8 se muestran las frecuencias relativas aproximadas para el nĂşmero de horas frente a la TV por dĂ­a para niĂąos de uno y tres aĂąos. Construya un histograma para cada variable y compare sus caracterĂ­sticas mĂĄs importantes. Horas frente a la TV por dĂ­a Un aĂąo 0a2 0.270 2a4 0.390 4a6 0.190 6a8 0.085 8 a 10 0.030 10 a 12 0.020 12 a 14 0.010 14 a 16 0.005 Tabla 8 Datos para el Ejemplo 5

Tres aĂąos 0.630 0.195 0.100 0.025 0.020 0.015 0.010 0.005

SoluciĂłn: Intentar comparar ambas variables a partir de la tabla resulta un tanto complicado, pero si construimos histogramas para ambas variables aparecen las caracterĂ­sticas que buscamos. En la figura 14 se muestran ambos histogramas. Observe la importancia de usar la misma escala en el sistema de ejes coordenados, lo cual nos permite hacer comparaciones que tengan sentido. AnĂĄlisis: En ambos grupos de edades el tiempo frente a la TV es pequeĂąo. Para el grupo de un aĂąo, un valor representativo estĂĄ entre 2 y 4 horas, y entre 0 y 2 horas para el grupo de tres aĂąos. Ambos histogramas presentan un sesgo a la derecha, lo cual nos indica que existe un pequeĂąo grupo de niĂąos que ven mucha TV (entre 14 y 16 horas)

Resumen: las ideas principales de esta secciĂłn son:

Figura 13.

1. En el caso de analizar variables cualitativas usaremos grĂĄficos de barras para representarlas en forma grĂĄfica. En este tipo de grĂĄfico el orden en que se listen las categorĂ­as es irrelevante. AprenderĂĄ a construir este tipo de grĂĄficos en la PrĂĄctica 1. 2. En el caso de analizar variables cuantitativas usaremos histogramas de frecuencias relativas para representarlas en forma grĂĄfica. Las caracterĂ­sticas que buscamos resaltar son: el valor representativo (el centro) de la distribuciĂłn de datos y su simetrĂ­a o asimetrĂ­a.


Figura 15: Histograma Comparativo.

Midiendo el Centro y la DispersiĂłn de una DistribuciĂłn de Datos. Las tĂŠcnicas aprendidas en las secciones anteriores nos permiten realizar un anĂĄlisis visual de los datos, lo cual resulta ser una excelente tĂŠcnica para obtener impresiones preliminares. Un anĂĄlisis mĂĄs formal requiere del cĂĄlculo de nĂşmeros que nos resuman algunas de las caracterĂ­sticas mĂĄs importantes de la distribuciĂłn de datos. Nos centraremos en dos de estas caracterĂ­sticas: el centro y la variabilidad. El centro responde a la pregunta ÂżdĂłnde estĂĄ centrada la distribuciĂłn de datos a lo largo de una escala o eje de valores? Por su parte, la variabilidad describe cĂłmo es la dispersiĂłn de los datos, es decir si son muy similares entre sĂ­ o difieren significativamente entre sĂ­. Esto nos lleva a las siguientes dos definiciones: DefiniciĂłn: Una medida de tendencia central describe dĂłnde se ubica la distribuciĂłn de datos a lo largo de una escala numĂŠrica. AdemĂĄs, nos proporciona informaciĂłn sobre quĂŠ es ÂŤtĂ­picoÂť. DefiniciĂłn: Una medida de dispersiĂłn describe quĂŠ tanta variabilidad existe en una distribuciĂłn de datos. AdemĂĄs, nos proporciona informaciĂłn sobre quĂŠ tanto los valores individuales tienden a diferir unos de otros. Caso de una DistribuciĂłn Aproximadamente SimĂŠtrica. Cuando una distribuciĂłn es aproximadamente simĂŠtrica, la mejor manera de describir el centro es con la media y la mejor manera de medir la dispersiĂłn es con la desviaciĂłn estĂĄndar. La media aritmĂŠtica. MatemĂĄticamente, la media aritmĂŠtica o simplemente media o promedio, es la suma de todos los valores dividida por el nĂşmero total de observaciones.

En el cĂĄlculo de la media se utiliza la siguiente notaciĂłn: Sean: đ?‘Ľ: la variable de interĂŠs. đ?‘›: nĂşmero de observaciones. đ?‘Ľ1 : la primera observaciĂłn del conjunto de datos. đ?‘Ľ 2: la segunda observaciĂłn del conjunto de datos. â‹Ž đ?‘Ľ đ?‘–: la i-ĂŠsima observaciĂłn del conjunto de datos â‹Ž đ?‘Ľ đ?‘›: la n-ĂŠsima observaciĂłn del conjunto de datos. Entonces la media se calcula de la siguiente manera: đ?‘Ľ1 + đ?‘Ľ 2 + â‹Ż + đ?‘Ľđ?‘› ∑đ?‘›đ?‘–=1 đ?‘Ľ đ?‘– đ?‘ĽĚ… = = đ?‘› đ?‘› Midiendo el Centro de una DistribuciĂłn de Datos Aproximadamente SimĂŠtrica. Ejemplo 6: El diĂĄmetro, en milĂ­metros, de 50 piezas usadas para el ensamblaje de un sistema de enfriamiento se muestra en la tabla 9. 450.97 432.70 454.81 442.95 449.22 445.41 440.49 448.29 458.10 451.07

437.70 429.83 450.83 434.90 466.95 451.04 465.09 437.54 429.22 473.82

433.75 444.96 446.96 449.03 470.04 456.21 435.13 454.77 444.55 448.90 449.28 448.74 445.04 461.53 433.59 463.35 459.67 461.06 458.59 442.54 Tabla 9. Datos para el ejemplo 6.

448.24 419.53 472.13 448.28 445.76 436.22 438.96 469.28 446.88 455.69

Calcule e interprete la medida de tendencia central mĂĄs adecuada para los diĂĄmetros de las 50 piezas.


SoluciĂłn: Si aplicamos las tĂŠcnicas del EDA descritas hasta el momento, necesitamos construir el histograma para la serie de datos. Esto nos da una representaciĂłn visual a cerca de la distribuciĂłn de los diĂĄmetros que nos permitirĂĄ decidir esta distribuciĂłn es simĂŠtrica o no. El histograma se muestra en la figura 16.

Midiendo la Variabilidad de una DistribuciĂłn de Datos. Al reportar la medida del centro de una distribuciĂłn de datos solamente se da una informaciĂłn parcial a cerca del conjunto de datos. TambiĂŠn es importante describir cuĂĄnto difieren las observaciones unas de otras. Por ejemplo, considere las tres series de datos siguientes: A: 50,70,80,60,90,100 B: 75,75,50,75,100,75 C: 75,70,75,80,75,75 Cada serie de datos tiene una media de 75, es decir que el centro de las tres distribuciones es el mismo, como se muestra en la figura 18. No habrĂ­a diferencia alguna entre las tres distribuciones si las describimos sĂłlo midiendo su centro. NociĂłn intuitiva de dispersiĂłn.

Figura 16: DistribuciĂłn de los diĂĄmetros para el ejemplo 6

Como la distribuciĂłn de los diĂĄmetros resulta ser aproximadamente simĂŠtrica, la media es una opciĂłn razonable para describir el centro de la distribuciĂłn. Entonces el diĂĄmetro promedio es: đ?‘ĽĚ… =

450.97+â‹Ż+455.69 50

=

22439.59 50

= 448.79 milĂ­metros.

InterpretaciĂłn: El valor calculado describe dĂłnde se centra el valor del diĂĄmetro de las piezas a lo largo del eje đ?‘Ľ, y lo podemos interpretar como un diĂĄmetro tĂ­pico o representativo del conjunto de datos, de tal manera que para describir este conjunto de datos ya no hace falta hacer referencia a cada uno de ellos, bastarĂĄ con reportar a un ÂŤrepresentanteÂť de todos ellos: la media.

La dispersiĂłn es una caracterĂ­stica de un conjunto de datos numĂŠricos, y en general podemos decir que mide la variabilidad respecto a una medida de posiciĂłn central y que es un indicador de quĂŠ tan separados estĂĄn los datos entre sĂ­. En la figura 18 se muestra el diagrama de puntos para las tres series de datos. Este diagrama es una excelente herramienta que nos permite visualizar en forma grĂĄfica la variabilidad y cĂłmo esta se relaciona con la dispersiĂłn de las observaciones (que tan cerca o alejadas estĂĄn entre sĂ­). A medida que nos desplazamos hacia abajo en la grĂĄfica, la variabilidad de las distribuciones aumenta. En la serie C, los datos estĂĄn mĂĄs cercanos entre sĂ­, por lo que la variabilidad es menor. En la serie B, dos de los datos se han desplazado hacia los extremos, aumentando la distancia entre los datos y por tanto la variabilidad. En la serie A, todos los datos se han reacomodado de modo que la distancia entre ellos ha aumentado, causando la mayor variabilidad de las tres distribuciones.

Para comprender cĂłmo la media mide el centro de la distribuciĂłn de datos, imagine que podemos recortar el histograma y luego buscamos un punto sobre el eje đ?‘Ľ donde se equilibre (el centro de gravedad) este punto resultarĂĄ ser la media (figura 17).

Figura 18

Figura 17: InterpretaciĂłn fĂ­sica de la media

La pregunta que surge es ÂżCĂłmo podemos cuantificar esta variabilidad? La medida de variabilidad mĂĄs simple es el rango, que se define como la diferencia entre el mayor valor y el menor valor:


đ?‘… = đ?‘šđ?‘Žđ?‘Ľ − đ?‘šđ?‘–đ?‘›.

đ?‘ đ??ľ2 =

Si bien esta medida es fĂĄcil de calcular, no resulta ser una buena medida de la variabilidad. Por ejemplo, la serie A y B tienen el mismo rango đ?‘… = 100 − 50 = 50, pero la serie A tiene mĂĄs variabilidad que la serie B. Por esta razĂłn, se prefiere medidas de variabilidad que incluyan a todas las observaciones (y no sĂłlo los dos valores extremos). Por esta razĂłn el rango es de poco uso. Desviaciones con respecto a la media. La medida de variabilidad mĂĄs usada se basa en medir cuĂĄnto se desvĂ­a cada observaciĂłn con respecto a la media. đ?‘Ľ đ?‘– − đ?‘ĽĚ… Una desviaciĂłn a partir de la media es positiva, si la correspondiente observaciĂłn es mayor que la media. Y negativa, si la observaciĂłn es menor que la media. En general, cuando una serie de datos tiene una gran variabilidad, las observaciones tienden a desviarse mucho de la media. Esto se reflejarĂĄ en el cĂĄlculo de la desviaciĂłn con respecto a la media y es por esta razĂłn que las desviaciones con respecto a la media se pueden combinar para obtener una medida global de la variabilidad. Varianza y DesviaciĂłn EstĂĄndar. Cuando la distribuciĂłn de datos es aproximadamente simĂŠtrica, las dos medidas de dispersiĂłn mĂĄs usadas son la varianza y la desviaciĂłn estĂĄndar. Ambas medidas de variabilidad se basan en las desviaciones con respecto a la media. La varianza de una serie de datos, denotada por đ?‘ 2, es la suma de las desviaciones cuadradas con respecto a la media divididas por đ?‘› − 1. đ?‘ 2 =

( 0)2 + ( 0)2+ (−25) 2+ (0)2+ ( 25)2 + (0)2 5

=

1250 5

= 250

Serie C: đ?‘ đ??ś2 = đ?‘ đ??ś2 =

( 75−75)2+ (70−75)2 + (75−75) 2 + (80−75)2 + (75−75) 2 + (75−75) 2 6−1 ( 0)2+ ( −5)2+ ( 0) 2+ ( 5)2+ (0) 2 + ( 0)2 5

=

50 5

= 10

Estos resultados nos confirman lo que ya antes habĂ­amos intuido visualmente sobre la variabilidad de cada una de las series, pero ahora de manera cuantitativa. Las unidades de la varianza resultan difĂ­ciles de interpretar intuitivamente debido a que generan unidades cuadradas. Por ejemplo, si los datos representan cantidades de dinero (en dĂłlares) decimos que la varianza de la serie C es de 10 đ?‘‘Ăłđ?‘™đ?‘Žđ?‘&#x;đ?‘’đ?‘ 2 ÂżCĂłmo interpretamos estas unidades de manera que resulten intuitivas? Una soluciĂłn es utilizar la desviaciĂłn estĂĄndar en lugar de la varianza, ya que la raĂ­z cuadrada nos regresa a las unidades originales. AsĂ­, podemos decir que la serie A tiene una desviaciĂłn estĂĄndar de 18.71 dĂłlares, la B de 15.81 dĂłlares y la C de 3.16 dĂłlares. La desviaciĂłn estĂĄndar puede ser interpretada informalmente como ÂŤel tamaĂąo de una desviaciĂłn tĂ­pica o representativaÂť con respecto a la media. Para la serie A, una desviaciĂłn representativa con respecto a la media es de aproximadamente 18.71 dĂłlares. Algunas desviaciones estĂĄn mĂĄs cercanas a la media que esta cantidad, y otras mĂĄs lejanas, pero ÂŤen promedioÂť, se desvĂ­an 18.71 dĂłlares. Media y DesviaciĂłn EstĂĄndar Juntas. Ahora podemos describir de una manera mĂĄs completa una distribuciĂłn de datos. En general podemos utilizar el siguiente esquema:

∑đ?‘›đ?‘–=1(đ?‘Ľđ?‘– − đ?‘ĽĚ…) 2 đ?‘› −1

La desviaciĂłn estĂĄndar de una serie de datos, denotada por đ?‘ , es la raĂ­z cuadrada positiva de la varianza ∑đ?‘› (đ?‘Ľ đ?‘– − đ?‘ĽĚ…) 2 đ?‘  = √đ?‘  2 = √ đ?‘–=1 đ?‘› −1

• ¿La distribución de datos es aproximadamente simÊtrica?

Calcule • Si: use la media y desviación eståndar. • No: use la mediana y el IQR

Explore

• Haga una interpretación de los valores obtenidos en su contexto.

Interprete

Ahora estamos en capacidad de cuantificar la variabilidad de las tres series de datos: Serie A: đ?‘ đ??´2 = đ?‘ đ??´2

=

(50−75)2+ (70−75)2+ ( 80−75)2 + (60−75)2 + (90−75)2 + (100−75) 2 6−1 (−25)2 + (−5)2+ ( 5)2+ (−15)2+ (15)2 + (25) 2 5

=

1750 5

= 350

Serie B: đ?‘ đ??ľ2 =

(75−75)2 + (75−75) 2+ ( 50−75) 2+ (75−75) 2+ (100−75)2 + (75−7 5)2 6 −1

Figura 19

Ejemplo 7: Describiendo una distribuciĂłn aproximadamente simĂŠtrica. Un laboratorio de pruebas desea comparar dos marcas de pintura para exteriores para determinar el tiempo antes de que se decoloren. Debido a que las marcas tienen agentes quĂ­micos diferentes y caros, se probaron Ăşnicamente 6


galones de cada una de las marcas. los resultados (en meses) son los siguientes: M arca A M arca B 10 35 60 45 50 30 30 35 40 40 20 25 Tabla 10. Datos para el ejemplo 7

Marca B: đ?‘ĽĚ… đ??ľ = đ?‘ đ??ľ2 =

∑ đ?‘Ľđ?‘– đ?‘›

=

210

∑ ( đ?‘Ľâˆ’đ?‘ĽĚ…) 2 đ?‘›âˆ’1

6

=

= 35.0 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘  250 5

= 50 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘  2

đ?‘ đ??ľ = √đ?‘ đ??ľ2 = √50 = 7.1 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘ 

Interprete

¿Cuål de las pinturas es mejor y por quÊ? Solución: Si seguimos los tres pasos sugeridos en la figura 19 tenemos: • Verifique si la distribución de datos es aproximadamente simÊtrica. Si tiene 30 o mås datos construya un histograma. Si tiene menos de 30 datos construya un diagrama de puntos.

Explore

La distribuciĂłn de los datos resulta ser aproximadamente simĂŠtrica, como lo muestran la figura 20.

En promedio, el tiempo de duraciĂłn de ambas pinturas para exteriores parece no tener diferencia. Sin embargo, la desviaciĂłn estĂĄndar para la marca B es menor, indicando una menor variabilidad que la marca A, por lo que concluimos que la marca B es mejor que la A.

Midiendo el Centro de una DistribuciĂłn de Datos Sesgada. Cuando la distribuciĂłn de los datos es simĂŠtrica, la media no es una buena alternativa para describir el centro. Una mejor alternativa es una medida llamada la mediana. La Mediana Una vez que los datos han sido ordenados de menor a mayor, la mediana, simbolizada por đ?‘ĽĚƒ, es el valor que estĂĄ en el centro de la lista, dividiĂŠndola en dos partes iguales. Cuando el nĂşmero de datos es impar, la mediana serĂĄ el dato que se ubica en el centro. Pero si el nĂşmero de datos es par la mediana es el promedio de los dos datos centrales. Por ejemplo, considere las siguientes puntuaciones: 8, 10, 11, 13, 16

Figura 20 • Utilice alguna herramienta tecnológica que le permita realizar los cålculos con facilidad. Sin embargo, es importante que pueda realizar los cålculos a mano.

Calcule

Ma rca A

(x − x )

( x − x )2

ma rca B

10

-25.0

625

35

0.0

0.0

60

25.0

625

45

10.0

100.0

50

15.0

225

30

-5.0

25.0

30

-5.0

25

35

0.0

0.0

Totales

đ?‘ đ??´2 =

∑ đ?‘Ľđ?‘– đ?‘›

( x − x )2

40

5.0

25

40

5.0

25.0

20

-15.0

225

25

-10.0

100.0

210

0.0

1750

210

0.0

250.0

Marca A: đ?‘ĽĚ…đ??´ =

(x − x )

=

210

∑ (đ?‘Ľâˆ’đ?‘ĽĚ…)2 đ?‘›âˆ’1

6

=

Como el nĂşmero de datos es impar, la mediana es el dato que se ubica en el centro de la lista. Por tanto đ?‘ĽĚƒ = 11 (Note como antes de 11 hay dos datos y despuĂŠs de 11 tambiĂŠn hay dos datos). Si ahora consideramos la siguiente serie: 8, 10, 11, 13, 16,17 Notamos que no hay un dato en el centro sino dos. En 11+13 este caso đ?‘ĽĚƒ = = 12. De nuevo, hay tres datos antes de 2 la mediana y 3 despuĂŠs de ella. En una distribuciĂłn de datos, la mediana divide la curva en dos ĂĄreas iguales tal como lo muestra la figura 21

= 35.0 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘  1750 5

= 350 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘  2

đ?‘ đ??´ = √đ?‘ đ??´2 = √350 = 18.7 đ?‘šđ?‘’đ?‘ đ?‘’đ?‘ 

50% de Ă rea

50% de Ă rea đ?‘ĽĚƒ Figura 21


La mediana es una medida apropiada de la tendencia central si la escala de mediciĂłn de la variable es al menos ordinal. No tendrĂ­a sentido, por ejemplo, decir que el ÂŤcafĂŠ latteÂť es la bebida preferida mediana. La mediana tiene una propiedad muy importante que la hace particularmente atractiva como medida de tendencia central para cierto tipo de distribuciones. Como es el valor que estĂĄ en el centro de la distribuciĂłn, la mediana depende del nĂşmero de valores por debajo y encima de ella, y no quĂŠ tan separados estĂŠn los datos entre sĂ­. Para ilustrar esta propiedad consideremos la serie 8,10,11,13,16 pero cambiemos el Ăşltimo dato por 160:

A pesar del cambio, la mediana sigue siendo 11, ya que la mediana es insensible al cambio en los valores extremos, una ventaja cuando se desea medir el centro de una distribuciĂłn que tiene un sesgo evidente. Ejemplo 8: Describiendo una distribuciĂłn sesgada. Cuarenta estudiantes de un curso de Probabilidad y EstadĂ­stica fueron monitoreados para conocer quĂŠ tan a menudo consultan el material puesto en el aula virtual. Los resultados (el nĂşmero de veces que cada alumno accede al material) fueron los siguientes: 22 0 12 4 3

5 8 20 13 23

42 36 36 0 7 0 14 14 8 19 4 5 84 12 18 Tabla 12. Datos para el ejemplo 8.

La mediana de la serie de datos resulta ser đ?‘ĽĚƒ = 13 veces. Interprete La mediana de 13 nos indica que la mitad de los estudiantes visitaron el aula virtual menos de 13 veces y la mitad de los estudiantes la visitaron mĂĄs de 13 veces. Notas: 1.

8,10,11,13,160

20 0 4 13 37

Calcule

13 331 8 16 19

0 21 0 26 7

2.

Generalmente, la mitad de los valores son menores que la mediana y la mitad son mayores. Nuestro ejemplo no es el caso, debido a que el 13 ocurre 3 veces. Aun asĂ­, es comĂşn interpretar la mediana como el valor que divide el conjunto de datos a la mitad. En este ejemplo, la media đ?‘ĽĚ… = 23.10 no resulta ser una medida representativa de la serie de datos, ya que sĂłlo 7 datos son mayores que 23.10. Esto se debe a la presencia de los datos 84 y 331 que impactan grandemente en la media. Como podemos intuir al ver el histograma de los datos, 13 es un valor mĂĄs tĂ­pico del conjunto de datos que 23.10.

Midiendo la Variabilidad de una DistribuciĂłn Sesgada La variabilidad de una distribuciĂłn sesgada la mediremos con una cantidad conocida como el recorrido intercuartĂ­lico (IQR), simbolizado por đ?‘„ que tiene la ventaja de que, igual que la mediana, es insensible a cambios en los valores extremos. Para su cĂĄlculo necesitamos definir los cuartiles. Los cuartiles dividen la distribuciĂłn de datos en cuatro partes de mĂĄs o menos el mismo tamaĂąo, tal como lo muestra la figura 23. Cada parte se conoce como cuartil

Explore La distribuciĂłn de datos es sesgada a la derecha, como se ve en la figura 22.

đ?‘„1

đ?‘„2

đ?‘„3

Figura 23

La primera de estas partes, đ?‘„1 , separa el 25% mĂĄs pequeĂąo de los datos del 75% mĂĄs grande. đ?‘„2 separa el 50% mĂĄs pequeĂąos de los datos del 50% mĂĄs grande. Por definiciĂłn đ?‘„2 = đ?‘ĽĚƒ. đ?‘„3 separa el 25% mĂĄs grande de los datos del 75% mĂĄs pequeĂąo. Sus valores se calculan dividiendo los đ?‘› datos en una mitad inferior y una mitad superior. Los cuartiles inferior y superior son las medianas de estos dos grupos respectivamente. Los cĂĄlculos se muestran a continuaciĂłn: Figura 22


Mitad Inferior: 0

0

0

0

0

0

3

4

4

Q1 =

4

5

5

7

7

8

8

8

12

12

13

4+5 = 4.5 2

Mitad Superior: 13 13 14 14 16 18 19 19 20 20 21 22 23 26 36 26 37 42 84 331

Q3 =

que datos pueden ser considerados como tĂ­picos y cuĂĄles como atĂ­picos. El resumen de Cinco Puntos y Diagramas de Caja. La herramienta mĂĄs usada en el EDA para buscar el modelo y el residual es el boxplot o diagrama de caja. Para su construcciĂłn se necesita del resumen de cinco puntos: 1. 2. 3. 4. 5.

20 + 21 = 20.5 2

El recorrido intercuartĂ­lico se calcula como: đ?‘„ = đ??źđ?‘„đ?‘… = đ?‘„3 − đ?‘„1 Para la serie de daos del ejemplo 8 el IQR tiene un valor de đ?‘„ = 20.5 − 4.5 = 16.0 y mide la variabilidad de los datos viendo cĂłmo ĂŠstos se dispersan en la mitad central de los datos. Si el valor calculado es pequeĂąo, los valores al centro de la distribuciĂłn estĂĄn muy cercanos entre sĂ­, indicando una variabilidad pequeĂąa. Un valor grande indicarĂĄ una dispersiĂłn mayor. EnfocĂĄndose en la mitad central de los datos y no en todos, el recorrido intercuartĂ­lico no se ve influenciado por los valores extremos. Mediana y Recorrido IntercuartĂ­lico Juntos. Podemos resumir la distribuciĂłn del ejemplo 8 de la siguiente manera: La mediana para el nĂşmero de veces que los alumnos acceden al material es 13. Esto significa que la mitad de los estudiantes visitĂł el aula virtual menos de 13 veces y la mitad de los estudiantes visitaron el aula virtual 13 o mĂĄs veces. 25% de los estudiantes visitaron el aula virtual 4.5 veces o menos y 25% de ellos visitĂł el aula virtual 20.5 veces o mĂĄs. Un IQR de 16.0 nos indica que el 50 % central de accesos de estudiantes al aula, se dispersa en un intervalo de 16 puntos porcentuales.

La menor de las observaciones (min) El primer cuartil (đ?‘„1 ) El segundo cuartil (đ?‘„2 ) El tercer cuartil (đ?‘„3 ) La mayor de las observaciones (max)

La construcciĂłn del diagrama es relativamente simple, por ejemplo, considere la serie 89, 47, 164, 296, 30, 215, 138, 78, 48, 39. El resumen de cinco puntos es: đ?‘šđ?‘–đ?‘› 30 30

39

đ?‘„1 47 47

48

đ?‘„2 83.5 78

89

đ?‘„1 = 47 đ?‘„2 =

đ?‘„3 164 138

164

đ?‘šđ?‘Žđ?‘Ľ 296 215

296

đ?‘„3 = 164 78 + 89 = 83.5 2

Con esta informaciĂłn y un eje adecuado construimos un diagrama como el de la figura 24:

La filosofĂ­a del AnĂĄlisis Exploratorio de Datos. Las tĂŠcnicas que hemos descrito hasta este momento nos proporcionan los conocimientos bĂĄsicos que nos permitirĂĄn utilizar la filosofĂ­a del EDA: explorar los datos para encontrar patrones inherentes y detectar desviaciones con respecto a estos patrones, con el objetivo de encontrar hechos generalizables. En este sentido, se investigan dos componentes en los datos: el patrĂłn general (modelo) o tendencia y el residual. Esto puede ser escrito de la siguiente manera: đ??ˇđ?‘Žđ?‘Ąđ?‘œđ?‘ = đ?‘€đ?‘œđ?‘‘đ?‘’đ?‘™đ?‘œ + đ?‘…đ?‘’đ?‘ đ?‘–đ?‘‘đ?‘˘đ?‘Žđ?‘™ SegĂşn la expresiĂłn anterior, el enfoque exploratorio puede ser caracterizado como una bĂşsqueda interactiva de un modelo (o varios modelos) y una explicaciĂłn del residual a partir del contexto. En el ejemplo 8, este modelo es la mediana, que marca el punto que divide 50:50 el ĂĄrea o podrĂ­a ser el IQR que representa el patrĂłn del 50% central de los datos. Los cuartiles đ?‘„1 y đ?‘„3 son el residual, nos explican

Figura 24

InterpretaciĂłn del diagrama: el diagrama nos muestra que la distribuciĂłn de datos es sesgada a la derecha. Un valor representativo es 83.5 y es notorio que existe mucha variabilidad entre los datos. Con respecto al modelo y residual, el diagrama de caja tiene la versatilidad de resumir tres diferentes modelos: a) La mediana, que marca el punto que divide 50:50 de los datos; b) el IQR, representado por el ancho de la caja, que nos muestra el patrĂłn del 50% central; y c) la caja junto con los bigotes, que nos muestran lo que puede ser considerado como tĂ­picos y cuĂĄles como atĂ­picos. Con respecto a los residuales, el diagrama tambiĂŠn puede mostrarnos esos valores considerados atĂ­picos en la serie de datos. Por ejemplo, para los datos del ejemplo 8 la brecha en el histograma (el espacio central ÂŤen blancoÂť) sugiere la presencia de valores


muy alejados del grueso de los datos. En ese caso construimos el diagrama de caja de la siguiente manera: 1) Calculamos el resumen de cinco puntos: đ?‘šđ?‘–đ?‘› 0

đ?‘„1 4.5

đ?‘„2 13

đ?‘„3 20.5

đ?‘šđ?‘Žđ?‘Ľ 331

Diagramas de Caja para Comparar Series de Datos. Cuando se trata de comparar dos o mĂĄs series de datos, los diagramas de caja resultan de mucha ayuda. En la figura 26 se muestran los diagramas de caja para las dos series de datos del ejemplo 7

2) Verificamos si existen valores atĂ­picos. Estos se definen como aquellos que se desvĂ­an mĂĄs de 1.5đ?&#x2018;&#x201E; a partir del cuartil uno o del cuartil tres. < đ?&#x2018;&#x201E;1 â&#x2C6;&#x2019; 1.5đ?&#x2018;&#x201E; đ?&#x2018;&#x2C6;đ?&#x2018;&#x203A; đ?&#x2018;Łđ?&#x2018;&#x17D;đ?&#x2018;&#x2122;đ?&#x2018;&#x153;đ?&#x2018;&#x; đ?&#x2018;&#x2019;đ?&#x2018; đ?&#x2018;&#x17D;đ?&#x2018;ĄĂ­đ?&#x2018;?đ?&#x2018;&#x2013;đ?&#x2018;?đ?&#x2018;&#x153; đ?&#x2018; đ?&#x2018;&#x2013; đ?&#x2018;&#x2019;đ?&#x2018; : { > đ?&#x2018;&#x201E;3 + 1.5đ?&#x2018;&#x201E; Entonces: đ?&#x2018;&#x201E; = đ?&#x2018;&#x201E;3 â&#x2C6;&#x2019; đ?&#x2018;&#x201E;1 = 20.5 â&#x2C6;&#x2019; 4.5 = 16.0 đ?&#x2018;&#x201E;1 â&#x2C6;&#x2019; 1.5đ?&#x2018;&#x201E; = 4.5 â&#x2C6;&#x2019; 1.5(16.0) = â&#x2C6;&#x2019;19.5 đ?&#x2018;&#x201E;3 + 1.5đ?&#x2018;&#x201E; = 20.5 + 1.5(16) = 44.5 Vemos que no hay valores menores que -19.5 por lo que no hay atĂ­picos en este extremo; pero sĂ­ existen valores mayores que 44.5 (84 y 331). Si excluimos estos dos valores de la serie, entonces el nuevo mĂĄximo serĂ­a 42, es decir que el resumen de cinco puntos, despuĂŠs de este cambio, seria: min=0 đ?&#x2018;&#x201E;1 = 4.5 đ?&#x2018;&#x201E;2 = 13 đ?&#x2018;&#x201E;3 = 20.5 đ?&#x2018;&#x161;đ?&#x2018;&#x17D;đ?&#x2018;Ľ = 42

Figura 26

De la figura resulta evidente que, aunque ambas distribuciones tienen el mismo valor central y son simĂŠtricas, la variabilidad entre ellas es muy diferente. El menor espacio que ocupa el boxplot para la marca B es evidencia de su menor variabilidad y por lo tanto de su mejor calidad. IV. DESCRIBIENDO RELACIONES.

3) Construimos el diagrama con este nuevo mĂĄximo y los valores atĂ­picos se marcan como puntos en el diagrama, tal como en la figura 25.

En los estudios estadĂ­sticos es esencial investigar la relaciĂłn entre variables. Cuando entendemos la relaciĂłn entre dos variables, podemos usar el valor de una de ellas y predecir el valor de la otra. Caso de Variables Cualitativas. Ya hemos aprendido cĂłmo analizar la distribuciĂłn de una sola variable categĂłrica por medio de un grĂĄfico de barras. ÂżQuĂŠ sucede cuando nuestro conjunto de datos incluye dos de estas variables? ÂżQuĂŠ anĂĄlisis podemos realizar? ÂżquĂŠ relaciĂłn existe entre las dos variables? En el ejemplo 9 se muestra cĂłmo analizar el conjunto de variables. Ejemplo 9: Una encuesta realizada a 4826 personas con edades comprendidas entre los 19 y 25 aĂąos preguntaba: ÂŤÂżCuĂĄl cree que son sus oportunidades de terminar una carrera universitaria y encontrar trabajo antes de los 28 aĂąos?Âť. Los resultados obtenidos se muestran en la tabla 13

Figura 25

Al anĂĄlisis hecho anteriormente para esta serie de datos hay que agregar que existen dos valores atĂ­picos (84 y 331) lo que indica que hay dos estudiantes que accedieron al material muchas mĂĄs veces que el resto. (esto sugiere dar un seguimiento a estos dos estudiantes para determinar si esta cantidad de accesos afecta positivamente sus notas).

Un primer paso consiste en analizar las variables de forma separada. La columna de Total a la derecha de la tabla contiene los totales para cada una de las filas. Estos totales por fila dan la distribuciĂłn de las opiniones en el grupo completo de 4826 encuestados: 194 piensan que no tienen ninguna oportunidad, 712 piensan que tienen alguna oportunidad, y asĂ­ sucesivamente. La distribuciĂłn de las variables OpiniĂłn y GĂŠnero consideradas de manera separada se


Opinión Ninguna oportunidad Alguna oportunidad, pero probablemente no 50-50 de oportunidad Una buena oportunidad Casi seguro Total

Mujeres 96 426 696 663 486 2367

Género Hombres 98 286 720 758 597 2459

Total 194 712 1416 1421 1083 4826

Tabla 13 Datos para el Ejemplo 9

conocen como distribuciones marginales ya que aparecen al margen derecho y al final de la tabla respectivamente.

expresaron sentir una «Buena Oportunidad» o estar «Casi seguro» de lograr ambas metas antes de los 28 años.

Escribir las distribuciones marginales en porcentajes resulta más ilustrativo que hacerlo con las frecuencias, especialmente cuando comparamos grupos de diferente tamaño. Por ejemplo, el porcentaje de encuestados que cree que no tiene ninguna oportunidad de terminar la carrera universitaria y encontrar trabajo antes de los 28 años es

Relación Entre dos Variables Categóricas: Distribuciones Condicionales.

𝑇𝑜𝑡𝑎𝑙 𝑁𝑖𝑛𝑔𝑢𝑛𝑎 𝑂𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 194 = = 4.0% 𝑇𝑜𝑡𝑎𝑙 4826 Si repetimos el mismo procedimiento para el resto de filas obtenemos la distribución marginal para la variable Opinión la cual podemos representar en el gráfico de barras de la figura 27. Opinión Porcentaje Ninguna oportunidad 4.02% Alguna oportunidad, pero probablemente no 14.75% 50-50 de oportunidad 29.34% Una buena oportunidad 29.44% Casi seguro 22.44% Tabla 14 Distribución M arginal para la Variable Opinión.

Las tablas de doble entrada contienen mucha más información que las dos distribuciones marginales consideradas por separado. Las distribuciones marginales no nos dicen nada acerca de la relación entre dos variables. Para describir la relación entre dos variables categóricas podemos proceder de la siguiente manera: Podemos estudiar la opinión de las mujeres por separado tomando la columna «mujeres» en la tabla 13. El porcentaje de mujeres que expresaron no tener ninguna oportunidad es: 𝑀𝑢𝑗𝑒𝑟𝑒𝑠 sin 𝑛𝑖𝑛𝑔𝑢𝑛𝑎 𝑜𝑝𝑜𝑟𝑡𝑢𝑛𝑖𝑑𝑎𝑑 96 = = 4.06% 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 2367 Repitiendo este cálculo para las cinco opiniones obtenemos la distribución condicional de la variable Opinión para el grupo de mujeres. Opinión Porcentaje Ninguna oportunidad 4.06% Alguna oportunidad, pero probablemente no 18.00% 50-50 de oportunidad 29.40% Una buena oportunidad 28.01% Casi seguro 20.53% Tabla 15 Distribución Condicional para la variable Opinión (mujeres)

Usamos el término «condicional» porque la distribución describe a los participantes en el estudio que satisfacen la condición de ser mujer. En general, la distribución condicional de una variable describe los valores de la variable entre individuos que tienen un valor específico en otra variable. También podemos calcular, la distribución condicional de la variable Opinión para el grupo de hombres (tabla 16).

Figura 27

Análisis: El gráfico de barras muestra la distribución de opiniones de los encuestados. Muchos encuestados son optimistas sobre sus oportunidades de graduarse y obtener un trabajo. Más del 50% de los que respondieron a la encuesta

Opinión Porcentaje Ninguna oportunidad 3.99% Alguna oportunidad, pero probablemente no 11.63% 50-50 de oportunidad 29.28% Una buena oportunidad 30.83% Casi seguro 24.28% Tabla 16 Distribución Condicional para la variable Opinión (hombres)

En una tabla de doble entrada (como la tabla 13) hay dos conjuntos de distribuciones condicionales: una para las


variables presentadas en columnas y otra para las variables representadas en filas. Hasta el momento hemos analizado la distribución condicional de la variable Opinión para ambos géneros. También podemos examinar las cinco distribuciones condicionales de género, una para cada una de las cinco opiniones analizando por separado las filas en la tabla de doble entrada. Por ejemplo, la distribución condicional para la variable género para aquellos que manifestaron tener una buena oportunidad es Para mujeres:

663 1421

Para hombres:

758 1421

= 46.66%

(contra un 28.0% de las mujeres) creen tener una «Buena Oportunidad» o están «Casi Seguros» (24.3% contra 20.5%) de terminar una carrera universitaria y encontrar trabajo antes de los 28 años. El gráfico sugiere una asociación entre el Género y Opinión. El Conocer que un participante es hombre nos ayuda a predecir su opinión: es más probable que un hombre responda que tiene una «Buena Oportunidad» o que es «Casi Seguro» que se graduará y encontrará un trabajo antes de los 28 años que una mujer.

= 53.34%

Esto significa que, de los encuestados que manifestaron tener una buena oportunidad de graduarse y encontrar un trabajo, el 46.66% eran mujeres y el 53.34% eran hombres. ¿Cuáles Distribuciones Condicionales Debería Comparar? Nuestro objetivo hasta el momento ha sido analizar las relaciones entre Género y Opinión con relación a las expectativas de terminar una carrera universitaria. Iniciamos examinando las distribuciones condicionales de la variable Opinión, tanto para mujeres como para hombres. Posteriormente, aunque no se calcularon, se explica que también pueden construirse las distribuciones condicionales de Género para cada una de las cinco opiniones. ¿Cuál de estas dos alternativas nos da la información que buscamos? Piense si el cambio en una de las variables puede ayudar a explicar cambios en la otra. Por ejemplo, podría interesarnos averiguar si el género influye en la opinión de los encuestados. Para visualizar si los datos apoyan esta idea debemos comparar las distribuciones condicionales de la variable Opinión para mujeres y hombres. Nuestro problema entonces podría formularse como: basados en los datos de la encuesta, ¿podemos establecer si las opiniones de las mujeres difieren de las de los hombres acerca de terminar una carrera universitaria antes de los 28 años?

Figura 28

Un gráfico de barras como el de la figura 28 puede ser usado para comparar ambas distribuciones condicionales. Basados en los datos de la muestra podemos concluir que los hombres parecen un poco más optimistas sobre su futuro académico y laboral que las mujeres, ya que un 30.8%

Profile for Oscar Diaz

Análisis Exploratorio de Datos (EDA)  

Advertisement