Análisis Estadístico. Un enfoque práctico con Statgraphics
valores más grandes, de manera análoga en el Q2=mediana hay un 50% de valores más pequeños y un 50% de valores más grandes y en Q3 un 75% y 25% respectivamente.
Seleccionando entre media, mediana y moda
Datos Categóricos
Si
Percentiles. Es un concepto semejante al de cuartil, de tal manera que Q1 = P25, Q2 = P50 = mediana y Q3 = P75. La ventaja de los percentiles es que pueden dividir a un conjunto de datos en 100 partes.
Moda
No
Interés en todos los Datos
Si
Rango intercuartilico. Expresa el intervalo de valores en el cual se encuentra el 50% de los datos, ya que es la distancia del cuartil 1 al cuartil 3, esto es:
Media
No
RIQ = Q3 – Q1 La distribución está sesgada
Si
Mediana
Varianza. Es un promedio de las distancias de cada observación con respecto a la media aritmética.
No n
Media
Varianza = s 2 =
Medidas de Dispersión
∑(y i =1
i
− y) 2
n −1
La varianza es una medida de la variabilidad o dispersión de los datos y no está en las mismas unidades que las observaciones, de ahí que sea difícil su interpretación. Este problema se resuelve trabajando con la raíz cuadrada de la varianza.
Al hablar de dispersión se debe considerar que la calidad de la información y la variación están inversamente relacionadas. De aquí la necesidad de medir la variación que existe en un conjunto de datos.
Desviación estándar = s =
Las medidas más comunes de variación son: el rango, varianza, desviación estándar y coeficiente de variación.
s2
Coeficiente de variación. Expresa la variación de un conjunto de datos en relación a su media.
Rango. Es el valor absoluto de la diferencia del valor máximo menos el valor mínimo. Sólo se basa en dos valores y no es una medida recomendable cuando hay valores extremos.
CV = 100
R = Valor máximo – Valor mínimo
s % y
El CV es independiente de las unidades de medición y en la estimación de un parámetro, cuando es menor al 10% el estimador se considera aceptable. Al inverso del CV, 1/CV, se le conoce como el cociente señal/ruido.
R = y n − y1 Cuando se trabaja con datos discretos es común definirlo como:
Para datos sesgados o agrupados, el coeficiente de variación cuartil es más útil que el CV.
R = y n − y1 +1.
Q − Q1 VQ = 3 100 % Q3 + Q1
Cuartiles. Cuando se tienen un conjunto de datos ordenados en forma ascendente, se pueden dividir en cuartos, Q1, Q2, Q3 y Q4. Para el valor del primer cuartil, Q1, hay un 25% de valores más pequeños y un 75% de
24