Page 1

Contenido:  Introducción I.1 Términos y simbología utilizada en pruebas de hipótesis I.2 Verificación de los supuestos para pruebas paramétricas 1. Pruebas T de Diferencia entre Medias 1.1 Prueba T para Muestras Independientes: Comparación de Promedios. 1.2 Prueba T para Muestras Relacionadas (o Pareadas). 2. Análisis de Varianza de un Factor 3. Coeficiente de Correlación de Pearson 3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r). 3.2 El Diagrama de Dispersión. 3.3 Interpretación del Coeficiente de Correlación (r).  Fuentes Consultadas  Lecturas Recomendadas  Ejercicios de Autoevaluación Objetivo: Conocer las principales medidas de asociación entre variables. Introducción. En la ficha anterior hicimos referencia a un aspecto de especial importancia en los estudios o investigaciones que tienen como objetivo someter a prueba una hipótesis o supuesto a cerca de las variables indagadas. No obstante que a partir de la experiencia del investigador así como de la observación de los datos

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez


obtenidos podría advertirse el cumplimiento o no de un supuesto, desde el punto de vista estadístico (y científico) es necesario realizar una prueba con base en la cual sea posible establecer que el resultado obtenido con base una muestra no es una casualidad, sino que es realmente significativo. De esa manera, para determinar la significancia de los valores obtenidos en una investigación debe identificarse la prueba más adecuada de acuerdo con el tipo de variables. A nivel general, las pruebas estadísticas podemos clasificarlas en paramétricas y no paramétricas. Las primeras son aplicables principalmente para comprobar hipótesis referentes a variables cuantitativas que cumplen determinados requisitos o supuestos, y las pruebas no paramétricas pueden ser utilizadas en pruebas donde intervienen variables cualitativas así como en los casos en que no se cumplen los requisitos para realizar una prueba paramétrica. La mayoría de programas estadísticos incluyen opciones para realizar distintos tipos de pruebas de manera automática. Por ello, lo más importante es poder seleccionar una prueba que sea adecuada de acuerdo con los objetivos la investigación y que sea aplicable a los datos disponibles. Dado que este es un tema muy amplio, lo que pretendemos es brindarle a los/as participantes del curso una breve exposición de las pruebas utilizadas con mayor frecuencia, con el propósito que cuenten con criterios para plantear posibles aplicaciones de las mismas en futuros estudios o proyectos de investigación. A continuación vamos a revisar algunos términos relacionados con pruebas de hipótesis que servirán como base para el desarrollo de estos últimos temas. I.1 Términos y Simbología Utilizada en Pruebas de Hipótesis. Antes de iniciar con la descripción de las principales pruebas paramétricas, es pertinente conocer los términos básicos y la simbología utilizada en las pruebas estadísticas. Prueba de Hipótesis: Es un procedimiento que se sigue para decidir a cerca de la aceptación o rechazo de una hipótesis o supuesto. Hipótesis Nula (Ho): Es la hipótesis que sometemos a prueba, para tomar la decisión de mantenerla o rechazarla. Generalmente, la hipótesis nula establece una relación de igualdad entre los parámetros o estimadores a contrastar, o propone que el resultado obtenido no va a ser suficientemente alto o bajo (según sea el caso) para poder rechazarla. Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 2


Hipótesis Alternativa (H1): La hipótesis alternativa expresa la decisión a la que se llegará si rechazamos la hipótesis nula. Significancia: A las pruebas de hipótesis también se les conoce como pruebas de significancia. Para un/a investigador/ra usualmente es importante que la prueba sea significativa, es decir, que se rechaza Ho porque hay una diferencia “significativa” entre el resultado esperado en la muestra y el resultado obtenido. En general, el concepto de significancia está asociado con el rechazo de la hipótesis nula. Nivel de Significancia (α): Cuando trabajamos con muestras siempre existe alguna posibilidad de error. Por ello también al contrastar o someter a prueba una hipótesis no hay una certeza del 100% con relación al resultado obtenido. Para denominar el nivel de significancia se utiliza la letra alfa (α) y los valores más comúnmente aceptados para α son 1% y 5%. Este valor indica la probabilidad de rechazar la hipótesis nula Ho cuando en realidad es verdadera, lo cual se conoce como error tipo 1: α = Probabilidad de rechazar Ho siendo cierta = P (Rechazar Ho/Ho cierta) En el caso que una prueba no resulte significativa, no implica necesariamente que Ho sea verdadera. Lo que sucede es que la evidencia obtenida es insuficiente para rechazarla y por ello debemos mantenerla como cierta. Regla de Decisión: Una vez definida Ho y el nivel de significancia aceptable para la prueba de hipótesis, podemos establecer la regla de decisión a partir de la cual vamos a rechazar o mantener Ho. En la definición de esta regla también interviene el estadístico o tipo de prueba que vamos a utilizar y su respectiva distribución de probabilidades. Entre las distribuciones utilizadas con mayor frecuencia están: la normal, la “t de student”, la chi-cuadrado X2 y la distribución F; entre otras. Para aplicar la regla de decisión existen diferentes opciones según los medios disponibles para realizar los cálculos. Si no contamos con un programa o software estadístico, podemos obtener (manualmente o con calculadora) el valor calculado con base en los datos de la muestra y luego compararlo con el valor tabular que

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 3


se obtiene de la distribución de probabilidades para la respectiva prueba. Según lo que establezca la regla de decisión, rechazaremos Ho si el valor calculado es menor o mayor al valor tabular. Si realizamos la prueba de hipótesis utilizando algún programa estadístico, lo usual es que nos proporcione la probabilidad (p) asociada al valor obtenido con base en la muestra. En este caso comparamos dicha probabilidad con el nivel de significancia (α) establecido para la prueba: si la probabilidad es menor o igual a alfa (p ≤ α) podemos rechazar Ho, y en caso contrario (p ≥ α) se mantiene Ho. Por lo tanto, para interpretar correctamente el resultado que se obtiene al realizar una prueba por medio un software estadístico es indispensable saber cuál es el procedimiento que sigue dicho programa; ya sea a través de las herramientas de ayuda donde se indican algunos detalles y en otros casos, como el InfoStat, puede revisarse el manual incluido dentro del mismo programa. I.2 Verificación de los Supuestos para las Pruebas Paramétricas. Un aspecto importante a tomar en cuenta cuando elegimos entre diferentes pruebas, es lo que se conoce como la potencia o eficiencia de la prueba. Este concepto está relacionado con el grado de certeza con que la prueba nos va a conducir hacia un resultado verídico y, en general, las pruebas paramétricas son más potentes que las no paramétricas, Por lo tanto, cuando un/a investigador/a tiene la opción de elegir entre una prueba paramétrica y otra no paramétrica, la recomendación es decidirse por la primera opción. No obstante, antes de aplicarla debe revisar que los datos cumplan los supuestos o requisitos correspondientes, entre los cuales comúnmente están los siguientes:  Escala de Medición: Que la variable dependiente sea cuantitativa (escala de intervalo o de razón)  Normalidad: Que los valores de la variable dependiente sigan una distribución normal o aproximadamente normal (Prueba aplicable: Kolmogorov Smirnov)  Igualdad de Variancias (Homocedasticidad): Que las varianzas de la variable dependiente en los grupos que se comparan sean aproximadamente iguales (Prueba aplicable: Test de Levene)

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 4


*Nota: En los supuestos anteriores podemos entender por variable dependiente aquella cuyo comportamiento nos interesa analizar en relación con otras variables. El cumplimiento de los requisitos para aplicar pruebas paramétricas no es absolutamente rígido. Por ejemplo, en algunos casos podría darse que la variable dependiente sea categórica (ordinal) pero con una cantidad relativamente grande de categorías, y en dicho caso sería posible considerarla como una variable cuantitativa. Por otra parte, según el comportamiento que muestren los datos, se cuenta con la opción de realizar transformaciones a los mismos para que su distribución sea similar a la normal. En esos casos puede trabajarse con alguna transformación de los datos originales, tal como la raíz cuadrado, el logaritmo u otra. En otros casos es posible que alguno de los supuestos no se cumpla debido a una alta variabilidad en los datos. Para solventar esa situación, el/la investigador/ra debe analizar la pertinencia de excluir los casos que presentan valores extremos, o bien podría agrupar los casos en grupos que sean internamente más homogéneos o similares. Si definitivamente no es posible cumplir con los supuestos para aplicar una prueba paramétrica debe optarse por una prueba no paramétrica que sea equivalente y permita contrastar la hipótesis del estudio. 1. Pruebas T para Comparación entre Medias. En el tema anterior indicamos que la distribución “T de Student” puede utilizarse como alternativa a la distribución normal, para los casos en que se trabaja con muestras y no conocemos el valor de la variancia poblacional. Una aplicación de la misma, utilizada con alta frecuencia, corresponde a las pruebas para verificar diferencias entre promedios; tanto para muestras independientes así como para muestras relacionadas. 1.1 Prueba T para Muestras Independientes: Comparación de Promedios. Por medio de la prueba T para muestras independientes se pueden comparar las medias o promedios muestrales de dos grupos de casos. Lo ideal es que la asignación de los sujetos o unidades a los grupos haya sido realizada de forma aleatoria, de manera que ningún otro factor influya en los resultados obtenidos, sino solamente el factor (o tratamiento) que requerimos someter a prueba. Supuestos:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 5


  

Para la prueba t con igualdad de variancias, las observaciones deben ser muestras aleatorias independientes de distribuciones normales con la misma variancia de población. En caso de variancias desiguales, las observaciones deben ser muestras aleatorias independientes de distribuciones normales. Al examinar las distribuciones gráficamente, debe comprobarse que son simétricas y que no contienen valores atípicos.

Al realizar esta prueba pueden presentarse las siguientes condiciones: a. Comparación cuando las variancias poblacionales son conocidas: Si tenemos dos poblaciones con medias µ1 y µ2 y con variancias σ1 y σ2, y necesitamos comprobar si sus medias son iguales o no, la hipótesis nula sería: Ho: µ1 = µ2

(lo cual implica que µ1 - µ2 = 0)

Y, la hipótesis alternativa en este caso es: H1: µ1 = µ2 Para someter a prueba la hipótesis nula, tomaríamos una muestra n1 del primer grupo o población y una muestra n2 del segundo grupo, y con base en los datos obtenidos calculamos sus respectivos promedios muestrales. Si las muestras son grandes, o si sabemos que las poblaciones de donde fueron tomadas son normales, entonces los promedios y la diferencia entre ellos también se distribuyen normalmente con la siguiente media y variancia: µd = µ 1 - µ2 σ2d = σ12/n1 + σ22/n2 Con base en lo anterior, podemos realizar la prueba utilizando el estadístico Z c que luego comparamos con el valor correspondiente de la distribución normal, para el nivel de significancia establecido.

zc =

d - µd σd

=

X 1 - X2 2

2

√ σ1 /n1 + σ2 /n2

b. Comparación cuando las variancias poblacionales no son conocidas y las muestras son pequeñas:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 6


Cuando las muestras son pequeñas pero las poblaciones de donde fueron extraídas se distribuyen normalmente, y a pesar que las variancias son desconocidas podemos suponer que son iguales, la prueba de igualdad de medias puede realizarse utilizando un estadístico que sigue la distribución “T de Student”.

tc =

X 1 - X2 √ S2w /n1 + S2w /n2

En primera instancia necesitamos calcular S2w que corresponde a la variancia combinada o variancia promedio de las dos muestras: S2w =

(n1-1)* S21 + (n2-1)*S22 n1 + n2 - 2

El denominador de esta última forma (n1+n2-2) representa el número de grados de libertad con que se distribuye el estadístico t c y con base en los cuales buscamos en la la distribubión T de Student el valor tabular correspondiente (t t) al nivel de significancia elegido para la prueba de hipótesis. Ejemplo 1: Supongamos que un investigador desee saber sí la tensión afecta al nivel de aprovechamiento académico en unas pruebas de solución de problemas. Para ello se registraron las puntuaciones obtenidas por dos grupos de 15 alumnos matriculados en un curso de cálculo. El grupo 1 tomó la prueba bajo ninguna tensión y el grupo 2 contestó la prueba bajo condiciones de tensión, obteniéndose los siguientes resultados: n1 = 15, n2 = 15

X1 = 14, X2 = 10 S2w = 0,714 La hipótesis nula en este caso es Ho: µ1 = µ2, la cual vamos a contrastar con la hipótesis alternativa H1: µ1 = µ2 . Calculamos el estadístico: tc = 14 – 10 / √0,714 = 4/0,85 = 4,71

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 7


Para verificar si la diferencia encontrada es suficiente para concluir que existe diferencia significativa entre las puntuaciones promedio de los dos grupos, debemos comparar el valor calculado con el valor de la distribución “t de student” para el respectivo nivel de significancia (en este caso α = 0,05) y los grados de libertad (15+15-2 = 28) que corresponden. En este ejemplo, como la diferencia entre los promedios podría ser tampoco negativa como positiva (prueba de dos colas), debemos dividir el nivel de significancia entre dos (α/2 = 0,005/2 = 0,0025) y luego buscar en la tabla de la distribución de probabilidades acumuladas “T de Student” la columna correspondiente a 1-α/2 = 0,975 y ubicar su intersección con la fila para 28 grados de libertad: g.l 27 28 29

0,995

0,99

0,975

2,76

2,47

2,05

Dado que el valor calculado (tc = 4,71) es mayor que el valor tabular (tt = 2,05), podemos rechazar la hipótesis nula y concluir que existe una diferencia significativa entre las puntuaciones promedio obtenidas por los estudiantes no expuestos a tensión con respecto a los estudiantes que si estaban bajo tensión. 1.2 Prueba T para Muestras Relacionadas (Pareadas). La prueba T para muestras relacionadas compara las medias de dos variables que fueron medidas para un solo grupo. El procedimiento calcula las diferencias (d) entre los valores de las dos variables de cada caso y contrasta si la media de dichas diferencias es distinta de cero. Para realizar la prueba debemos obtener la diferencia promedio entre cada pareja de valores y su respectiva desviación estándar: d = ∑ d/n S2d = 1/(n-1) [∑d2- (∑d)2/n]

y

Sd = √S2d

Con base en los valores anteriores se obtiene el estadístico:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 8


tc =

d Sd / √n

Supuestos:   

Las observaciones de cada par deben hacerse en las mismas condiciones Las diferencias entre las medias deben estar normalmente distribuidas Las varianzas de cada variable pueden ser iguales o desiguales.

Ejemplo2: Un grupo de 9 personas con problemas de obesidad siguieron una dieta baja en calorías durante 12 semanas para comprobar si hay una disminución significativa en el peso con dicho tratamiento. A continuación se presentan los datos:

Peso antes del trabamiento

Peso después del tratamiento

Diferencias d

d

117,3 114,4 98,6 104,3 105,4 100,4 81,7 89,5 78,2

83,3 85,9 75,8 82,9 82,3 77,7 62,7 69 63,9

34 28,5 22,8 21,4 23,1 22,7 19 20,5 14,3 206,3

1156 812,25 519,84 457,96 533,61 515,29 361 420,25 204,49 4980,7

2

Lo se requiere comprobar es que el peso promedio de las personas antes de haber seguido la dieta (µ1) sea significativamente mayor al peso después del tratamiento (µ2). Por tanto, las hipótesis pueden plantearse así: Ho: µ1 = µ2 H1: µ1 ˃ µ2 Para contrastar la hipótesis nula realizamos los cálculos: d = 206,3 / 9 = 22,9

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 9


S2d = 1/8 * [4980,7- (-206,3)2/9] = 31,5 Sd = √31,5 = 5,6 Tc = 22,9/ (5,6/√9) = 22,9/1,9 = 12,05 En este caso debemos buscar en la tabla de la distribución “T de Student” el valor correspondiente a n-1 = 8 grados de libertad y α = 0,005 (es decir para 1-α= 0,95) por tratarse de una prueba para una cola. El valor a comparar es 1,86 y dado que tc = 12,05 es evidentemente mayor, se rechaza la hipótesis nula y puede concluirse que la dieta fue eficaz para disminuir el peso de las personas. 2. Análisis de Variancia de Un Factor: Comparación para Más de Dos Medias. El Análisis de Variancia (Andeva) de un factor se utiliza para contrastar la hipótesis de que varias medias son iguales, por ello puede considerarse como una extensión de la prueba t para dos muestras independientes y es de gran utilidad en el análisis estadístico. Si además de determinar que existen diferencias entre las medias se requiere saber cuáles medias difieren entre sí, existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y los contrastes post hoc se realizan después de haber llevado a cabo el experimento. La mayoría de programas estadísticos incluyen opciones dentro del procedimiento de Análisis de Variancia para aplicar dichas pruebas. Supuestos:   

Cada grupo es una muestra aleatoria independiente procedente de una población normal. El análisis de varianza es robusto a las desviaciones de la normalidad, aunque los datos deberán ser simétricos. Los grupos deben proceder de poblaciones con varianzas iguales.

Dado que el análisis de variancia es un tema bastante amplio y requiere el estudio previo de algunos conceptos, no será desarrollado a fondo en este curso, pero es posible conseguir una gran cantidad de materiales sobre el mismo, tanto en libros de texto así como en Internet y otras fuentes. Ejemplo 3: Suponga que se realizó una investigación experimental para comparar el rendimiento académico de tres grupos de estudiantes en una tarea de solución

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 10


de problemas. Un grupo trabaja dentro de una condición alta de tensión, el segundo bajo condiciones moderadas y el tercero sin ninguna tensión. Los resultados son los siguientes:

Primero debe obtenerse la suma total de los cuadrados de las puntuaciones individuales. Se calcula aplicando la fórmula:

Luego, debemos calcular la suma total de los cuadrados que resulta de las desviaciones de las medias de los grupos con la media principal, que se conoce como la suma de los cuadrados entre los grupos y se calcula mediante la siguiente fórmula:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 11


Como tercer paso se procede a calcular la suma total de los cuadrados que se deba a las desviaciones de las puntuaciones de cada individuo con la media de su propio grupo. Este índice se conoce como la suma de los cuadrados dentro de los grupos y puede calcularse restando la suma de los cuadrados entre los grupos a la suma total de los cuadrados:

En el siguiente cuadro Andeva aparece el resumen de los resultados anteriores.

La columna “df” muestra los grados de libertad correspondientes a grupos (3-1 =2) y al total de observaciones (10-1 + 10-1 + 10-1= 27) y a la variancia total (30-1 = 29). En la columna identificada por “MS” observamos el cuadrado medio entre grupos y el cuadrado medio dentro de grupos, los cuales se obtienen al dividir la respectiva suma de cuadrados “SS” entre los correspondientes grados de libertad. Con base en los cálculos anteriores se obtiene la razón F = 8.14. Para verificar si el valor F es significativo, se procede a compararlo con el valor tabular correspondiente de la distribución F, en este caso para 2 y 27 grados de libertad. En la tabla encontraríamos que dicho valor es de 3.35 para un nivel de significancia del 1% (α = 0,001), y dado que el valor calculado F = 8.14 es mayor, podemos rechazar la hipótesis de igualdad de medias entre los tres grupos. 3. Coeficiente de Correlación de Pearson. Un coeficiente de correlación es una medida de la intensidad de asociación entre dos variables. Además, nos puede indicar la dirección o sentido en que se relacionan; ya sea de manera positiva o directa, o bien de forma negativa o inversa. En este tema vamos a estudiar un tipo de asociación específica, que corresponde a la correlación lineal simple. Se denomina simple porque es aplicable a las situaciones en que analizamos la asociación solamente entre dos variables, postulándose que dicha relación es lineal (puede representarse por medio de una línea recta), no obstante, es posible extender estos conceptos a situaciones en

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 12


que intervienen más de dos variables (correlación múltiple) así como a relaciones no lineales. 3.1 Cálculo del Coeficiente de Correlacion Lineal Simple (r). Para verificar si existe relación lineal entre dos variables (X, Y) se utiliza un parámetro que mida la fuerza de asociación lineal entre ambas variables. La medida de asociación lineal más frecuentemente utilizada entre dos variables cuantitativas es el coeficiente de correlación lineal de Pearson (R), el cual está basado en la covarianza de X, Y. Este coeficiente asume valores que pueden variar entre −1 y 1, los cuales pueden interpretarse según las siguientes pautas generales: • Si R = 1: existe una correlación positiva perfecta entre X, Y • Si R = -1: existe una correlación negativa perfecta entre X, Y • Si R = 0: no existe correlación lineal, pudiendo existir otro tipo de relación • Si −1 ≤ R ≤ 0: existe correlación negativa y dependencia inversa, mayor cuanto más se aproxime a - 1. • Si 0 ≤ R ≤ 1: existe correlación positiva, y dependencia directa, mayor cuanto más se aproxime a 1.  Nota: Es importante reiterar que un coeficiente R = 0 no implica necesariamente que las variables no están relacionadas. Este resultado solamente indica que no existe una relación lineal, siendo posible encontrar otro tipo de asociación entre las variables, por ejemplo: cuadrática, exponencial, logarítmica u otra. En la mayoría de los casos, el coeficiente de correlación es calculado con base en los datos obtenidos mediante una muestra y, por lo tanto, lo que hacemos es estimar el grado de asociación que existe entre dos variables determinadas. Para ello calculamos el coeficiente de correlación muestral (r):

r=

Sxy Sx * Sy

Donde: Sxy: es la covarianza de x,y Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 13


Sx: es la desviación estándar de x Sy: es la desviación estándar de y La covarianza de x,y (Sxy) mide la asociación lineal entre las dos variables, pudiendo ser negativa, positiva o cero, según el grado y tipo de relación que exista entre dichas variables. Para efectos de cálculo, es común utilizar la siguiente fórmula para obtener el valor del coeficiente: n*∑xy - ∑x ∑y

r =

[n*∑x2 - (∑x)2] [n*∑y2 - (∑y)2]

Para realizar el cálculo aplicando la fórmula anterior, se requiere obtener los siguientes valores: n: número de observaciones (tamaño de muestra) ∑x : sumatoria de los valores para la variable x ∑y: sumatorio de los valores para la variable y ∑xy: sumatoria de los productos (multiplicación) de los valores de x por y ∑x2: suma de los valores de x elevados al cuadrado ∑y2: suma de los valores de y elevados al cuadrado Hoy día es común obtener los valores de los coeficientes de correlación y otras mediciones afines por medio del uso de algún software estadístico o a través de otros medios electrónicos. Por tanto, lo más importante es conocer las condiciones en las cuales puede utilizarse cada medida de asociación y la forma en que pueden interpretarse los valores obtenidos. 3.2 El Diagrama de Dispersión. Una forma de explorar la existencia de asociación entre dos variables es por medio de la inspección visual del diagrama de dispersión. Este diagrama (gráfico) se obtiene al dibujar los puntos de intersección entre los valores de la variable “x” (en el eje horizontal) y correspondientes valores de “y” (eje vertical). La forma en que se distribuyen los puntos en el diagrama brindan “pistas” o indicios a cerca de una posible asociación lineal o de otro tipo entre variables. Asimismo, pueden indicar la ausencia de relación entre las mismas.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 14


Ejemplo 4: Observe los siguientes diagramas de dispersión:

En el diagrama de la izquierda podríamos trazar una línea recta inclinada y la mayoría de puntos quedarían cerca de la misma. La situación contraria se da en el diagrama de la derecha, ya que no sería posible trazar una línea cercana a la mayoría de puntos. Por tanto, solo es factible la existencia de correlación lineal entre los valores de “x” y “y” correspondientes al diagrama de la izquierda. 3.3 Interpretación del Coeficiente de Correlación (r). Al igual que el coeficiente de correlación poblacional (R), su estimador muestral (r) también asume valores entre -1 y 1: -1 ≤ r ≤ 1. Por tanto, para su interpretación debe tomarse en cuenta tanto su valor como su signo. El valor que asume “r” indica el grado o la intensidad de asociación entre las variables y su signo indica si dicha asociación es directa (cuando es un valor positivo) o si es una relación inversa (si es negativo). La asociación positiva indica que los valores bajos de la variable “x” están asociados a valores bajos de la variable “y”, de manera que conforme aumenta “x” también aumenta “y”. Lo contrario sucede cuando hay una relación negativa o inversa, en la cual los valores bajos de la variable “x” están asociados con valores altos de la variable “y”, es decir, a medida que aumenta “x” disminuye “y”, o viceversa. Los dos valores extremos indicarían una asociación perfecta entre las dos variables, ya sea positiva (+1) o negativa (-1). En este sentido, cuanto más cercano sea el valor de “r” a 1 o -1 mayor es el grado de asociación entre las variables. Por otra parte, entre más cercano sea el valor de “r” a cero, menor es la asociación lineal entre las variables.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 15


En relación con los valores intermedios que puede asumir “r” no hay reglas establecidas para determinar si un valor específico puede considerarse como una correlación alta o baja, lo cual depende de diferentes aspectos tal como el grado de asociación que es factible encontrar en el campo o área de conocimiento en que se realiza la investigación o estudio. De manera orientativa, podrían utilizarse como referencia las siguientes valoraciones para el valor “r” obtenido: Valor del coeficente "r" Mayor o igual que 0, 80 0,60 a 0,79 0,40 a 0,59 0,20 a 0,39 Menor que 0,20

Consideración Muy alta Alta Moderada Baja Muy baja

Sugerencia: Para comprobar si la correlación entre dos variables es significativa, se recomienda realizar la prueba correspondiente. En el libro de texto (págs. 517 a 520) se brindan ejemplos al respecto. Asimismo, los programas estadísticos cuentan con opciones para el cálculo estos coeficientes y sus respectivas pruebas. A partir del cálculo del coeficiente de correlación de Pearson podemos verificar la existencia de asociación lineal entre dos variables. Sin embargo, el hecho que dos variables estén correlacionadas no implica necesariamente que una sea causa de la otra, simplemente indica que existe alguna relación entre ambas. Para comprobar una posible relación causa-efecto tendría que realizarse un análisis de regresión. Ejemplo 5: Los siguientes datos corresponden al peso (en kg.) y los niveles de glucosa en la sangre (mg/100ml.) de 16 hombres adultos:

Peso (x) 64,0 75,3 73,0 82,1 76,2 95,7 59,4 93,4 82,1

Glucosa (y) 108 109 104 102 105 121 79 107 101

Curso Análisis Exploratorio de Datos

x*y 6912,0 8207,7 7592,0 8374,2 8001,0 11579,7 4692,6 9993,8 8292,1

x2 4096,0 5670,1 5329,0 6740,4 5806,4 9158,5 3528,4 8723,6 6740,4

y2 11664 11881 10816 10404 11025 14641 6241 11449 10201

Elaborado por: Licda. Ligia Bermúdez 16


78,9 76,7 82,1 83,9 73,0 64,4 77,6 1237,8

85 99 100 108 104 102 87 1621,0

6706,5 7593,3 8210,0 9061,2 7592,0 6568,8 6751,2 126128,1

6225,2 5882,9 6740,4 7039,2 5329,0 4147,4 6021,8 97178,6

7225 9801 10000 11664 10816 10404 7569 165801

Aplicamos la fórmula para obtener el coeficiente de correlación lineal simple (r): n*∑xy - ∑x ∑y

r =

[n*∑x2 - (∑x)2] [n*∑y2 - (∑y)2]

r = (16*126128,1) - 1237,8*1621 / √(16*97178,6 - 1237,82)*(16*165801 - 16212) r= 11575,8 / √22708,8*25175 = 11575,8 / √571693033 = 11575,8/23910 = 0,48

A partir del resultado anterior podemos concluir que hay una asociación lineal, que podríamos considerar moderada, entre el peso y el nivel de glucosa en este grupo de 16 hombres adultos. Dado que el coeficiente es positivo, dicha relación es directa, lo cual indica que los pesos altos están asociados con niveles de glucosa también mayores.

Fuentes Consultadas. -

Daniel, Wayne W. Bioestadística: Base para el Análisis de las Ciencias de la Salud. 4 edición. Editorial Limusa Wiley. México, 2008.

-

Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición. EUNED. Costa Rica, 2010.

-

Lininger, Charles A. y Warwick, Donald P. La Encuesta por Muestreo: Teoría y Práctica. Quinta edición. Compañía Editorial Continental S.A. de C.V. México, 1985.

Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva. -

Tema XIII. Prueba de Hipótesis: de la pág. 447 a 457 y de la pág. 469 a 475.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 17


-

Tema XIV. Correlación y Regresión, de la pág. 489 a 502.

Como lectura adicional se recomienda leer de la pág. 502 a la 520.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 18

Tema 9  

Pruebas básicas: variables cuantitativas

Advertisement