Pruebas de normalidad y muestreo

Page 1

PRUEBAS DE YNORMALIDADMUESTREO

PRUEBAS DE NORMALIDAD PARA VARIABLES CUANTITATIVAS

Tarea ¿Qué vamos a comparar? Variable cuantitativa dependiente Variable cuantitativa independiente Como hay que hacer 2 ejercicios vamos a coger 4Variablevariables Ejercicio 1 independienteCualitativadependienteCuantitativa PrácticasPeso deporte Ejercicio 2 N0 SexoCigarrillos

Peso será nuestra variable cuantitativa independiente

Ejercicio 1 Prácticas de deporte-peso

Prácticas deporte será nuestra variable cualitativa dependiente.

NO PARAMÉTRICAS:1.ParaN>50, utilizamos el test de Kolmogorov-Smirnov

P < 0,05 =RECHAZO hipótesis nula (se acepta la alternativa) – NO DISTRIBUCIÓN NORMAL

En estos test, (cualquiera de los dos), la H0 indica que los datos de la variable siguen una distribución H1,normal.indica que el conjunto de variables NO sigue una distribución normal.

¿CÓMO SABEMOS QUE UNA VARIABLE SE DISTRIBUYE NORMALMENTE?

P > 0,05 = ACEPTA hipótesis nula – DISTRIBUCIÓN NORMAL

Pruebas de normalidad prácticas de deporte-peso

Para variables continuas, dibujamos el histograma y si nos sale similar a la campana de Gauss o tienen cierta simetría, aún no sabemos con exactitud si son normales. Para ello se utilizan 2 pruebas

Las pruebas de normalidad se utilizan para saber si una variable se distribuye normalmente.

2. Para N<50, utilizamos el test de Shapiro-Wilks

¿Qué nos dice que tenemos que aceptar o rechazar la hipótesis nula? – El valor de p

¿Cómo hacer la prueba de normalidad en SPSS?

Pruebas de normalidad prácticas de deporte-peso

Pruebas de normalidad prácticas de Resultadosdeporte-peso

Nos fijamos en la prueba de Shapiro - Wilk, ya que N<50

Conclusiones

Pruebas de normalidad prácticas de deporte-peso

Podemos observar que en ambos casos, tanto para los que practican deporte como para los que no, p> 0,05 y, por tanto, se ACEPTA la hipótesis nula, es decir, que los datos de las variables siguen una distribución normal.

Peso Frecuencia 1086420 20 40 60 80 100Promedio:

Peso Frecuencia 1086420 40 60 80 100 Mediana:

Pruebas de normalidad prácticas de deporte-peso Gráficos obtenidos en las pruebas de normalidad

Histograma sobre: Practicar - Deporte - SI 47 kilos

Histograma sobre: Practicar - Deporte - NO 56 kilos

40

Pruebas de normalidad prácticas de deporte-peso

esperadoNormal

10

Valor observado

esperadoNormal

10

Gráfico Q-Q normal sin tendencia de peso para practicar deporte peso - Si normaldeDesviación 0,000,700,500,200,10 20 30 40 50 60 80

Valor observado

Gráfico Q-Q normal de peso para practicar deporte peso - No -2-10231-3 20 30 40

Valor observado

Los gráficos de puntos nos indican una distribución normal porque se alinean siguiendo un patrón

Gráfico Q-Q normal de peso para practicar deporte peso - Si -4-2420 60 80

100

50 60

MUESTREO

Contenido

La precisión de las estimaciones de muestras no aleatorias

Conducir a los intervalos de confianza como una declaración de la precisión de las estimaciones obtenidas de una muestra aleatoria

El enfoque estadístico para evaluar qué tan buenas son las conclusiones extraídas de una muestra.

Muestreo de una población.

Por lo general, incluya un número más pequeño (una muestra) en nuestro estudio Queremos generalizar los hallazgos de la muestra y sacar conclusiones que se apliquen más ampliamente.

Cuando hay una gran cantidad de sujetos, generalmente es imposible medir a todos.

Muestreo

¿Por qué tomar una muestra?

La situación más simple para describir el proceso es estimar la media de una variable continua esta situación cubierta ahora

Ocasionalmente se toma una muestra de toda la población, esto se llama CENSO

El grupo que deseamos estudiar se denomina POBLACIÓN y está formado por un gran número de Tomamossujetos una MUESTRA de un número mucho menor de sujetos

Se desconoce la media, μ Seleccionar individuos de la población para incluirlos en la muestra Tomar medidas en estadísticasCalcularmuestraMediaX=50demuestra Con qué precisión se estima la media de la población a partir de una muestra de este tamaño ¿ ?

Población

Muestra

La muestra es un número representativo de la población que nos permite hacer inferencias de manera segura.

Distribución de variable en muestra descrita por ESTIMACIONES – media - x.

En la población hay una gran cantidad de sujetos - N

Terminología μ

La variable que nos interesa tiene una distribución desconocida en la población descrita por PARÁMETROS - media – μ

MUESTRA

El grupo sobre el que deseamos hacer declaraciones (podrían ser todos los pacientes con la enfermedad que estamos estudiando)

Frecuencia 1086420 20 40 60 80 100

POBLACIÓN

DesviaciónMedia Estandar

μ σ

Siempre desconocidoserá“Verdadero"

Parámetros de población (Griego)

Estimaciones de muestra (Romano)x S, SD, STD (STandard medidasConocidoDeviation)unavezquesetomanlasenlamuestra

¿Cómo se tomó la muestra?

Abordado en las próximas diapositivas

La calidad de la media muestral (x) como estimación de la media poblacional (μ) se rige por:

¿Es representativo de la población?

Abordado al final de la sesión

Teoría estadística que dice qué tan precisa la estimación depende del tamaño de la muestra

Frecuencia 1086420 20 40 60 80 100 σ

Estimaciones de muestra x & SD Supongamos que se tomó una segunda muestra con x₂ & SD₂

Cada muestra repetida produciría valores diferentes para x y SD

La teoría estadística se basa en muestras repetidas hipotéticas

μ

Y una tercera x₃ & SD₃

SE μ Distribución de medias muestrales

Desviación estándar relacionada con la población σ, pero también dependiente del tamaño de la muestra, n

Esta desviación estándar tiene un nombre especial: el error estándar (SE)

La teoría estadística nos dice que la distribución de las medias muestrales es una NORMAL con:

Media igual a la media poblacional µ abordada más tarde

SE=

Cuando la variable en sí tiene una mayor dispersión (mayor σ y, por lo tanto, SD muestral), también tienen medias muestrales repetidas.

Las medias de muestras GRANDES son menos variables que las de muestras pequeñas SDn

Segundo nivel

Segundo nivel μ

La media de nuestra muestra probablemente (95%) caerá en este rango

Rango del 95 % para las medias de la muestra

Podemos concluir que un rango de +/- 1.96SEs centrado en x es probable que cubra la media desconocida μ con la misma probabilidad del 95% x 1.96 x SE+-

Cuando tomamos una muestra, sabemos x pero no μ, pero dado que estamos seguros en un 95% de que x cae dentro de 1.96 SE de μ.

μ

[ [

σ es la desviación estándar de la población desconocida.

En la práctica, σ se reemplaza por la muestra SD.

La teoría se basa en SE=σ/√n.

Pero hay penalti1,96 de la distribución normal se reemplaza por un valor correspondiente de otra distribución (la distribución t). +-

Nota: Uso de valores t

La fórmula para un IC del 95%: x 1.96 X SE.

La penalización por reemplazar σ desconocido por SD conocido depende del tamaño de la muestra

El valor a usar está etiquetado como tn-1 (0.975)

Para la mayoría de los tamaños de muestra IC X 2 x SE+-

Un paquete estadístico hará esto por usted

SE E es para estimación

95% Rango normal 95% Intervalo de Confianza x ±1.96 SD aprox. x ± 2 SD x ± tn 1(0.975) SE aprox. x ± 2 SD/√n

95% de los valores de la variable se encuentran dentro del rango

el rango cubre la media "verdadera" el 95% del tiempo (muestras repetidas hipotéticas)

SD

D es para datos, distribución, descripción

describe la dispersión de datos da precisión de la media estimada

Comparación entre el rango normal del 95 % y el intervalo de confianza del 95 % para la media

La teoría estadística dice que cuando una variable sigue una distribución Normal en la población, las medias muestrales repetidas seguirán una distribución Normal.

μ X1 X2 X3 SE μ

Es posible que prefiera presentar una medida diferente de tendencia central, por ejemplo, la mediana: esta teoría no se aplica

Distribuciones no normales, la teoría se aplica solo a muestras grandes, digamos n> 30 También"Asintótico“se relaciona con la población y las medias muestrales.

PERO – también se aplica cuando la variable NO sigue una distribución normal en la población

μ X1 X2 X3 SE μ X

¿Es representativa de la población?

¿Cómo se tomó la muestra?

Teoría estadística que relaciona la precisión de la estimación de la muestra con el tamaño de la muestra.

Abordado en las próximas diapositivas

Qué tan bien la media muestral (x) estima la media poblacional (μ) se rige por:

HECHO

2. Generar n números aleatorios entre 1 y N (omitiendo repeticiones)

3. Los miembros de la población con uno de los n números seleccionados están en la muestra

¿Cómo seleccionar una muestra que sea representativa de la población?

1. Enumere y numere a todos en la población (1…N)

En una muestra aleatoria, cada miembro de la población tiene la misma oportunidad de ser seleccionado.

Pasos para obtener una muestra aleatoria

μ X1 X2 X3

Las medias de la muestra se centran en un valor distinto de μ

SE μ X

Definición de SESGO:

El sobre muestreo de individuos de las regiones más altas o más bajas de la población da como resultado un SESGO

Que la media de la distribución de las medias muestrales sea igual a μ está directamente relacionado con que la muestra sea representativa de la población

Muestrear los conglomerados

Los individuos de la población caen en estratos (por ejemplo, 60% mujeres, 40% hombres)

Incluir a todos los individuos en los grupos seleccionados

Muestra de machos y hembras por separado

Los individuos se agrupan en grupos en la población

Asegurar una proporción de 60:40 de mujeres: hombres en la muestra o para asegurar 50:50 hembras: machos en la muestra

Muestreo por conglomerados

Muestreo estratificado

Otros esquemas para el muestreo de una población

Se puede realizar un análisis ponderado para garantizar que las estimaciones no estén sesgadas y con los errores estándar correctos

Pacientes en Europa? ¿los Estados Unidos?

Generabilida no basada en la teoría estadística.

A los pacientes en la práctica general en el Reino Unido?

En las ciencias médicas, un método de muestreo comúnmente utilizado es el muestreo por conveniencia

Incluir a todas las personas que asisten a una clínica durante el período de reclutamiento del estudio.

No hay una población clara (no se pueden enumerar todos los miembros)? Correspondencia entre la verdadera media de la población y el centro de distribución de las medias de las muestras.

Los investigadores a menudo abordan el tema de la generalización en la discusión

A los pacientes con enfermedad más o menos grave?

¿Los hallazgos del estudio de una clínica en el SGH se generalizan a clínicas similares basadas en hospitales en las grandes ciudades del Reino Unido?

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.