Texto Paralelo Estadistica II

Page 1

UNIVERSIDAD

MARIANO GALVEZ DE GUATEMALA CENTRO UNIVERSITARIO, CUILAPA, SANTA ROSA INGENIERÍA EN SISTEMAS ESTADÍSTICA II

Nombre del estudiante: Vanessa Zenayda Meda Betancourth

Carné: 7490-21-11129

Catedrático: Ing. Noe Abel Castillo Lemus

Cuilapa, 30 de mayo de 2023

1
2 Tabla de contenido SEMANA 1..................................................................................................................................... 5 Población y Muestra 5 Tipos de poblaciones 5 Tipos de muestras 6 SEMANA 2..................................................................................................................................... 9 Estimación Distribución de la media .................................................................................. 9 Distribución muestral de la media....................................................................................... 9 La media como estimador 9 Teorema de Limite Central 10 SEMANA 3................................................................................................................................... 13 Inferencia acerca de la media y la varianza de una distribución................................ 13 a) Media ............................................................................................................................... 13 SEMANA 4 17 T Student 17 Fórmula de la distribución t de Student 17 Prueba de Hipótesis ............................................................................................................. 18 SEMANA 6................................................................................................................................... 21 Inferencia acerca de las proposiciones ........................................................................... 21 SEMANA 7 23 Comparación de dos medias 23 SEMANA 8................................................................................................................................... 26 Comparación de dos varianzas.......................................................................................... 26 SEMANA 9................................................................................................................................... 30 Regresión Lineal Simple y correlación 30 SEMANA 10 32 Modelos de regresión lineal simple 33 SEMANA 11 ................................................................................................................................ 37 Regresión Lineal Múltiple.................................................................................................... 37 SEMANA 13 ................................................................................................................................ 40 Modelos de Regresión Lineal Múltiple 40 SEMANA 14 43
3 Análisis de Varianza de un solo factor............................................................................. 43 SEMANA 15 45 Análisis de Varianza de dos factores 45

INTRODUCCION

La estadística es la disciplina que estudia la variabilidad, recolección, organización, análisis, interpretación y presentación de los datos, así como el proceso aleatorio que los genera siguiendo las leyes de la probabilidad. Algunos temas que se verán en este trabajo es la población y muestra, la distribución de la media, teorema de limite así como otros temas que nos pueden ayudar en el pasar de la vida.

4

SEMANA 1

Población y Muestra

Población se refiere al universo, conjunto o totalidad de elementos sobre los que se investiga o hacen estudios. Muestra es una parte o subconjunto de elementos que se seleccionan previamente de una población para realizar un estudio. Normalmente se selecciona la muestra de una población para su estudio, debido a que estudiar a todos los elementos de una población resultaría muy extenso y poco práctico.

Tipos de poblaciones

La población se puede clasificar de la siguiente manera según la cantidad de individuos que la conforme:

• Población finita: es aquella que se puede contar y se pueden estudiar con mayor facilidad a sus integrantes. Por ejemplo, la cantidad de personas inscritas en un gimnasio.

• Población infinita: son inmensas poblaciones donde se hace muy difícil contabilizar a sus integrantes, por lo que suele tomarse en cuenta solo una porción de ella a la hora de realizar un estudio, seleccionando así una muestra. Por ejemplo, la cantidad de granos de arena en una playa.

• Población real: son grupos de integrantes tangibles. Por ejemplo, la cantidad de animales en un zoológico.

• Poblaciónhipotética: son poblaciones posibles que pueden ser estudiadas ante una eventualidad. Por ejemplo, la cantidad de nacimientos de bebés prematuros.

5

Tipos de muestras

Existen diferentes tipos de técnicas para conformar una muestra.

• Muestreo aleatorio: Es una técnica que ofrece la misma posibilidad a los elementos de ser seleccionados, por ser tomados al azar.

• Muestreo aleatorio simple: los elementos se eligen de una lista al azar. Funciona más eficazmente cuando el universo es reducido y homogéneo.

• Muestreo sistemático: el primer elemento se elige al azar y luego se escogen a intervalos constantes los elementos restantes.

• Muestreo estratificado: se realiza dividiendo a la población en partes o estratos que respondan a características establecidas y luego se eligen aleatoriamente los individuos que se van a estudiar.

• Muestreo por conglomerado: la población se divide en grupos heterogéneos y éstos a su vez se subdividen en grupos homogéneos con características comunes para ser estudiados de acuerdo a lo requerido por el investigador.

6
7
8

SEMANA 2

Estimación Distribución de la media

La media muestral es una variable aleatoria que toma un valor según la muestra concreta que se obtenga. Se denomina distribución muestral de la media a su función de probabilidad. La distribución muestral de un estadístico es un concepto central, tanto de la estimación como del contraste de hipótesis.

Distribución muestral de la media

Una función de probabilidad queda caracterizada por su forma, su media y su varianza. La media de la distribución muestral de la media (μx) es igual a la media de la población (μ). La varianza de la distribución muestral de σ la media es n y la desviación típica de la distribución muestral de la media, denominada error típico de la media, es σx= σ = σ 2

La forma de la distribución original de la media se parece a una distribución normal, aunque la distribución original de la variable en la población no es normal.

Si la distribución de X en la población no es normal con media μ y desviación típica σ, entonces la distribución muestral de la X tiende a la normal a medida que n crece (Teorema Central del Límite), siendo la aproximación buena para n > 30.

Media, varianza y desviación típica de la variable cuantitativa X en la población y en la muestra, y de la distribución muestral de la media (X).

La media como estimador

Un estimador es un estadístico que se utiliza para estimar un parámetro. Por lo que la media de la muestra es un estimador de la media poblacional; y el valor del estimador en una muestra se denomina estimación o estimación puntual.

9

La media muestral X es un estimadorinsesgado de la media poblacional (μ).El error típico de la media es un indicador de la precisión de la estimación de la media; cuanto menores el error típico,mayor es la precisión.Dependiendode la desviación típica de la población y del tamaño de la muestra.

Teorema de Limite Central

El teorema central del límite es uno de los resultados fundamentales de la estadística. Este teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño muestral (n) supera los 30), sea cual sea la distribución de la media muestral, seguirá aproximadamente una distribución normal. Es decir, dada cualquier variable aleatoria, si extraemos muestras de tamaño n (n>30) y calculamos los promedios muestrales, dichos promedios seguirán una distribución normal.Además,la media será la misma que la de la variable de interés, y la desviación estándar de la media muestral será aproximadamente el error estándar. Un caso concreto del teorema central del límite es la distribución binomial. A partir de n=30, la distribución binomial se comporta estadísticamente como una normal, por lo que podemos aplicar los tests estadísticos apropiados para esta distribución. La importancia del teorema central del límite radica en que, mediante

10

un conjunto de teoremas, se desvela las razones por las cuales, en muchos campos de aplicación,

11
12

SEMANA 3

Inferencia acerca de la media y la varianza de una distribución

Algunas distribuciones muestrales son de interés particular, como la de la Media. En este punto se introduce las distribuciones muestrales de la Media, Varianza y proporción. Más adelante se introducirá otras distribuciones.

a) Media

La distribución muestral de la Media depende de varias circunstancias como la distribución de la población de la que se extrae las muestras:

13

1) La población se distribuye según el modelo Normal. La distribución de Medias muestrales sigue el modelo Normal, con parámetros mu y sigma donde sigma al cuadrado y n sonla Varianza de la distribución poblacional y el tamaño de la muestra respectivamente.

2) La población no sigue la distribución Normal. En este caso la distribución de Medias muestrales se acerca al modelo Normal (con los mismos parámetros que hemos visto al apartado a) cuanto mayor sea el tamaño de la muestra.

Algunas características de la distribución muestral de la Media

1) La variación de la distribución muestral es menor cuanto mayor sea n (tamaño de la muestra) siempre que la Varianza de la población sea la misma.

Explicación: La fórmula de la Varianza de la distribución muestral de la Media es: cuanto mayor es el denominador (n), más pequeño es el valor del término a la izquierda del "igual".

14
15
16

SEMANA 4 T Student

La distribución t de Student o distribución t es un modelo teórico utilizado para aproximar el momento de primer orden de una población normalmente distribuida cuando el tamaño de la muestra es pequeño y se desconoce la desviación típica.

En otras palabras, la distribución t es una distribución de probabilidad que estima el valor de la media de una muestra pequeña extraída de una población que sigue una distribución normal y de la cual no conocemos su desviación típica.

Fórmula de la distribución t de Student

Dada una variable aleatoria continua L, decimos que la frecuencia de sus observaciones puede aproximarse satisfactoriamente a una distribución t con g grados de libertad tal que: Sólo el 2% de la población sabe lo que quiere y cómo lo va a conseguir ¿y tú? Tu dinero = tu tiempo + tu talento. A lo último, te ayudamos nosotros.

Mejora tu conocimiento en finanzas aprendiendo de los mejores profesionales, con cursos efectivos y entretenidos.

La variable aleatoria L sigue una distribución tcon g grados de libertad.

17

Prueba de Hipótesis

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidenciaproporcionada por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.

Con base en los datos de muestra, la prueba determina si se puede rechazar la hipótesis nula.Usted utiliza el valor p para tomaresa decisión.Si el valor p es menor que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la hipótesis nula.

18
19
20

SEMANA 6

Inferencia acerca de las proposiciones

Una inferencia lógica es el proceso de obtención de una proposición a partir de otra u otras proposiciones dadas, a las cuales se aplican reglas de inferencia, de tal manera que la conclusión sea consecuencia lógica de las premisas.

“Una inferencia es válida si, y solo si la conjunción de las premisas implica la conclusión. Una inferencia es concluyente o correcta si se realiza de acuerdo con una regla de inferencia válida.

Simbólicamente: sean pi (con i=1, 2, 3, 4, …n) premisas y q la conclusión, entonces,

21
22

SEMANA 7

Comparación de dos medias

El supuesto más habitual es el de contrastar si hay una diferencia significativa en la media de una variable de resultado entre dos poblaciones diferentes e independientes. En estos casos, lo habitual es utilizar la prueba de la t de Student para dos muestras independientes.

Esta prueba compara las dos medias de una variable de resultado cuantitativo continuo obtenidas en dos categorías definidas por una variable cualitativa. Se basa en el cálculo del estadístico t, que tiene en cuenta la diferencia de medias a comparar y su error estándar

Bajo el supuesto de la hipótesis nula, la diferencia de medias es igual a cero, con lo que el valor de t será también igual a cero. Cuanto más se aleje t de ese valor, menos probable será que la diferencia observada se deba al azar.

Para poder aplicar esta prueba, debemos verificar previamente que se cumplen tres condiciones:

1. Los dos grupos deben ser independientes. Esto quiere decir que cada participante debe pertenecer a solo uno de los dos grupos y no tiene relación con los participantes del otro grupo.

2. La variable de resultado debe ser continua y seguir una distribución normal en los dos grupos.

3. Debe cumplirse el supuesto de homocedasticidad, esto es, igualdad de varianzas en los dos grupos.

23
24
25

SEMANA 8

Comparación de dos varianzas

Otro uso de la distribución F es la prueba de dos varianzas. A menudo es conveniente comparar dos varianzas en vez de dos promedios. Por ejemplo, a los administradores del instituto universitario les gustaría que dos profesores que califiquen exámenes tengan la misma variación en su calificación. Para que una tapa se adapte a un recipiente, la variación de la tapa y del recipiente debe ser la misma. Un supermercado podría estar interesado en la variabilidad de los tiempos para procesar una compra en dos de sus cajas.

Para realizar una prueba F de dos varianzas, es importante que se cumplan estas condiciones:

1. Las poblaciones de las que se extraen las dos muestras se distribuyen normalmente.

2. Las dos poblaciones son independientes entre sí.

A diferencia de la mayoría de otras pruebas de este libro, la prueba F para la igualdad de dos varianzas es muy sensible a las desviaciones de la normalidad. Si las dos distribuciones no son normales, la prueba puede dar valores p más altos o más bajos de lo debido de forma imprevisible. Muchos textos sugieren a los estudiantes que no utilicen esta prueba en absoluto, pero en aras de la exhaustividad la incluimos aquí.

26
27
28
29

SEMANA 9

Regresión Lineal Simple y correlación

Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.

La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall

• Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.

• Se emplean como medida de fuerza de asociación (tamaño del efecto):

30
31
32

SEMANA 10

Modelos de regresión lineal simple

El objetivo de un modelo de regresión es tratar de explicar la relación que existe entre una variable dependiente (variable respuesta) Y un conjunto de variables independientes (variables explicativas) X1,..., Xn.

En un modelo de regresión lineal simple tratamos de explicar la relación que existe entre la variable respuesta Y y una única variable explicativa X. Ejemplo: En la muestra de la miel vamos a ver si existe relación lineal entre la acidez libre (AcLib) y la acidez total (AcTot). Para ver si un modelo de regresión lineal tiene sentido, comenzamos dibujando un diagrama de dispersión.

Mediante las técnicas de regresión de una variable Y sobre una variable X, buscamos una función que sea una buena aproximación de una nube de puntos (xi,yi), mediante una curva del tipo: ˆY fX = ( ) El modelo de regresión lineal simple tiene la siguiente expresión:

33
Y X =+ + αβ ε
34
35
36

SEMANA 11

Regresión Lineal Múltiple

Un modelo de regresión lineal múltiple es un modelo estadístico versátil para evaluar las relaciones entre un destino continuo y los predictores.

Los predictores pueden ser campos continuos, categóricos o derivados, de modo que las relaciones no lineales también estén soportadas. El modelo es lineal porque consiste en términos de aditivos en los que cada término es un predictor que se multiplica por un coeficiente estimado. El término de constante (intercepción) también se añade normalmente al modelo.

La regresión lineal se utiliza para generar conocimientos para los gráficos que contienen al menos dos campos continuos con uno identificado como el destino y el otro como un predictor. Además, se puede especificar un predictor categórico y dos campos continuos auxiliares en un gráfico y se pueden utilizar para generar un modelo de regresión adecuado. Para cada modelo candidato, IBM® Cognos Analytics realiza una prueba F de significación del modelo.

37
38
39

SEMANA 13

Modelos de Regresión Lineal Múltiple

La regresión lineal múltiple trata de ajustar modelos lineales o linealizables entre una variable dependiente y más de unas variables independientes. En este tipo de modelos es importante testar la heterocedasticidad, la multicolinealidad y la especificación. En este curso trataremos de introducirnos en el mundo de la modelización, con creación de dummies, configurando un individuo de referencia, factores de ponderación, variables de interacción, interrelación, etc. Es particularmente importante entender lo que se está haciendo en cada momento porque estos principios sirven para prácticamente todos los modelos que se emprendan a continuación y después, con modelos más complejos y menos intuitivos, serán más difíciles de comprender.

40
41
42

Análisis de Varianza de un solo factor

El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente) y estima el tamaño de efecto en ANOVA de un factor. El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba t para dos muestras.

Además de determinar que existen diferencias entre las medias, es posible que desee saber qué medias difieren. Existen dos tipos de contrastes para comparar medias: a priori y post hoc. Los contrastes a priori se plantean antes de ejecutar el experimento y las pruebas post hoc se realizan después de haber llevado a cabo el experimento. También puede contrastar las tendencias existentes a través de las categorías.

43
SEMANA 14
44

SEMANA 15

Análisis de Varianza de dos factores

El análisis de varianza de dos vías, también conocido como plan factorial con dos factores, sirve para estudiar la relación entre una variable dependiente cuantitativa y dos variables independientes cualitativas (factores) cada uno con varios niveles.

El ANOVA de dos vías permite estudiar cómo influyen por si solos cada uno de los factores sobre la variable dependiente (modelo aditivo) así como la influencia de las combinaciones que se pueden dar entre ellas (modelo con interacción).

Supóngase que se quiere estudiar el efecto de un fármaco sobre la presión sanguínea (variable cuantitativa dependiente) dependiendo del sexo del paciente (niveles: hombre, mujer) y de la edad (niveles: niño, adulto, anciano).

El efecto simple de los factores consiste en estudiar cómo varía el efecto del fármaco dependiendo del sexo sin diferenciar por edades, así como estudiar cómo varía el efecto del fármaco dependiendo de la edad sin tener en cuenta el sexo.

El efecto de la interacción doble consiste en estudiar si la influencia de uno de los factores varía dependiendo de los niveles del otro factor. Es decir, si la influencia del factorsexo sobre la actividad del fármaco es distinta según la edad del paciente o lo que es lo mismo, si la actividad del fármaco para una determinada edad es distinta según si se es hombre o mujer.

45
46
47 6

COMENTARIO PERSONAL

Con respecto a los temas que se agregaron en el texto paralelo de Estadística II, podría decirse que los temas son de interés en la vida cotidiana ya que nos ayudan en problemas de estudio, trabajo o cualquier problema personal que nos implique hacer estadísticas. Por ejemplo, queremos hacer una encuesta con las personas sobre cómo les gusta que los atendamos si estamos en atención al cliente o ya sea de que tipos de productos son los más solicitados y conforme a esto podemos realizar una gráfica que nos ayude a resolver los problemas y realizar lo necesario con lo que necesiten.

48

La estadística es la actividad planificadora que la sociedad utiliza en el área industrial para resolver problemas. Es un instrumento para identificar las causas e impactos que esta problemática genera en la sociedad.

Con la estadística podemos resolver y realizar estudios reales, con la población exacta y podemos sacaruna muestra al final para determinarlas gráficas de nuestro proyecto.

Dentro de cualquier investigación de algún tema que nos indiquen sacar un porcentaje y presentar información con datos específicos,en ese momento se utiliza la estadística por lo tanto es importante aprender todos los temas respectivos.

49
CONCLUSION

RECOMENDACIÓN

La importancia de aprender todos los temas propuestos en este trabajo es alta, ya que si trabajas en algún lugar de ventas y necesitas realizar encuestas sobre productos para entrega esta información mas detallada puedes aplicarla estadística y demostrar mejor lo realizado.

Estudiar mas sobre los temas mas relevantes a estudiar, podrías especializarte en estos, aunque siempre se tiene que aprender los temas, ya que no se sabe en qué momento podrían volver a utilizarlos.

El tamaño muestral debe basarse en el tamaño del grupo más pequeño que se desea evaluar,en el número de predictores del modelo a utilizar,con esto podremos iniciar una investigación con lo mas importante.

50

Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.