PORTAFOLIO ACADÉMICO DE INVESTIGACIÓN APLICADA III - UNIDAD II

Page 1


“INSTITUTO DE EDUCACIÓN SUPERIOR PEDAGÓGICO PÚBLICO DE JULIACA”

FORMADORA: PROF. ELIZABETH SUCAPUCA RODRIGUEZ ESTUDIANTE: HERNAN ZENTENO USCAMAYTA

ESPECIALIDAD: CIENCIAS SOCIALES SEMESTRE:

VII “B”

2020-I



















TABLAS ESTADISTICAS DEFINICIONES Lo primero que vamos a hacer es introducir una serie de definiciones que nos permitan hablar con claridad y precisión. Población. Es el conjunto de los elementos sobre el cual realizamos nuestro estudio. Es un conjunto de elementos con características comunes, que puede ser finito o infinito. El tamaño de la población se nota con la letra N. Ejemplo: La población en las tres actividades motivadoras es el conjunto de todos los alumnos de la clase. En las dos primeras actividades podemos considerar aisladamente el conjunto de los alumnos como una población sobre la que realizar un estudio y el de las alumnas como otra población distinta. Muestra. Es un subconjunto de la población. El número de elementos se llama tamaño de la muestra. Ejemplo: En las dos primeras actividades podemos considerar el conjunto de alumnos de la clase como una muestra y el conjunto de las alumnas como otra. En la primera actividad el tamaño de la muestra de los alumnos es 22 y el tamaño de la muestra de las alumnas es 28. Individuo. Cualquier elemento de la población o de una muestra, en nuestras actividades un individuo es un alumno. Carácter.Llamaremos carácter a cada una de las propiedades comunes a cada individuo de una población, en base a las cuales esta puede ser descrita. Ejemplo: En la primera actividad el carácter es la nota de cada alumno. En la segunda el carácter es pelo de los alumnos y en la tercera la altura. Modalidad.Las modalidades son las distintas variantes de un carácter, que deben ser exhaustivas y excluyentes, es decir, cada individuo de una población debe expresar una y sólo una modalidad. Las modalidades se dividen en: · Caracteres cualitativos si las modalidades no pueden ser medidas. · Caracteres cuantitativos si las modalidades pueden ser expresadas métricamente. En esta situación el carácter puede ser expresado por una variable que recibe el nombre de variable estadística. Ejemplo: En la primera actividad las modalidades del caracter son los números naturales del 0 al 10, que son las posibles notas que un alumno puede obtener, es por tanto una variable estadística. En la segunda actividad las modalidades son los distintos colores del pelo, es por tanto un carácter cualitativo. Clasificación de variables. Variable discreta: si toma un número finito o infinito numerable de valores. Variable continua: si toma un número infinito no numerable de valores. Variable unidimensional: si se estudia sólo un carácter cuantitativo en cada


individuo. Variable multidimensional: si se estudian varios caracteres cuantitativos a la vez. Ejemplo: En la primera actividad tenemos una variable estadística discreta unidimensional. En la tercera actividad tenemos una variable estadística discreta unidimensional. Frecuencia absoluta de una modalidad.Es el número de individuos de una muestra que han presentado esa modalidad. Se nota ni la frecuencia absoluta de la modalidad i. Ejemplo: En la primera actividad la frecuencia absoluta de la modalidad 5 es 5, y la frecuencia absoluta de la modalidad 4 es 3. Frecuencia relativa de una modalidad.Es la proporción de individuos que han presentado esa modalidad. Se nota fi la frecuencia relativa de la modalidad i, y se calcula dividiendo la frecuencia absoluta por el tamaño de la población.

Ejemplo: En la segunda actividad la frecuencia relativa de la modalidad pelo rubio es 6 : 33 = 0,18 y la frecuencia relativa de la modalidad pelo moreno es 12 : 33 = 0,36. Frecuencia absoluta acumulada de una modalidad.Este tipo de frecuencias solo se pueden definir en caracteres cuantitativos, o en caracteres cualitativos que puedan ordenarse de mayor a menor. Se define la frecuencia absoluta acumulada de una modalidad como el número de individuos que han presentado esta modalidad o una modalidad menor. Se nota Ni la frecuencia absoluta de la modalidad y se verifica que: Ni = n1 + n2 + ... + ni Ejemplo: En la primera actividad la frecuencia absoluta acumulada de la nota 5 es 25. Frecuencia relativa acumulada de una modalidad.Se puede definir en los mismos casos que la frecuencia absoluta acumulada, y se define como el cociente entre esta y el tamaño de la muestra. Se nota Fi:

DISTRIBUCIÓN DE FRECUENCIAS Llamamos distribución de frecuencias al conjunto de valores que puede presentar una variable junto con sus frecuencias, estas frecuencias pueden ser cualquiera de las anteriores. Según la naturaleza de la variable estudiada las distribuciones de frecuencias pueden ser: 

NO AGRUPADAS: se presentan cuando el número de valores que puede presentar la variable no es muy elevado, y en ese caso podemos observar todos los valores de esa variable. Este caso se presenta cuando la variable es discreta y no presenta excesivos valores.


AGRUPADAS EN INTERVALOS: se presenta cuando la variable es continua o cuando es discreta pero con elevado número de valores. en esta situación se agurpan dichos valores en intervalos o clases. Los intervalos se notan: ei-1-ei es es intervalo i-ésimo.

Se llama amplitud del intervalo a la distancia que existe entre los extremos, y se nota ai: ai = ei -ei-1 Se llama marca de clase al punto medio de un intervalo. Este punto es importante porque es el representante del intervalo. Se nota xi: xi = (ei + ei-1)/2 Se llama densidad de frecuencia de un intervalo a la frecuencia correspondiente a cada unidad de la variable en dicho intervalo, se nota di: di = ni /ai Los intervalos se suelen tomar abiertos por la izquierda y cerrados por la derecha, salvo el primero que se toma cerrado por los dos lados. En este tipo de distribuciones se pierde parte de la información al agruparlas en intervalos, ya no se puede hablar de valores concretas sino de intervalos. Cuanto mayor sea la amplitud de los intervalos menos intervalos habrá, y por tanto menos precisión tendremos. En cambio, cuanto menor sea la amplitud de los intervalos menos intervalos habrá, y mayor será la precisión, sin embargo la distribución será mas grande y más dificil de manejar. Ejemplo: Las dos primeras actividades dan lugar a distribuciones de frecuencia no agrupadas, ya que son variables discretas y presentan pocos valores, 11 en la primera actividad y 4 la segunda. la tercera actividad da lugar a una distribución de frecuencia agrupada en intervalos ya que aunque es una variable discreta, presenta muchos valores, entre el 1,58 que es el valor más pequeño que presenta, y el 1,85 que es el más grande, hay 27 valores. La elección de los intervalos depende de nosotros, teniendo en cuenta que siempre es preferible que los intervalos sean todos de la misma amplitud. TABLAS ESTADÍSTICAS Ya hemos introducido la terminología adecuada, ahora vamos a utilizarla para ordenar y agrupar la información. Lo primero que vamos a hacer es construir tablas estadísticas, en las que va a aparecer toda la información de forma ordenada. Llamamos tabla estadística a la disposición de forma ordenada y agrupada de los valores y frecuencias de una distribución. Distinguiremos entre tablas estadísticas de distribuciones no agrupadas y tablas de distribuciones agrupadas. TABLAS DE DISTRIBUCIONES NO AGRUPADAS. En las tablas de distribuciones no agrupadas aparecen las siguientes columnas: la primera contiene los valores de la distribución, ordenados de menor a mayor si son caracteres cuantitativos; la segunda contiene las frecuencias absolutas, la tercera las frecuencias relativas. Cuando las frecuencias acumuladas se pueden definir se añaden otras dos columnas, una para las frecuencias absolutas acumuladas y otra para las relativas acumuladas. Ejemplo: TABLA ESTADÍSTICA DE LA ACTIVIDAD 1ª, TOMANDO COMO POBLACIÓN TODA LA CLASE:


xiniNi fi Fi 0220,04 0,04 250 0,04 1 Una vez construida la tabla es muy fácil responder a las tres primeras preguntas: ¿Cuántos alumnos han sacado un tres? La respuesta es n3 que vale 6. ¿Cuántos alumnos han suspendido? La respuesta es N4 que vale 20. ¿Cuántos alumnos han aprobado? La respuesta es 50-N4 que vale 50-20 = 30. Para responder a la última pregunta: ¿Han aprobado más alumnos o alumnas? se podrian construir dos tablas una tomando como población los alumnos y otra tomando como población las alumnas y comparar las frecuencias acumuladas de la modalidad 5. . TABLA ESTADÍSTICA DE LA 2ª ACTIVIDAD TOMANDO COMO POBLACIÓN TODA LA CLASE

Con esta tabla es fácil responder a las dos primeras preguntas: El color de pelo que tiene menos gente es el pelirojo que sólo hay 1 y el que tiene más gente es el castaño que lo tienen 14 alumnos. Para responder a las otras preguntas vamos a construir la tabla correspondiente a


considerar sólo los alumnos y la tabla correspondiente a considerar sólo las alumnas.

Ahora es muy fácil viendo estas dos tabla responder a las dos últimas preguntas de esta actividad: Hay más niñas morenas, 6, que rubias, 4. Y hay más niñas rubias, 4, que niños, 2. TABLAS DE DISTRIBUCIÓN AGRUPADAS EN INTERVALOS. En las tablas estadísticas de distribuciones de frecuencia agrupadas por intervalos aparecen las siguientes columnas: la primera con los intervalos, la segunda con las amplitudes de los intervalos, la tercera con las marcas de clase, la cuarta con las frecuencias absolutas de cada intervalo, la cuarta con las densidades de frecuencia y la quinta con las frecuencias relativas; además suelen aparecer tambien dos columnas más con las frecuencias acumuladas. Si se toman los intervalos con la misma amplitud no se ponen las columnas de amplitud ni de densidades, sólo se señala cual es la amplitud de todos los intervalos. Ejemplo:

TABLA ESTADÍSTICA DE LA 3ª ACTIVIDAD En esta tabla vamos a considerar los intervalos de la misma amplitud, por lo que no vamos a representar la columna de la amplitudes ni la de las densidades. Los intervalos que vamos a considerar van a tener de amplitud 5 cm.

Aquí se pone de manifiesto la perdida de precisión, ya no podemos hablar de cual es la altura más frecuente sino de cual es el intervalo de alturas en el que hay más alumnos. De esta forma, la respuesta a la primera pregunta de la actividad -¿Cuál es la altura más frecuente?- es que el intervalo 1.70-1.75 es el que contiene más alumnos. REPRESENTACIONES GRÁFICAS El objetivo de las representaciones gráficas es realizar una síntesis visual de la informacion aportada por una distribución de frecuencias. Según la naturaleza del carácter estudiado tendremos diversos tipos de representación gráfica: 

Caracteres cualitativos.


 

Caracteres cuantitativos con distribuciones no agrupadas. Caracteres cuantitativos con distribuciones agrupadas. REPRESETACIONES GRÁFICAS DE CARÁCTERES CUALITATIVOS. El principio que va a regir las representaciones gráficas de caracteres cualitativos será la proporcionalidad de las áreas de las figuras asignadas a cada modalidad respecto de su frecuencia absoluta. Diagrama de sectores. Consiste en dividir un circulo en tantos sectores como modalidades presentes el carácter. El área de cada sector deberá ser proporcional a la frecuencia de la modalidad a la que representa. Esto se consigue haciendo que el ángulo de cada sector sea proporcional a cada frecuencia. Ejemplo: DIAGRAMA DE SECTORES DE LA ACTIVIDAD 2ª.

Diagrama de barras. Consiste en representar cada modalidad mediante un rectangulo cuya base será siempre la misma y cuya área debera ser proporcional a su frecuencia absoluta. Esto se consigue poniendo la altura proporcional a la frecuencia absoluta, ya que la base es igual para todos. Ejemplo: DIAGRAMA DE BARRAS DE LA ACTIVIDAD 2ª

REPRESENTACIONES GRÁFICAS DE CARACTERES CUANTITATIVOS NO AGRUPADOS. El principio de las representaciones gráficas de caracteres cuantitativos será la proporcionalidad de las áreas o de las longitudes de las figuras representadas respecto de las frecuencias absolutas o relativas de la modalidad a que represente. Diagrama de barras.


Consiste en representar los valores de una variable en función de sus frecuencias absolutas o relativas, por tanto dentro de un eje de coordenadas colocaremos los valores de la variable en el eje de abcisas y la frecuencia absoluta o relativa en el eje de abcisas. La representación consiste en levantar alturas para cada valor de la variable iguales a su frecuencia. Ejemplo: DIAGRAMA DE BARRAS DE LA 1ª ACTIVIDAD

Poligono de frecuencias. Se obtiene a partir del diagrama de barras uniendo mediante una linea poligonal las diversas alturas de las barras obtenidas. Ejemplo: POLIGONO DE FRECUENCIAS DE LA 1ª ACTIVIDAD

Curva de distribución. Se llama función de distribución a la función que asocia a cada valor real la proporción de individuos de la población que presenta valores menores o iguales al valor considerado. Se representa F(x). La representación gráfica de F(x) es la curva de distribución. En el eje de abcisas se representan los valores de la variable y en ordenadas las frecuencias. Ejemplo:


CURVA

DE

REPRESENTACIONES

DISTRIBUCIÓN

GRÁFICAS

DE

DE

LA

ACTIVIDAD

DISTRIBUCIONES

AGRUPADAS.

Esta representación consiste en una serie de rectángulos yuxtapuestos en el que las áreas de cada uno de ellos son proporcionales a la frecuencia absoluta o relativa de las modalidades a que representa. Las bases de los rectángulos serán las amplitudes de los intervalos, pero la altura dependiendo de si todas las amplitudes son iguales o no serán las frecuencias o las densidades de frecuencias. Ejemplo: HISTOGRAMA DE FRECUENCIAS DE LA 3ª ACTIVIDAD En este caso estamos ante una distrubución de frecuencias agrupada en la que como ya hicimos en la construcción de la tabla estadística vamos a considerar intervalos de la misma amplitud, por lo que vamos a utilizar como altura de los rectángulos la frecuencias de cada intervalo.

Poligono de frecuencias. Se obtiene a partir del histograma de frecuencias uniendo mediante una poligonal la alturas de cada una de las marcas de clase de los intervalos considerados. Ejemplo:


POLIGONO

DE

FRECUENCIAS

DE

LA

ACTIVIDAD

Curva de distribución. Se llama curva de distrución a la representación gráfica de la función de distribución que representa la proporción de individuos que han presentado valores menores o iguales que el valor considerado. MEDIDAS DE POSICIÓN Las medidas de posición solo podemos definirlas cuando estamos trabajando con variables estadísticas, es decir, cuando estamos estudiando caracteres cuantitativos. Las medidas de posición tienen como objetivo centrar la distribución, es decir, dar un valor númerico que pueda representar a toda la distribución. Las medidas de posición que vamos a estudiar son:   

Media aritmética. Mediana. Moda.

MEDIA ARITMÉTICA Se define la media aritmética de una distribución de frecuencias como la suma del producto de los valores de la variable por sus frecuencias absolutas divido por el tamaño de la población. Se nota

:

Si la distribución es no agrupada los xi representan a los valores de la variable, si la distribución es agrupada en intervalos los xi representan las marcas de clase. Ejemplo: En la primera actividad la media aritmética es 5,2 que podemos considerarla como nota representativa de toda la clase.


En la segunda actividad la media aritmética es 1,71 que podemos considerarla como la altura representativa de toda la clase. MEDIANA Se llama mediana de una variable estadística a aquel valor de la variable tal que el número de observaciones menores que él es igual que el número de observaciones mayores.Se nota Me y se puede considerar como el punto de abcisas cuya ordenada en la curva vale ½. El cálculo de la mediana se hará teniendo en cuenta si la distribución de frecuencias es agrupada o no agrupada. Distribuciones no agrupadas. Se observa la frecuencia absoluta acumulada y pueden pasar dos casos: a) Si $ i en {1,…,k} / Ni > N/2 >Ni-1 => xi=Me b) Si $ i en {1,…,k} / Ni = N/2 => xi =Me Distribuciones agrupadas en intervalos. Observando las frecuencias acumuladas diremos cual es el intervalo central, que recibe el nombre de intervalo mediano. Para obtener el valor exacto de la mediana se distinguen dos casos: a) Si(ei-1,ei)es el intervalo mediano con Ni > N/2 >Ni-1, se realiza una interpolación lineal en la curva de distribución asociada a dicho intervalo:

b) Si (ei-1,ei) es el intervalo mediano y Ni = N/2 >Ni-1 entonces Me=ei. Ejemplo: En la actividad 1ª la mediana es 5 pues estamos en una distribución no agrupada y la frecuencia relativa acumulada de 5 vale 0,5. En la actividad 3ª la mediana es 1,705 que se obtiene haciendo la interpolación lineal en el intervalo 1,70-1,75, pues la frecuencia relativa acumulada de este intervalo es 0.7 y la del intervalo anterior vale 0,433. MODA La moda es la única medida que se puede definir para caracteres cualitativos. Se define la moda de una distribución como aquel valor que se ha presentado más veces, es decir, es aquel que su frecuencia absoluta es máxima. Si la distribución es agrupada en intervalos se habla de intervalo modal. Una moda en una distribución no tiene por qué ser unica, puede haber más de una en una misma distribución, y entonces se habla de distribuciones bimodales, trimodales, o en general plurimodales. Ejemplo:


En la 1ª actividad la moda es 7 que se ha presentado 8 veces. En la 2ª actividad la moda es Castaño que se ha presentado 14 veces. En la 3ª actividad el intervalo modal es el 1,70-1,75 que se presenta 8 veces.

MEDIDAS DE DISPERSIÓN Las medidas de dispersión nos van a informar sobre el grado de esparcimiento de la distribución, es decir, nos van a decir si los valores que aparecen estan más o menos concentrados. Por tanto, nos van informar también sobre el grado de representatividad de la medidad de posición, pues cuanto más concentrados esten los valores que toma la variable mejor representará un solo valor a toda la distribución. Las medidas de dispersión que vamos a estudiar son:   

Varianza. Desviación típica. Coeficiente de variación. VARIANZA La varianza es una medida de dispersión que mide el grado de esparcimiento de una distribución alrededor de la media aritmética. Cuanto más grande sea la varianza más esparcidos estarán los valores de la variable. La varianza se suele notar

y se calcula:

Al igual que en la media aritmética los xi representan a los valores de la variable si es una distribución no agrupada y a las marcas de clase si es una distribución agrupada en intervalos. La varianza es la suma de las desviaciones de los valores de la variable sobre la media aritmetica ponderada por las frecuencias. Por tanto, cuanto menor sea la varianza más agrupada estará la distribución en torno a su media aritmética. La varianza viene expresada en las misma unidades que la variable pero al cuadrado. Ejemplo: En la 1ª actividad la varianza vale 7,64. En la 2ª actividad la varianza vale 0,005197 m* o lo que es lo mismo 51,917 cm*. DESVIACIÓN TÍPICA La desviación típica se define para obtener una medida de dispersión que venga expresadda en las misma unidades que la variable. Se define como la raiz cuadrada de la varianza.

Ejemplo: En la 1ª actividad la desviación típica vale 2,76. En la 2ª actividad la desviación típica vale 0,072 m, o lo que es lo mismo 7,2 cm. COEFICIENTE DE VARIACIÓN Tanto la varianza como la desviación típica son medidas de dispersión absoluta, es decir, nos hablan de la dispersión de la variable que estamos estudiando, pero no nos permiten


comparar la dispersión de dos distribuciones distintas. El coeficiente de variación es una medida de dispersión relativa que nos va permitir comparar dos distribuciones distintas, se define como el cociente entre la desviación típica y la media aritmética.

El coeficiente de variación es un coeficiente adimensional y solo se puede definir cuando la media aritmética es distinta de cero. Para comparar la dispersión de dos distribuciones basta con comparar sus coeficientes de variación, aquella que su coeficiente de variación sea menor es la que esta más concentrada en torno a su media aritmética. Ejemplo: El coeficiente de variación de la distribución de la 1ª actividad vale 0,53 y en la 2ª actividad vale 0,42 por lo que la distribución de la 3ª actividad está más agrupada que la de la 1ª.


TEMAS PARA EXPOSICION DEL AREA DE INVESTIGACION APLICADA III, CSSVII-B 1.- TABLAS ESTADISTICAS 2.- DISTRIBUCION DE FRECUENCIAS 3.- GRAFICOS ESTADISTICOS 4.- MEDIDA DE TENDENCIA CENTRAL: MEDIA ARITMETICA 5.- MEDIDA DE TENDENCIA CENTRAL: MEDIANA 6.- MEDIDA DE TENDENCIA CENTRAL: LA MODA 7.- MEDIDAS DE DISPERSION: DESVIACION ESTANDAR 8.- MEDIDAS DE DISPERSION: VARIANZA 9.- MEDIDAS DE DISPERSION: RANGO ESTADISTICO 10.- MEDIDAS DE DISPERSION: COEFICIENTE DE VARIACION 11.- REGRESION LINEAL 12.- COEFICIENTE DE CORRELACION 13.- COEFICIENTE DE DETERMINACION 14.- PRUEBA DE HIPOTESIS 15.- PARTES DE UNA PRUEBA DE HIPOTESIS 16.- TIPOS DE ERROR 17.- ETAPAS DE LA PRUEBA DE HIPOTESIS: UNA SOLA MEDIA 18.-ETAPAS DE LA PRUEBA DE HIPOTESIS: DIFERENCIA DE MEDIAS 19: ETAPAS DE LA PRUEBA DE HIPOTESIS: CORRELACION Y DE DEPENDENCIA.



INSTITUTO DE EDUCACIÓN SUPERIOR PEDAGOGICO PUBLICO DE JULIACA

TABLAS ESTADÍSTICAS ELABORADO POR: MARIBEL MIRIAN APAZA HANCCO

ESPECIALIDAD: CIENCIAS SOCIALES


POBLACIÓN Es el conjunto de los elementos sobre el cual realizamos nuestro estudio. Es un conjunto de elementos con características comunes, que puede ser finito o infinito. El tamaño de la población se nota con la letra N.


MUESTRA Es un subconjunto de la población. El número de elementos se llama tamaño de la muestra. Ejemplo: En las dos primeras actividades podemos considerar el conjunto de alumnos de la clase como una muestra y el conjunto de las alumnas como otra. En la primera actividad el tamaño de la muestra de los alumnos es 22 y el tamaño de la muestra de las alumnas es 28.


INDIVIDUO Cualquier elemento de la poblaciรณn o de una muestra, en nuestras actividades un individuo es un alumno.


CARร CTER Llamaremos carรกcter a cada una de las propiedades comunes a cada individuo de una poblaciรณn, en base a las cuales esta puede ser descrita. Ejemplo:

En la primera actividad el carรกcter es la nota de cada alumno. En la segunda el carรกcter es pelo de los alumnos y en la tercera la altura.


MODALIDAD Las modalidades son las distintas variantes de un carácter, que deben ser exhaustivas y excluyentes, es decir, cada individuo de una población debe expresar una y sólo una modalidad. Las modalidades se dividen en: · Caracteres cualitativos si las modalidades no pueden ser medidas. · Caracteres cuantitativos si las modalidades pueden ser expresadas métricamente. En esta situación el carácter puede ser expresado por una variable que recibe el nombre de variable estadística.

Ejemplo: 

En la primera actividad las modalidades del carácter son los números naturales del 0 al 10, que son las posibles notas que un alumno puede obtener, es por tanto una variable estadística.

En la segunda actividad las modalidades son los distintos colores del pelo, es por tanto un carácter cualitativo.


CLASIFICACIÓN DE VARIABLES 

Variable discreta: si toma un número finito o infinito numerable de valores.

Variable continua: si toma un número infinito no numerable de valores.

Variable unidimensional: si se estudia sólo un carácter cuantitativo en cada individuo.

Variable multidimensional: si se estudian varios caracteres cuantitativos a la vez.

Ejemplo: En la primera actividad tenemos una variable estadística discreta unidimensional. En la tercera actividad tenemos una variable estadística discreta unidimensional.


FRECUENCIA ABSOLUTA DE UNA MODALIDAD Es el nĂşmero de individuos de una muestra que han presentado esa modalidad. Se nota ni la frecuencia absoluta de la modalidad i. Ejemplo:

En la primera actividad la frecuencia absoluta de la modalidad 5 es 5, y la frecuencia absoluta de la modalidad 4 es 3.


FRECUENCIA RELATIVA DE UNA MODALIDAD Es la proporción de individuos que han presentado esa modalidad. Se nota fi la frecuencia relativa de la modalidad i, y se calcula dividiendo la frecuencia absoluta por el tamaño de la población.

Ejemplo: En la segunda actividad la frecuencia relativa de la modalidad pelo rubio es 6 : 33 = 0,18 y la frecuencia relativa de la modalidad pelo moreno es 12 : 33 = 0,36.


FRECUENCIA ABSOLUTA ACUMULADA DE UNA MODALIDAD Este tipo de frecuencias solo se pueden definir en caracteres cuantitativos, o en caracteres cualitativos que puedan ordenarse de mayor a menor. Se define la frecuencia absoluta acumulada de una modalidad como el nĂşmero de individuos que han presentado esta modalidad o una modalidad menor. Se nota Ni la frecuencia absoluta de la modalidad y se verifica que: Ni = n1 + n2 + ... + ni Ejemplo: En la primera actividad la frecuencia absoluta acumulada de la nota 5 es 25. Frecuencia relativa acumulada de una modalidad.Se puede definir en los mismos casos que la frecuencia absoluta acumulada, y se define como el cociente entre esta y el tamaĂąo de la muestra. Se nota Fi:


DISTRIBUCIÓN DE FRECUENCIAS Llamamos distribución de frecuencias al conjunto de valores que puede presentar una variable junto con sus frecuencias, estas frecuencias pueden ser cualquiera de las anteriores. Según la naturaleza de la variable estudiada las distribuciones de frecuencias pueden ser: 

NO AGRUPADAS: se presentan cuando el número de valores que puede presentar la variable no es muy elevado, y en ese caso podemos observar todos los valores de esa variable. Este caso se presenta cuando la variable es discreta y no presenta excesivos valores. AGRUPADAS EN INTERVALOS: se presenta cuando la variable es continua o cuando es discreta pero con elevado número de valores. en esta situación se agrupan dichos valores en intervalos o clases. Los intervalos se notan: ei-1-ei es intervalo i-ésimo.


TABLAS ESTADÍSTICAS Llamamos tabla estadística a la disposición de forma ordenada y agrupada de los valores y frecuencias de una distribución. Distinguiremos entre tablas estadísticas de distribuciones no agrupadas y tablas de distribuciones agrupadas.


MEDIDAS DE POSICIÓN Las medidas de posición solo podemos definirlas cuando estamos trabajando con variables estadísticas, es decir, cuando estamos estudiando caracteres cuantitativos. Las medidas de posición tienen como objetivo centrar la distribución, es decir, dar un valor numérico que pueda representar a toda la distribución. Las medidas de posición que vamos a estudiar son: 

Media aritmética.

Mediana.

Moda.




Tipos de frecuencias Frecuencia absoluta La frecuencia absoluta es el número de veces que un dato se repite dentro de un conjunto de datos. Se representa como fi, donde la «i» corresponde al número de dato.

La forma de obtener la frecuencia absoluta no es otra que contando las veces que aparece el dato en el conjunto de datos. La suma de las frecuencias absolutas corresponde al número total de datos, representado por la letra N Frecuencia relativa La frecuencia relativa de un dato es el número que se repite ese dato en relación al número total de datos, o en otras palabras, es la proporción de veces que aparece ese dato con respecto al total. Se representa como «ni», siendo «i» el número de dato. y se calcula dividiendo la frecuencia absoluta de cada dato entre el número total de datos: El valor de la frecuencia relativa siempre va a estar entre 0 y 1. El valor obtenido está en tanto por uno, pero lo podemos expresar en tanto por ciento si lo multiplicamos por 100.


Frecuencia absoluta acumulada La frecuencia absoluta acumulada es la suma de las frecuencias absolutas que se va acumulando hasta ese dato, es decir, la frecuencia absoluta acumulada de un dato en concreto se obtiene sumando su frecuencia absoluta a las frecuencias absolutas de los datos que son menores que él. Se representa como «Fi», donde «i» es el número de dato. Se calcula sumando la frecuencia absoluta de un dato más la frecuencia absoluta del dato anterior. Por tanto, la frecuencia absoluta acumulada del primer dato coincide con su frecuencia absoluta y la frecuencia absoluta acumulada del último dato coincide con el número total de datos. Frecuencia relativa acumulada La frecuencia relativa acumulada es el mismo concepto que para la frecuencia absoluta acumulada. Se representa como «Ni», donde la «i» es el número de dato y se puede obtener como el cociente entre la frecuencia absoluta acumulada para cada dato entre el número de datos totales: O también, como la suma de la frecuencia relativa de un dato más la frecuencia relativa del dato anterior. Así que, la frecuencia relativa acumulada del primer dato coincide con su frecuencia relativa y la frecuencia relativa acumulada es igual a 1.


se presentan cuando el número de valores que puede presentar la variable no es muy elevado, y en ese caso podemos observar todos los valores de esa variable. Este caso se presenta cuando la variable es discreta y no presenta excesivos valores.

Sea X la variables que representa en número de fallas de asistencia al colegio de los 50 alumnos de un curso durante un año escolar. X genera el siguiente conjunto de los datos numéricos: 3, 2, 3, 4, 1, 2, 3, 4, 3, 3, 3, 5, 6, 6, 5, 3, 4, 1, 2, 3, 2, 5, 1, 3, 3, 3, 2, 4, 1, 2, 2, 3, 3, 5, 5, 6, 3, 4, 4, 1, 2, 4, 3, 7, 7, 3, 7, 6, 5, 3. POBLACIÓN : La totalidad de los alumnos del colegios de estudio. MUESTRA: Los 50 alumnos del curso en estudio TIPO DE VARIABLE: La variable X solamente toma valores enteros en el intervalo [ 1 , 7 ], razón por la cual afirmamos que x es una variable discreta.


AGRUPADAS EN INTERVALOS

se presenta cuando la variable es continua o cuando es discreta pero con elevado número de valores. en esta situación se agurpan dichos valores en intervalos o clases

Se llama amplitud del intervalo a la distancia que existe entre los extremos, y se nota ai: ai = ei -ei-1 Se llama marca de clase al punto medio de un intervalo. Este punto es importante porque es el representante del intervalo. Se nota xi: xi = (ei + ei-1)/2 Se llama densidad de frecuencia de un intervalo a la frecuencia correspondiente a cada unidad de la variable en dicho intervalo, se nota di: di = ni /ai Los intervalos se suelen tomar abiertos por la izquierda y cerrados por la derecha, salvo el primero que se toma cerrado por los dos lados. En este tipo de distribuciones se pierde parte de la información al agruparlas en intervalos, ya no se puede hablar de valores concretas sino de intervalos. Cuanto mayor sea la amplitud de los intervalos menos intervalos habrá, y por tanto menos precisión tendremos. En cambio, cuanto menor sea la amplitud de los intervalos menos intervalos habrá, y mayor será la precisión, sin embargo la distribución será mas grande y más dificil de manejar


PRESENTADO POR: YINA SOFIA CALLA QUISPE GRUPO 3


GRAFICOS ESTADISTICOS Los gráficos estadísticos son medios visuales utilizados para la representación de datos , e informaciones

QUE ES GRÁFICA

Una grafica en estadística, es una especie de esquemático , formado de líneas, figuras , mapas, utilizado para representar datos estadísticos a escala o según una cierta proporción, o bien de los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación.


FUNCIONES DE LAS GRAFICAS.  Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlación entre dos o mas variables  Sistematiza y sintetizan los datos, sistemas y procesos  Aclaran y complementan las tablas y las exposiciones teóricas o cuantitativas  El estudio de su disposición y de las relaciones que muestran puede sugerir hipótesis nuevas.

TIPOS DE GRAFICAS ESTADISTICOS EJEMPLO Gráficos de barras.

Se utiliza para representar valores utilizando trazos verticales u horizontales. Se pueden representar dos o mas series para comparar entre si


Gráficos de líneas

EJEMPLO

Este tipo de grafico se utiliza para mostrar tendencia en el tiempo. Se representan los valores en dos ejes cartesianos

Gráficos de Áreas

Este nos permite establecer diferencia de valores en diferentes periodos de tiempo

EJEMPLO


EJEMPLO Gráficos Circulares

Este tipo de grafico nos deja ver claramente la cantidad que representa cada valor en un hecho. Gráficos Cartogramas

EJEMPLO

Este tipo de graficas nos permite evidenciar datos sobre una superficie geográfica.

Gráficos Mixtos

En esta clase de gráficos se utilizan varios tipos de gráficos, para distinguir las diferencias entre las series

EJEMPLO


EJEMPLO

Gráficos de Dispersión Estos gráficos nos dejan evidenciar, la relación entre los valores numéricos de varios datos .

Gráficos Histogramas

EJEMPLO

Es una representación grafica de una variable en forma de barras, donde la superficie de cada barra es proporcional ala frecuencia de los valores representados. Gráficos Pictogramas EJEMPLO Un pictograma es un tipo de grafico que representa mediante dibujos la característica estudiada. Estos representan las frecuencias relativas o absolutas de una variable cualitativa o discreta




La media aritmética es el promedio o medición de tendencia central de uso más común. Se calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total entre el número de elementos involucrados.


La mayor parte de las serie de datos muestran una clara tendencia a agruparse alrededor de un cierto punto central. Así pues, dada cualquier serie de datos particular, por lo general es posible seleccionar algún valor o promedio típico para describir toda la serie de datos. Este valor descriptivo típico es una medición de tendencia central o de ubicación.


donde: = media aritmĂŠtica de la muestra Media aritmĂŠtica

Promedio

= sumatoria de todos los valores de Xi


Cinco tipos de promedios a menudo usados como mediciones de tendencia central. Estos son la media aritmĂŠtica, la mediana, la moda, el rango medio el eje medio.



MEDIDA DE TENDENCIA CENTRAL MEDIANA PRESENTADO: ANTONY CHAMBI MAMANI


• En el ámbito de la estadística, la mediana (del latín mediānus 'del medio'1​) representa el valor de la variable de posición central en un conjunto de datos ordenados. Se le denota Mediana. Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales. • Ejemplo: 7, 8, 9, 10, 11, 12 Me = 9,5 = (9+10)/2

• Existen dos métodos para el cálculo de la mediana: 1.Considerando los datos en forma individual, sin agruparlos. 2.Utilizando los datos agrupados en intervalos de clase.


• LA MEDIANA • La mediana es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por ninguna observación extrema de una serie de datos. Por tanto, siempre que esté presente una observación extrema es apropiado usar la mediana en vez de la media para describir una serie de datos.


• Para calcular la mediana de una serie de datos recolectados en su forma sin procesar, primero debemos poner los datos en una clasificación ordenada. Después usamos la fórmula de punto de posicionamiento:

• Para encontrar el lugar de la clasificación ordenada que corresponde al valor de la mediana, se sigue una de las dos reglas: 1: Si el tamaño de la muestra es un número impar, la mediana se representa mediante el valor numérico correspondiente al punto de posicionamiento, la observación ordenada es (n+1)/2. 2: Si el tamaño de la muestra es un número par entonces el punto de posicionamiento cae entre las dos observaciones medias de la clasificación ordenada. La mediana es el promedio de los valores numéricos correspondientes a estas dos observaciones medias.


GRACIAS


INSTITUTO DE EDUCACIÓN SUPERIOR PEDAGÓGICO PUBLICO JULIACA

ELABORADO POR: MAGALY KATERIN CONDORI TITO DOCENTE: ELIZABETH SUPAPUCA RODRIGEZ ESPECIALIDAS: CIENCIAS SOCIALES GRUPO:N°6


LA MEDIDA DE TENDENCIA CENTRAL LA MODA


La moda de una distribución se define como el valor de la variable que más se repite. En un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el punto más alto del gráfico. Una muestra puede tener más de una moda.


¿Cómo se saca el valor de la moda? Para encontrar la moda o valor modal, es mejor poner los números en orden. Luego cuenta cuántos hay de cada número. El número que aparece con mayor frecuencia es la moda.


EJEMPLOS DE MODA La moda se representa con las letras: Mo. Ejemplo 7

Calcular la moda de los siguientes datos: 11, 6, 7, 7, 4. Podemos ver que el valor que mรกs se repite es el 7, ya que tiene una frecuencia absoluta de 2, por lo tanto, Mo = 7.



las medidas de dispersión son números que indican si una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una característica de la variable estudiada.

RANGO El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población o muestra estadística. Su fórmula es: R = Máxx – Mínx Donde: •R → Es el rango. •Máx → Es el valor máximo de la muestra o población. •Mín → Es el valor mínimo de la muestra o población estadística. •x → Es la variable sobre la que se pretende calcular esta medida.

Principales medidas de dispersión Las medidas de dispersión más conocidas son: el rango, la varianza, la desviación típica y el coeficiente de variación (no confundir con coeficiente de determinación).

VARIANZA La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su media. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones. SU FORMULA:

•X → Variable sobre la que se pretenden calcular la varianza •xi → Observación número i de la variable X. i puede tomará valores entre 1 y n. •N → Número de observaciones. •x̄ → Es la media de la variable X.


Qué es

La desviación estándar es la medida de dispersión más común, que indica qué tan dispersos están los datos con respecto a la media. Mientras mayor sea la desviación estándar, mayor será la dispersión de los datos.

El símbolo σ (sigma)

Este símbolo se utiliza frecuentemente para representar la desviación estándar de una población, mientras que s se utiliza para representar la desviación estándar de una muestra.

El símbolo griego sigma (σ) mediante la siguiente fórmula:


Tiempos de egreso de un hospital

HOSTITAL 1

Los administradores dan seguimiento al tiempo de egreso de los pacientes tratados en las áreas de urgencia de dos hospitales. Aunque los tiempos de egreso promedio son aproximadamente iguales (35 minutos), las desviaciones estándar son significativamente diferentes. La desviación estándar del hospital 1 es de aproximadamente 6. En promedio, el tiempo para dar de alta a un paciente se desvía de la media (línea discontinua) aproximadamente 6 minutos.

HOSPITAL 2

La desviación estándar del hospital 2 es de aproximadamente 20. En promedio, el tiempo para dar de alta a un paciente se desvía de la media (línea discontinua) aproximadamente 20 minutos.




La varianza es una medida de dispersión que representa la variabilidad de una serie de datos respecto a su medida. Formalmente se calcula como la suma de los residuos al cuadrado divididos entre el total de observaciones. También se puede calcular como la desviación típica al cuadrado. Dicho sea de paso, entendemos como residuo a la diferencia entre el valor de una variable en un momento y el valor medio de toda la variable.


Fรณrmula para calcular la varianza La unidad de medida de la varianza serรก siempre la unidad de medida correspondiente a los datos pero elevada al cuadrado.

La varianza siempre es mayor o igual que cero. Al elevarse los residuos al cuadrado es matemรกticamente imposible que la varianza salga negativa. Y de esa forma no puede ser menor que cero.



¿Por qué se elevan al cuadrado los residuos? La razón por la que los residuos se elevan al cuadrado es sencilla. Si no se elevasen al cuadrado, la suma de residuos sería cero. Es una propiedad de los residuos. Así pues para evitarlo, tal como ocurre con la desviación típica se elevan al cuadrado. El resultado es la unidad de medida en la que se miden los datos pero elevada al cuadrado.


Por ejemplo, si tuviésemos datos sobre los salarios de un conjunto de personas en soles, el dato que arroja la varianza sería en soles cuadrados. Para que tenga sentido la interpretación calcularíamos la desviación típica y pasaríamos el dato a soles. 1.Desviación -> (2-3) = -1 2.Desviación -> (4-3) = 1 3.Desviación -> (2-3) = -1 4.Desviación -> (4-3) = 1 5.Desviación -> (2-3) = -1 6.Desviación -> (4-3) = 1 0


Ejemplo de cálculo de la varianza Vamos a acuñar una serie de datos sobre salarios. Tenemos cinco personas, cada uno con un salario diferente: Juan: 1.500 SOLES Pepe: 1.200 SOLES José: 1.700 SOLES Miguel: 1.300 SOLES Mateo: 1.800 SOLES La media del salario, la cual necesitamos para nuestro cálculo, es de ((1.500 + 1.200 + 1.700 + 1.300 + 1.800) /5) 1.500 SOLES. Dado que la fórmula de la varianza en su forma desglosada se formula como sigue:


El resultado es de 52.000 soles al cuadrado. Es importante recordar que siempre que calculamos la varianza tenemos las unidades de medida al cuadrado. Para pasarlo a soles, en este caso tendríamos que realizar la desviación típica. El resultado aproximado sería de 228 soles. Esto quiere decir que, en media, la diferencia entre los salarios de las distintas personas será de 228 soles.



MEDIDAS DE DISPERSIÓN: RANGO ESTADÍSTICO PRESENTADO POR: MELINA LAMPA CRUZ


Las medidas de dispersión tratan, a través del cálculo de diferentes fórmulas, de arrojar un valor numérico que ofrezca información sobre el grado de variabilidad de una variable. En otras palabras, las medidas de dispersión son números que indican si una variable se mueve mucho, poco, más o menos que otra. La razón de ser de este tipo de medidas es conocer de manera resumida una característica de la variable estudiada. En este sentido, deben acompañar a las medidas de tendencia central. Juntas, ofrecen información de un sólo vistazo que luego podremos utilizar para comparar y, si fuera preciso, tomar decisiones.

PRINCIPALES MEDIDAS DE DISPERSIÓN


RANGO ESTADÍSTICO El rango es un valor numérico que indica la diferencia entre el valor máximo y el mínimo de una población o muestra estadística. El rango suele ser utilizado para obtener la dispersión total. Es decir, si tenemos una muestra con dos observaciones: 10 y 100 euros, el rango será de 90 euros. Sobre todo en finanzas, el rango es muy útil para observar cuán grande podría llegar a ser una variación o cambio. Vale la pena mencionar también que, en no pocas ocasiones, el rango no es una medida fija. Por ejemplo, imaginemos que el crecimiento del producto interior bruto (PIB) de un país, ha estado entre el 3 y el 5% durante los últimos 20 años. El rango para estos datos, será del 2% pero esto no quiere decir que siempre vaya a ser ese. De modo que si en el año 21, el crecimiento es del -1%, el rango de los últimos 21 años, pasará del 2% al 6%




Instituto de educaci贸n superior pedag贸gico publico juliaca

TEMA: medidas de dispersi贸n (coeficiente de variaci贸n) NONBRE: LIDIA PATRICIA LLAVILLA MAMANI


Medidas de dispersiรณn


CONCEPTO Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un numero si las diferentes puntuaciones de una variable están muy alejadas de una media. Cuando mayor sea ese valor, mayor será la variabilidad, y cuanto menor sea. Mas homogénea será la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. Para calcular la variabilidad que una distribución tiene respecto a su media, se calcula la media de sus desviaciones de las puntuaciones respecto a la media aritmética, pero las suma de las desviaciones es siempre cero, así que se adopta dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto  (desviación media) y otra es tomando las desviaciones al cuadrado (varianza)


Características Las medidas de dispersión nos sirven para cuantificar la separación de los valores de una distribución Llamaremos DISPERCION O VARIABILIDAD, a la mayor o menor separación de los valores de la muestra, respecto de las medidas de centralización que hayamos calculado Al calcular una medida de centralización como es la media aritmética, resulta necesario acompañarla de otra medida que indique el grado de dispersión, el resto de valores de la distribución. Respecto de esta medida. A estas cantidades o coeficientes, les llamamos. MEDIDAS DE DISPERCION, pudiendo ser absolutas o relativas


RANGO • Es la medida de variabilidad mas fåcil de calcular. Para datos finitos o sin agrupar. El rango se define como la diferencia entre el valor mas alto (Xn o Xmax) y el mas (X1 o Xmin) en un conjunto de datos.


CARACTERISTICAS/PROPIEDAS El recorrido es la medida de dispersión mas sencilla de calcular e interpretar puesto que simplemente es la distancia entre los valores extremos (máximo y mínimo) en una distribución. Puesto que el recorrido se basa en los valores extremos este tiende ser errático. No es extraño que una distribución de datos económicos o comerciales incluya a unos pocos valores en extremos pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido mide solo la dispersión con respecto a esos valores anormales, ignorando a los demás valores de la variable. La principal desventaja del recorrido es que solo esta influenciado por los valores extremos, puesto que no cuenta con los demás valores de las variables, por tal razón siempre existe el peligro de que el recorrido ofrezca una descripción distorsionada de la dispersión.


Desviaciones típicas o estándar Es una medida de la cantidad típica en la que los valores del conjunto de datos difieren de la medida. Es la medida de dispersión mas utilizada, se le llama también desviación típica. La desviación estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima con respecto a este valor. Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva de esta. A la desviación se le representa por la letra mayúscula griega (sigma) o par letra S mayúscula, según otros analistas.


Características /propiedades La desviación estándar es siempre es un valor no negativo S será siempre ³ 0 por definición. Cuando S = 0 e X = xi (para todo i). Es la medida de dispersión optima por ser la mas pequeña. La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable. Si a todos los valores de la variable se le suma a una misma constante la desviación estándar no varia. Si a todos los valores de la variable se le multiplican por una misma constante, la desviación estándar queda multiplicada por el valor absoluto de dicha constante.


Varianza La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de referencia es la media aritmética de la distribución. Mas específicamente. La varianza es una medida de que tan cerca, o que tan lejos están los diferentes valores de su propia aritmética, cuando mas lejos están las Xi de su propia media aritmética, mayor es la varianza. Cuando mas cerca estén las Xi a su media menos es la varianza.


Características/propiedades S siempre un valor no negativo, que puede ser igual o distinta de 0. será 0 solamente cuando Xi = □ La varianza es la medida de dispersión cuadrática optima por ser la menor de todas  si a todos los valores de la variable se le suma una constante la varianza no se modifica


COEFICIENTE DE VARIACIÓN Se define como la relación por cociente entre la desviación estándar y la media aritmética; o en otras palabras es la desviación estándar expresada como porcentaje de la media aritmética  definición del coeficiente de variación Donde: C.V representa el numero de veces que la desviación típica contiene a la medida aritmética y por lo tanto cuando mayor es CV es mayor es la dispersión y menor la representativa de la media


alumna: janeth brenda mamani pampa


Concepto: A veces, en la investigación, nos interesa saber si existe una relación lineal entre dos variables aleatorias. Es por eso que utilizamos el análisis de regresión lineal. El coeficiente que nos permite obtener este dato es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre -1 y +1 (1). En los casos en los que el coeficiente de regresión lineal se acerque a +1 o -1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos como un modelado aceptable de la asociación entre las dos variables.


UN EJEMPLO DE LA UTILIZACIÓN DEL ANÁLISIS DE REGRESIÓN LINEAL Pongamos que necesitamos realizar una investigación para una empresa. Esta quiere saber la relación entre las ventas de una empresa y sus gastos en publicidad. ¿Qué podemos hacer? El análisis de regresión lineal nos permite saber en qué grado los gastos en publicidad explican la variable ventas. Así, esta última variable será la variable dependiente del modelo, mientras que la variable explicativa o independiente serán los gastos en publicidad.


EL ERROR ESTÁNDAR DE ESTIMACIÓN Así, en los casos reales, los ajustes absolutos del modelo a la realidad no se dan. Es por eso que existe una medida que describe cómo de precisa es la predicción de Y en función de X. O, al revés, lo inexacta que puede ser la estimación.


SUPUESTOS DEL MODELO DE REGRESIร N LINEAL Si nuestras observaciones son una muestra aleatoria que viene de una poblaciรณn, entonces nos interesa realizar inferencias sobre la misma.


GRUPO: 13


El coeficiente de determinación es una medida estadística de la bondad del ajuste o fiabilidad del modelo estimado

a los datos. Se representa por R2 e indica cuál es la proporción de la variación

total

en

la

variable

dependiente (Y), que es explicada por el modelo de regresión estimado, es decir, mide la capacidad explicativa del

modelo estimado.


Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1. Cuanto más cerca de 1 se sitúe su

valor, mayor será el ajuste del modelo a la variable que estamos intentando explicar. De forma inversa, cuanto más cerca de

cero, menos ajustado estará el modelo y, por tanto, menos fiable será.


En

primer

lugar,

analizaremos numerador,

el es

decir,

la

parte de arriba. La primera diferencia es que la Y lleva un circunflejo o, lo que los profesores llaman de forma

didáctica,

“sombrerito”.

Ese

sombrerito lo que detalla es que esa Y es la estimación de un modelo sobre lo que según

las variables explicativas vale Y, pero no es el valor real de Y, sino una estimación de Y.


En segundo lugar, faltaría dividir entre T. Que, en otros casos, se nota como

N o número de observaciones. Sin embargo, dado que la fórmula del denominador

también

la

llevaría,

eliminamos los denominadores (parte de abajo) de ambas fórmulas para simplificar

la

expresión.

De

esta

manera es más fácil trabajar con ella.


A continuaciĂłn, vamos a realizar el mismo anĂĄlisis con la parte del denominador

(parte de abajo). En este caso, la Ăşnica diferencia existente respecto a la fĂłrmula

original

de

la

varianza

es

la

ausencia de su denominador. Es decir, no dividimos entre T o N.


El problema del coeficiente de determinación, y razón

por el cual surge el coeficiente de determinación ajustado, radica en que no penaliza la inclusión de

variables explicativas no significativas. Es decir, muchos

expertos

económetras,

estadísticos

y

matemáticos se oponen al uso del R cuadrado como medida representativa de la bondad del ajuste real.


El coeficiente de determinaciรณn ajustado (R

cuadrado ajustado) es la medida que define el porcentaje explicado por la varianza de la

regresiรณn en relaciรณn con la varianza de la variable explicada. Es decir, lo mismo que el R cuadrado, pero con una diferencia. Esa diferencia se encuentra en que el coeficiente de

determinaciรณn

ajustado

inclusiรณn de variables.

penaliza

la


Cรณmo

hemos

dicho

anteriormente

el

coeficiente de determinaciรณn de un modelo aumenta

aunque

las

variables

que

incluyamos no sean relevantes. Ya que esto

supone

un

problema,

para

intentar

solventarlo el R cuadrado ajustado queda tal que:


Donde N es el tamaño de la muestra y k el número

de

variables

explicativas.

Por

deducción matemática, a valores más altos

de k, más alejado estará el R cuadrado ajustado del R cuadrado normal. Al revés a valores más bajos de k, más cerca estará de

1 la fracción central

y, por tanto,

más

parecidos serán el R cuadrado ajustado y el R cuadrado normal.


PRUEBA DE HIPOTESIS PRESENTADO POR: JOHN CRISTIAM QUISPE MALDONAD

CIENCIAS SOCIALES VII “B”


Concepto.

Una hipótesis de investigación representa un elemento fundamental en el proceso de investigación. Después de formular un problema, el investigador enuncia la hipótesis, que orientará el proceso y permitirá llegar a conclusiones concretas del proyecto que recién comienza.

También una prueba de hipótesis es una regla que especifica cuando se puede aceptar o rechazar una afirmación sobre una población dependiendo de la evidencia proporcionada por una muestra de datos. ... Basándose en los datos de la muestra, la prueba determina cuando rechazar la hipótesis nula

2


Características

      

Siempre es sobre parámetros (características poblacionales). El juego de hipótesis es de dos, la H0, llamada "nula" y la H1, o "alternativa". Se corre el riesgo de alguno de los dos Tipos de Error. El investigador solamente puede fijar la probabilidad del Error Tipo I. Supone temporalmente que la H0 es cierta. Se basa en la distribución estadística de la variable que se va a medir. La decisión se basa en los estimadores de los parámetros que se calculan con la información muestral.

3


Ventajas y desventajas en una prueba de hipotesis Ventajas 1. Con la hipรณtesis tenemos algo para probar, en lugar de un secreto por descubrir.

2. 2.

Una hipรณtesis aumenta la posibilidades de descubrir secretos.

3. 3. Con una hipรณtesis es mรกs fรกcil llevar adelante un proyecto

4. 4. Las hipรณtesis son herramientas que pueden utilizarse una y otra vez

Desventajas 1. Las hipรณtesis pueden

ser peligrosas; Tener cuidado con las historias falsas. Pueden ser mal utilizada y ademรกs podemos terminar en la cรกrcel. Es decir, sin fundamento, ninguna hipรณtesis es verdadera, aunque nosotros en lo mรกs รญntimo la creamos cierta.

2. El el peor de los casos: al probar la hipรณtesis nos

damos cuenta de que no hay una hisotira y que el proceso se puede cerrar sin mayor gasto de recursos.

4


Pasos para realizar una prueba de hipotesis

a. Especificar las hipótesis. En primer lugar, el gerente formula las hipótesis.

a. Elegir un nivel de significancia (también denominado alfa o α). El gerente selecciona un nivel de significancia de 0.05, que es el nivel de significancia más utilizado.

a. Determinar la potencia y el tamaño de la muestra para la prueba. El gerente utiliza un cálculo de potencia y tamaño de la muestra para determinar

a. Recolectar los datos. Recoge una muestra de tubos y mide los diámetros.

a. Comparar el valor p de la prueba con el nivel de significancia. Después de realizar la prueba de hipótesis, el gerente obtiene un valor p

a. Decidir si rechazar o no rechazar la hipótesis nula. El gerente rechaza la hipótesis nula y concluye

5


Integrante; Lizeth Ada vilca Arapa


Tipos de errores El error que se comete cuando se rechaza una H0 verdadera se conoce como error del tipo I (α). EI error del tipo II (β) se comete cuando no se rechaza una H0 falsa. Siempre que se rechaza una H0 se tiene el riesgo de cometer un error del tipo I, al rechazar una H0 verdadera; y siempre que no se rechaza, existe el riesgo de no rechazar una H0 falsa.

Tipo de error 1 (error alfa)

 Se concluye que hay diferencias cuando realmente no las hay.  Se detecta significancia estadística p< 0.05 y se rechaza la H0 cuando en realidad es verdadera.


Tipo de error 2 (error beta)

Los resultados NO son significativos (p>0.05) y se concluye que no hay diferencias, cuando realmente SI las hay y se acepta la H0 cuando en realidad es falsa. Un error de Tipo II ocurre si nos equivocamos al rechazar el nulo cuando no es cierto. Es el caso de un falso negativo— como una alarma que falla y no suena cuando existe un fuego.


Reducir el riesgo de errores estadísticos Los estadísticos llaman al riesgo, o probabilidad, de cometer un error de Tipo I “alfa,” igual que el “nivel de significación”. En otras palabras, es la voluntad de arriesgarse rechazando la hipótesis nula cuando es cierta. Alfa normalmente se pone a 0.05, que es una posibilidad del 5 por ciento de rechazar la hipótesis nula cuando es cierta. Cuanto más pequeña sea alfa, menor es el riesgo de rechazar la hipótesis nula incorrectamente. En situaciones de vida o muerte, por ejemplo, una alfa de 0.01 reduce la probabilidad de un error Tipo I a justo un 1 por ciento.

Un error de Tipo II está relacionado con el concepto de “potencia”, y la probabilidad de cometer este error se refiere como “beta”. Podemos reducir nuestro riesgo de cometer un error Tipo II asegurando que nuestro test tiene suficiente potencia—lo que depende de si el tamaño de la muestra es suficientemente grande para detectar una diferencia cuando ésta existe.




Uno de los propósitos de la prueba de hipótesis es ayudar en la toma de decisiones. En general, la decisión práctica (la razón por la cual se hizo la prueba) depende de la decisión estadística. Si se rechaza H0, la decisión práctica generalmente refleja el hecho de que la H1 es compatible. Se cumple lo opuesto si no se rechaza la H0. Sin embargo, en la práctica esto puede tener otras alternativas, como la decisión de reunir más datos Sin embargo, en este punto es necesario destacar que el resultado de la estadística de prueba sólo es una parte de la evidencia que influye sobre la decisión final, es decir; la decisión práctica. La decisión estadística no debe interpretarse como definitiva, sino considerarse junto con toda la demás información importante de que disponga el experimentador. Con base en estos comentarios se estudian a continuación pruebas de hipótesis especificas más comunes. 1.Cuando el muestreo se realiza a partir de una población de valores que siguen una distribución normal con varianza conocida; a este respecto, pueden darse 3 casos a saber:

2.Cuando el muestreo se realiza a partir de una población con distribución normal y con varianza desconocida, y 3.Cuando el muestreo se realiza a partir de una población que no presenta una distribución normal (no la veremos, por ahora).


Planteamiento de una hipótesis para probar una media (µ). Aunque la teoría para las condiciones 1 y 2 depende de poblaciones con distribución normal, es una práctica común aplicar la teoría cuando las poblaciones importantes solo están distribuidas en forma aproximadamente normal. Esto es satisfactorio siempre que la desviación de la normalidad es moderada.

Estadísticos de prueba según la varianza, cuando esta es conocida se usa la distribución z, cuando no lo es; se usa la distribución t de Student.

Cuando la desviación estándar (σ) es desconocida, se utiliza la desviación estándar muestral (s) en su lugar. Y la distribución de t de Student se utiliza como estadístico de prueba. Vea la figura:


Cuando el valor de la muestra es grande (30 o mas) el valor estadĂ­stico de la prueba es Z y se determina a partir de:

Se utiliza el valor estadĂ­stico t.


La dirección de la prueba involucra proposiciones que comprenden las palabras “ha mejorado”, “es mejor que”, y el cómo dependerá sobre la variable que esté siendo medida. Por ejemplo, si la variable involucra tiempo para que un cierto medicamento haga efecto, las palabras “mejor” “mejore” “o más efectivo” se traducen como “<” (menos que, i.e. alivio menos rápido). Por otro lado, si la variable se refiere a un resultado de una prueba, entonces las palabras “mejor” “se mejora” o “más efectiva” se traducen como “>” (más grande que, i.e. resultados del examen más altos).



INSTITUTO DE EDUCACIÓN SUPERIOR PEDAGÓGICO PÚBLICO DE JULIACA

“Año de la Universalización de la Salud”

TRABAJO ENCARGADO DE: ETAPAS DE LA PRUEBA DE HIPOTESIS:DIFERENCIA DE MEDIAS CURSO:INVESTIGACION APLICADA III DOCENTE DEL CURSO: ELIZABETH L. SUCAPUCA RODRIGUEZ ESTUDIANTE: WILSON ALFREDO YANQUI TINTAYA CARRERA: CIENCIAS SOCIALES CICLO: VII


ETAPAS DE LA PRUEBA DE HIPOTESIS:DIFERENCIA DE MEDIAS

El investigador desea saber si el nivel medio de “Considero que el estudio de la estadística va a ser fundamental para mi futuro profesional” que muestra el alumnado hacia la estadística es el mismo entre los chicos que entre las chicas. La hipótesis del investigador es que el sexo influye en la mayor o menor disposición del alumnado a sentirse cómodo trabajando en esta materia. Desea probar su hipótesis con una probabilidad de error no superior a 0,05.


DIFERENCIA DE MEDIAS ETAPAS DEL CONTRASTE DE HIPÓTESIS 1. H0 e H1

H0: μA- μB=0 o bien μA=μB

El promedio de “Considero …” de los chicos es el mismo que el de las chicas.

No hay diferencias estadísticamente significativas en “Considero …” entre chicos y chicas.

H1: μA ≠ μB

El promedio de “Considero …” de los chicos es diferente al de las chicas.


DIFERENCIA DE MEDIAS ETAPAS DEL CONTRASTE DE HIPÓTESIS 2. Elección de la Prueba Estadística VD: “Considero …”  Datos medidos a nivel de intervalo. VI: Sexo Dos grupos independientes de N>30. Por tanto, PRUEBA t DE DIFERENCIA DE MEDIAS (William GOSSET)  Modelo Z o R.C. para dos muestras grandes e independientes.

zi

 X 

A

 X B  H0

 dif


DIFERENCIA DE MEDIAS ETAPAS DEL CONTRASTE DE HIPÓTESIS

3. Especificación del Nivel de Error(α) Nivel de significación: α=0,05. 4. Definición de la Distribución Muestral La distribución muestral es una distribución de probabilidad, que se forma con los valores de zi obtenidos de infinitas muestras aleatorias de la misma población, todas del mismo tamaño que la del problema de investigación.


DIFERENCIA DE MEDIAS ETAPAS DEL CONTRASTE DE HIPÓTESIS 5. Zona de Rechazo/aceptación de la(s) H0 La zona de rechazo de H0 está formada por todos los valores de la distribución muestral cuya probabilidad, si H0 es verdadera, sea ≤ 0,05. Puesto que H1 no indica la dirección de la diferencia, la zona de rechazo está situada en ambos extremos de la distribución que incluye todos los valores de diferencias cuya probabilidad sea ≤ 0,05.


PRESENTADO POR : HERNAN ZENTENO USCAMAYTA


La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. TIPO DE CORRELACIÓN. 

CORRELACIÓN DIRECTA

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.


CORRELACIÓN INVERSA

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.


CORRELACIÓN NULA La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.


GRADO DE CORRELACIÓN. El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

Correlación fuerte La correlación será fuerte cuanto más cerca esté los puntos de la recta.


Correlación débil

La correlación será débil cuanto más separados estén los puntos de la recta.


El coeficiente de correlaciĂłn lineal es el cociente entre la covarianza y el producto de las desviaciones tĂ­picas de ambas variables.

El coeficiente de correlaciĂłn lineal se expresa mediante la letra r.


Como se calcula la correlación. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

Es decir: Numerador: Se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x, y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. Denominador Se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.


PRUEBAS DE INDEPENDENCIA Una prueba de independencia usa la pregunta de si la ocurrencia del evento X es independiente a la ocurrencia del evento Y, por lo que el planteamiento de las hipótesis para esta prueba de independencia es; H0; La ocurrencia del evento X es independiente del evento Y. ¿QUÉ ES LA PRUEBA DE INDEPENDENCIA? Es una prueba estadística, no paramétrica que busca probar si dos variables tienen algún grado de relación o si son completamente independientes. ¿Qué mide la prueba de independencia? La prueba de independencia cuadrado (chi-cuadrado) contrasta la hipótesis de que las variables son independientes, frente a la hipótesis alternativa de que una variable se distribuye de modo diferente para diversos niveles de la otra.


Hipótesis nula de independencia: para toda combinación de resultados de las variables fila y columna (i, j). H0: pij = pi· p·j para todo i = 1, ..., k j = 1, .., m La hipótesis alternativa, que implica dependencia, se puede formular diciendo que alguna de las igualdades de la hipótesis nula es falsa. Los valores observados son nij. Los valores esperados bajo la hipótesis nula de independencia se calculan de la manera siguiente: eij = N · pij = N · pi· · p·j = N · (ni·/N ) · (n·j/N ) = (ni· · n·j )/N El estadístico de contraste se calcula de la manera habitual:


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.