Libro completo pdf estadistica

Page 1

UNIVERSIDAD NACIONAL DEL CALLAO FACULTAD DE CIENCIAS ADMINISTRATIVAS INSTITUCION DE INVESTIGACION INFORME FINAL DE PROYECTO DE INVESTIGACION

TITULADO: “TEXTO: ESTADISTICA BASICA PARA ESTUDIANTES DE ADMINISTRACION, ECONOMIA Y CONTABILIDAD”. AUTOR: ECO. SIMÓN BENDITA MAMANI

(PERIODO DE EJECUCION: Del 01 de Abril del 2010 al 31 de Marzo del 2012 Aprobado mediante Resolución Rectoral No.452-10R.)

MARZO DEL 2012

CALLAO- PERU


ÍNDICE DE CONTENIDO

PREFACIO--------------------------------------------------------------------------------------IV CAPITULO I 1.1

HISTORIA DE LA ESTADÍSTICA ---------------------------------------------- 1

1.2

CONCEPTOS GENERALES DE ESTADÍSTICAS ----------------------- 4

1.3

DIVISION DE LA ESTADISTICA ------------------------------------------------ 6

1.4

LINEAMIENTOS PARA LA PRESENTACIÓN DE CUADROS ESTADÍSTICOS ------------------------------------------------------ 8

1.5

COBERTURA TEMÁTICA DE LA INFORMACIÓN ESTADÍSTICA- 10

1.6

CONTENIDO DE LA PUBLICACIÓN ESTADÍSTICA-------------------- 10

1.7

NOTACIÓN DE SUMA --------------------------------------------------------- 12

CAPITULO II 2.1

PRESENTACIONES DE LAS TABLAS: ------------------------------------- 19

2.2

TIPOS DE TABLAS DE FRECUENCIA -------------------------------------- 19

CAPITULO III 3.1

REPRESENTACIONES GRAFICOS ----------------------------------------- 23

3.2

GRÁFICOS DE PUNTOS -------------------------------------------------------- 23

3.3

GRÁFICOS DE TALLO Y HOJA ---------------------------------------------

24

3.4

DIAGRAMAS DE BARRAS ----------------------------------------------------- 25

3.5

OTROS TIPOS DE GRAFICAS --------------------------------------------- 27

CAPITULO IV 4.1

ESCALAS DE MEDICIÓN ----------------------------------------------------- 35

4.2

SITUACIONES DE LAS ESCALAS DE MEDICIÓN ------------------

36

4.3

TIPOS DE VARIABLES ------------------------------------------------------

38

4.4

DATOS ----------------------------------------------------------------------------

39

4.5

ORDENACION DE DATOS--------------------------------------------------

40


CAPITULO V 5.1 .DISTRIBUCIONES DE FRECUENCIA-------------------------------------------

41

5.2 INTERVALOS DE CLASE Y LÍMITES DE CLASE ----------------------

42

5.3 TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE -----------

43

5.4 REGLAS GENERALES PARA CONSTRUIR LAS DISTRIBUCIONES DE FRECUENCIAS POR INTERVALOS----------

46

CAPITULO VI 6.1

MEDIDAS DE TENDENCIA CENTRAL ---------------------------------

50

6.2

TENDENCIA CENTRAL ----------------------------------------------------

51

CAPITULO VII 7.1

CUANTILES ----------------------------------------------------------------------

72

7.2

TIPOS DE CUANTILES

----------------------------------------------------

72

8.1

MEDIDAS DE DISPERSIÓN -------------------------------------------------

76

8.2

DESVIACIÓN MEDIA ABSOLUTA ---------------------------------------

76

8.3

VARIANZA ----------------------------------------------------------------------

77

8.4

DESVIACIÓN ESTÁNDAR -------------------------------------------------

78

8.5

SIMETRÍA ----------------------------------------------------------------------

79

8.6

CURTOSIS ---------------------------------------------------------------------

80

8.7

OTRAS CONSIDERACIONES DE LAS MEDIDAS DE

CAPITULO VIII

DISPERSIÓN ABSOLUTAS ------------------------------------------------

82

CAPITULO IX 9.1

MEDIDAS DE FORMA --------------------------------------------------------

89

9.2

MEDIDAS DE CONCENTRACIÓN ---------------------------------------

92

9.3

PROBLEMAS RESUELTOS Y PROPUESTOS -------------------------

95

BIBLIOGRAFIA -------------------------------------------------------------------------

141


iv

PREFACIO Al realizar el presente texto es debido a la inquietud de los estudiantes que llevan el curso de estadística básica con el propósito de poner a disposición del estudiante y docente de las especialidades de administración, economía y contabilidad. Las estadísticas

siempre han sido importantes para las ciencias y para la

tecnología de diferentes materias y lo serán aun mas para aquellos docentes que están compenetrados en la investigación del conocimiento moderno. La motivación de sacar a la luz pública de este libro es precisamente para ofrecer una primera descripción de lo que ha sido, el que hacer del curso de estadística en las facultades de administración, economía y contabilidad, que permita realizar una reflexión de la importancia de las estadísticas en la aplicación y formación profesional. Se decidió hacer este libro solamente una introducción para realizar estudios más pormenorizados sobre el curso de estadística básica para de esta forma buscar una mayor proyección de nuestro estudio. La asignatura de estadística básica considerado base fundamental en sus estudios, dado que es el inicio de los conocimientos para su desarrollo de las asignaturas siguientes a estudiar como estadística aplicada a la empresa. El texto de estadística básica para los estudiantes de administración economía y contabilidad, constituirá como guía para elevar el nivela académico El desarrollo del texto de estadística básica se considera importante porque permite. 1. Establecer un adecuando contenido temático en el curso de estadística básica para los estudiantes de administración, economía y contabilidad, a fin de elevar el nivel académico para su formación profesional. 2. Aplicar una metodología estandarizada en la enseñanza a de la estadística básica para los estudiantes de de administración economía y contabilidad.


3. El presente texto estadística básica para estudiantes de administración economía y contabilidad es un texto básico que expone de manera sucinta los temas teóricos correspondiente a la historia de la estadística, definiciones de diferentes autores, tipos de tablas, representaciones graficas, como realizar la distribución de frecuencias, las medidas de centralización o tendencia central tanto para datos agrupados y no agrupados; y finalmente las medidas de dispersión y asimetría. los capítulos desarrollados, se realiza de manera didáctica y sencilla ,donde el estudiante pueda comprender y aplicar en la vida cotidiana como en el campo profesional , en algunos casos se hará uso de las leyes y principios estadísticos que se requieren sobre todo para resolver los diferentes tipos de problemas que se presentan, de esta manera el alumno obtendrá una solución inmediata a los problemas de estadística.


CAPITULO I 1.1

HISTORIA DE LA ESTADÍSTICA La historia nos narra, que desde que el hombre empezó a comunicarse

por medio de lenguaje escrito, los pueblos del continente africano se destacaron por hacer algunas anotaciones de mucha importancia en su diario convivir. Así, podemos destacar: Al español Confucio (551-479) A.D.C llevaba registros referentes a la producción agrícola, al comercio, etc. Les cupo la gloria a los chinos, desde la época del sabio Kung-futsé (2500 A.D.C.) que hicieron recolecciones. Los egipcios (2500 años A.D.C.) cuando se encontraban gobernados por los faraones, establecieron los márgenes del río Nilo. Estos, cada vez que se producían las grandes inundaciones provocadas por el desbordamiento de dicho río, ordenaban a los sacerdotes (sabios del palacio) a que realizaran las respectivas mediciones de las tierras afectadas, a fin de que sus propietarios pagaran el impuesto sólo de lo que les quedaba. También fueron los griegos los y los romanos que en sus frecuentes acciones bélicas, cuantificaban: soldados, vituallas, caballos, provisiones de armas, como: lanzas, escudos, arcos, etc. En el continente americano, se destacan los pueblos: maya, azteca e inca. Así, los primeros tenían el calendario igual que los egipcios y los chinos, y los incas racionaban los excesos de las cosechas para épocas que había escasez. Se considera como fundador de la estadística a Godofredo Achenwall ( 1719 – 1772), economista alemán, quien siendo profesor de la universidad de Leipzig, escribió el descubrimiento de una nueva ciencia que el mismo llamó Estadística. "Se dice que el análisis estadístico se inició con los estudios de un tendero inglés, John Graunt (1620 –1674), quien intentó analizar las causas de las defunciones en Londres alrededor de la primera mitad del siglo XVII.

1


Después de este sencillo inicio muchos matemáticos, algunos muy famosos como: Laplace (1749 – 1827 y Gauss (1777- 1855) hicieron constantes contribuciones a las ideas básicas de esta ciencia. Además, el análisis de los datos numéricos es fundamental en tantos campos, que bien se podría elaborar una larga lista de científicos, en áreas como: la biología, la geología, la genética, que han contribuido ampliamente en este estudio. Por citar: Charles Darwin (1809 – 1882 ), Gregory Mendel ( 18221884, Karl Pearson (1857 – 1936). Es de anotar que Adrenwall y sus seguidores estructuraron los métodos estadísticos; los mismos que al inicio estuvieron orientados a: investigar, medir y comparar las riquezas las naciones. Como dijera Huntsberger: "La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas, de volúmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, deudas, créditos y así sucesivamente. Huntsberger tiene razón pues al instante de escuchar esta palabra estas son las imágenes que llegan a nuestra cabeza. La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. Se nombran entre los más destacados clientes de ésta. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales.

2


¿Qué es la estadística? Esta palabra derivada de Staat, que significa gobierno, su fundador la definió como "el conocimiento profundo de la situación respectiva y comparativa de cada estado". Conocemos que desde la más remota antigüedad el concepto de estadística se identificó con el de "ciencia de los números y de las figuras". Muchos la llaman como "la representación del pensamiento científico", puesto que se basa en la investigación para llegar a conclusiones, análisis, interpretaciones, abstracciones, deducciones, etc. Pero también la concebimos como una ciencia auxiliar de otras disciplinas, sin su aplicación no podríamos orientar muchos aspectos. Es decir es el hilo conductor en todos los campos. ¿Para qué conocer esta ciencia? La mayoría de las personas estamos familiarizadas con frases como éstas: Los salarios de los militares aumentan en un 30%. El partido triunfador en las elecciones próximas pasadas superó a lo que informaban las encuestadoras. Por el fenómeno del niño tenemos que importar tales alimentos. El rendimiento de los alumnos en esta materia esta por debajo de lo normal. 10 de cada 100 niños sufren problemas respiratorios. En este planeta el promedio de vida es de 70 años. La gran mayoría de emigrantes son de sexo masculino. Todos los días experimentamos, manipulamos símbolos y palabras. Hasta emitimos juicios de valor que seguro se basan en algo para una información cualquiera; pero para una información estadística debemos estar ligados al método estadístico, en su forma, organización, recopilación, presentación y análisis de datos.

3


1.2

CONCEPTOS GENERALES DE ESTADÍSTICAS

Esta palabra derivada de Staat, que significa gobierno, su fundador la definió como "el conocimiento profundo de la situación respectiva y comparativa de cada estado". Conocemos que desde la más remota antigüedad el concepto de estadística se identificó con el de "ciencia de los números y de las figuras". Muchos la llaman como "la representación del pensamiento científico", puesto que se basa en la investigación para llegar a conclusiones, análisis, interpretaciones, abstracciones, deducciones, etc. Pero también la concebimos como una ciencia auxiliar de otras disciplinas, sin su aplicación no podríamos orientar muchos aspectos. Es decir es el hilo conductor en todos los campos. Todos los días experimentamos, manipulamos símbolos y palabras. Hasta emitimos juicios de valor que seguro se basan en algo para una información cualquiera; pero para una información estadística debemos estar ligados al método estadístico, en su forma, organización, recopilación, presentación y análisis de datos. Al respecto a continuación realizamos algunas definiciones de Estadística: La Estadística es una ciencia que nos proporciona un método importante para la toma de decisiones y resolver problemas en forma sistemática y reproducible, a diferencia de otros métodos que difícilmente pueden ser explicados o reproducidos hasta por la misma persona que lo ejecuta. Por lo anterior es importante analizar detenidamente cada uno de los conceptos en los que se fundamenta ésta para lograr acercarnos profundamente a su conocimiento. La estadística es una ciencia que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo

4


estadística es más que eso, en otras palabras es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica. La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e interpretación de datos numéricos con el fin de realizar una toma de decisión más efectiva. La estadística es una ciencia que estudia la recolección, análisis e interpretación de datos, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadística es más que eso, en otras palabras es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica. Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para el escrutinio y análisis. La más aceptada, sin embargo, es la de Mínguez, que define la Estadística como “La ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad, deducir las leyes que los rigen y hacer su predicción próxima”. Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular y en masculino, se refiere a una medida derivada de una muestra. Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir datos numéricos. La estadística

5


descriptiva, por ejemplo trata de la tabulación de datos, su presentación en forma gráfica o ilustrativa y el cálculo de medidas descriptivas. Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones. 1.3

DIVISION DE LA ESTADISTICA

La estadística se divide en dos grandes áreas: 

La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clústers, entre otros.

La estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características

numéricas

observaciones,

(estimación),

descripciones

de

pronósticos

asociación

de

futuras

(correlación)

o

modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de tiempo y minería de datos.

6


POBLACIÓN (N).- Conjunto de individuos, objetos, o fenómenos a observar y que tienen alguna característica en común y que son motivo de una investigación. Por ejemplo: Habitantes del Ecuador, Las aves de nuestro archipiélago. Universo de lagos. La población puede ser finita o infinita: En los ejemplos anteriores. ¿Cuál es finito y cual ejemplo pertenece a una población infinita? MUESTRA (n).- Es el subconjunto de una población, es un pequeño universo. Se la usa cuando la población es infinita o sumamente grande y es imposible observar todos sus elementos. Ejemplo: Estatura de los empleados de una fábrica. Calificaciones de los alumnos matriculados en Estadística en la Modalidad de Estudios a Distancia ELEMENTO (e).- Se denomina a cada integrante de la población o muestra. En estadística un elemento puede ser algo con existencia real. Por ejemplo: un automóvil, o algo más abstracto, como un voto, la temperatura, el tiempo. También puede ser unidades naturales: obreros, turistas, empleados, emigrantes, etc. PARÁMETRO.- Conjunto de características (resultados), o valores numéricos cuando se han obtenido a partir de una población. Ejemplo: Edad promedio de los alumnos de la UNIVERSIDAD ESTADÍSTICO.- Conjunto de características (resultados) cuando se han obtenido a partir de una muestra. Ejemplo: Alcaldes de la ciudad de GUAYAQUIL.

DATOS.- Son medidas, valores, o variables, o características susceptibles de ser observados y contados.

7


DATO ESTADÍSTICO:.- Información numérica o cuantitativa que cumple ciertos requisitos (un dato aislado que no se integra o que no muestra relación significativa con otro, no es dato estadístico). VARIABLE ESTADÍSTICA.- Es el objeto en estudio de una determinada población. La misma que puede ser cualitativa y cuantitativa. VARIABLE CUALITATIVA.- Cuando las variables se expresan mediante una cualidad o característica. Aquellas que no se pueden medir. Ejemplo: Color de los ojos de un determinado sector. El sexo de los miembros de una familia. VARIABLE CUANTITATIVA.- Todo aquello que se puede medir o expresar mediante números. Ejemplo: Número de Diputados del Ecuador. Profesores de la U.T.P.L. Una variable cuantitativa puede ser: discreta y continua. VARIABLE DISCRETA.- Cuando toma valores enteros ( no toma valores entre dos números enteros). Ejemplo: Alumnos de la carrera de Comunicación social. Edad en años de los alumnos. VARIABLE CONTINUA.- Cuando puede tomar valores intermedios entre dos números enteros consecutivos. Ejemplo: El peso, el sueldo.

1.4

LINEAMIENTOS

PARA

LA

PRESENTACIÓN

DE

CUADROS

ESTADÍSTICOS

La información que se muestra en una publicación estadística deberá contar con ciertas características que reflejen la realidad que se pretende medir. Debe entenderse por información al conjunto de datos obtenidos a través de la medición, cuantificación y registro de los fenómenos y hechos demográficos,

8


sociales y económicos que suceden en un espacio y tiempo determinados. Es bueno recordar que esta información puede ser usada como un instrumento básico para la planeación y la toma de decisiones, soporte para la investigación o para el conocimiento en general, por lo que debe cumplir las siguientes características: a) Significación conceptual.- El concepto a cuantificar debe estar definido con claridad y precisión en el documento. b) Veracidad.- El dato, objeto de cuantificación, deberá ser obtenido directamente de las unidades generadoras de información y debe reflejar la realidad que pretende cuantificar, conforme a un marco conceptual y metodológico previamente definido y validado. c) Comparabilidad.- Independientemente de las fuentes que generan la estadística, los resultados que se obtengan deben ser congruentes entre ellos ya que su medición se debe desprender de esquemas conceptuales homogéneos; si no es así, debe existir notas aclaratorias. d) Oportunidad.- El tiempo entre el suceso, el registro del dato y la difusión de la información, debe ser el mínimo posible, a fin de que esta no pierda vigencia respecto de la realidad que describe o explica. e) Integralidad.- Los cuadros con información estadística deben contener todos los elementos básicos para facilitar su consulta e interpretación, relación precisa entre cifras y conceptos, uso de totales, incorporación de notas y llamadas técnicas y utilización de simbología homogénea. f) Criterios específicos para el manejo de los datos.- Parte importante de las características de la información la constituyen los criterios que deben ser utilizados en la integración y presentación de los datos estadísticos para obtener los resultados deseados. Los criterios específicos de los datos son aquellos que tienen que cumplirse para obtener trabajos homogéneos que faciliten la comprensión de la información por parte de los usuarios. Ejemplos: l Las cifras negativas deben tener el signo "menos" y no paréntesis. l Las cifras deben ser separadas en miles mediante un espacio. l Las llamadas de explicación deben ser colocadas siempre a la derecha de la palabra.

9


1.5

COBERTURA TEMÁTICA DE LA INFORMACIÓN ESTADÍSTICA

La integración y publicación de información estadística referida a los diversos ámbitos, sobre aspectos geográficos, sociales y económicos tiene como propósito orientar acciones e identificar los problemas básicos que requieren atención y solución. Bajo esta perspectiva, la información estadística que los organismos públicos integren o generen estará orientada a la siguiente cobertura temática, con la finalidad de manejar esquemas conceptuales comunes: Estadísticas geográficas.- Se refieren a las características generales del medio físico a través de mapas y cuadros con datos geográficos básicos. Estadísticas socio demográficas.- Corresponden a información relacionada con la población. Comprende apartados como demografía, empleo y previsión social, salud, educación, seguridad y orden público, entre otros, así como estadísticas sociales derivadas como pobreza, nutrición, hábitat, condiciones de vida, etc. Estadísticas económicas.- Comprenden información relacionada con el proceso de producción de bienes y servicios y de aquella que tiene algún tipo de relación con dicho proceso (insumos, personal ocupado, inversión, crédito, etc.). Generalmente consta de tres sectores económicos: extractivo (sector primario), transformación (sector secundaria) y servicios (sector terciario), los que a su vez se desagregan en ramas de actividad que deben seguir el orden de la clasificación de actividades vigente en el país. El conjunto de datos de esta temática está orientado a mostrar un panorama global del aparato productivo del país. Comprende también estudios transversales a varias actividades económicas tales como el turismo y medio ambiente. Dentro de este grupo, también se muestran las estadísticas económicas derivadas, tales como las relacionadas a las cuentas nacionales, precios, finanzas públicas, sector financiero y cuentas con el exterior, etc.

1.6

CONTENIDO DE LA PUBLICACIÓN ESTADÍSTICA

Para elaborar una publicación estadística debe considerarse lo siguiente: Diseño de páginas.- Al diseñar un cuadro se debe tener presente el área de impresión de la página, para que sea aprovechado totalmente, procurando que

10


no quede recargado ni escaso de información. Dependiendo del volumen de datos que contiene el cuadro estadístico, en una página puede incluirse un solo Cuadro. Asimismo puede presentarse un cuadro y un gráfico que destaque los datos de mayor impacto del fenómeno que presenta el cuadro. También pueden presentarse dos cuadros o incluirse comentarios. Numeración de cuadros.- Si hay varios cuadros en un capítulo, cada cuadro debe presentar el número del capítulo seguido de un punto y el número ascendente correspondiente. La numeración se anotará en el extremo superior izquierdo, en el mismo lugar del nombre del cuadro. Cuando el cuadro se fraccione, la numeración aparecerá en cada una de sus partes, acompañado del título. Presentación e introducción.- La presentación debe mencionar, breve y claramente, cuál es el propósito y fundamento de la publicación. Una gran parte de la presentación debe escribirse en tiempo presente. Se sugiere las siguientes reglas que debe observar una presentación:

• Presentar el título del documento y si es necesario la atribución normativa de la institución para elaborarlo. • Breve resumen del método o forma de recopilación de la información. • El propósito u objetivo de la publicación. • Opcionalmente, puede mencionarse el agradecimiento a las entidades o personas que proporcionaron información. La introducción consiste en la descripción del contenido de la publicación, conceptos y definiciones utilizados, grado de confianza de los datos, omisiones advertidas en las series, procedimientos empleados en las investigaciones y otros asuntos de interés para la correcta interpretación de las cifras. También, de ser el caso, menciona cualquier cambio en la metodología y cobertura geográfica respecto a publicaciones anteriores. Índice.- El índice contempla todas las partes de la publicación, que comprende la lista de capítulos y subcapítulos del documento. Contiene también la lista de anexos. Abreviaturas, signos y símbolos.- Es conveniente disponer de las abreviaturas, signos y símbolos convencionales que se aplican en toda la publicación. 11


Conceptos, definiciones, notas explicativas y comentarios: Al inicio de la publicación o de cada subdivisión de la misma, generalmente se incluye conceptos y definiciones, notas explicativas o comentarios referentes a los cuadros que se publican. Cuadros, gráficos y mapas Después de las notas explicativas o comentarios se coloca los cuadros, gráficos y en algunas ocasiones, mapas. Anexos En los anexos se incluye información que, por su volumen, se adjunta a fin de que sirva de material de consulta como por ejemplo: diseño muestral, normas legales, formatos, códigos o clasificaciones, tablas de conversión, directorios y otros. Créditos En este acápite se considerará el nombre y oficina de las personas que participaron

en

la

elaboración

del

documento,

según

el

grado

de

responsabilidad que hayan tenido durante el proceso.

1.7

NOTACIÓN DE SUMA

En la operación de adición o suma, se presenta con frecuencia en la estadística el símbolo  (sigma) para denotar “tomar la suma de”. A continuación se presenta un ejemplo donde se tiene un conjunto de valores n para alguna variable X. n

X i 1

i

,

esta expresión indica que estos n valores deben sumarse. Por

consiguiente: n

X i 1

i

 X 1  X 2  X 3  ...  X n

Ejemplo Se encuentran cinco observaciones para la variable X : X 1  2, X 2  0, X 3  1, X 4  5 y X 5  7 .Por lo tanto: 12


5

X i 1

i

 X 1  X 2  X 3  X 4  X 5  2  0  ( 1)  5  7  13

En estadística nos vemos involucrados muy a menudo con la suma de los valores al cuadrado de una variable. Por lo tanto. n

X i 1

2 i

 X 12  X 22  X 32  ...  X n2

5

i  1

 

2 4

79

i

0

2

X 2

0

2

X 

2

1

1

Y en nuestro ejemplo, tenemos:

(  1 )  25 

2

X

2

 49

2

X 2

5

2 3

 7

X

2 4

X

2 5

2

n

Se debe observar, aquí que

X i 1

igual

a

 n   XI   i 1 

 n  X   Xi   i 1  i 1  n

2 i

, la sumatoria de los cuadrados no es

2

,

el

cuadrado

de

la

suma,

esto

es

2

2 i

En nuestro ejemplo, la sumatoria de los cuadrados es igual a 79. Esto no es igual al cuadrado de la suma, cuyo resultado es 13 2  169 Otra operación que se utiliza con frecuencia implica la sumatoria del producto. Esto es, suponiendo que tenemos dos variables, X y Y, cada una con n observaciones. Entonces, n

XY i 1

i

i

 X 1Y1  X 2Y2  X 3Y3  ...  X nYn

Continuando con el ejemplo anterior, suponiendo que también se tiene una segunda variable Y cuyos valores son Y1  1, Y2  3, Y3  2, Y4  4 y Y5  3 13

Entonces,


5

X Y i 1

i

i

 X 1Y1  X 2Y2  X 3Y3  X 4Y4  X 5Y5

 (2)(1)  (0)(3)  ( 1)( 2)  (5)( 4)  (7)(3)  2  0  2  20  21  45 n

Al calcular

X Y i 1

debemos tomar en cuenta que el primer valor de X por

i i

el primer valor de Y más el segundo valor de X por el segundo de Y, y así sucesivamente. Estos productos cruzados luego se suman con el propósito de obtener el resultado deseado. Sin embargo, debemos observar en este punto que la sumatoria de productos cruzados no es igual al producto de las sumas individuales, es decir;  n  n  X Y  X    i   Yi  i i i 1  i 1  i 1  n

5

En nuestro ejemplo,

 X i  13 y i 1

 5  5    X i   Yi   (13)(9)  117  i 1  i 1 

5

Y i 1

i

 1  3  ( 2)  4  3  9 de modo que

n

. Esto no es lo mismo que

X Y i 1

i i

, que es

igual a 45.

Antes de estudiar las cuatro reglas básicas para efectuar operaciones con notación sigma, será de ayuda presentar los valores de cada una de las cinco observaciones de X y de Y en forma de tabla:

14


Observación

Xi

Yi

1

2

1

2

0

3

3

-1

-2

4

5

4

5

7

3

5

5

 X i  13

Y

i 1

i 1

i

9

Regla 1: La sumatoria de los valores de dos variables es igual a la suma de los valores de cada variable sumada.

n

n

n

i 1

i 1

i 1

  X i  Yi    X i   Yi En nuestro ejemplo: 5

 X i 1

i

 Yi   (2  1)  (0  3)  ( 1  ( 2))  (5  4)  (7  3)

 3  3  ( 3)  9  10  22 5

5

i 1

i 1

 X i  Yi  13  9  22

Regla 2: La sumatoria de una diferencia entre los valores de dos variables es igual a la diferencia entre los valores sumados de las variables. 15


n

n

n

i 1

i 1

i 1

 ( X i  Yi )   X i   Yi Por consiguiente, en nuestro ejemplo, 5

 X i 1

 Yi   (2  1)  (0  3)  (1  (2))  (5  4)  (7  3)

i

 1  (3)  1  1  4 5

5

i 1

i 1

 4   X i   Yi  13  9  4 Regla 3: La sumatoria de una constante por una variable es igual a la constante que multiplica a la sumatoria de los valores de la variable. n

 cX i 1

n

i

 c X i i 1

En la que c es una constante. Por tanto, en nuestro ejemplo, c =2 5

 cX i 1

5

i

  2 X i  (2)(2)  (2)(0)  (2)( 1)  (2)(5)  (2)(7) i 1

 4  0  ( 2)  10  14  26 5

2 X i (2)(13)  26 i 1

Regla 4: Una constante sumada n veces será igual a n veces al valor de la constante. n

 c  nc i 1

16


En la que c es una constante. Así pues, si la constante c =2 se suma cinco 7

 c  2  2  2  2  2  2  12 i 2

 ((7  2)  1) * (2)  12 5

 c  2  2  2  2  2  10 En el caso de

veces tendremos:

i 1

 (5 )( 2)  10

i1

que

entonces n = (valor final - valor inicial)+ 1

Para ilustrar cómo se utilizan las reglas de la sumatoria, podemos mostrar una de las propiedades matemáticas pertenecientes al promedio o media aritmética

 X  X   0 n

i

i 1

Esta propiedad establece que la sumatoria de las diferencias entre cada observación y la media aritmética es cero. Esto se puede probar matemáticamente de la siguiente manera: 1.- De la ecuación : n

x

X i 1

i

n

Así pues, utilizando la regla 2 de la sumatoria, tenemos:

 X n

i 1

i

 X    Xi   X n

n

i 1

i 1

2.- Puesto que, para cualquier conjunto fijo de datos,

X

Puede ser

considerada como una constante, de la regla 4 de la sumatoria tenemos: n

 X  nX i 1

 X n

Por consiguiente,

i 1

i

 X

n

X i 1

17

i

 nX


3.- Sin embargo, de la ecuación (4.1), puesto que: n

X

X i 1

n

i

después n X 

n

X i 1

i

 X n

Por consiguiente,

i 1

i

 X    Xi   Xi n

n

i 1

i 1

De esta manera se ha demostrado que:

 X n

i 1

i

 X 0

PROBLEMA Suponiendo que se tienen seis observaciones de las variables X y Y tales que X 1  2, X 2  1, X 3  5, X 4  3, X 5  1, X 6  2 yY1  4, Y2  0, Y3  1, Y4  2, Y5  7, Y6  3

Calcule cada una de las siguientes sumatorias.

6

6

a)  X i

b)  Yi

6

d)  Yi 2

i 1

i 1

6

c)  X i2 i 1

i 1

6

6

f)   X i  Yi 

e)  X iYi i 1

i 1

6

 X 6

g)   X i  Yi 

h)

i 1

i 1

18

i

 3Yi  2 X i2


CAPITULO II 2.1

PRESENTACIONES DE LAS TABLAS:

Una tabla es un cuadro que consiste en la disposición conjunta, ordenada y normalmente totalizada, de las sumas o frecuencias totales obtenidos en la tabulación de los datos, referentes a las categorías o dimensiones de una variable o de varias variables relacionadas entre sí. Las tablas sistematizan los resultados cuantitativos y ofrecen una visión numérica, sintética y global del fenómeno observado y de las relaciones entre sus diversas características o variables. En ella, culmina y se concreta definitivamente la fase clasificatoria de la investigación cuantitativa. 2.2

TIPOS DE TABLAS DE FRECUENCIA

Los tipos de tablas son: Tabla de entrada de datos: Es una tabla en la cual solo aparecen los datos que se obtuvieron de la investigación científica o del experimento. Es la tabla más sencilla y se utiliza cuando no se necesita mayor información acerca de los datos, estas tablas se construyen por medio de la tabulación de los datos, este procedimiento es relativamente sencillo, para realizarlo nos ocupamos de un conjunto de datos estadísticos obtenidos al registrar los resultados de una serie de n repeticiones de algún experimento u observación aleatoria, suponiendo que las repeticiones son mutuamente independientes y se realizan en condiciones uniformes, es importante decir que el resultado de cada observación puede expresarse de forma numérica, para este tipo de tablas de entrada de datos se puede trabajar con una ó mas variables, de manera que nuestro material estadístico consiste en n valores observados de la variable Xj. Los valores observados se suelen registrar, en primer lugar en una lista, si él numero de observaciones no excede de 20 ó 30, estos datos se registran en orden creciente de magnitud. Con los datos de esta tabla pueden hacerse diversas representaciones gráficas y calcularse determinadas características numéricas como la media, la mediana, etc. 19


EJ: Agrupar en una tabla de datos 10, 1, 6, 9, 2, 5, 7, 4, 3, 8 X 1 2 3 4 5 6 7 8 9 10

Tablas de frecuencias: Una tabla de frecuencia esta formada por las categorías o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribución de frecuencias. Esta tabla se crea por medio de la tabulación y agrupación, la cual es un método sencillo como lo habíamos empezado a ver en la tabla de datos, Se realiza el mismo procedimiento de tabulación anteriormente descrito si el numero de valores observados para la variable, se trabaja con una sola variable, descontando los repetidos son pequeños, si existen repetidos la frecuencia f es el numero de repeticiones de un valor de X dado, Sin embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algún tipo de agrupación como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupación son diferentes según sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de X en las observaciones. Para una variable continua, el procedimiento de agrupación es algo más complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga los n valores observados, y divídase el intervalo en cierto numero de intervalos de clase. Todas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y él numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias.

20


Estas clases de tablas son las mas usadas y brindan mayor información de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dará en forma abreviada, una información completa acerca de la distribución de los valores observados. Con estas se pueden utilizar mas a fondo los métodos gráficos al igual que los métodos aritméticos. Ej.: Agrupar en una tabla 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 5 X

F

1

2

2

4

3

3

4

1

5

1 S 11

Agrupar en una tabla las siguientes estaturas: 160, 168, 175, 183, 170, 164, 170, 184, 171, 168, 187, 161, 183, 175, 185, 186, 187, 164, 165, 175, 162, 188, 169, 163, 166, 172, 173, 167, 174, 176, 178, 179, 177

X

F

160-165 6 265-270 6

21


170-175 6 175-180 7 180-185 3 185-190 5 S 33

Tablas de doble entrada: También llamadas tablas de contingencias, son aquellas tablas de datos referentes a dos variables, formada, en las cabeceras de las filas, por las categorías o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o numero de elementos que reúnen a la vez las dos categorías o valores de las dos variables que se cruzan en cada casilla. Para la tabulación de un material agrupado

de

observaciones

simultaneas

de

dos

variables

aleatorias

necesitaremos una tabla descrita como anteriormente lo describimos, las reglas para agrupar son las mismas que en el caso de una sola variable. Este tipo de tablas brindan información estadística de dos eventos relacionados entre sí, es útil en casos en los cuales los experimentos son dependientes de otro experimento, mas adelante aparecen más aplicaciones del análisis estadístico . Ej.: T1/T2 SÍ

NO

12

2

NO

10

4

25

22


CAPITULO III REPRESENTACIONES GRAFICOS

3.1

Un diagrama es una especie de esquemático, formado por líneas, figuras, mapas, utilizado para representar, bien datos estadísticos a escala o según una cierta proporción, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificación. Entre las funciones que cumplen los diagramas se pueden señalar las siguientes: 

Hacen más visibles los datos, sistemas y procesos

Ponen de manifiesto sus variaciones y su evolución histórica o espacial.

Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlación entre dos o más variables.

Sistematizan y sintetizan los datos, sistemas y procesos.

Aclaran y complementan las tablas y las exposiciones teóricas o cuantitativas.

El estudio de su disposición y de las relaciones que muestran pueden sugerir hipótesis nuevas.

Algunos de los diagramas más importantes son el diagrama en árbol, diagrama de áreas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y hoja diagrama, histogramas y otros. 3.2

GRÁFICOS DE PUNTOS:

Es una variación del diagrama lineal simple el cual esta formado por líneas rectas o curvas, que resultan de la representación, en un eje de coordenadas, de distribuciones de frecuencias, este construye colocando en el eje x los valores correspondientes a la variable y en el eje de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente información con respecto a las frecuencias. Este se usa cuando solo se necesita información sobre la frecuencia. Cuando la muestra se agrupa por intervalos se trabaja con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo 23


EJ: Duración de tubos de neón X(horas) Xm

F

300-400 350

2

400-500 450

6

500-600 550

10

600-700 650

8

700-800 750

4 S 30

3.3

GRÁFICOS DE TALLO Y HOJA

Es una forma rápida de obtener una representación visual ilustrativa del conjunto de datos, para construir un diagrama de tallo y hoja primero se debe seleccionar uno ó más dígitos iniciales para los valores de tallo, el dígito o dígitos finales se convierten en hojas, luego se hace una lista de valores de tallo en una columna vertical. Prosiguiendo a registrar la hoja por cada observación junto al valor correspondiente de tallo, finalmente se indica las 24


unidades de tallos y hojas en algún lugar del diagrama, este se usa para listas grandes y es un método resumido de mostrar los datos, posee la desventaja que no proporciona sino los datos, y no aparece por ningún lado información sobre frecuencias y demás datos importantes. 3.4

DIAGRAMAS DE BARRAS

Nombre que recibe el diagrama utilizado para representar gráficamente distribuciones discretas de frecuencias no agrupadas. Se llama así porque las frecuencias de cada categoría de la distribución se hacen figurar por trazos o columnas de longitud proporcional, separados unos de otros. Existen tres principales clases de gráficos de barras: Barra simple: se emplean para graficar hechos únicos Barras múltiples: es muy recomendable para comprar una serie estadística con otra, para ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado de la otra Barras compuestas: en este método de graficacion las barras de la segunda serie se colocan encima de las barras de la primera serie en forma respectiva. El diagrama de barras proporciona información comparativa principalmente y este es su uso principal, este diagrama también muestra la información referente a las frecuencias Ej: CIUDAD

TEMPERATURA

A

12

B

18

C

24

25


TIENDA

Enero

Febrero Marzo

abril

mayo

Junio

A

800

600

700

900

1100

1000

B

700

500

600

1000

900

1200

26


3.5

OTROS TIPOS DE GRAFICAS

Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una representación gráfica, los sistemas de gráficos más usuales son: Diagrama de sectores El área de cada sector es proporcional a la frecuencia que se quiera representar, sea absoluta o relativa. Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente proporción: ni/N=/360 Como resulta ni /N = fi

, tendremos que   f i * 360

Este diagrama se utiliza para cualquier tipo de variable Histograma.- Es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.

27


Los histogramas son m谩s frecuentes en ciencias sociales, humanas y econ贸micas que en ciencias naturales y exactas. Y permite la comparaci贸n de los resultados de un proceso. Ejemplo:

Marca de clase o valor medio Se determina calculando el promedio entre los l铆mites inferior y superior. La marca de clase representa a todos los datos pertenecientes al intervalo de clase correspondiente Diagrama de escalera: se utiliza para frecuencias acumuladas. 28


Pictograma:

se suele utilizar para expresar un atributo. Se suelen utilizar

iconos que se identifiquen con la variable (ejemplo un coche) y su tamaño suele guardar relación con la frecuencia. Es un gráfico con dibujos alusivos al carácter que se está estudiando y cuyo tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele indicar. EJEMPLO:

¿En qué mes se plantaron menos árboles?, ¿y en cuál se hicieron más plantaciones?

Cartograma se representa mediante un diagrama convencional insertado en un mapa geográfico de una zona. Por ejemplo en un mapa de la Comunidad 29


Valenciana se puede utilizar el diagrama de tartas para representar la producción industrial, agrícola etc. Polígono de frecuencias, es la recta que une los extremos de las variables de una distribución, un ejemplo clásico es el de la evolución de la temperatura de un paciente

6 5 4 3 2 1 0 x1

x2

x3

x4

x5

Nota: Si la variable es cualitativa (rubio, moreno, alto bajo, etc.) se suelen utilizar más los diagramas de sectores o pictogramas

Para realizar el polígono unimos los puntos medios de las bases superiores del diagrama de barras o del histograma.

Si la variable es cuantitativa podemos tener dos casos: Variable discreta o variable continua. 30


En el primer caso: variable discreta utilizaremos sin no piden nada concreto, el diagrama de barras cuando se refiera a la representación gráfica de la frecuencia absoluta (ni)

10 5 0 x1

x2

x3

x4

x5

En cambio cuando nos estemos refiriendo a la frecuencia absoluta acumulada optaremos por el diagrama de escalera

En el segundo caso: la variable continua, optaremos por el histograma para las frecuencias absolutas y por el polígono de frecuencias en el caso de la frecuencia acumulada. Diagramas de caja: los pasos para construirlo son los siguientes: 

dibujar y marcar un eje de medida horizontal

construir un rectángulo cuyo borde izquierdo esta arriba del cuarto inferior y cuyo borde derecho esta arriba del cuarto superior

dibujar un segmento de recta vertical dentro de la caja arriba de la mediana

prolongar rectas desde cada extremo de la caja hasta las observaciones más lejanas que estén todavía a menos de 1.5fs de los bordes correspondientes

dibujar un circulo abierto para identificar cada observación que caiga entre 1.5fs y 3fs del borde al cual esta más cercano estas se llaman puntos inusuales suaves

31


dibujar un circulo de línea llena para identificar cada observación que caiga a mas de 3fs del borde más cercano, estas se llaman puntos inusuales extremos . donde fs= cuarto superior – cuarto inferior

Polígono: Hace evidente la forma de la distribución de frecuencias de los datos. Solo representa datos cuantitativos. Es una gráfica de puntos y líneas. Relaciona las marcas de clase con sus frecuencias o frecuencias relativas. Como el área total de las barras del histograma debe mantenerse igual al área debajo

del polígono, el polígono empieza en una marca de clase anterior

y termina en una marca de clase posterior a las de la tabla de frecuencias. Ojiva: Equivalen a los polígonos de frecuencia acumulada. Relacionan las fronteras inferiores con los valores acumulados de frecuencia. Su aplicación se concreta a responder preguntas como: ¿qué proporción acumulada le corresponde a este dato?, ¿Qué dato corresponde a esta proporción acumulada?. Hay dos criterios para construir ojivas: 1) Ojiva "Menor que": "¿cuántas observaciones son menores que esta frontera?". Es una curva creciente que empieza en frecuencia cero y termina en el total de observaciones. 2) Ojiva "O más": "¿cuántas observaciones hay iguales o mayores a esta fronteras?". Es una curva decreciente que empieza en el total de observaciones y termina en cero. Pirámide de población.- Dependiendo de la información que estemos estudiando, se pueden utilizar otros tipos de gráficos. Uno de ellos es por ejemplo, la pirámide de población. Sirve para analizar cómo va evolucionando (con respecto a su edad) una población determinada. Consiste en dos diagramas de barras, uno de ellos para representar los datos de los hombres y el otro para los de las mujeres, pero dispuestos de forma horizontal y por edades.

32


Climograma.- Un caso particular de aplicaci贸n de los histogramas y los pol铆gonos de frecuencias es el climograma, que representa la marcha anual

de las temperaturas y de las lluvias medias, sobre un mismo sistema de coordenadas:

33


¿Cuál es el mes menos lluviso?, ¿y el más caluroso? Los cartogramas.-son gráficos realizados sobre mapas, en los que aparecen indicados sobre las distintas zonas cantidades o colores de acuerdo con el carácter que representan. También se representa mediante un diagrama convencional insertado en un mapa geográfico de una zona. Por ejemplo en un mapa de la Comunidad Valenciana se puede utilizar el diagrama de tartas para representar la producción industrial, agrícola etc. En el siguiente cartograma observamos la urbanización en el mundo atendiendo a la industrialización:

34


CAPITULO IV 4.1

ESCALAS DE MEDICIÓN

En cuanto a las escalas de medición la estadística cuenta con las siguientes:  Nominal; la cual se utiliza principalmente en los datos cualitativos y nos permite manejar la información por su nombre, como en los casos de marcas de diferentes productos, enfermedades, preferencias, etc.  Ordinal; aquella que utilizamos cuando necesitamos establecer orden entre las diferencias de la población y sus datos son cualitativos, por ejemplo, escalas de calidad (mala, regular, buena, muy buena), escalas de gusto (mu y sabrosa, sabrosa, agradable, desagradable, muy desagradable), etc.  Intervalo; Se utiliza principalmente en datos cuantitativos y es una escala que no cuenta con un cero absoluto o con un instrumento estandarizado, por ejemplo, la temperatura se puede medir en grados centígrados, Fahrenheit y kelvin dentro de las cuales los grados centígrados no cuentan con un cero absoluto debido a que se basan en el punto de ebullición del agua, el cuál es variable en diferentes altitudes, los Fahrenheit que tampoco cuentan con un cero absoluto, ya que este también cambia con las altitudes con respecto al nivel del mar, debido a que se sustenta en el punto de congelación del agua y los kelvin que si cuentan con un cero absoluto ya que queda establecido al vacío fuera de las diferencias provocadas por la altitud, otro ejemplo sería el utilizar una cuerda con nudos para determinar una Distancia o un volumen con vasija de barro, ya que al intentar comprobar esta distancia o este volumen debemos contar con la misma cuerda o con la misma vasija.  Razón; Básicamente utilizada en datos cuantitativos que pueden ser medidos con instrumentos estandarizados o con un cero absoluto como por ejemplo una distancia medida en kilómetros, un volumen medido en centímetros cúbicos, ventas medidas en pesos, etc.

35


4.2

SITUACIONES DE LAS ESCALAS DE MEDICIÓN

Situacion 1,es una escala en que se establece un número determinado de clases o categorías de tal modo que cada elemento de la población pertenece a una y sólo una clase. Matemáticamente se dice que se ha establecido una relación de equivalencia entre los elementos de la población. Si sólo existen dos clases se denomina escala dicotómica. La única operación matemática que se puede realizar con las clases de cualquier escala nominal es determinar las cantidades de elementos que les corresponden determinar sus frecuencias. Por ejemplo: 

Sexo: las clases son masculino o femenino.

Especialidad: las diferentes especialidades (carreras) del CRUSAM.

Número de cedula de identidad personal.

Temperatura de una persona: sanguíneo, flemático, melancólico, colérico.

Número de placa de automóviles del país.

a.-Escala Nominal: Corresponde a la Situación 1, es decir, es una escala en que se establece un número determinado de clases o categorías de tal modo que cada elemento de la población pertenece a una y sólo una clase. Matemáticamente se dice que se ha establecido una relación de equivalencia entre los elementos de la población. Si sólo existen dos clases se denomina escala dicotómica. La única operación matemática que se puede realizar con las clases de cualquier escala nominal es determinar las cantidades de elementos que les corresponden determinar sus frecuencias. Por ejemplo: 

Sexo: las clases son masculino o femenino.

Especialidad: las diferentes especialidades (carreras) del CRUSAM.

Número de cedula de identidad personal.

Temperatura de una persona: sanguíneo, flemático, melancólico, colérico. 36


Número de placa de automóviles del país.

b.- Escala Ordinal: Corresponde a la Situación 2. Es una escala nominal entre cuyas clases está definido un orden, de modo que cualquiera que sean dos de ellas, una será mayor o superior, en algún sentido, que la otra. Por ejemplo: 

Evaluaciones en un examen: 5, 4, 3 y 2.

Grado de satisfacción de una necesidad: alto, medio, bajo

Conocimiento de un idioma: excelente, bien, regular, mal

c.- Escala de Intervalos: Corresponde a la situación 3 y no es más que una escala ordinal con una distancia, una unidad de medida entre sus clases de modo tal que dado dos puntajes cualesquiera se puede saber cuan distante está uno del otro. La unidad de medida es arbitraria, pero común y el punto de inicio (cero) es también arbitrario. Cuando se tiene una escala de intervalo se pueden realizar las operaciones de adición y sustracción, pero no necesariamente la multiplicación y división dentro de la escala. Por ejemplo: 

La temperatura del aire. (caluroso, fresco, agradable, etc.)

d.- Escala de Razones: Corresponde a la situación 4 y es una escala de intervalos donde existe un cero absoluto que marca la ausencia total del atributo en estudio. La proporción entre los atributos de dos individuos cualesquiera es independiente de la escala de medida utilizada. En ella la razón entre dos clases (puntajes) cualesquiera permanece invariable ante toda la transformación de la escala de razón, o sea

37


ante toda transformación del tipo y=Φ(x). De aquí que siempre el cero de la escala transformada coincide con el cero de la escala original. En las escalas de razones es posible realizar todas las operaciones aritméticas con los puntajes. Por ejemplo: 

Estatura de los alumnos: la estatura en metros es proporcional a la estatura en pulgadas.

4.3

Peso de los alumnos: (en libras o kilogramos)

El tiempo invertido en una prueba de velocidad en educación física

TIPOS DE VARIABLES

Para poder realizar una estadística también es necesario identificar la naturaleza de los datos que conforman a la

población, con el objeto de

establecer las variables que se deben manejar, pudiendo encontrarnos con datos cuantitativos y datos cualitativos. Los datos cuantitativos son aquellos que resultan de una medida o de un conteo por lo que los podemos diferenciar en continuos y en discretos respectivamente, es decir, que se pueden obtener datos cuantitativos que debido a un instrumento podemos especificar valores enteros y decimales de tal forma que sus diferencias serán establecidas dependiendo de la exactitud del instrumento al medir distancias, volúmenes, superficies, etc. y otros datos que solo se puedan contar, como es el caso del número de automóviles en circulación en cierta ciudad, número de empleados en una empresa, etc. Los datos cualitativos resultan de aquellas poblaciones en las que sus elementos no pueden ser medidos debido a su naturaleza y que por lo tanto solo se les pueden observar atributos y diferencias. Aquí será bueno recordar cuantas veces has requerido de este tipo de información, ya sea, al preparar un pastel o una bebida, al describir a un amigo o al querer explicar las características de una ciudad a la que visitaste.

38


4.4

DATOS

La toma de datos es la obtención de una colección de los mismos que no han sido ordenados numéricamente. Un ejemplo es el conjunto de alturas de 100 estudiantes, sacados de una lista alfabética de una universidad. Para la toma de datos debemos tener en cuenta las siguientes caracteristicas: 

Características o números que son recolectados por observación. No son otra cosa que el producto de las observaciones efectuadas en las personas y objetos en los cuales se produce el fenómeno que queremos estudiar

Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos, cronológicos y geográficos

Datos Cualitativos: cuando los datos son cuantitativos, la diferencia entre ellos es de clase y no de cantidad. Ejemplo: Si deseamos clasificar los estudiantes que cursan la materia de estadística I por su estado civil, observamos que pueden existir solteros, casados, divorciados, viudos.

Datos cuantitativos: cuando los valores de los datos representan diferentes magnitudes, decimos que son datos cuantitativos. Ejemplo: Se clasifican los estudiantes del Núcleo San Carlos de la UNESR de acuerdo a sus notas, observamos que los valores (nota) representan diferentes magnitudes.

Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o períodos de tiempo, los datos son reconocidos como cronológicos. Ejemplo: Al registrar los promedios de notas de los Alumnos del Núcleo San Carlos de la UNESR en los diferentes semestres.

Datos geográficos: cuando los datos están referidos a una localidad geográfica se dicen que son datos geográficos. Ejemplo: El número de estudiantes de educación superior en las distintas regiones del país

39


4.5

ORDENACIÓN DE LOS DATOS

Una ordenación es una colocación de los datos numéricos tomados, en orden creciente o decreciente de magnitud. La diferencia entre el mayor y el menor de los números se llama recorrido o rango de los datos. Por ejemplo, si la altura mayor de los 100 estudiantes es 74 pulgadas y la menor es de 60 pulgadas, el rango es 74 - 60 = 14 pulgadas.

40


CAPITULO V 5.1 .DISTRIBUCIONES DE FRECUENCIA Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo; consecuentemente, si una variable estadística toma r valores, cada uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el número de datos representado por la variable serían N, siendo N la suma de las respectivas frecuencias de cada dato (N=ΣXi). Este valor N será denominado como frecuencia total, mientras que la frecuencia de

cada

dato

recibirá

el

nombre

de frecuencia

absoluta o

simplemente frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un dato aparece en un colectivo, más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en el seno de un colectivo, puesto que no es suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se definirá como: el coeficiente entre la frecuencia absoluta del dato considerado y la frecuencia total (fr=fi/ΣXi). Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias: 

frecuencias absolutas: es el número de veces que aparece en la muestra dicho valor de la variable y se representa por fi.

frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fri

frecuencias

absoluta

acumulada: para poder calcular

este

tipo

de

frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por fa, se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o descendente (fa↓). 41


frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N) y la denotaremos por fra.

5.2

INTERVALOS DE CLASE Y LÍMITES DE CLASE

La longitud, tamaño o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup – lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn – X1) Un intervalo de clase que, al menos teóricamente, no tiene límite superior o inferior, se conoce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos el intervalo de clase, «mayores de 65 años» es un intervalo de clase abierto.

LÍMITES REALES DE CLASES Si las alturas se registran con aproximación de pulgada, el intervalo de clase 60 - 62 teóricamente incluye todas las medidas desde 59,5000... a 62,5000 … pulgadas. Estos números, representados brevemente por los números exactos 59,5 y 62,5, se conocen como límites reales de clase o límites verdaderos de clase; el menor de ellos, 59,5, es el límite real inferior y el mayor de ellos, 62,5, es el límite real superior. Prácticamente, los límites reales de clase se obtienen sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los límites reales de clase se utilizan para simbolizar las clases. Por ejemplo, las diferentes clases de la primera columna de la Tabla 1 podrían indicarse por 59,5 - 62,5, 62,5 - 65,5, etc. Sin embargo, con tal notación aparece una ambigüedad, pues los límites reales de clase no coincidirían con las observaciones reales. Así si una observación fuese 62,5 no sería posible discernir si pertenece al intervalo de clase 59,5 - 62,5 o al 62,5 - 65,5.

42


5.3

TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE

El tamaño o anchura de un intervalo de clase es la diferencia entre los límites reales de clase que lo forman y se conoce como anchura de clase, tamaño de clase o longitud de clase. Si todos los intervalos de clase de una distribución de frecuencias tienen igual anchura, esta anchura común se representa por c. En tal caso, c es igual a la diferencia entre dos sucesivos límites de clase inferiores o superiores.

Marca de clase La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites inferior y superior de la clase y dividiendo por 2. Así, la marca de clase del intervalo 60 - 62 es (60 + 62)/2 = 61. La marca de clase se llama también punto medio de la clase. Para análisis matemáticos posteriores, todas las observaciones pertenecientes a un intervalo de clase dado se suponen coincidentes con la marca de clase. Así, todas las alturas en el intervalo de clase 60 - 62 pulgadas se considerarán como de 61 pulgadas. En el caso de variables continuas será necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la información original. A menudo es necesario representar una clase, o más particularmente, un intervalo por un único valor, este representará a todo el intervalo y se denominará marca de clases. Matemáticamente el punto medio de cada intervalo corresponde a lo que denominamos marca de clase, se denotará por Xi, y constituirá el valor representativo

de

cada

intervalo.

El

número

de

observaciones

correspondan a cada intervalo se denominará frecuencias absolutas.

43

que


Tabla #1: Variables Continuas

Intervalos

Marcas de Clases

Frecuencias Absolutas

(C)

Xi

fi

X1-X2

X1

f1

X2-X3

X2

f2

Xn-1-Xn

Xn

fn

Donde

N = Σfi = Número de observaciones C = X’ – X" = Amplitud del intervalo Por último, en el caso de variables no mensurables, dicha tabla adoptará una forma como la siguiente:

44


Tabla #2: Variable Ordinales Variable

Frecuencias

Característica A

fA

Característica B

fB

Característica Z

fZ

INTERVALOS DE CLASE Y LÍMITES DE CLASE La longitud, tamaño o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup – lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn – X1) Un símbolo que define una clase, tal como 60 - 62 de la tabla anterior, se conoce como intervalo de clase. Los números extremos, 60 y 62, son loslímites de clase; el número menor 60 es el límite inferior de la clase y el mayor 62 es el límite superior. Los términos clase e intervalo de clase se utilizan a menudo indistintamente, aunque el intervalo de clase es realmente un símbolo para la clase. Un intervalo de clase que, al menos teóricamente, no tiene límite superior o inferior, se conoce como intervalo de clase abierto. Por ejemplo, al referirse a la edad de grupos de individuos el intervalo de clase, «mayores de 65 años» es un intervalo de clase abierto.

45


LÍMITES REALES DE CLASES Si las alturas se registran con aproximación de pulgada, el intervalo de clase 60 - 62 teóricamente incluye todas las medidas desde 59,5000... a 62,5000 … pulgadas. Estos números, representados brevemente por los números exactos 59,5 y 62,5, se conocen como límites reales de clase o límites verdaderos de clase; el menor de ellos, 59,5, es el límite real inferior y el mayor de ellos, 62,5, es el límite real superior. Prácticamente, los límites reales de clase se obtienen sumando al límite superior de un intervalo de clase el límite inferior del intervalo de clase contiguo superior y dividiendo por 2. A veces, los límites reales de clase se utilizan para simbolizar las clases. Por ejemplo, las diferentes clases de la primera columna de la Tabla 1 podrían indicarse por 59,5 - 62,5, 62,5 - 65,5, etc. Sin embargo, con tal notación aparece una ambigüedad, pues los límites reales de clase no coincidirían con las observaciones reales. Así si una observación fuese 62,5 no sería posible discernir si pertenece al intervalo de clase 59,5 - 62,5 o al 62,5 - 65,5.

5.4 REGLAS GENERALES PARA CONSTRUIR LAS DISTRIBUCIONES DE FRECUENCIAS POR INTERVALOS

1. A = ( X1, X2, … , Xn ) 2. Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o muestra 3. Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos (homogenizar los datos) R = (valor mayor – valor menor) = Xn – X1 Encontrar el rango o recorrido (R) de los datos: 4. Encontrar el número de clases o intervalos de clases (K). El número de clases debe ser tal que se evite el detalle innecesario, pero que no conduzca a la perdida de más información de la que puede ser

46


convenientemente ignorada. Para este cálculo se utiliza la formula de Sturges K = 1 + 3.322(log. N) 5. Determinar la amplitud de la clase ( C ): R C = -------K Nota: el resultado siempre se aproxima al siguiente entero si excede al número entero obtenido, no importa el monto de la fracción excedida al entero ˜ C = se lee "se aproxima a…" 6.

El dato menor (X1) será el limite inferior de la primera clase. A él se le suma C y se obtiene el limite superior de la primera clase que también será el limite inferior de la segunda clase. Luego se suma nuevamente C y se obtiene el limite superior del segundo intervalo e inferior del tercero. Y así sucesivamente hasta que el limite superior corresponda o supere ligeramente el valor mayor ( Xn ), la cantidad de clases obtenidas deberá corresponder con el número K calculado mediante la formula de Sturges.

7.

Una vez construidos los intervalos se calculan, mediante tabulación de acuerdo a los limites inferiores y superiores de las clases, las frecuencias absolutas, relativas, porcentuales y acumuladas correspondientes.

8.

Con los datos obtenidos se procede a construir la tabla de distribución de frecuencia.

CURVAS DE FRECUENCIAS. OJIVAS SUAVIZADAS El conjunto de datos puede considerarse normalmente como perteneciente a una muestra extraída de una población grande. A causa de las muchas observaciones que podemos realizar en la población es posible teóricamente (para datos continuos) elegir los intervalos de clase muy pequeños y todavía tener un número adecuado de observaciones dentro de cada clase.

47


Así se tiene que el polígono de frecuencias o el de frecuencias relativas para una población grande puede estar formado por muchos pequeños segmentos rectos que aproximan el conjunto a una curva, las curvas de este tipo pueden llamarse curvas de frecuencias o curvas de frecuencias relativa. Es razonable esperar que tales curvas teóricas provengan de la suavización de los polígonos de frecuencias o de los polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño de la muestra. Por esta razón una curva de frecuencias se conoce como un polígono de frecuencias suavizado. De una forma análoga las ojivas suavizadas provienen de la suavización de los polígonos de frecuencias acumuladas u ojivas. Normalmente es más sencillo suavizar una ojiva que un polígono de frecuencias. TIPOS DE CURVAS DE FRECUENCIA Las curvas de frecuencia presentan determina das formas características que les distinguen como se indica en la Figura.

48


(a) Las curvas de frecuencia simétricas o bien formadas se caracterizan por el hecho de que las observaciones que equidistan del máximo central tienen la misma frecuencia. Un ejemplo importante es la curva normal. (b) En las curvas de frecuencia moderadamente asimétricas o sesgadas la cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola mayor se presenta a la derecha de la curva se dice que ésta está sesgada a la derecha o que tiene sesgo positivo, mientras que si ocurre lo contrario se dice que la curva está sesgada a la izquierda o que tiene un sesgo negativo. (c) En las curvas en forma de J o de J invertida, el máximo se presenta en un extremo. (d) Las curvas de frecuencias en forma de U tienen el máximo en ambos extremos. (e) Una curva de frecuencias bimodal tiene dos máximos. (f) Una curva de frecuencias multimodal tiene más de dos máximos.

49


CAPITULO VI 6.1

MEDIDAS DE TENDENCIA CENTRAL El objetivo principal de las medidas de tendencia central es poder

representar por medio de un solo número al conjunto de datos, es decir, dan valores representativos de la distribución de frecuencias, situados en algún lugar intermedio, alrededor del cual, se encuentran los otros valores. Nos indican dónde tienden a concentrarse los valores. Existen tres medidas de tendencia central generales, que son, la Media aritmética, la Mediana y la Moda; así como otras que se utilizan en casos particulares como la Media ponderada, la Media Armónica, la Media Geométrica, la Media Cuadrática. En este tema y los dos siguientes vamos a obtener unos números que cuantifiquen las propiedades fundamentales de la distribución de frecuencias. Estos números podemos clasificarlos en: Medidas de localización (posición). Son coeficientes de tipo promedio que tratan de representar una determinada distribución, pueden ser de dos tipos: 1.-CENTRALES:  Medias:  Aritmética  Geométrica  Armónica  Medianas  Moda 2.-NO CENTRALES:  Cuantiles:  Cuartiles  Deciles  Centiles o percentiles

50


 Medidas de dispersión. Son complementarias de las de posición en el sentido que señalan la dispersión en conjunto de todos los datos de la distribución respecto de la medida o medidas de localización adoptadas.  Medidas de dispersión absoluta: Recorrido  Medidas de dispersión relativa

: Recorrido intercuartílico, desviación

media, varianza, desviación típica.  Coeficiente de variación PEARSON.  Diagrama de caja.  Medidas de forma Estudian

la

aplastamiento)

asimetríarespecto

simetría de

una

y

deformación

distribución

(apuntamiento,

modelo

denominada

distribución NORMAL Coeficiente de asimetría y coeficiente de Curtosis.  Medidas de concentración Estudian la concentración de una distribución frente a la uniformidad 6.2

TENDENCIA CENTRAL MEDIA ARITMÉTICA:

Es la suma de todos los valores de la variable

dividida entre el número total de elementos. n

xi x1  x2  x3 ....xn1  xn  X  i1 n n

Si el valor xi de la variable X se repite expresión de la media aritmética de la forma:

51

ni

veces, aparece en la


X

x n

i i

, que será la expresión que consideraremos definitiva de la

n

media aritmética. fi 

Como

ni N

n

otra posible expresión será

X   x i fi i 1

Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.

X

 x i ni n

xi

ni

x i ni

54

2

108

59

3

177

63

4

252

64

1

64

10

601

601  60,1 kg 10

NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribución. Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos indistintamente  ci = xi

52


Ejemplo:

[Li-1,Li)

xi = ci

ni

c i ni

[30 , 40)

35

3

105

[40 , 50)

45

2

90

[50 , 60)

55

5

275

10

470

X

 x i ni n

470  47 10

Datos No Agrupados:

X= cualquier dato n

X X=

i

i 1

n Número total de datos

Ejemplo: Calcular la media aritmética de los números 10,12,36,25,58 x

10  12  36  25  58 121   24.2 5 5

Datos Agrupados: Frecuencia por la marca de clase de cualquier renglón

k

f X=

i 1

i

*X i

n

Número total de datos

53

Añadimos las columnas según las necesidades


donde: k = última clase Nota: La media muestral se denota X , la media poblacional se conoce como  . Ejemplo: calcular el salario promedio de :

Salario

No. De emp.

(X)

(F)

$15,000

18

$20,000

35

$25,000

29

Como x

 f  82  n

sustituimos en la formula y se obtiene:

15000 *18   20000 * 35   25000 * 29   1695000  $20,670.70 82

82

MEDIA ARITMÉTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el mismo peso. Esta importancia que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en tantas veces como consideremos su peso. Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable

Se la suele representar como:

Xw 

x w n w n i

i i

i i

Siendo wi la ponderación de la variable xi y ponderaciones.

54

w

i

la suma de todas las


Ejemplo: Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media.

ni

Wi

xi wi

5

1

1

5

8

1

2

16

7

1

3

21

3

N=6

42

Xi

Si calculamos la media aritmética tendremos que :

X

 x i ni n

587  6,67 . 3

Ahora bien, si calculamos la media ponderada, obtendremos:

xw 

5x1  8x 2  7x 3  5  16  21  42  7 1  2  3 6 6

55


PROPIEDADES DE LA MEDIA ARITMÉTICA PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0. n

Veamos que resulta al operar la siguiente expresión:  ( x i  X ) . Tendremos que i 1

n

 (x

i

 X)

i 1

  

ni  ni

x n   i i

 (x n

i i

 Xn i )

1  ni

 x n   Xn  n1   x n  X  n  n1   x n  Xn  n1  i i

i

i i

i

i

i i

i

i

x i ni 1  1 . n  0  0 n ni  ni

PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la media aritmética (Teorema de KÖRING). D k  

2 n  x i  k  n i  x i  x  n i   prop 1  0 i  0 n n n 2

Para k  x (media aritmética) el valor de las desviaciones será mínima.

PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda aumentada en dicha cantidad: Supongamos que tenemos una variable x de la que conocemos su media. Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la siguiente forma: y i  x i  k . Si ahora queremos calcular la media de esta segunda variable: n

y  

 y ini

i 1

n xini n

 x i

kn  n

 k n i

n  xini n

 x i n i

 kn i 

n

k

56

 x i n i   kn i n

 xini n

 kn i n


como

 x i ni n

X

Y  X k

si sustituimos tendremos

que es lo que

pretendíamos demostrar.

PROPIEDAD 4:

Si todos los valores de la variable se multiplican por una

misma constante la media aritmética queda multiplicada por dicha constante . La demostración se realizaría de manera análoga a la anterior.

NOTA: De las dos propiedades anteriores se deduce que la resta y la división se realizarían de igual manera para la propiedad 3 y 4 respectivamente.

Corolario:

Si una variable es transformación lineal de otra variable

(suma de un número y multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación lineal con respecto a la media aritmética de la 2ª variable, siendo yi = a xi + b

, donde a y b son números

reales:

yini (axi b)ni (axini bni ) axini bni axb

y

n

n

n

n

n

Podemos utilizar esta metodología para calcular la media de la siguiente distribución. Xi

ni

38432

4

38432

8

38436

4

38438

3

38440

8

57


yi 

Si efectuamos un cambio de variable

x i  38436 2

tomando como nueva

variable el valor más centrado, tendremos::

xi

ni

yi

yi ni

38432

4

(38432 - 38436)/2 = -2

-8

38432

8

(38432 - 38436)/2 = -1

-8

38436

4

(38436 - 38436)/2 = 0

0

38438

3

(38438 - 38436)/2 = 1

3

38440

8

(38440 - 38436)/2 = 2

16

n = 27

y

Como y 

x  38436 2

3

y

n

i

n

i

3

27

1 9

1 9

, entonces x  2y  38436  2  38436  0,222  38436  38436,222

PROPIEADAD 5: - Si en un conjunto de valores se pueden obtener 2 ó más subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media aritmética de cada uno de los subconjuntos disjuntos de la siguiente forma: X

 x i ni n

Siendo  x i la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto.

58


Veamos la demostración de la propiedad: Sea la distribución

x1, x2, x3, x4,

…… xn, xn+1, xn+2 ……….xk, observando que habrían como dos subconjuntos de n y k-n

elementos cada uno. Si consideramos la media

 i aritmética de la distribución: X  n

x ni

y calculamos los sumatorios para los

dos subconjuntos, la expresión de la media quedaría: n

k

n

 x j n j   x r nr  x j n j X

j 1

r  n 1

n

j 1

n

k

 x r nr

 r  n 1 n

Si multiplicamos numerador y denominador de cada una de las fracciones por una misma cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la expresión quedará:  n   x jnj  j 1 N1  n k  N1 N1  x j n j N 2  x r nr  j 1  X  r  n 1  N 1n N2n n

n

j 1

N1

 n   x jnj  j 1 N2   N2    n

      

kn

 x jnj como

      

 x1

 x rj n jr

y

r  n 1

N2

 x2

son la media del primer y segundo

subconjunto, la expresión la podemos expresar de la siguiente manera: X  X1

N1 N X N  X 2N 2  X2 2  1 1 n n n

que es lo que queríamos demostrar ya que si las

frecuencias se multiplican o dividen por un mismo número, la media no varía IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, o pequeños que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de resolverlo, que veremos más adelante.

59


MEDIANA: Me.- La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden dentro de la ordenación. El lugar que ocupa se determina dividiendo el nº de valores entre 2:

n 2

Cuando hay un número impar de valores de la variable, la mediana será justo el valor de orden central, aquel cuya frecuencia absoluta acumulada coincida con

n n . Es decir: N i 1   N i  Me  x i . Por tanto la mediana coincide con un valor 2 2

de la variable.El problema está cuando haya un número par de valores de la variable. Si al calcular

n resulta que es un valor menor que una frecuencia 2

absoluta acumulada, el valor de la mediana será aquel valor de la variable cuya frecuencia

N i 1 

absoluta

cumpla

la

misma

condición

anterior:

n N  N i  Me  x i . Por el contrario si coincide que  N i , para obtener 2 2

la mediana realizaremos el siguiente cálculo: Me 

x i  x i 1 2

Ejemplo: Sea la distribución xi

ni

Ni

1

3

3

2

4

7

5

9

16

7

10

26

10

7

33

13

2

35

n = 35

60


n 35   17,5 2 2

Lugar que ocupa

n 2

Como se produce que N i 1   N i  16  17,7  26  Me  x i , por lo tanto Me = 7 El otro caso lo podemos ver en la siguiente distribución:

xi

ni

Ni

1

3

3

2

4

7

5

9

16

7

10

26

10

6

32

n= 32

Lugar que ocupa = 32/2 = 16 ==>

Me 

x 1  x i 1 5  7  6 2 2

Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta acumulada superior a 16. Datos No agrupados:

En los datos ordenados se aplica la siguiente

relación, para encontrar la posición de los datos. posición 

n 1 ; en donde n = número total de datos 2

Entonces podemos tener sólo dos alternativas a) El valor de la posición puede ser entero y lo único que debemos hacer es contar el número de lugares que nos indica esta formula.

61


El valor de la posición nos da un valor decimal (.5) y entonces debemos: sumar los valores involucrados y dividirlos entre 2. Por ejemplo; si tenemos los valores 5, 7, 8, 13 entonces la posición nos da 2.5 por que tendremos que seleccionar a los números 7 y 8 para luego sumarlos (15) y dividirlos entre 2 (7.5) Datos agrupados, hay que determinar el intervalo mediano L i 1 , L i  , la forma de hacerlo será calcular el valor de la mitad de n, y observar que intervalo tiene n 2

una frecuencia absoluta acumulada que cumpla N i 1   N i . Después de saberlo haremos el siguiente cálculo:

Me Siendo:

L

i  1

N 2

 N n

i  1

a

i

i

[ Li-1, Li) el intervalo que contiene a la frecuencia acumulada N/2 ai = amplitud de dicho intervalo.

Ejemplo: [ Li-1, Li)

ni

Ni

[20 , 25)

100

100

[25 , 30)

150

250

[30 , 35)

200

450

[35 , 40)

180

630

[40 , 45)

41

671

N = 671

62


671/2 = 335.5 ; Me estará en el intervalo [30 - 35 ). Por tanto realizamos el cálculo: n  N i 1 33,5  250 Me  L i 1  2 a i  30  * 5  32,138 ni 200

MÉTODO PROYECTIVO Con base en el método proyectivo, se puede obtener la mediana para datos agrupados de la siguiente forma: 1. Tomar el número total de frecuencias y dividirlo entre dos. 2. Restar a ese número el total de frecuencias de las clases anteriores a la clase mediana. 3. Usar el número obtenido para hacer un cambio del doble superior de escala entre las frecuencias de la clase mediana y sus rangos para obtener la distancia parcial 4. Sumamos la distancia parcial obtenida a el límite inferior de la clase.

1. El número total de frecuencias es de; (3+5+2)/2 = 10/2 = 5 2. El total de frecuencias anteriores es 2; (5 - 2) = 3 3. Hacemos el cambio de escalas:

63


Resolviendo:

la mediana es la suma de todos los datos dividido entre el número de datos 4. Se suma la distancia parcial al límite inferior:

LA MODA (MO.).- A veces es importante conocer cuál es el valor que más prevalece en el conjunto de datos. El valor que ocurre con más frecuencia se le conoce como moda. La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal, de intervalos y nominal. En un conjunto de números la moda se define como el valor ó número que ocurre con más frecuencia Ejemplo: En el siguiente conjunto de números 1, 5, 5, 9, 12, 12, 12, 14. La moda es igual a 12, por cuanto que es el número que más se repite (tres veces)

La Moda para datos agrupados (Mo.): La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula. Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C Donde; Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa) ∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal. ∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal C = amplitud de la clase modal. 64


Ejemplo: Para encontrar la moda es necesario, en primer lugar, identificar la clase modal; que será aquella que posea la mayor frecuencia absoluta. En el ejemplo de cuentas por cobrar de Cabrera`s y Asociados la clase modal será la primera, por cuanto que tiene la mayor frecuencia absoluta. A partir de esto se puede reemplazar en la formula anterior los datos, a saber : Li =7.42 C=14.415 f1 = 10 (frecuencia absoluta de la clase modal) f0 = 0 (frecuencia absoluta de la clase premodal) f2 = 4 (frecuencia absoluta de la clase postmodal) ∆1 = 10–0 = 10 ∆2 = 10-4 = 6 Mo. = 7.42 + [ (10/10+6) 14.415 ] = 7.42 + [ (10/16) 14.415] = = 7.42 + [ 0.625 (14.415) ] = 7.42 + 9.01 = 16.53 Propiedades de la moda 

La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa).

La moda tiene la ventaja de no ser afectada por valores extremos.

Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

Desventajas de la moda -

En muchas series de datos no hay moda porque ningún valor aparece más de una vez.

-

En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?

65


Relación empírica entre la media, la mediana y la moda En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente

asimétricas,

la

siguiente

relación

se

mantiene

aproximadamente: Media – Moda = 3(Media – Mediana Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden

LA MEDIA ARMÓNICA, denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promedia velocidades. Así, dados n números x1, x2, ... , xn la media armónica será igual a:

66


La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida en el caso de que exista algún valor nulo. Propiedades 1. La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. 2. Siempre se puede pasar de una media armónica a una media aritmética transformando adecuadamente los datos. 3. La media armónica siempre es menor o igual que la media aritmética, ya que para cualesquiera números reales positivos

:

Ventaja 

Considera todos los valores de la distribución y en ciertos casos, es más representativa que la media aritmética.

Desventajas 

La influencia de los valores pequeños y

El hecho que no se puede determinar en las distribuciones con algunos valores iguales a cero; por eso no es aconsejable su empleo en distribuciones donde existan valores muy pequeños.

Se suele utilizar para promediar velocidades, tiempos, rendimientos, etc LA MEDIA GEOMÉTRICA.-

Se define como la raíz de índice de la

frecuencia total cuyo radicando es el producto de las potencias de cada valor de la variable elevado a sus respectivas frecuencias absolutas, se denota por g; suele utilizarse cuando los valores de la variable siguen una progresión 67


geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes y se calcula mediante la siguiente fórmula g = n√(X1 * X2 * …* Xn Fórmula que algunas veces es conveniente expresarla en forma logarítmica. El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo, entonces la fórmula anterior se presenta de la siguiente manera: log Xg = 1/N (log X1 + log X2 + … + log Xn) Ejemplo; Encontrar la media de los siguientes números 2, 4, 8. obsérvese que entre ellos existe una razón o proporción constante, cada uno de ellos es el doble del anterior, por tanto la media a utilizar es la media geométrica, de la siguiente manera g = 3√ (2) (4) (8) = 3√ 64 = 4 Respuesta: la media geométrica de los datos es 4 PROPIEDADES DE LA MEDIA GEOMÉTRICA ( 

La media geométrica esta basada en todas las observaciones, por lo que está afectada por todos los valores de la variable. Sin embargo, da menos pesos a los valores extremadamente grandes que el que les da la media aritmética.

La media geométrica es igual a cero si algunos de los valores es cero, y se puede volver imaginaria si ocurren valores negativos. Con la excepción de estos dos casos, su valor siempre es definitivo y está rígidamente definido.

La media geométrica es la que se debe utilizar cuando lo que se va a promediar son tasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambios iguales.

68


Datos No Agrupados:

G  n Y1 * Y2 ** Yn

Ejemplo: Si los precios de la acción “Anáhuac” en los últimos cuatro días fueron; 4.75, 5.23, 4.78 y 6.32 calcula el factor de crecimiento promedio y el crecimiento porcentual promedio. Existen dos formas de resolverlo: 

De la forma ortodoxa:

G  n Y1 * Y2 *  * Yn  3

5.23 4.78 6.32 3 * *  1.330526316  1.099869493 4.75 5.23 4.78

Lo que acabamos de obtener es factor de crecimiento promedio y para obtener el crecimiento se aplica la siguiente formula: crecimient o  (1  G ) * 100  (1  1.099869493 ) * 100  9.9869 % 

Otra forma es

G  número de datos -1

último 6.32 3 3  1.330526316  1.099869493 primero 4.75

Datos Agrupados: G  n Y1f1 * Y2f2 *  * Ykfk

donde: k = última clase Nota: Se puede demostrar que X  G . También puede calcularse la media geométrica ponderada. 69


Ejemplo: Supóngase que se cuenta con la información diaria de los incrementos porcentuales de una acción y que se representan en la siguiente tabla:

Crecimiento porcentual (%)

Frecuencias en días

10

14

20

15

30

48

a) Calcular los factores de crecimiento.  crecimient y  1   

  

o porcentual 100

b) Calcular el factor de crecimiento promedio G  n Y1f1 * Y2f 2 *  * Ykf k  77 1.1014 * 1.2015 * 1.30 48  1.2415965

MEDIA CUADRÁTICA (MC).- La media cuadrática nació con el objetivo de poder obtener el promedio de valores positivos y negativos al mismo tiempo, además de ser una gran ayuda para poder calcular las dispersiones promedio de los datos (ver medidas de dispersión).

Datos no agrupados: n

MC 

x i 1

2 i

n 70


Ejemplo: Supóngase que se obtienen las ganancias y pérdidas del precio de una acción durante una semana; - 4.00, - 3.50, 2.35, 6.20, 3.25 Calcular el promedio:

n

MC 

x i 1

2 i

n

(4.0) 2  (3.5) 2  2.35 2  6.2 2  3.25 2 50.775   3.186691 5 5

Datos agrupados: n

MC 

fx i 1

2 i i

n

Ejemplo: Ahora deseamos obtener el promedio de una tabla de distribución de frecuencias pero con datos positivos y negativos.

Ganancias y pérdidas del precio de una acción

No. De días (f)

(x) -7.25

25

n

MC 

fx i 1

i

n

2 i

25 * (2.75 7.25) 2  14 *14 2.75 2  2 * 12.75 2  6.5239 412 12.75

71


CAPITULO VII

7.1

CUANTILES Son medidas de localización similares a las anteriores. Se las denomina

CUANTILES (Q). Su función es informar del valor de la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de variables. Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en un cierto número de partes de manera que en cada una de ellas hay el mismo de valores de la variable. 7.2

TIPOS DE CUANTILES

Las más importantes son: CUARTILES,

dividen a la distribución en cuatro partes iguales (tres

divisiones). C1,C2,C3, correspondientes a 25%, 50%,75%. DECILES,

dividen a la distribución en 10 partes iguales (9

divisiones).D1,...,D9, correspondientes a 10%,...,90% PERCENTILES,

cuando dividen a la distribución en 100 partes (99

divisiones).P1,...,P99, correspondientes a 1%,...,99%. Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y así veremos 2 5 50   4 10 100

En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa: Entonces tendremos que : Ni=1 < (%) . n < Ni  Q = xi en el supuesto que (%).n = Ni  Q  72

x i  x i 1 2


Primero encontraremos el intervalo donde estará el cuantil: lugar Q  L i 1 

Ni=1

< (%) n< Ni Intervalo [Li-1, Li)

, en este caso:

% N  N i 1 a i ni

Ejemplo: DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución

xi

ni

Ni

5

3

3

10

7

10

15

5

15

20

3

18

25

2

20

n = 20

Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90 percentil (P90) Lugar que ocupa la mediana  lugar 20/2 = 10 Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es c PRIMER CUARTIL

(C1)

Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 < (25%).n < Ni , es decir 3 < 5 < 10 esto implicara que C1 = xi = 10 73


TERCER CUARTIL (C3) Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo: C3 

x i  x i 1 15  20   17,5 2 2

CUARTO DECIL (D4) Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8. Como Ni-1 < (%).n < Ni ya que

3 < 8 < 10 por tanto D4 =10.

NONAGÉSIMO PERCENTIL

(P90)

Lugar que ocupa en la distribución (90/100). 20 = 1800/100 = 18. que coincide con un valor de la frecuencia absoluta acumulada, por tanto realizaremos el cálculo: P90 

x i  x i 1 20  25   22,5 2 2

Ejemplo: DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente distribución:

[Li-1 , Li)

ni

Ni

[0 , 100)

90

90

[100 , 200)

140

230

[[200 , 300)

150

380

[300 , 800)

120

500

n = 500

74


Primer cuartil (C4) Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto C4

estará situado en el intervalo

directamente, tendremos: C 4  100 

[100 – 200).Aplicando la expresión

125  90 100  125 140

Cuarto decil (D4) Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D 4 estará situado en el intervalo D 4  100 

[100

200).

Aplicando

la

expresión

tendremos:

200  90 100  178,57 140

Nonagésimo percentil (P 90) Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estará situado en el intervalo P90  300 

[300

800).

Aplicando

450  380 70 500  300  500  591,67 120 120

75

la

expresión

tendremos:


CAPITULO VIII 8.1

MEDIDAS DE DISPERSIÓN

Rango (o Intervalo):Es la distancia que existe entre el menor y mayor valor de los datos. Datos No Agrupados: rango  max  min

Datos Agrupados:

rango  LSk  LI1 donde k = última clase Rango Semi-Inter Cuartil (Q): (o Desviación Cuartil) Mide el rango promedio de una cuarta parte de los datos (evita los valores extremos)

Q 8.2

Q 3  Q1 2

DESVIACIÓN MEDIA ABSOLUTA (DM): (O DESVIACIÓN ABSOLUTA

PROMEDIO) Es la distancia promedio de los datos a su media. Datos No Agrupados: n

 X X i

DM =

i 1

n

Datos Agrupados: k

f DM =

i

Xi  X

i 1

n

76


8.3

VARIANZA

Poblacional ( 2 ): Es el promedio del cuadrado de la distancia de los datos a su media Datos No Agrupados: N

2 =

 X   

2

i

i1

N

 2   Xi  2   i1  N   N

    2   

Datos Agrupados: k

2 =

 f X   

2

i

i 1

i

N

 2   fi *X i  2   i1  N   k

    2   

Muestral (S 2 ): La suma de las distancias al cuadrado se divide entre en número de datos menos uno: Datos No Agrupados:

 x  x  n

S2 =

2

i 1

i

n -1     xi2   nx 2  2 i 1    S    n -1   n  1        n

77


Datos Agrupados:

 f x  x  k

S2 =

2

i 1

i

i

n -1

   f i x i2 S 2   i 1  n -1   k

  2    n x    n -1     

Nota: S 2 para muestras "chicas". Para muestras grandes S 2 o 2 prácticamente no difieren. 8.4

DESVIACIÓN ESTÁNDAR

Mide la variación de los datos en términos absolutos. Es la raíz cuadrada positiva de la varianza. Poblacional: Muestral:

  2 S = S2

La desviación estándar se interpreta construyendo intervalos alrededor del promedio: a) Teorema de Chebyshev. Si la distribución no es simétrica y unimodal. - Al menos el 75% de los valores cae dentro de 2 desviaciones estándar alrededor de la media: X  2S - Al menos el 89% de los valores caen dentro de 3 desviaciones estándar alrededor de la media: X  3S b) Regla Empírica. Si la distribución es una curva acampanada, unimodal y simétrica: - Aproximadamente el 68% de los datos (población) se encuentran a una desviación estándar alrededor de la media: X  S 78


- Aproximadamente el 95% de los datos (población) se encuentran a 2 desviaciones estándar alrededor de la media: X  2S - Aproximadamente el 99% de los datos (población) se encuentran a 3 desviaciones estándar alrededor de la media: X  3S Coeficiente de Variación (CV): Mide la variación relativa de la variable con respecto a su promedio. Mide la magnitud de la desviación estándar en relación con la magnitud de la media. Se expresa en por cientos.

CV = 8.5

S  100 X SIMETRÍA

Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes ,cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media.

Figura 5-1

El Coeficiente de asimetría, se representa mediante la ecuación matemática,

79


Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan: 

(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5).

(g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media.

(g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media.

8.6

CURTOSIS

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).

80


Para calcular el coeficiente de Curtosis se utiliza la ecuación:

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan: 

(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).

(g2 > 0) la distribución es Leptocúrtica

(g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores.

81


Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que los lectores profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los conceptos estadísticos.

Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta ciencia. 8.7

OTRAS CONSIDERACIONES DE LAS MEDIDAS DE DISPERSIÓN

ABSOLUTAS VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada observación y la media aritmética del conjunto de observaciones. Haciendo operaciones en la fórmula anterior obtenemos otra fórmula para calcular la varianza: Si los datos están agrupados utilizamos las marcas de clase en lugar de Xi. DESVIACIÓN TÍPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza

82


Para estimar la desviación típica de una población a partir de los datos de una muestra se utiliza la fórmula (cuasi desviación típica): RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin MEDIDAS DE DISPERSIÓN RELATIVAS COEFICIENTE DE VARIACIÓN DE PEARSON: Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media. Medidas de Forma Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal. MEDIDA DE ASIMETRÍA Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda.

83


Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson: Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda. MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. EJEMPLO 1 El número de diás necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza y desviación típica SOLUCIÓN: La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone: La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia: 15, 21, 32, 59, 60, 60,61, 64, 71, 80.

84


Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana. La moda: el valor de la variable que presenta una mayor frecuencia es 60 La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución. Sx2= La desviación típica S: es la raíz cuadrada de la varianza. S = √ 427,61 = 20.67 El rango: diferencia entre el valor de las observaciones mayor y el menor 80 - 15 = 65 días El coeficiente de variación: cociente entre la desviación típica y el valor absoluto de la media aritmética CV = 20,67/52,3 = 0,39 EJEMPLO 2 El precio de un interruptor magentotérmico en 10 comercios de electricidad de una ciudad son : 25, 25, 26, 24, 30, 25, 29, 28, 26, y 27 Euros. Hallar la media, moda, mediana, (abrir la calculadora estadística, más abajo) diagrama de barras y el diagrama de caja. SOLUCIÓN: Utilizar la calculadora de debajo)

85


El diagrama de cajas: caja desde Q1 a Q3 (50% de los datos), bigotes el recorrido] COEFICIENTE DE ASIMETRÍA DE PEARSON El coeficiente de asimetría de Pearson mide la desviación respecto de la simetría expresando la diferencia entre la media y la mediana en relación con la desviación estándar del grupo de medidas. Las fórmulas son: En una distribución simétrica, el valor del coeficiente de asimetría será siempre de cero, porque la media y la mediana son iguales entre sí en valor En una distribución asimétrica positiva, la media siempre es mayor que la mediana; en consecuencia, el valor del coeficiente es positivo. En una distribución asimétrica negativa, la media siempre es menor que la mediana; por lo tanto, el valor del coeficiente es negativo.

MEDIDAS DE DISPERSIÓN - VARIANZA Y DESVIACIÓN

Así como las medidas de tendencia central nos permiten identificar el punto central de los datos, las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones alrededor de su promedio aritmético (Media). Este tipo de medidas son parámetros informativos que nos permiten conocer como los valores de los datos se reparten a través de eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. Las medidas de dispersión más importantes y las más utilizadas son la Varianza y la Desviación estándar (o Típica).

VARIANZA Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media

). Este promedio es

calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la

86


media y dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación sería:

Donde (

) representa la varianza, (Xi) representa cada uno de los valores, ( )

representa la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es:

Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa para la población. Es necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado. Desviación estándar o Típica Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería:

87


Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen

los

siguientes

pesos

(490,

500,

510,

515

y

520)

gramos

respectivamente.

Por lo que su media es:

La varianza sería:

Por lo tanto la desviación estándar sería:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado.

88


CAPITULO IX 9.1

MEDIDAS DE FORMA Proporcionan un valor numérico para saber hacia qué lado de la

distribución hay mayor acumulación de frecuencias y si la concentración central de frecuencias es mayor que en los extremos o viceversa sin tener que graficar los datos. Momento Respecto de la Media: El r-ésimo momento respecto a la media aritmética es: Datos No Agrupados:

 x

 x

n

mr 

i 1

r

i

n

Datos Agrupados:

 f x n

mr 

i 1

i

 x

r

i

n

El primer momento respecto a la media (r=1) siempre es igual a cero. El segundo momento respecto a la media (r=2) es la varianza poblacional. Sesgo: Es el grado de asimetría que tiene la distribución. La distribución puede ser: - Insesgada: Si tiene forma de campana y el área acumulada del centro de la distribución a la derecha es igual a la que se acumula a la izquierda.

Insesgada

Moda=Mediana=Media

89


-

Con sesgo positivo o a la derecha: Si tiene la mayor acumulación de frecuencias a la izquierda y una cola larga a la derecha.

-

Con sesgo negativo o a la izquierda: Si la mayor acumulación está a la derecha y tiene una cola larga a la izquierda.

Coeficiente Momento de Sesgo ( a 3 ): se calcula dividiendo el tercer momento respecto a la media entre la desviación estándar al cubo: Datos No Agrupados:

 x n

a3 

m3  S3

i 1

 x

3

i

ns 3

Datos Agrupados:

 f x k

a3 

m3  S3

i1

i

 x

3

i

ns 3

90


Curtosis:

Coeficiente momento de sesgo

Sesgo

a3 = 0

No hay sesgo. distribución insesgada

a3 > 0

La distribución tiene sesgo positivo o a la derecha.

a3 < 0

La distribución tiene sesgo negativo o a la izquierda.

La es

Mide qué tan puntiaguda es una distribución, con respecto a la

Normal. La distribución puede ser: - Mesocúrtica: solo la distribución Normal (es el término medio). - Leptocúrticas: Las distribuciones más puntiagudas que la Normal. - Platocúrticas: Las distribuciones menos puntiagudas que la Normal.

Coeficiente momento de curtosis ( a 4 ): se calcula dividiendo el cuarto momento respecto a la media entre la varianza al cuadrado (o la desviación estándar a la cuarta).

91


Datos No Agrupados:

 x n

a4 

m4  S4

i 1

 x

4

i

ns 3

Datos Agrupados:

 f x k

a4 

m4  S4

i1

i

 x

4

i

ns 4

Coeficiente Curtosis momento de curtosis

9.2

a4 = 3

La distribución es Mesocúrtica.

a4 > 3

La distribución es Leptocúrtica.

a4 < 3

La distribución es Platocúrtica.

MEDIDAS DE CONCENTRACIÓN En una distribución, ni la media ni la varianza son explicativas de la

mayor o menor igualdad en el reparto; para esto usamos las medidas de concentración. Consideremos que la variable en cuestión es el salario. Una distribución muy concentrada indica que pocos individuos reciben la mayor parte del total, mientras que poca concentración supone que todos los individuos tienen un reparto igualitario.

92


Indice de Gini: k 1

Ig 

 p i 1

i

 qi 

k 1

p i 1

i

donde: k = número de clases, renglones o categorías pi = la proporción acumulada de individuos =

fi  100 = n

fra x 100

q i = la proporción acumulada del total del producto de f i* xi

0  Ig  1

Si Ig=0, la variable está menos concentrada (mejor repartida). Si Ig=1, la variable está más concentrada (peor repartida).

Curva de Lorenz: Se grafican los valores de la proporción acumulada de individuos (p) y la proporción acumulada del total de la variable (q). La función identidad representa la igualdad absoluta, es decir, a la variable cuando no está concentrada (la recta a 45 grados). La desigualdad absoluta o máxima concentración de la variable indicaría que un solo individuo tenga el total de la variable (el triángulo inferior). Cuanto más se acerque la Curva de Lorenz a la diagonal, mas igualitario será el reparto (Ig = 0). Cuanto más se acerque la Curva de Lorenz al triángulo inferior, mas concentrada esta la variable (Ig = 1).

93


El Indice de Gini calcula el área entre la diagonal y la Curva de Lorenz, como un porcentaje del área del triángulo inferior de la gráfica (mide la desigualdad relativa). Ejemplo: La información que se presenta a continuación representa el salario de los 300 empleados de una empresa y nos interesa saber la concentración de los datos.

No. de empleados

Marca de clase

F*x

Fra = P

H

Q

P-Q

8 - 10

190

9

1710

63.33

58.163

58.16

5.17

10 - 12

100

11

1100

96.67

37.42

95.58

1.09

12 - 14

10

13

130

100.00

4.42

100.00

0

Salario Mensual (en miles)

k 1

Ig 

 p i  qi  i 1

k 1

 pi

5.17  1.09  0.0391 Como podemos observar el resultado 63.33  96.67

i 1

refleja que no hay mucha concentración de los datos, es decir, los datos se encuentran bien distribuidos.

94


9.3

PROBLEMAS RESUELTOS Y PROPUESTOS

Ejemplo #1: Variable Continua: La

tienda CABRERA’S

Y ASOCIADOS estaba

interesada en

efectuar

un análisis de sus cuentas por comprar. Uno de los factores que más interesaba a la administración de la tienda era el de los saldos de las cuentas de crédito. Se escogió al azar una muestra aleatoria de 30 cuentas y se anotó el saldo de cada cuenta (en unidades monetarias) como sigue: 77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97 32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68 Solución: 1.

A= ( 7.42, 8.15, …, …, …, 90.99, 93.91 ) donde: X1 = valor mínimo = 7.42 Xn= valor máximo = 93.91

2.

Efectuar el arreglo ordenado de la población o muestra: R = valor mayor – valor menor = Xn – X1 = 93.91 – 7.42 = 86.49

3.

Encontrar el rengo o recorrido de los datos: "R" K=1+3.322(log N) Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra: K = 1 + 3.322 (log 30) = 1 + 3.322 (1.477) el log fue obtenido según calculadora = 1+ 4.9069 = 5.9069 ~6 aproximado al siguiente entero

4.

Encontrar en número de clases "K" , según la fórmula de Sturges:

95


5.

Determinar la amplitud de la clase: "C"

Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea como los datos están dados en centésimos, se calculo C hasta los milésimos para evitar que algún dato coincida con el límite de clases Clases

P.M.

fi

fr

fa↓

fa↑

fra↓ fra↑

14.628 10 0.33 10

30

0.33 1.00

Xi 7.420 – 21.835

21.835 – 36.250 29.043 4

0.13 14

20

0.46 0.67

36.250 – 50.665 43.458 5

0.17 19

16

0.63 0.54

50.665 – 65.080 57.873 3

0.10 22

11

0.73 0.37

65.080 – 79.495 72.288 3

0.10 25

8

0.83 0.27

79.495 – 93.910 86.703 5

0.17 30

5

1.00 0.17

Total

XXX

30 1.00 XXX XXX XXX XXX

Simbología utilizada: XI = Punto medio o marca de clases fi = frecuencia absoluta fr = frecuencia relativa fa↓ = frecuencia absoluta acumulada descendente fa↑ = frecuencia absoluta acumulada ascendente fra↓ = frecuencia relativa acumulada descendente

96


fra↑ = frecuencia relativa acumulada ascendente Nota: i.

Obsérvese que el límite inferior de la primera clase es el valor mínimo ( X1=7.42 ) y el límite superior es el resultado de X1+C = 7.42+14.415 = 21.835.

ii.

El límite inferior de la siguiente clase es igual al límite superior de la clase anterior y el límite superior es el resultado de adicionarle nuevamente la amplitud de la clase ( C ).

iii.

Obsérvese que el límite superior de la última clase es igual al valor mayor ( Xn=93.91 )

OTROS PROBLEMAS Problema #1: Variable Continua En la siguiente tabla se presentan los pesos de 40 estudiantes de la Universidad de Panamá, con una aproximación de una libra. 138 164 150 132 144 125 149 157 146 164 140 147 136 148 152 144 168 126 138 176 163 118 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 126 a.

Construya una tabla de distribución de frecuencias, indicando las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.

b.

Construya un histograma, un polígono de frecuencias y una ojiva de la distribución.

97


Problema #2: Variable Discreta: Una encuesta entre

un grupo de

madres-solteras,

para

analizar

los problemas económicos que enfrentan, en determinada comunidad; arrojó los siguientes resultados acerca del número de niños en el hogar. 1423535335 1121412141 2112123233 3134113542 2514231251 a.

Construya una tabla de distribución de frecuencias y sus respectivas representaciones gráficas.

Problema #3: Una compañía de transmisiones electrónicas registro como sigue el número de recibos de servicios prestados por cada una de sus 20 sucursales en el último mes: 808 641 628 731 641 446 342 545 910 568 335 459 727 848 229 347 309 649 575 757 La compañía piensa que una tienda realmente no puede esperar alcanzar financieramente el punto de equilibrio con menos de 456 servicios prestados mensualmente. Además su política es dar un bono financiero al gerente que genere más de 683 servicios al mes. Disponga los datos en una arreglo e indique cuántas sucursales no están consiguiendo el punto de equilibrio y cuántas ganan el bono.

98


Problema #4: Una agencia de viajes ofrece precios especiales en ciertas travesías por el Caribe. Planea ofrecer varios de estos paseos durante la próxima temporada invernal en el hemisferio norte y desea enviar folletos a posibles clientes. A fin de obtener el mayor provecho por cada unidad monetaria gastada enpublicidad, necesita la distribución de las edades de los pasajeros de travesías anteriores. Se consideró que si participaban pocas personas de un grupo de edad en los paseos no sería económico enviar un gran número de folletos a personas de ese grupo de edad. La agencia seleccionó una muestra de 40 clientes anteriores de sus archivos y se registró sus edades, como sigue: 77 18 63 84 38 54 50 59 54 56 36 50 50 34 44 41 58 58 53 62 62 43 52 53 63 62 62 61 61 52 60 60 45 66 83 63 63 58 61 71 a.

Organice los datos en una tabla de distribución de frecuencias de las edades de los clientes en la muestra

b.

¿Cuál grupo de edad presenta la mayor frecuencia relativa? ¿Cuál la menor frecuencia relativa?.

c.

Saque conclusiones que puedan ayudar a la agencia a planear una campaña de publicidad para los paseos invernales

OTROS PROBLEMAS RESUELTOS 1. El siguiente cuadro muestra las calificaciones del Segundo Año de Educación Básica de la asignatura de Lenguaje en un Centro Educativo

99


19 18

14

20

16

15 19

18

17

18

18 20

19

16

18

18 17

20

17

19

19 20

19

18

18

Procedamos a presentar los datos en un cuadro estadístico, ordenado en forma descendente. Calificaciones del Segundo Año de Educación Básica de la asignatura de Lenguaje en un Centro Educativo:

¿Cómo lo hicimos? n = 25 Ejemplo: Estas son las estaturas en cm de un grupo de jóvenes 150 153 156 150 154 154 155 152 154 149 158 154 161 159 152 149 150 146 155 162 145 157 148 161 149 154 151

100


Como podemos observar las estaturas son muy variadas. ¿Qué hacer para una mayor comprensión?. Usted tiene la respuesta. Agruparlas en intervalos Para ello agrupemos en intervalo de 3, en forma ascendente

TENGA PRESENTE QUE: Que en este tipo de distribuciones que si un valor corresponde al límite entre dos intervalos, debemos anotarlo en el intervalo superior. ACTIVIDADES: 1. Los siguientes datos se obtuvieron al preguntar a las alumnas del 10mo. año de Educación Básica su edad: 15 16 14 13 12 17 12 14 15 16 13 15 16 16 13 14 16 12 14 16 12 13 16 14 15 13 12 12 13 a) Ordene los datos en forma ascendente y descendente b) Calcule la amplitud c) Elabore una tabla de frecuencia d) Halle el porcentaje de las alumnas que tienen 17 años e) Conteste: ¿Cuántas alumnas tienen 15 años? 2. Llene los espacios en blanco de la siguiente tabla correspondiente a estaturas en cm.

101


SERIE I: MEDIA ARITMÉTICA DE UNA SERIE ESTADÍSTICA SIMPLE Supongamos que en un curso de 10 alumnos las calificaciones en la asignatura de matemáticas fueron: 20, 15, 12, 18, 12, 17, 15, 16, 19, 17. Encontremos la media aritmética. SOLUCIÓN. La media aritmética simple se obtiene con la fórmula:

SERIE

2.MEDIA

ARITMÉTICA

DE

UNA

SERIE

ESTADÍSTICA

DE

FRECUENCIA Para determinar la media aritmética de una serie estadística de frecuencia multiplicamos la variable por la frecuencia respectiva, posteriormente sumamos estos productos y Dividimos por el número de casos, su fórmula es:

102


Ejemplo Los datos del siguiente cuadro estadístico corresponden a estaturas en cm. de 25 alumnos de la especialidad de Físico Matemáticas de la UTPL.

SERIE 3. MEDIA ARITMÉTICA DE UNA SERIE ESTADÍSTICA DE INTERVALOS Para determinar la media aritmética de una serie estadística de intervalos podemos seguir el siguiente procedimiento: ? Obtenemos los puntos medios de la serie ? Multiplicamos las frecuencias por las marcas de clase o puntos medios ? Sumamos los productos por las marcas de clase o puntos medios ? Por último dividimos la suma obtenida por el número de elementos de la serie Ejemplo: La presente tabla de frecuencia muestra de calificaciones de 35 alumnos del 9no año de Educación Básica de un Centro educativo de la ciudad de Loja. 103


EJEMPLOS DE CUANTILES En una clínica de la ciudad de Loja, por medio de una encuesta se pregunto la edad a los enfermos, se tabulo la información y se obtuvieron los siguientes resultados.

Determine; a) El segundo cuartil b) El sexto decil c) El centil 50 Desarrollo: a) Primero encuentre la posición del cuartil 2 2 N/4 = 2.105/4 = 52.5 Este valor se localiza en la frecuencia acumulada (próximo mayor). Observamos que el intervalo donde se encuentra este valor es (30 – 34 ) y para el calculo matemático se emplea la fórmula.

104


Quiere decir que Quiere decir que el 50 % de enfermos tienen una edad inferior a 30,75 años. b) Calculamos la posición del 6 decil 6N/10 = 6.105/10 = 63 Este valor esta localizado en el mismo intervalo del cuartil 2, para su cálculo matemático se aplica la fórmula.

105


Es decir el 60% de los enfermos tienen edades inferiores a 33 año. ¿El cálculo del Cserá igual al de la mediana? Justifique su respuesta AUTOEVALUACIÓN 1. En el paréntesis correspondiente escriba una C o una I si el enunciado es correctoo incorrecto. a) El cuartil 50 divide a la serie en dos partes iguales

(

)

b) El decil 5 de la siguiente serie: 18,17,15,14,13,12 es 14 (

)

c) El centil 50 de la serie anterior es 3.5

(

)

d) El valor de la mediana es igual al cuartil 2

(

)

2. En los cuadros siguientes determine el valor correspondiente a las medidas anotadas

106


OTROS EJEMPLOS DE MEDICION CENTRAL a) Serie Simple Tipo(I)

Medidas centrales

Mdn =N/2= 7/2 = 3.5(corresponde a 95) Mo ( No hay) Medidas de dispersión Rango = VM-Vm 98 – 92 = 6 b) Serie de frecuencias Tipo (II)

Medidas centrales

Mdn=N/2= 40/2 = 20 17 Mo = 16 107


Para el Modo(a) observe en el cuadro que la mayor frecuencia es 12 y que corresponde a la variable 16. En cambio en el caso anterior no existe puesto que no hay casos que se repiten. Medidas de dispersión

Rango = VM-Vm 20 -15 = 5 c) Serie de intervalos o Tipo (III)

Evaluación final de estadística descriptiva 1. Como estadístico residente de Pigs and People (P & P) Airlines, el director de la división de análisis estadístico le pide recolectar y agrupar los datos sobre el número de pasajeros que han decidido viajar con P&P. Tales datos correspondientes a los últimos 50 días aparecen en la siguiente tabla. 68 71 77 83 79 72 74 57 67 69 50 60 70 66 76

108


70 84 59 75 94 65 72 85 79 71 83 84 74 82 97 77 73 78 93 95 78 81 79 90 83 80 84 91 101 86 93 92 102 80 69 a) Realice la tabla de distribución de frecuencia con 6 clases. ¿Está trabajando con datos continuos o discretos? b) Construya un Histograma, Polígono de frecuencia y Ojiva 2) Su firma esta introduciendo un nuevo chip de computador del cual se promociona que realiza cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado. Se hacen 20 cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera más favorable para su empresa. Determine la media, la mediana y la moda. 3.2 4.1 6.3 1.9 0.6 5.4 5.2 3.2 4.9 6.2 1.8 1.7 3.6 1.5 2.6 4.3 6.1 2.4 2.2 3.3 2. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para empresas de Estados Unidos. Los datos están expresados en miles de dólares. 58 76 89 45 67 34 64 76 34 65 45 39 79 74 56 71 85 87 74 38 69 79 61 71 69 62 56 38 69 79 71 54 31 69 62 39

109


65 79 47 46 77 66 55 75 62 57 77 36 73 72 64 69 51 50 40 50 74 61 69 73 c) Realice la tabla de distribución de frecuencia con n clases. ¿Está trabajando con datos continuos o discretos? d) Construya un Histograma, Polígono de frecuencia y Ojiva 2) Su firma esta introduciendo un nuevo chip de computador del cual se promociona que realiza cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado. Se hacen 20 cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera más favorable para su empresa. Determine la media, la mediana y la moda. 52 43 30 38 30 42 12 46 39 37 34 46 32 18 41 5 3. Los siguientes datos son los ingresos de 60 ejecutivos de marketing para empresas de Estados Unidos. Los datos están expresados en miles de dólares. 58 76 89 45 67 34 64 76 34 65 45 39 79 74 56 71 85 87 74 38 69 79 61 71 69 62 56 38 69 79 71 54 31 69 62 39 65 79 47 46 77 66 55 75 62 57 77 36 73 72 64 69 51 50

110


40 50 74 61 69 73 e) Realice la tabla de distribución de frecuencia con n clases. ¿Está trabajando con datos continuos o discretos? f) Construya un Histograma, Polígono de frecuencia y Ojiva 2) Su firma esta introduciendo un nuevo chip de computador del cual se promociona que realiza cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado. Se hacen 20 cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante. Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera más favorable para su empresa. Determine la media, la mediana y la moda. 52 43 30 38 30 42 12 46 39 37 34 46 32 18 41 5

LABORATORIO PARA LA EVALUACION (Resolver y entregar en grupos de tres estudiantes, equivalen a nota de un parcial) Problema #1: Una guardería es una institución elegible para recibir un subsidio destinado a los servicios sociales del corregimiento, a condición de que la edad promedio de sus niños no llegue a 9 años. Si los datos siguientes representan la edad de todos los niños que actualmente asisten a ella: 8 5 9 10 9 12 7 12 13 7 8 a.

¿Llena el requisito para recibir el subsidio? 14,500 15,600 12,500 8.000 7,800 6,500 5,900 10,200 8,800 14,300 13,900

111


b.

La guardería del ejemplo anterior puede continuar siendo subvencionada por la oficina de servicios sociales de la Junta Comunal, mientras el ingreso anual promedio de la familia cuyos asisten a esa institución no llegue a B/.12,500.00. El ingreso familiar de los padres de los niños es;

c.

¿Llena esta institución los requisitos para recibir apoyo financiero de la Junta Comunal del Corregimiento?

d.

Si la respuesta a (c) es negativa, ¿cuánto debe disminuir el ingreso familiar para cumplir esa condición?

e.

Si la respuesta a (c) es afirmativa, ¿cuánto puede aumentar el ingreso familiar promedio, sin que la institución pierda su elegibilidad para recibir el subsidio?

Problema #2: Una granja ganadera registro durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer (en kilogramos) fue el siguiente: 22 31 33 34 35 36 37 38 38 39 40 40 40 41 41 42 42 42 42 42 43 43 44 45 46 46 46 46 50 Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvo la siguiente tabla resultante. clases

fi

21.5 – 26.5 1 26.5 – 31.5 1 31.5 – 36.5 4 36.5 – 41.5 9

112


41.5 – 46.5 13 46.5 – 51.5. 1 Total

29

Calcule en las dos variantes (datos no agrupados y datos agrupados) la media aritmética, la mediana y la moda. Problema #3: El peso en kilogramos de un grupo de estudiantes del sexo masculino en un curso de educación física, son los siguientes: clases

fi

52.5 – 57.5 8 57.5 – 62.5 9 62.5 – 67.5 6 67.5 – 72.5 4 72.5 – 77.5 2 77.5 – 82.5. 1 Total

30

Encuentre la media, la mediana y la Moda. Compare los resultados utilizando la fórmula señalada anteriormente en el texto relativa a la correspondencia entre estas tres medidas de tendencia central.

113


Problema #4: Un profesor ha decidido utilizar un promedio ponderado al calcular las calificaciones finales de los estudiantes que asistieron a su seminario. El promedio de las tareas hechas en casa representan el 20% de cada calificación, el examen parcial, 25%; el examen final, 35%; el examen trimestral, 10% y los problemas de practica, 10%. Con los datos anexos calcule el promedio final de los cinco estudiantes que asistieron al seminario Alumno

Tarea

Problemas Examen

escolar

trimestral

Examen

Examen

parcial

final

1

85

89

94

87

90

2

78

84

88

91

92

3

94

88

95

86

89

4

82

79

83

84

93

5

95

90

92

82

88

Problema #5: En 1996 se invirtió un fondo de B7.30,000.00 y durante diez años se reinvirtieron todos los intereses y dividendos. Al final de los diez años el valor total del fondo era de B7.49,783.64 ¿Cuál fue la tasa de rendimiento promedio, computada anualmente sobre la inversión inicial? Problema #6: Los siguientes tres automóviles obtuvieron el kilometraje por litro de gasolina que se indica abajo, después de cubrir un trayecto de 600 km, en una pista de prueba. ¿Cuál es el promedio de kilómetros por litros para los tres automóviles?.

114


Automóvil A 12.5 km/lt Automóvil B 15.6 km/lt Automóvil C 19.4 km/lt Problema #7: Suponga que cada uno de los tres automóviles del problema #6 tenía 10 litros de gasolina en el tanque. Los autos fueron rodados hasta que se le acabó la gasolina y los kilómetros por litro fueron los mismos señalados en el problema anterior. ¿Cuál es el número promedio de kilómetros para los tres automóviles?. Compare esta respuesta con los que se obtuvieron en el problema #6. Problemas de práctica de sumatorias I. Si x1=4; x2=8; x3=10; x4=12; x5=15; x6=5; x7=4; x8=14; x9=16 lleva a cabo las siguientes operaciones

II. Dado que x1=4; x2=6; x3=-5; x4=1; y1=2; y2=3; y3=5; y4=7; z1=3; z2=8; z39; z4=10 115


Halla

Respuestas I.1) 22 2) 49 3) 179 4) 73 5) 7(88) = 616 6) 12 II-. 1) 30

116


2) 23 3) 6 + 17 = 23 4) 5(47) = 235 5) 17 + 30 = 47 6) 53 7) 5(8) = 40 8) 1(10) = 10

OTROS PROBLEMAS RESUELTOS

1.-El gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen

los

siguientes

pesos

(490,

500,

510,

515

y

520)

gramos

respectivamente. Por lo que su media es:

Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuanto es el 117


promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado. 2.-Ejemplo: Desviación estándar para datos no agrupados Calcular la desviación estándar al siguiente conjunto de datos muéstrales. 220

215

218

210

210

219

208

207

213

225

213

204

225

211

221

218

200

205

220

215

217

209

207

211

218

PASO 1: Calcular la media aritmética. PASO 2: Calcular la varianza En este punto, la varianza es identificada por S2. PASO 3: Calcular la desviación estándar a partir de la raíz cuadrada de la varianza. Los datos se alejan en promedio de la media aritmética en 6,5516 puntos. 3.- Hallar la desviación media, la varianza y la desviación típica de la series de números siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5. 2, 3, 6, 8, 11.

118


12, 6, 7, 3, 15, 10, 18, 5.

4.-Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 ni単os de su consulta en el momento de andar por primera vez: Meses Ni単os 9

1

10

4

11

9

12

16

13

11

14

8

15

1

119


Calcular la desviaci贸n t铆pica.

5.-.El resultado de lanzar dos dados 120 veces viene dado por la tabla: Sumas

2

3

4

5

6

7

8

9

10

11

12

Veces

3

8

9

11

20

19

16

13

11

6

4

Calcular la desviaci贸n t铆pica.

120


6.-Calcular la desviaci贸n t铆pica de una distribuci贸n estad铆stica que viene dada por la siguiente tabla:

121


7.-Calcular la desviaci贸n t铆pica de la distribuci贸n de la tabla:

122


8.-Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:

Altura

NÂş jugadores

de

[170,

[175,

[180,

[185,

[190,

[195,

175)

180)

185)

190)

195)

2.00)

1

3

4

8

5

2

Calcular la desviaciĂłn tĂ­pica

123


9.-Dada la distribución estadística:

fi

[0, 5)

[5, 10)

[10, 15) [15, 20) [20, 25) [25, 8)

3

5

7

8

2

6

Calcular la desviación típica.

Media No se puede calcular la media, porque no se puede hallar la marca de clase del último intervalo. 124


Desviación típica Si no hay media no es posible hallar la desviación típica. 10.- Calcular la desviación típica de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

Ejercicios de varianza 1.-Calcular la varianza de la distribución: 9, 3, 8, 8, 9, 8, 9, 18

2.-Calcular la varianza de la distribución de la tabla:

125


3.-Hallar la desviaci贸n media, la varianza y la desviaci贸n t铆pica de la series de n煤meros siguientes: 2, 3, 6, 8, 11. 12, 6, 7, 3, 15, 10, 18, 5. 2, 3, 6, 8, 11.

126


4.-Las alturas de los jugadores de un equipo de baloncesto vienen dadas por la tabla:

Altura

N潞

de

jugadores

[170,

[175,

[180,

[185,

[190,

[195,

175)

180)

185)

190)

195)

2.00)

1

3

4

8

5

2

Calcula la varianza. xi

fi

Fi

xi 路 fi

xi2 路 fi

[1.70, 1.75)

1.725

1

1

1.725

2.976

[1.75, 1.80)

1.775

3

4

5.325

9.453

[1.80, 1.85)

1.825

4

8

7.3

13.324

127


[1.85, 1.90)

1.875

8

16

15

28.128

[1.90, 1.95)

1.925

5

21

9.625

18.53

[1.95, 2.00)

1.975

2

23

3.95

7.802

42.925

80.213

23

5.-Determinar la media o valor esperado de la distribución cuya función densidad de probabilidad está por la regla de correspondencia:

Solución:

6.-Calcular la varianza

para la función densidad

Solución:

128


7.- calcular la varianza de la altura de varios perros Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.

129


BIBLIOGRAFIA Bibliográfica Básica  Estadística aplicada a los negocios. Autor: Dr. Mauricio Lefcovich. 2006.  Estadística para negocios – Hanke – Editorial Irwin

– 1995

 Estadística para Administración y Economía: Mason Lind

–2001

 Estadística Aplicada

: Kazmier

-2000

 Estadística para Negocios

: Heinz Kohler

–2000

 Estadística

: Shaum

–2000

*Estadística económica y empresarial

: A.M. Montiel

–2000

 Estadística para Administradores: Richard Levin

-

-2001

BIBLIOGRAFÍA COMPLEMENTARIA  Estadística Básica en Administración: Mark Berenson

–2000

 Métodos de Pronósticos – Makridakis – Editorial Limusa – 1998  Informática para Gestores y Economistas – Casas Luengo / García – Editorial Anaya – 2000  Estadística Básica en Administración

: Mark Berenson

–2000

 Estadística Fácil

: Murria Spiegel

-2000

 Cálculo de Probabilidades

: Rufino Moya

-2000

 Sierra Bravo. R. Diccionario Practico de Estadística, Ed Paraninfo S.A. Madrid. España,  Serrano Rodríguez, Javier. Introducción a la Estadística. Ed universitaria  de América LIDA,  Devore, Jay L. Probabilidad y Estadística para ingeniería y ciencias, Ed Thomson, 4ta Edición, 130


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.