Issuu on Google+

Tema 4. Representación gráfica Contenido:  Introducción 1. Características, Clases de gráficos y Detalles de su Construcción 1.1 Características 1.2 Clases de gráficos 1.3 Detalles de la construcción de gráficos 2. Gráficos de Barras y Gráfico Circular 2.1 Gráficos de barras 2.2 Gráfico circular o de sectores 3. Gráficos Lineales y Diagramas de Dispersión 4. Diagrama de Caja, Diagrama de Tallo y Hojas 5. Otros tipos de Representación Gráfica  Fuentes Consultadas  Lecturas Recomendadas  Ejercicios de Autoevaluación Objetivo: Reconocer las formas de presentación de los resultados (cuadros y gráficos) más apropiados según la característica analizada. Introducción.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez


En el tema anterior mencionamos que hay otra forma de presentar los resultados de una investigación o estudio, la cual corresponde a la representación gráfica. Al igual que para la elaboración de cuadros estadísticos, hoy día existen muchos programas informáticos que podemos utilizar para generar diferentes tipos de gráficos. Tanto los programas estadísticos como programas de uso común, tales como el Excel y el Word, y de igual manera en la hoja de cálculo y procesador de textos del software libre OpenOffice.org, cuentan con herramientas y facilidades para elaborar gráficos. Esta relativa facilidad con que pueden generarse gráficos provoca con mayor frecuencia la inclusión de gráficos no apropiados o mal construidos en los documentos. Por ello, adquiere mayor importancia conocer cuáles son los gráficos más adecuados según el tipo de datos a presentar; así como las recomendaciones que podemos seguir para su elaboración. 1. Características, Clases de Gráficos y Detalles de su Construcción. 1.1 Características. Para iniciar, vamos a definir qué entendemos por gráfico: Los gráficos son figuras que sirven para representar mediante elementos geométricos un conjunto de datos estadísticos.

La representación gráfica presenta las siguientes ventajas y desventajas: Ventajas:  La principal ventaja de los gráficos respecto de otras formas de presentación es que llama la atención de manera más eficaz  Si se elaboran apropiadamente, permiten comprender la información más fácilmente y realizar comparaciones  Su comprensión clara y rápida facilita el análisis de los resultados Desventajas: -

No se puede presentar tanto detalle de la información como en un cuadro

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 2


-

Solo es posible representar valores aproximados y no cantidades exactas

Con base en lo anterior, debe evaluarse en cada caso si es conveniente presentar los resultados por medio de un cuadro o un gráfico. También es posible combinar ambas formas de presentación al elaborar un informe o documento, ya que son medios complementarios.

1.2 Clases de Gráficos. Dado que hay distintas clases de gráficos es importante determinar en cuáles casos es apropiado utilizarlos. La determinación del gráfico adecuado depende, en la mayoría de los casos, de la clasificación utilizada en los datos a representar. En otras situaciones, depende del propósito que necesitamos conseguir, por ejemplo, representar dos series de datos cuyas unidades de medida son diferentes. Con base en el tipo de característica que utilicemos para clasificar los datos estadísticos, podemos identificar las series o conjuntos de datos como: cuantitativas, cualitativas, geográficas y series cronológicas o de tiempo: -

Series cuantitativas: la clasificación se hace basándose en una variable cuantitativa (discreta o continua). Por ejemplo, la carga académica promedio de los/as estudiantes por cuatrimestre.

-

Series cualitativas: en este caso la variable de interés es una cualidad o atributo de las personas u otro tipo de unidades elementales estudiadas. Pueden citarse como ejemplos: la ocupación o puesto de las personas graduadas, el grado académico obtenido o la carrera que estudiaron.

-

Series geográficas: en realidad corresponden a un tipo especial de series cualitativas que se utilizan con mucha frecuencia. Muestran la distribución de las unidades elementales según lugares o zonas geográficas. Por ejemplo, el número de estudiantes según cantón de procedencia.

-

Series cronológicas o de tiempo: son muy importantes para estudiar la evolución o comportamiento de un fenómeno económico, social, demográfico o de otro tipo. Algunos ejemplos son: el número de estudiantes admitidos/as

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 3


durante el período 2000-2009 en el centro universitario, o el número de tutorías presenciales brindadas por mes en el centro universitario. De acuerdo con la clasificación anterior y los propósitos del análisis, en la siguiente figura se muestran las clases de gráficos más apropiados.

Clase de Gráfico

Gráficos de Barras, Histogramas, Gráficos Circulares y Pictogramas

Curvas o Diagramas Lineales

Diagrama Semilogarítmico

Tipo de datos o propósito del gráfico

Series cualitativas Series cuantitativas (distribución de frecuencias) - Comparación de datos cuantitativos y cronológicos - Series geográficas - Series cuantitativas - Series cronológicas -

Análisis de variación relativa Comparación de series de magnitud diferente - Comparación de series expresadas en unidades de medida diferentes - Representación de una serie con datos pequeños y grandes -

En algunos casos hay posibilidad de elegir entre distintas opciones de gráficos. Cuando existen diferentes posibilidades, es recomendable seleccionar el gráfico que resulte más sencillo y fácil de interpretar. 1.3 Detalles de la Construcción de Gráficos. Las recomendaciones a seguir en la elaboración de gráficos son similares a las estudiadas en el tema 3 para la construcción de cuadros estadísticos:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 4


-

Título: debe incluirse un título que indique los datos representados en el gráfico. Si es necesario puede incluir una nota introductoria.

-

Indicación de las escalas y las leyendas: las leyendas indican la característica representada en cada coordenada o eje, o bien en cada sector del gráfico circular. En los casos que corresponda, debe indicarse la unidad de medida de los datos (por ejemplo: peso en kilogramos, estatura en cm., montos en millones de colones, etc.). Si es pertinente, las escalas deben iniciar en cero.

-

Cuando se trazan dos o más series de datos en un mismo gráfico, debe indicarse a cuál figura geométrica, color de línea o de barra corresponde cada serie, para poder identificarlas.

-

Deben incluirse notas al pie cuando sea necesario.

-

Fuente: en caso que los datos no hayan sido producidos en la investigación.

-

Tamaño del gráfico: es importante que el gráfico tenga dimensiones proporcionales, es decir, que el ancho y el alto sean de la misma longitud; sino puede dar una idea equivocada sobre el comportamiento de los datos.

-

Alineación: se recomienda que el gráfico quede centrado en el espacio que le corresponda dentro del documento.

 Sugerencia: En aspectos de forma, al elaborar un informe o documento debe evitarse la utilización de muchos colores distintos en los gráficos, es preferible usar solo tonos de un mismo color en todos los gráficos (por ejemplo: hacer todos los gráficos en tonos de azul, verde, gris u otro color). Asimismo, no es necesario ni conveniente elaborar varios tipos de gráfico, por lo general, con dos o tres tipos de gráfico pueden representarse la mayoría de resultados. Al igual que se señaló para los cuadros estadísticos, es recomendable establecer un formato estándar o común para los gráficos en relación con el tipo y tamaño de letra de los títulos y, en este caso, de los colores o tonos a utilizar.

2. Gráficos de Barras y Gráfico Circular. 2.1 Gráficos de Barras.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 5


Los gráficos de barras son utilizados principalmente para realizar comparaciones. Según el tipo datos a representar, las barras serán horizontales o verticales: Barras verticales: se utilizan para representar series cronológicas o datos cuantitativos (distribuciones de frecuencias). Barras horizontales: para representar datos clasificados con base en una característica cualitativa o datos organizados por lugares o zonas geográficas. Respecto de la construcción de estos gráficos, se recomienda: -

Las barras no deben ser muy cortas ni anchas, tampoco conviene que sean demasiado largas o angostas.

-

Entre barra debe dejarse un espacio, excepto cuando se trata de un histograma (que estudiaremos en otro tema del curso). Dicho espacio puede oscilar entre el ancho equivalente a media barra y el ancho de una barra completa.

-

Las escalas, leyendas, título y otros aspectos no deben omitirse.

Como sugerencia, es preferible utilizar solamente el formato tradicional para representar cada barra, ya que algunos programas dan la opción de usar formas de pirámides, cilindros, tubos y otras para dibujar las barras. Reiterándose la recomendación anterior de establecer un formato estándar para todos los gráficos. Entre los gráficos de barras encontramos diferentes tipos: de barras simples, barras comparativas, barra 100% y barras compuestas. A continuación se brindan ejemplos de los distintos gráficos de barras, incluyéndose la mención de algunos aspectos relevantes a considerar en su elaboración. 2.1.1 Gráfico de barras horizontales simples. Con el objetivo de facilitar su interpretación, para este tipo de gráfico se recomienda ordenar las barras de mayor a menor, de acuerdo con su longitud. Por lo tanto, la barra más larga se coloca en la parte superior del gráfico y así sucesivamente, hasta la barra más corta que queda en la parte inferior. En caso que las categorías de respuesta incluyan la opción “Otros”, la barra correspondiente se coloca de última, en la parte inferior del gráfico, a pesar que su longitud pueda ser mayor a la de otras respuestas.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 6


Ejemplo 1: Gráfico de barras horizontales para una serie cualitativa.

Costa Rica: Nº de Diplomas Otorgados en las Univ. Públicas según Grado Académico, 2008

Grado académico Bachillerato Licenciatura Maestría Diplomado Especialidad Prof. Profesorado Doctorado Total

Curso Análisis Exploratorio de Datos

Nº Diplomas 4.920 2.940 1.064 1.027 186 157 35 10.329

Elaborado por: Licda. Ligia Bermúdez 7


.

Ejemplo 2: Gráfico de barras horizontales para una serie geográfica. Costa Rica: Porcentaje de Hogares Pobres según Región, 2008

Región Chorotega Pacífico Central Huetar Atlántica Brunca Huetar Norte Central

% Hog. Pobres 25,9 25,8 24,7 24,6 16,4 14,0

Fuente: INEC. Encuesta de Hogares 2008.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 8


2.1.2 Gráfico de barras verticales simples. Como se mencionó antes, los gráficos de barras verticales se utilizan para representar series cronológicas o la distribución de una variable cuantitativa. En el caso de una serie cronológica (días, meses, años u otra) las barras se ordenan de izquierda a derecha siguiendo ese orden cronológico. Si se trata de una serie cuantitativa, de igual manera, las barras se ubican de izquierda a derecha según las cantidades o valores que asume la variable correspondiente. Ejemplo 3: Gráfico de barras verticales simples para una serie cronológica. El siguiente gráfico muestra el número de ejemplares de libros producidos por la Editorial de la UNED durante el período 1996-2007, según datos tomados del Anuario Estadístico 2007. Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 9


Cantidad de Ejemplares

UNED: EJEMPLARES DE LIBROS PRODUCIDOS EN LA EDITORIAL ,1996-2007

Año

2.1.3 Gráficos de Barras Comparativas, Barras Compuestas y Barra 100%. En muchas situaciones se necesita comparar el comportamiento de una serie en dos o más momentos diferentes o bien para dos o más categorías distintas (por ejemplo, según zona geográfica, sexo u otra variable de interés). Para este propósito podemos utilizar un gráfico de barras comparativas o un gráfico de barras compuestas; ya sean horizontales o verticales, según el tipo de serie a representar. Otra situación corresponde a la necesidad de representar por medio de una sola barra la distribución porcentual de la variable de interés, para ello se cuenta con la posibilidad de construir un gráfico de barras 100%. En estos gráficos se utilizan colores diferentes, o distintos tonos de un mismo color, para identificar cada período o categoría que se compara. A continuación se brindan ejemplos para estos otros tipos de gráficos de barras.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 10


Ejemplo 4: Gráfico de barras comparativas horizontales. Este ejemplo fue tomado de los resultados de la Encuesta de Hogares del 2009, realizada por el INEC. Aquí se compara la tasa de desempleo en cada región para los últimos dos años.

Ejemplo 5: Gráfico de barras comparativas verticales. En este gráfico se comparan los ingresos y egresos de la UNED, de acuerdo con los datos obtenidos del Anuario Estadístico 2007.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 11


UNED: INGRESOS Y EGRESOS REALES 1998-2007

Miles de Colones

Ingresos

Egresos

Año

Ejemplo 6: Gráfico de barras compuestas verticales. Por medio de este gráfico de barras compuestas, para cada año se muestra la cantidad de mujeres y hombres que se graduaron.

GRADUADOS

UNED: TOTAL DE GRADUADOS POR GÉNERO 1999-2007

Masculino Femenino

AÑO

Ejemplo 7: Gráfico de barras 100%. Para cada año del período 2001-2007 se construyo una barra 100% que muestra el porcentaje de los gastos

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 12


correspondientes a cada programa presupuestario, de acuerdo con los datos brindados en el Anuario Estadístico 2007.

PORCENTAJE

UNED: GASTO PORCENTUAL POR PROGRAMA 2001-2007

Año Docencia

Administración General

Produc. y Dist. de Materiales

Dirección Superior y Planif.

Extensión

Vida Estudiantil

Inversiones

Investigación

2.2 Gráfico Circular o de Sectores. El gráfico circular se utiliza más frecuentemente para representar series cualitativas. Para simbolizar las diferentes categorías o partes, los 360 grados de la circunferencia se distribuyen de acuerdo con el porcentaje correspondiente a cada una. No es recomendable utilizar este tipo de gráfico cuando el número de categorías o partes a representar es muy grande o cuando hay partes muy pequeñas, ya que el gráfico puede resultar confuso. En esas situaciones es preferible elaborar un gráfico de barras simples. Para facilitar las comparaciones, se sugiere ordenar los sectores o partes del gráfico de acuerdo con su magnitud (tamaño). El uso de la barra 100% y el gráfico circular es equivalente, es decir, puede utilizarse indistintamente uno u otro. Ejemplo 8: Gráfico circular.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 13


UNED: Grado de Relación entre el Trabajo y la Carrera que Cursan los/as Estudiantes II cuatrimestre del 2005 No responde 5% Alto 49%

Ninguno 23%

Medio 18%

Bajo 5% Fuente: Censo de Estudiantes 2005, realizado por el CIEI.

3. Gráficos Lineales y Diagramas de Dispersión. El diagrama lineal nos muestra principalmente la tendencia de una o varias series, ya que permite visualizar el comportamiento de las variables a través del tiempo. Consiste en una curva (línea) que se traza al unir los puntos correspondientes a la intersección entre los dos ejes. En el caso de series cronológicas, en el eje horizontal se representa el tiempo (años, meses, días) y en el vertical los datos (cantidades). Se utiliza el gráfico lineal cuando el número de períodos es grande, sino es preferible elaborar un gráfico de barras verticales. Para su construcción, se dan las siguientes recomendaciones: -

Es necesario indicar el cero al inicio de la escala vertical, para facilitar la correcta interpretación de la curva. Puede omitirse en el caso de

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 14


representación de números índices, ya que por lo general no van a tomar el valor de cero. Y, cuando por la magnitud de las cifras se difícil iniciar en cero, puede indicarse por medio de un quiebre o apertura en la línea de la escala. -

La escala debe construirse de manera que facilite la interpretación del gráfico por parte de los usuarios.

Con relación al formato del gráfico: -

Las curvas deben destacar al fondo del gráfico, por ello deben tener un trazo más grueso que el de los ejes.

-

Si se representan varias series en el mismo gráfico deben utilizarse diferentes colores y hay que incluir una leyenda para identificar cada serie.

-

El tamaño del gráfico debe ser proporcionado, para que no afecte la interpretación de los datos.

Ejemplo 9: Gráfico lineal. En el siguiente gráfico se muestra la tasa de desempleo para mujeres, hombres y total del país, durante el período 1996-2006, de acuerdo con los resultados de la Encuesta de Hogares de Propósitos Múltiples de dichos años:

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 15


Por otra parte, el diagrama de dispersión es un gráfico en el cual se dibujan solamente los puntos de intersección entre los valores de dos variables que desean compararse, con el propósito de explorar si existe algún tipo de relación entre el comportamiento de ambas. Dado que en un tema posterior de este curso estudiaremos las medidas de asociación entre variables, vamos a postergar el estudio de este tipo de gráfico para incluirlo en dicho tema. 4. Diagrama de Caja, Diagrama de Tallo y Hojas. Hay dos tipos de representación gráfica que se recomiendan especialmente cuando la muestra o cantidad de datos a analizar es relativamente pequeña. En estos casos puede suceder que los gráficos anteriores no nos permitan visualizar algunos detalles de interés en la distribución de las observaciones, lo cual si puede realizarse por medio del gráfico de cajas y el diagrama de tallo y hojas. 4.1 Diagrama de Caja. Se trata de una representación semigráfica del conjunto de observaciones, construida sobre la base del resumen de cinco valores vinculados a las características de posición de la distribución que son mediana, primer y tercer cuartil, y sus extremos: los valores mínimo y máximo de los datos (estas medidas de posición las estudiaremos en un próximo tema). El diagrama de caja es una representación simple de estos cinco números que sintetizan suficiente información acerca de la distribución de la variable, de modo que permite detectar características de forma y observaciones atípicas. No requiere agrupar o promediar datos, como ocurre en el histograma y, sin reemplazarlo, constituye un buen sustituto del mismo, ya que permite al analista visualizar la distribución “de un golpe”. Se construye de la siguiente forma: - Hay que ordenar los datos según su magnitud y se determinan: el valor máximo, el mínimo, la mediana y cuartiles primero y tercero - Dibujar un rectángulo de base igual a la diferencia intercuartil y altura convencional; se indica la posición de la mediana (valor central de la distribución) mediante una línea divisoria dentro del rectángulo. - Se calculan los umbrales superior e inferior

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 16


- Se trazan líneas desde cada extremo del rectángulo central hasta los valores adyacentes inferior y superior (estas líneas son los “bigotes” de la caja) - Se marcan los datos que están fuera de los umbrales inferior y superior, como valores atípicos. La mayoría de programas estadísticos incluyen el diagrama de caja como una opción dentro de los resultados que pueden obtenerse cuando se procesan las estadísticas descriptivas o exploratorias de una variable. Ejemplo 10: El siguiente gráfico refleja los resultados obtenidos por un grupo de 126 estudiantes de primaria en una prueba de matemática.

20

14

12

Nota

10

8

6

4

2

0

4.2 Diagrama de Tallo y Hojas. Es otro tipo de semigráfico útil para presentar información de variables cuantitativas, en especial cuando la cantidad total de datos es pequeña (menor que 50). Para construir el gráfico se procede de la siguiente manera: - Se redondean los datos a dos ó tres cifras significativas, expresándolos en unidades convenientes.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 17


- Se los presenta en una tabla de dos columnas, de manera que: Los datos son de dos dígitos, se escribe en la primera columna los dígitos de las decenas, que forman el tallo, y en la segunda columna los dígitos de las unidades. Por ejemplo, el dato 76 se escribiría: 7│6 . Los datos son de tres dígitos, los correspondientes a las centenas y decenas se escriben en la columna izquierda (que constituye el tallo) y los dígitos de las unidades en la columna derecha. - Cada tallo define una clase y se escribe una sola vez. El número de hojas es representativo de la frecuencia de cada clase. El diagrama de tallo y hojas permite siempre reconstruir la información de origen; con el histograma, en cambio, se pierde información en la medida en que se incrementa la amplitud del intervalo de clase. Al igual que el diagrama de caja, los programas estadísticos incluyen esta opción como parte de los resultados descriptivos. Ejemplo 11: Suponga que los siguientes datos corresponden al ingreso anual de 16 familias, expresado en miles de dólares: 113.57 125.42 113.84 124.31 142.12 152.13 133.00 113.00 172.06 127.10 134.55 161.43 121.62 127.21 134.20 146.98 Redondeando la información para evitar decimales resultan los datos: 114 125 114 124 142 152 133 113 172 127 135 161 122 127 134 147 El gráfico de tallo y hojas mostraría la información de la manera siguiente:

Decenas

Unidades

11

443

12

54727

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 18


13

354

14

27

15

1

16

1

17

1

5. Otros tipos de Representación Gráfica. Respecto de la representación gráfica existen muchas otras formas en las cuales pueden presentarse los datos. La creatividad del investigador y el impacto que desea provocar en los usuarios de la información son aspectos que influyen en la selección de posibilidades. Entre estas otras maneras de representación se encuentran los pictogramas y los mapas estadísticos. En los pictogramas se utilizan figuras (imágenes) relacionadas con el tema, y de acuerdo con el tamaño de dichas figuras o la cantidad de las mismas, son representadas las magnitudes correspondientes. Por otra parte, es frecuente el uso de mapas para presentar datos desglosados por unidades geográficas, ya sea que correspondan a regiones, provincias, cantones, distritos u otra división territorial. En algunos casos solamente se coloca el dato correspondiente a cada lugar geográfico y, cuando se cuenta con los medios tecnológicos necesarios, se utilizan colores diferentes para indicar la intensidad de una característica en cada zona y así obtener lo que se conoce como cartogramas. Ejemplo 12: Para presentar el porcentaje de hogares pobres por región en el 2009 fue elaborado el siguiente mapa.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 19


Fuentes Consultadas. -

Gómez Barrantes, Miguel. Elementos de Estadística Descriptiva. 3º edición. EUNED. Costa Rica, 2010.

-

Instituto Nacional de Estadística y Censos. Resultados de la Encuesta de Hogares de Propósitos Múltiples 2009. Costa Rica, 2009.

-

Programa Estado de la Nación. 15° Informe Estado de la Nación en Desarrollo Humano Sostenible. El Programa. Costa Rica, 2009.

-

Quintana R., Carlos. Estadística Elemental. 1 edición (sétima reimpresión). Editorial Universidad de Costa Rica. Costa Rica, 2007.

-

UNED. Centro de Investigación y Evaluación Institucional (CIEI). Anuario Estadístico 2008. Archivo electrónico.

Lecturas Recomendadas en el libro “Elementos de Estadística Descriptiva.

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 20


-

Tema VI. Construcción y Análisis de Gráficos Estadísticos: Secciones 6.1 a 6.6 (págs. 179 a 213).

Recomendación adicional: Secciones 6.7 y 6.8 (págs. 214 a 216)

Curso Análisis Exploratorio de Datos

Elaborado por: Licda. Ligia Bermúdez 21


Tema 4