Issuu on Google+

manual

TALLER DE COMPUTACIÓN CID


CID SECRETARÍA DE EDUCACIÓN Y CULTURA SERVICIOS EDUCATIVOS DEL ESTADO DE CHIHUAHUA

CENTRO DE INVESTIGACIÓN Y DOCENCIA MAESTRÍA EN EDUCACIÓN 0B

TALLER DE COMPUTACIÓN

MANUAL CHIHUAHUA Julio de 2009 Preparado por: RIGOBERTO MARÍN TREJO


INDICE

Introducción

4

I. Programa de estadística SPSS II. Menús de SPSS III. Abrir y Guardar archivos en SPSS IV. Creación de archivos de datos V. Análisis de datos VI. Tabulación cruzada de datos VII. Prácticas y ejercicios

3

5 8 20 23 36 43 51


INTRODUCCION Los campos de aplicación de la estadística son muy diferentes, pero los métodos son los mismos, dando lugar a la estandarización y automatización de las técnicas estadísticas, con una gran variedad de programas informáticos que se diferencian entre sí por variados aspectos (entornos de trabajo, capacidad, costos, etc.). Entre esta gama de software se encuentran el SPSS, NCSS, STATISTICA, entre otros, los cuales son una potente herramienta para realizar análisis estadísticos, por ejemplo SPSS tiene más de tres décadas de existencia, fue elaborado por Hull y Nie y quizás sea el programa informático de estadística con mayor difusión a nivel mundial. Aprender a manejar un paquete estadístico tiene muchas ventajas. La primordial es la seguridad y confianza que brinda el tener esta herramienta que efectúa los cálculos más complejos en el mundo de la estadística de manera eficiente y eficaz, y con un mínimo de esfuerzos. Posiblemente esta sea la razón por la cual este programa es muy utilizado en el mundo académico y laboral. Es una de las herramientas más utilizadas en investigación comercial y en otros muchos campos de investigación de las ciencias sociales. Es necesario aclarar que a pesar de la facilidad que resulta el poder realizar cálculos con gran facilidad con los modernos programas informáticos, es imprescindible que el investigador mantenga el control de la situación en todo momento, y sea él quien se convierta en el tomador de decisiones; ya que el software lo único que hace es obedecer una orden, pero no manifiesta en ningún momento si el diseño de nuestro estudio es el adecuado, si la técnica es la idónea, etc., ya que presionar un botón o dar un clic es muy sencillo, por lo que debemos estar siempre alertas al momento de realizar nuestro análisis estadístico. Para el desarrollo de éste curso utilizaremos la versión 15 de SPSS (Statistical Package for the Social Sciences) en español para Windows

4


5


SPSS (Statistical Package for the Social Sciences) es un paquete estadístico de Análisis de datos, originariamente con gran aplicación en la investigación de las ciencias sociales y económicas, aunque actualmente se emplea en casi todas las disciplinas científicas. Las primeras versiones aparecidas hace más de cuarenta años, permitían la elaboración de análisis estadísticos mediante diferentes comandos de programación. Las versiones más recientes, implementadas bajo entorno gráfico de Windows o Unix permiten la realización de cálculos estadísticos de forma mucho más sencilla, en la mayor parte de los casos, sin apenas programación, gracias a la introducción de menús desplegables. Con SPSS se pueden analizar grandes conjuntos de datos de forma rápida, con técnicas como análisis discriminante, análisis de regresión, cluster, análisis de varianza, etc. SPSS posee potentes herramientas para la elaboración de tablas y gráficos estadísticos.

I.Comenzando a trabajar con SPSS Al comenzar una sesión de trabajo con el SPSS aparece una ventana de apariencia similar a una hoja de Excel, que es el Editor de Datos, tal y como se muestra en la Figura 1 . Esta es la ventana principal del SPSS, pero no la única. Para irnos familiarizando con las diversas funciones del programa, estudiaremos en un primer momento las diversas ventanas y menús con que cuenta el SPSS, profundizando posteriormente en cada uno de ellos y utilizando ejercicios prácticos para una mejor compresión de la temática.

En la Fig. 1 observamos en el encabezado el título principal del archivo en el cual se está trabajando, en este caso “Sin título”, porque se iniciará con la creación de una base de datos. En la siguiente línea se tiene la barra del menú con las opciones de archivo, edición, ver, datos, transformar, analizar, gráficos, utilidades, ventaja, y ayuda (?) . Luego tenemos la barra de herramientas (ver figura 2), con cada uno de sus íconos.

6


En su orden, de izquierda a derecha, cada icono indica la siguiente acción: • Abrir archivo • Guardar archivo • Imprimir • Recuperar cuadro de diálogo • Deshacer • Rehacer • Ir a gráfico • Ir a caso • Variables • Buscar • Insertar casos • Insertar variable • Segmentar archivo • Ponderar casos • Seleccionar casos • Etiquetas de valor • Usar conjuntos La línea siguiente a la Barra de Herramientas (como se observa en la Figura 3, en el círculo en rojo), indica el valor o atributo de la variable en esa celda (fila y columna). Y el círculo en azul muestra las solapas de vista de datos (valores en la base de datos) y vista de variables (codificaciones realizadas para cada una de las variables) para el fichero en el que se está trabajando en ese instante.

7


II.

MENUS EN SPSS a) Menú archivo

Ahora veamos cada una de las opciones y subopciones que se encuentran en la barra de menú principal. En la Figura 4 se observa la primera opción del menú, Archivo, que incluye: • • • • • • • • • • • • • • •

Nuevo. Crea nuevos ficheros o bases de datos, sintaxis, resultados o de procesos Abrir. Abre ficheros o bases de datos existentes, sintaxis, resultados, de procesos u otros); Abrir base de datos. Nueva consulta, editar consulta o ejecutar consulta Leer datos de texto. Puede transformar archivos de texto a tablas Guardar. Guarda el archivo actual Guardar Como. Guarda el archivo actual con otro nombre y en otro directorio si así se quiere Mostrar información de datos. Muestra los archivos de datos posibles Hacer caché de datos. Crea memoria para los datos que se están introduciendo Imprimir Imprime la operación actual. Presentación preliminar. Se visualiza en pantalla completa la tarea actual, tal y como se imprimirá Cambiar servidor. Se tiene la posibilidad de cambiar de servidor al que nos encontramos conectados. Detener procesador. Interrumpe el procesamiento y análisis de datos en el SPSS Datos usados recientemente Muestra un listado de los datos utilizados mas recientemente Archivos usados recientemente Muestra los archivos que se han utilizado recientemente Salir Opción para salir del SPSS.

8


b) Menú Edición

Luego tenemos la opción de Edición (Figura 5): En esta opción tenemos las siguientes subopciones: • Deshacer Definir valor de casilla Deshace la última acción. Muy útil para rectificar. • Rehacer Definir valor de casilla Rehace la última acción deshecha • Cortar Corta la selección para almacenarla en el portapapeles • Copiar Copia la selección para almacenarla en el portapapeles • Pegar Pega el contenido del portapapeles en la ubicación en donde se encuentre el cursor • Pegar variables Pega la variable del portapapeles en donde se encuentre ubicado el cursor • Eliminar Borra la selección • Buscar Realiza la búsqueda de datos que se especifiquen • Opciones Presenta opciones de tablas, gráficos, procesos, etc.

c) Menú Ver La Figura 6 muestra la opción Ver, y cuenta con las siguientes subopciones: • Barra de estado (con esta opción se activa y desactiva la barra de estado); • Barras de herramientas (activa y desactiva las barras de herramientas); • Fuentes Con esta opción se cambia el tamaño y estilos de las fuentes. Textos por ejemplo • Cuadrícula Con ésta opción se activa y desactiva la cuadrícula del editor de datos • Etiquetas de valor Sitúa etiquetas de valor en las variables seleccionadas • Variables Con esta opción se activa el visor de variables en el editor de datos)

9


d) Menú Datos La Figura 7 presenta la opción Datos, que es una de las opciones que mayor uso tienen cuando se trata de realizar análisis con el SPSS. Entre las subopciones tenemos las siguientes: • Definir propiedades de variables (etiqueta los valores de las variables y define otras propiedades después de explorar datos) • Copiar propiedades de datos (permite copiar sobre el archivo de datos de trabajo, las propiedades de un conjunto de datos y de las variables seleccionadas) • Definir fechas (Definir fechas genera variables de fecha que se pueden utilizar para establecer la periodicidad de una serie temporal y para etiquetar los resultados de los análisis de series temporales) • Insertar variable (permite insertar una variable en el editor) • Insertar caso (permite insertar un caso en el editor) • Ir a caso (permite situarse en un caso determinado) • Ordenar casos (permite ordenar casos según criterios preestablecidos) • Transponer (transpone filas por columnas en el editor de datos) • Reestructurar (reestructura los datos de varias variables –columnas- en un único caso y convertirlos en grupos de casos relacionados –filas- y viceversa) • Fundir archivos (permite mezclar archivos por casos o por variables) • Agregar (permite agregar variables a un archivo) • Diseño ortogonal (admite diseñar y mostrar diseños factoriales ortogonales) • Segmentar archivo (admite segmentar archivos según ciertos criterios) • Seleccionar casos (admite la elección de uno o varios casos) • Ponderar casos (permite la ponderación de casos).

10


e) Menú Transformar La Figura 8 muestra la opción Transformar, y contiene las siguientes subopciones: • • • • • • •

Calcular (realiza cálculos) Semilla de aleatorización (fija la semilla para el cálculo de números aleatorios) Contar apariciones (encuentra frecuencias absolutas de valores) Recodificar (recodifica los valores de una variable) Categorizar variables (convierte variables cuantitativas a cualitativas) Asignar rangos a casos (crea nuevas variables que contienen rangos) Recodificación automática (convierte los valores numéricos y de cadena en valores enteros consecutivos) • Crear serie temporal (crea una variable tipo serie de tiempo) • Reemplazar valores perdidos (Reemplazar valores perdidos creando nuevas variables) • Ejecutar transformaciones pendientes (realizar transformaciones en espera)

11


f) Menú Analizar La opción Analizar en la barra del menú básico contiene las siguientes subopciones (ver figura 9): • Informes • Estadísticos descriptivos • Tablas • Comparar medias • Modelo lineal general • Modelos mixtos • Correlaciones • Regresión • Loglineal • Reducción de datos • Escalas • Pruebas no paramétricas • Series temporales • Supervivencia • Respuestas múltiples.

Ésta opción del menú (Analizar) es una de las más importantes dentro del SPSS, motivo por el cual se estudiarán cada una de sus subopciones por separado. La Figura 10 muestra la subopción Informes , el cual abarca los siguientes ítems: Cubos OLAP (del inglés On-Line Analytic Processing -Procesamiento analítico interactivo-, calcula totales, medias y otros estadísticos univariados para variables de resumen continuas dentro de las categorías de una o más variables categóricas de agrupación); Resúmenes de casos (calcula estadísticos de subgrupo para las variables dentro de las categorías de una o más variables de agrupación); Informe de estadísticos en filas (genera informes en los 12


cuales se presentan distintos estadísticos de resumen en filas); Informe de estadísticos en columnas (genera informes de resumen en los que diversos estadísticos de resumen aparecen en columnas distintas).

La figura 11 presenta la subopción de Estadísticos descriptivos, que contienen los siguientes ítems: Frecuencias (muestra estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables, y es un buen procedimiento para la inspección inicial de datos); Descriptivos (presenta estadísticos de resumen univariados para varias variables en una única tabla y calcula valores tipificados, denominados generalmente como puntuaciones “Z”); Explorar (genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos); Tablas de contingencia (crea tablas de clasificación doble y múltiple y, además, proporciona una serie de pruebas y medidas de asociación para las tablas de doble clasificación); Razón (brinda una amplia lista de estadísticos de resumen para describir la razón entre dos variables de escala, por ej. mediana, moda, desviación típica, máximos y mínimos, y otros muy usuales en investigación).

A continuación tenemos la figura 12, que muestra la subopción de Tablas, con la cual usted puede realizar todo tipo de análisis y mostrarlos de diversas maneras, siempre en formato de tablas. Los ítems que se incluyen acá son: Tablas personalizadas (el investigador selecciona las variables y las medidas de resumen que aparecerán en la tabla); Conjuntos de respuestas múltiples (se utiliza para agrupar frecuencias de respuestas por indicadores y variables); Tablas básicas (genera tablas con calidad de publicación que muestran estadísticos de clasificación cruzada y de subgrupo); Tablas generales (se pueden generar tablas que muestren diferentes estadísticos para distintas variables, variables de respuestas múltiples, anidación y apilación mixta o totales complejos); Tablas de respuestas múltiples (produce tablas de frecuencia y de contingencia básicas en las que una o más variables es un conjunto de respuestas

13


múltiples); Tablas de frecuencias (permite generar tablas especiales que contengan varias variables con los mismos valores).

Comparar medias (Figura 13), que contiene en orden respectivo: Medias (calcula medias de subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías de una o más variables independientes); Prueba T para una muestra (contrasta si la media de una sola variable difiere de una constante especificada); Prueba T para muestras independientes (compara las medias de dos grupos de casos); Prueba T para muestras relacionadas (compara las medias de dos variables de un solo grupo); ANOVA de un factor (este procedimiento genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor -variable independiente-).

La figura 14 presenta la opción de Modelo lineal general, que incluye los siguientes apartados: Univariante (proporciona un análisis de regresión y un análisis de varianza para una variable dependiente mediante uno o más factores o variables); Multivariante (proporciona un análisis de regresión y un análisis de varianza para variables dependientes múltiples por una o más covariables o variables de factor); Medidas repetidas (analiza grupos de variables dependientes relacionadas que representan diferentes medidas del mismo atributo); Componentes de la varianza (se emplea para modelos de efectos mixtos, estima la contribución de cada efecto aleatorio a la varianza de la variable dependiente).

Posterior al Modelo lineal general, los siguientes apartados son: Modelos mixtos (en este cuadro de diálogo le facilita al investigador seleccionar variables que definen sujetos y 14


observaciones repetidas, y elegir una estructura de covarianzas para los residuos) y Correlaciones (incluye correlaciones parciales, bivariadas y distancias). La figura 15 presenta la subopción de Regresión, que incluye los siguientes apartados: Lineal (estima los coeficientes de un modelo lineal, con una o más variables independientes, que mejor prediga el valor de la variable dependiente); Estimación curvilínea (genera estadísticos de estimación curvilínea por regresión y gráficos relacionados para varios modelos diferentes de estimación curvilínea por regresión); Logística binaria (es de mucha utilidad para los casos en los que se desea predecir la presencia o ausencia de una característica o resultado según los valores de un conjunto de variables predictoras); Logística multinomial (es útil en aquellas situaciones en las que el investigador desee poder clasificar a los sujetos según los valores de un conjunto de variables predictoras); Ordinal (permite dar forma a la dependencia de una respuesta ordinal politómica sobre un conjunto de predictores, que pueden ser factores o covariables); Probit (mide la relación entre la intensidad de un estímulo y la proporción de casos que presentan una cierta respuesta a dicho estímulo); No lineal (es un método para encontrar un modelo no lineal para la relación entre la variable dependiente y un conjunto de variables independientes); Estimación ponderada (permite calcular los coeficientes de un modelo de regresión lineal mediante mínimos cuadrados ponderados MCP, WLS-, de forma que se les dé mayor ponderación a las observaciones más precisas es decir, aquéllas con menos variabilidad- al determinar los coeficientes de regresión); Mínimos cuadrados en dos fases (utiliza variables instrumentales que no estén correlacionadas con los términos de error para calcular los valores estimados de los predictores problemáticos); Escalamiento óptimo (amplía la aproximación típica mediante un escalamiento de las variables nominales, ordinales y numéricas simultáneamente).

Después de Regresión, tenemos la opción Loglineal analiza las frecuencias de las observaciones incluidas en cada categoría de la clasificación cruzada de una tabla de contingencia, e incluye los apartados de General, Logit y Selección del modelo. En la figura 16 se tiene la subopción de Clasificar, que es una de las subopciones que mayor uso tiene cuando de realizar análisis de conglomerados se trata. Cuenta con los siguientes ítems: Conglomerados en dos fases (es una herramienta de exploración que 15


descubre las agrupaciones naturales -o conglomerados- de un conjunto de datos que, de otra manera, no sería posible detectar); Conglomerado de K medias (con este procedimiento se intenta identificar grupos de casos relativamente homogéneos basándose en las características seleccionadas y utilizando un algoritmo que puede gestionar un gran número de casos); Conglomerados jerárquicos (combina los conglomerados basándose en las características seleccionadas y los clasifica en orden de jerarquía); Discriminante (este análisis resulta útil para las situaciones en las que se desea construir un modelo predictivo para pronosticar el grupo de pertenencia de un caso a partir de las características observadas de cada uno de ellos).

Otra opción interesante es la de Reducción de datos, que se observa en la figura 17, con los siguientes apartados: Análisis factorial (identifica variables subyacentes, o factores, que expliquen la configuración de las correlaciones dentro de un conjunto de variables observadas); Análisis de correspondencias (describe las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categorías de cada variable); Escalamiento óptimo (permite realizar escalados de las variables, cual se tratara de un mapa).

La figura 18 presenta la opción Escalas , con los siguientes ítems: Análisis de fiabilidad (permite estudiar las propiedades de las escalas de medición y de los elementos que las constituyen); Escalamiento multidimensional (trata de encontrar la estructura de un conjunto de medidas de distancia entre objetos o casos); Escalamiento multidimensional PROXSCAL- (su propósito es encontrar la estructura existente en un conjunto de medidas de proximidades entre objetos).

Continuando con nuestro caminar por el SPSS, la siguiente subopción la componen las Pruebas no paramétricas , figura 19, entre las que se tienen las siguientes: Chi-cuadrado (tabula una variable en categorías y calcula un estadístico de chi-cuadrado); Binomial 16


(compara las frecuencias observadas de las dos categorías de una variable dicotómica con las frecuencias esperadas en una distribución binomial con un parámetro de probabilidad especificado. Por defecto, el parámetro de probabilidad para ambos grupos es 0,5); Rachas (contrasta si es aleatorio el orden de aparición de dos valores de una variable); K-S de 1 muestra (Prueba de Kolmogorov-Smirnov para una muestra compara la función de distribución acumulada observada de una variable con una distribución teórica determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial); 2 muestras independientes (compara dos grupos de casos existentes en una variable); K muestras independientes (realiza pruebas para varias muestras independientes compara dos o más grupos de casos respecto a una variable); 2 muestras relacionadas (compara las distribuciones de dos variables); K muestras relacionadas (compara las distribuciones de dos o más variables).

La figura 20 presenta las Series temporales, contiene los siguientes ítems: Suavizado exponencial (suaviza componentes irregulares de datos de series temporales, para ello hace uso de una variedad de modelos que incorporan diferentes supuestos acerca de la tendencia y la estacionalidad); Autorregresión (estima un modelo de regresión lineal con errores autorregresivos de primer orden); ARIMA (estima modelos Arima -Modelo Autorregresivo Integrado de Media Móvil- univariados estacionales y no estacionales, también conocidos como modelos "Box-Jenkins"); Descomposición estacional (estima factores estacionales multiplicativos o aditivos para las series temporales).

La figura 21 nos muestra la opción Supervivencia, que contiene los siguientes apartados: Tablas de mortalidad (se utiliza en situaciones en las se desea examinar la distribución de un período entre dos eventos, como por ejemplo, la duración del empleo); Kaplan-Meier (se basa en la estimación de las probabilidades condicionales en cada punto temporal cuando tiene lugar un evento y en tomar el límite del producto de esas probabilidades para estimar la tasa de supervivencia en cada punto temporal); Regresión de Cox (es un método para crear modelos para datos de tiempos de espera hasta un evento con casos censurados presentes); Cox con covariable dependiente del tiempo (denominado también 17


modelo de regresión de Cox extendido, el cual permite especificar las covariables dependientes del tiempo).

Finalmente, en la opción de Análisis tenemos como una última subopción Respuestas múltiples , que está integrada por las siguientes funciones: Definir conjuntos (agrupa variables elementales en conjuntos de categorías múltiples y de dicotomías múltiples, para los que se pueden obtener tablas de frecuencias y tablas de contingencia); Frecuencias ; Tablas de contingencia. g) Menú Gráficos La figura 22 presenta en forma desglosada todas las subopciones que contiene la opción de Gráficos. Esta opción nos permite realizar un sinfín de gráficas, de todo tipo, forma, en segunda o en tercera dimensión, como los clásicos de barras, histogramas, de dispersión, líneas o curvas, o los poco conocidos diagramas de caja. En esta opción usted tiene mucha versatilidad al momento de diseñar los gráficos para la presentación de de resultados en su investigación.

18


h) Menú Utilidades La figura 23 presenta la opción de Utilidades dentro de la Barra del Menú Principal, y esta contiene las siguientes funciones: • Variables (muestra información sobre la definición de la variable seleccionada actualmente) • Información del archivo (muestra en un listado las variables de las cuales se compone el archivo) • Definir conjuntos (crea subconjuntos de variables que se muestran en las listas de origen de los cuadros de diálogo) • Usar conjuntos (restringe las variables mostradas en las listas de origen de los cuadros de diálogo a los conjuntos seleccionados que haya definido) • Ejecutar proceso (busca y ejecuta un archivo seleccionado, por ejemplo, una base de datos); Editor de menús (se puede personalizar los menús utilizando este editor).

i) Menú Ventana La figura 24 muestra la opción de Ventana, que muestra las ventanas que se encuentran activas en ese instante, tales como los archivos o bases de datos en las que nos encontremos trabajando actualmente, se observarán activas en ésta opción.

19


III.

Abrir y Guardar archivos en SPSS

Para quienes estemos acostumbrados a trabajar en programas como Excel, Word, etc., no tendremos ninguna dificultad en abrir un fichero de datos en el SPSS, ya que se hace de la misma manera. La forma más sencilla es ir al botón “abrir” de la barra de herramientas, y se abre un recuadro tal cual se observa en la figura anterior. Además de abrir archivos con extensión *.sav (que es la extensión propia del SPSS), tenemos las opciones de abrir

20


archivos de texto, Lotus, Excel, y otros más, lo que muestra lo multifacético que es este programa para trabajar con bases de datos. En la siguiente figura se ha elegido para abrir un archivo de Excel, y lo único que falta es dar clic en el botón de “abrir” para cargar el archivo, pero en la vista de datos del SPSS

La siguiente figura nos muestra el proceso que debe seguirse para guardar información en el SPSS. En primera instancia, nos vamos al menú Archivo , y se nos despliega un menú, en el cual recomiendo se elija la opción de Guardar como , y aparece un recuadro en donde nos pide la ubicación en la que deseamos guardar el archivo (disco C, disco A, Memoria flash, etc.), y además nos solicita que le indiquemos en que formato o extensión deseamos guardar el archivo (Excel, Lotus, etc.). Una vez realizado esto, el siguiente paso es pulsar en el botón de Guardar del recuadro, y nuestro archivo ya se encuentra salvado.

21


22


IV.

CREACION DE ARCHIVOS DE DATOS

Para irnos familiarizando aún más con el programa SPSS, vamos a proceder a crear una nueva base de datos. Al cargar o abrir el programa SPSS surge un recuadro como lo muestra la figura, entonces, para crear nuestra propia base de datos damos un clic en la opción “introducir datos” y luego clic en “aceptar”. Lo primero que debemos notar es que para ingresar valores ó datos en el SPSS, las filas representan sujetos o casos, en tanto que las columnas constituyen las características o atributos de cada sujeto en una determinada variable.

23


Ahora, el siguiente paso es ir a la vista de variables para designar nuestra primera variable de la investigación. Como ejemplo tomaremos dos variables, la primera el “género” y la segunda la “edad”. La siguiente figura presenta dónde nos encontramos situados en este momento. Después se observa que se ha escrito el nombre de la primera variable “género”, y se darán cuenta ustedes que al presionar la tecla de “enter”, aparecen de inmediato valores en las otras casillas, lo que se ve en la figura.

24


Muy bien, ahora enfoquémonos en cada una de las columnas que aparecen en la Vista de variables, para analizar cada una de sus propiedades. Una vez colocado el nombre de la variable, se nos presenta el Tipo de variable que se trate, especifica los tipos de datos de cada variable. Por defecto se asume que todas las variables nuevas son numéricas. En nuestro caso, dejaremos la variable género como de tipo cadena (alfanumérica), con una anchura de 8 caracteres.

Uno de los puntos muy importantes y que debe ponérsele mucho énfasis es la etiqueta, ya que así aparecerá la variable en nuestras tablas de análisis. Continuando con el ejemplo anterior, seguiremos trabajando con el nombre de “género” y así etiquetaremos la 25


variable. En algunos casos, cuando el nombre sea muy extenso, es recomendable utilizar abreviaturas que identifiquen cada una de las variables, como por ejemplo: “latino” (Latinoamericano), “estud” (estudiante), “cirplast” (Cirujano Plástico), etc. La figura nos muestra como se va transformando hasta ahora nuestra base de datos.

Ahora pasamos a la opción de Valores, que es donde combinamos números con palabras, que nos servirá para identificar características o atributos con un simple número y viceversa. Para comenzar, damos un clic en la casilla en donde aparece hasta el momento “ninguno” en valores, como se observa en la figura, y aparece el recuadro de “etiquetas de valor”.

Cuando tenemos el recuadro, lo que debemos hacer es codificar nombres con números, asociando de esta forma un número para una característica o atributo del sujeto. Entonces, para nuestro caso de la variable “género”, se designará de la siguiente forma: • •

Número 1 para “femenino”, y Número 2 para “masculino”.

Una vez hecho esto, se pulsa en el botón “añadir” para que agregue las nuevas etiquetas de valor. A continuación se muestra este proceso.

26


Ahora seguimos con la opción de perdidos. Acá se definen valores de los datos especificados como perdidos por el usuario. A menudo es útil para saber por qué se pierde 27


información. Por ejemplo, puede desear distinguir los datos perdidos porque un entrevistado se niega a responder, o datos perdidos porque la pregunta no afectaba a dicho entrevistado, etc. Los valores de datos especificados como perdidos por el usuario aparecen marcados para un tratamiento especial y se excluyen de la mayoría de los cálculos. Para nuestra base de datos ejemplo, asumiremos que no se tienen valores perdidos. Las últimas opciones son Alineación y Medida. La “alineación” tiene que ver con la forma en que se ordena el concepto dentro de la casilla (izquierda, centro, derecha), y la “medida” cataloga a la variable como Nominal (cuando no se tiene ningún orden especificado o el orden no interesa) , Ordinal (cuando existe una ordenación de mayor a menor, o viceversa) o Escala (denominadas por algunos autores también como de “razón”, e indican que entre un atributo y otro existe la misma diferencia o distancia, dependiendo el caso) . Para nuestro ejemplo, la variable “género” queda catalogada con medida nominal, ya que no tiene un ordenamiento específico.

Ahora ya hemos completado la codificación de nuestra variable género . Procedemos a realizar lo mismo pero para la variable edad , de esta forma haremos un repaso de todo el procedimiento, y que nos servirá para nuestro aprendizaje. Con respecto a la variable edad , tendrá un tratamiento un poco diferente, ya que podemos reclasificarla para un mejor análisis, de la siguiente manera: • • •

Joven, de 20 años o menos (X 20) Adulto, mayor de veinte años y menor de 50 (20 < X < 50). Persona mayor, de 50 años o más (X 50).

Entonces, comenzamos colocando el nombre a nuestra variable, tal cual se muestra en la figura.

28


Ahora ingresaremos el tipo de la variable, que quedará como “numérica” para la edad

Las columnas de Anchura y Decimales no se cambiarán, dejaremos las casillas tal cual. En Etiqueta digitaremos la palabra “edad”, que así identificaremos nuestra variable.

Para la asignación de valores a la variable edad , lo realizaremos basándonos en la clasificación anterior y con la siguiente codificación: • 1, para los “jóvenes” (menores de 20 años) • 2, para las personas “adultas” (de 20 años a 50 años)

29


3, para las personas “mayores” (mayores de 50 años).

A continuación se muestra cómo realizaría la asignación de valores e ingreso de los mismos.

30


Finalizada la operación de asignar valores a la variable edad , ahora nos concentraremos en la “medida” que se le asignará. De momento, las otras columnas quedarán con los valores por defecto, a saber: perdidos, columnas y alineación. Si observan detenidamente la figura, se vera (como ya se dijo antes) que existen tres tipos de medida . En la variable “género” la medida no era muy importante, pero en la actual variable (edad) si es prioritario el asignarle un tipo de medida que nos ayude en la tipificación de la variable. Para este ejemplo, la variable edad tendrá una medida de carácter “ordinal”.

31


Porqué debe elegirse una determinada medida, ya sea Escala, Ordinal o Nominal, les diremos que esto nos será de gran utilidad para realizar análisis estadísticos mucho más profundos. Como ya tenemos codificadas las variables, ahora procedemos a ingresar los valores de nuestra nueva base de datos, y para ello simplemente hay que dar clic en la pestaña “vista de datos” como se observa en la figura, siendo ahí en donde ingresaremos los datos recolectados.

32


Encontrándonos ahora en la “vista de datos”, ingresamos los datos de 5 personas, que presentan estas características: • • • • •

Mujer, 17 años de edad. Hombre, 19 años de edad. Hombre, 52 años de edad. Mujer, 24 años de edad. Hombre, 33 años de edad.

Con esta información, ingresamos los datos tal y como se muestran en la figura.

33


Ahora bien, con los valores ingresados, el SPSS tiene una función para ver los atributos de las variables en lugar de simples números, para ello solo tenemos que ir a la opción de “etiquetas de valor” y dar clic, tal y como se observa en la figura. La figura muestra además, otra opción interesante dentro del visor de datos cuando tenemos activada la función de “etiquetas de valor ”. Si a cualquiera de los atributos le

34


damos un clic con el botón izquierdo del ratón, se despliega una ventana donde nos muestra las diversas opciones que se tienen para dicha variable. Por ejemplo, en la figura se observa que se ha dado clic en la variable “edad” a uno de los atributos, adultos , pero nos presenta el listado completo que se tiene en dicho atributo (Jóvenes, Adultos, Personas mayores).

35


V.

ANALISIS DE DATOS

Para llevar a cabo en análisis de datos en SPSS, se utiliza la función Analizar del menú principal, tal y como lo muestra la figura. Continuando con nuestro ejemplo, realizaremos el análisis de nuestra mini base de datos, haremos uso de la función “ Analizar ”, luego elegiremos “ Estadísticos descriptivos ” y ahí seleccionaremos “ Frecuencias ”, dando un clic en esta última opción.

Al dar clic en “Frecuencias”, aparece el recuadro que se observa en la figura anterior. Ahí tenemos las opciones de “Estadísticos”, “Gráficos” y “Formato”. 36


La primera opción que seleccionamos es “Estadísticos”, como puede verse en la figura. Los Estadísticos se encuentran clasificados en cuatro grandes áreas: • • • •

Valores percentiles (Cuartiles, Puntos de corte, Percentiles) Tendencia central (Media, Mediana, Moda, Suma) Dispersión (Desviación típica, Varianza, Ampitur, Mínimo, Máximo, E. T. Media) Distribución (Asimetría, Curtosis).

Nosotros seleccionaremos con un simple “clic” aquellos estadísticos sean de interés para el propósito de nuestra investigación. La figura muestra algunos indicadores que se han elegido y luego de la selección, basta dar un “clic” en el botón “ Continuar ”.

Cuando ya hemos elegido las opciones estadísticas para nuestro análisis, seguimos con el siguiente botón de Frecuencias, que es Gráficos, lo que se observa en la figura.

37


Finalmente, en la siguiente figura se muestra como elegir el formato para nuestra tabla de análisis, ya sea ordenando los valores en forma ascendente o descendente, comparando variables, etc.

Ahora procederemos a elegir las variables que deseamos analizar. En la figura hemos seleccionado las dos variables de nuestro estudio: “Género” y “Edad”. 38


El Visor del SPSS muestra los resultados finales, e incluye tablas, grĂĄficos, estadĂ­sticas, etc., dependiendo de las indicaciones que nosotros le hayamos incluido. La siguiente figura presenta la pantalla del visor de resultados.

39


Las prĂłximas tres figuras presentan todos los resultados obtenidos en el visor de resultados del SPSS, de las dos variables con sus respectivos estadĂ­sticos y grĂĄficos.

40


41


Cuando tenemos los resultados, podemos copiar alguna tabla o gráfico que nos interese, y pegarlo en otra aplicación, por ejemplo, en Word. El procedimiento para realizar esto es muy sencillo, y se vislumbra en la figura siguiente. Ubicamos el puntero del ratón sobre la tabla o gráfico que deseamos copiar, damos clic con el botón derecho y se despliega un menú, entonces elegimos la opción copiar (o cortar) y con esto nos queda guardada la tabla o el gráfico en el portapapeles, para pegarlo donde deseemos.

42


VI.

TABULACIÓN CRUZADA DE DATOS

Las tablas que se han presentado hasta el momento presentan tabulaciones sencillas, es decir, en donde solo se analizan las variables con sus atributos o características, pero cuando de investigación se trata, deben realizarse análisis más profundos, y la tabulación cruzada de datos nos ofrece profundizar más al comparar dos o más variables entre sí. Para realizar una tabulación cruzada en el SPSS, debemos ir a la Barra de Menú Principal, en la opción de “Estadísticos descriptivos”, y ahí elegimos la opción de “Tablas de contingencia”, como se muestra en la primera figura. Al pulsar en la opción “Tablas de contingencia” se observa el proceso para tratar las variables a analizar en forma cruzada.

43


44


La figura anterior surge al dar un clic en el botón “Estadísticos” en la “Tabla de contingencia”. En la opción de Estadísticos se pueden calcular muchos indicadores, dependiendo de las características propias de las variables que estemos estudiando, de tal forma que podemos: calcular el Chi-cuadrado, Correlaciones, Variables Nominales 45


(Coeficiente de contingencia, Phi y V de Cramer, Lambda, Coeficiente de incertidumbre), Variables Ordinales (Gamma, d de Somers, Tau-b de Kendall, Tau-c de Kendall), Nominal por Intervalo (coeficiente Eta), índice de Kappa, Coeficiente de Riesgo, Coeficiente de McNemar), y los Estadísticos de Cochran y de Mantel-Haenszel. Al seleccionar los coeficientes que deseemos, el paso siguiente es dar un “clic” en el botón de Continuar , con lo que se guardan todos los cambios realizados y se pasa ala siguiente etapa. También tenemos la opción de elegir los datos que queremos en las casillas de nuestra tabulación cruzada, como se ve en la figura siguiente. Al dar un clic en el botón de Casillas , aparece un recuadro con las siguientes opciones: Frecuencias (Observadas, Esperadas); Porcentajes (Fila, Columna, Total) y Residuos (No tipificados, Tipificados, Tipificados corregidos). Para seleccionar las opciones presentadas, simplemente debemos dar un “clic” a las casillas que nos interese que aparezcan en nuestra tabla, y cuando hayamos terminado, entonces basta dar un clic al botón Continuar.

La última opción dentro de la Tabla de Contingencia es el Formato , y nos da a elegir si los datos de nuestra tabla los queremos ordenados en forma ascendente o descendente. Luego pulsamos en el botón “continuar”, tal y como lo muestra

46


Ahora que ya hemos realizado todas las operaciones, y colocado las opciones que deseamos para nuestra tabla cruzada, falta activar dos opciones más: la primera, si queremos que se nos muestren los gráficos de barras agrupadas, y la segunda, si deseamos que en el visor de resultados se supriman las tablas. Luego de esto, el siguiente paso es pulsar en el botón de “ Aceptar ”, y con eso ya estamos listos para observar los resultados en el visor.

47


Se observa el visor de resultados, tal y como aparece en el SPSS después de realizar el procedimiento arriba descrito. Presenta un resumen de los casos, la tabla de contingencia, los indicadores estadísticos que se solicitaron, y brevemente realiza comentarios o anotaciones sobre cada caso. También se muestran los resultados del visor del SPSS. Se presenta la tabla de contingencia entre las variables que nosotros seleccionamos, género y edad , así como las pruebas del estadístico Chi-cuadrado . Si nos fijamos detenidamente, la tabla de contingencia muestra mucha más información de la que nos brindaría una simple tabulación cruzada, por lo que para nosotros cuando realicemos una investigación, resulta primordial realizar “cruces de variables”, de las principales variables que tengamos en nuestro estudio, a través de las tablas de contingencia.

48


La siguiente figura presenta el resto de medidas estadísticas de nuestra investigación. Como la muestra es demasiado pequeña (N=5), tomaremos el análisis de los coeficientes estadísticos solo como un ejemplo.

49


50


VII.

PRÁCTICAS y EJERCICIOS

Práctica 1 MANEJO DE ARCHIVOS, VARIABLES Y CASOS Se cuenta con una muestra de 8 pacientes de Pensiones Civiles del Estado que acudieron cierto día a medicina preventiva, a los cuales se les tomó datos de las siguientes variables: Número de expediente, sexo, estado civil, edad, peso y estatura, entre otras, los cuales se muestran a continuación: DATOS DE LA MUESTRA CASO

ID

SEXO

EDO CIVIL

EDAD

PESO

ESTATURA

1

5678912

Hombre

Soltero

60

70

165

2

45678/1

Hombre

Sokero

23

so

175

3

20034/1

Hombre

Casado

40

70

170

4

3456712

Hombre

Casado

65

62

170

5

78900/1

Mujer

Soltero

21

69

160

6

34890/2

Mujer

Soltero

25

65

160

7

89234/2

Mujer

Casado

33

50

154

8

10678/1

Mujer

Casado

48

60

151

1. Genere y edite un archivo de datos en SPSS con la tabla anterior y guárdelo en su disco como PCE.SAV, donde la definición de las 6 variables a través del menú Data Define Variable... deberá ser:

DEFINICIÓN DE LAS VARIABLES Variable

Tipo

Ancho

Decimales

Etiqueta de Variable

51

Valor

Etiqueta


de Valor ID

Cadena

8

---

Número de expediente

---

SEXO

Numérica

8

0

Sexo del paciente

1

Hombre

2

Mujer

1

Soltero

2

Casado

3

Viudo

4

Divorciado

EDO CIVIL

Numérica

8

0

Estado civil del paciente

EDAD

Numénca

8

0

Edad del paciente (años)

--

PESO

Numérica

8

0

Peso del paciente (kilogramos)

---

---

ESTATURA

Numérica

8

0

Estatura del paciente entímetros)

---

---

2. La ventana de datos puede visualizarse básicamente de dos formas, una con valores y otra con valores y etiquetas, correspondiendo estas etiquetas a las variables que se hayan codificado. Es elección del usuario permanecer en una u otra, sin que ello afecte los análisis estadísticos posteriores, aunque es mas recomendable la opción de valores y etiquetas. Para visualizar en pantalla las etiquetas de los códigos active el botón Value Labels o en su caso si desea visualizar sólo los valores, este botón deberá quedar desactivado. 3. Para Estar las variables del archivo de trabajo, incluyendo sus características básicas, seleccione el menú Utilities - File info .... y SPSS desplegará dicho listado en la ventana de salida (Output) el cual puede salvarse en un archivo independiente con la opción File - Save con el nombre PCE.SPO (Note que SPSS reserva la extensión SAV para los archivos de datos y la extensión SPO para los archivos de resultados). Después de salvar el listado de resultados, regrese a la ventana de datos seleccionando el menú Windows la opción que tenga el archivo de datos PCE o bien activando el botón Goto Data. Recuerde que bajo el ambiente Windows también puede viajar entre las distintas ventanas abiertas de muy diversas maneras, como por ejemplo a través de la barra de estado, redimensionando el tamaño de las ventanas, etc. 4. Si se deseara incluir una nueva variable entre ID y SEXO que registre el primer nombre de cada paciente se coloca el cursor en la variable SEXO y se selecciona el menú Data - Insert Variable... (o su respectivo botón) y se definiría dicha variable. Pero si lo que se desea es incluir un paciente entre los casos 4 y 5, se coloca el cursor en el registro 5 y luego se selecciona el menú Data- Insert case.. (o su respectivo botón) y posteriormente se introducirían los datos de dicho registro, Si lo que se desea es eliminar una variable o un caso específico, basta con seleccionar con un clic del ratón su cabecera (ya sea hilera para caso o columna para variable) y luego solicitar el menú Edit -

52


Cut.. opción que también se puede usar para cambiar la posición de una variable o caso al usar posteriormente la opción Edit - Paste.. 5. Los archivos de datos en SPSS pueden ordenarse de una manera muy sencilla, donde el usuario únicamente debe especificar la variable clave o llave con la cual se deberá hacer el ordenamiento y si este debe hacerse de manera ascendente o descendente. Por ejemplo, ordene de manera ascendente por número de expediente el archivo de datos seleccionando el menú Data - Sort cases y colocando la variable ID (Número de expediente) como la variable llave o clave, asegurándose que la opción "orden ascendente" esté activada. Guarde nuevamente el archivo de datos para salvar este ordenamiento.

Práctica 2 TRANSFORMACIÓN DE VARIABLES La siguiente tabla muestra los puntajes de coeficiente intelectual de 150 alumnos de 3er. año de primaria: 88 91 104 113 125 101 114 105 101 88 126 118 100 111 125 109 119

91

106

120

129

120

109

104

112

101

113

100

106

105

121

128

93

89

124

96

105

95

91

106

93

88

89

100

115

98

108

88

99

120

101

108

118

113

114

109

91

104

109

110

113

119

119

118

106

106

97

104

105

122

112

124

108

121

96

97

99

101

116

118

102

127

121

116

100

95

89

103

115

113

129

91

85

108

103

116

108

98

108

114

102

96

99

108

114

121

107

122

100

116

111

113

109

104

113

118

110

129

124

105

93

115

120

97

112

94

113

122

114

106

105

115

98

112

103

92

125

107

115

118

128

92

85

126

108

114

125

121

122

117

1.- Abra desde su disco el archivo COCO. SAV, mismo que contiene los datos anteriores, usando para ello el menú File - Open... el cual tiene definida la variable Cl (Coeficiente intelectual) con los valores correspondientes a los 150 casos u observaciones,

53


2.- Suponga que se requiere obtener en otra variable los mismos datos pero transformados por algún cálculo dado (por ejemplo, multiplicados por algún factor, elevados a cierta potencia, alguna transformación logarítmica, etc.) y para este caso, asuma que se desea obtener en la nueva variable LOGCI los logaritmos decimales de los datos originales. Solicite la transformación requerida con el menú Transform - Compute... y seleccionando del cuadro Functions la función LG10(numexpr), donde el nombre de la variable Cl debe sustituir a "numexpr". La variable transformada recibirá su nombre (LOGCI) en la casilla de Target Variable y con el botón Type&Label.. se le especifica su etiqueta (Logaritmos decimales del coeficiente intelectual), completando finalmente el cuadro de diálogo de la siguiente forma:

3.- Al completar el cuadro de diálogo con la transformación requerida y dar un clic en el botón OK, SPSS generará una nueva variable LOGCI (Target Variable) con los datos ya transformados y sobre la cual puede pedirse cualquier análisis estadístico posterior. La cantidad de decimales que se desee visualizar en la ventana de datos puede modfflcarse con el menú Data - Deflne Variable... y el botón Type Modifique la definición actual solicitando ahora 6 lugares decimales en lugar del valor anterior. Guarde el archivo nuevamente, ahora con dos variables (la original y la transformada), usando el menú File - Save .

Práctica 3 TABLAS DE CLASIFICACIÓN Una agencia de empleos que se anuncia a través de avisos clasificados del periódico local El Heraldo de Chihuahua, desea saber si el número de personas que atrae con su publicidad varía de acuerdo al tipo de anuncio que está pagando. Durante 18 semanas se alternaron de manera 54


aleatoria los tres tipos de anuncio que le interesan (Minúsculas, Mayúsculas y Recuadro), registrándose semanalmente el número de personas que respondían a los anuncios, resultando: MINÚSCULAS MAYÚSCULAS RECUADRO 19

23

35

31

42

33

18

36

46

24

48

29

26

33

34

22

26

34

1.- Abra desde su disco el archivo ANUNCIOS.SAV, mismo que contiene los datos anteriores, usando para ello el menú File - Open ... el cual tiene definidas dos variables, TIPO para las 3 clases de anuncio y PERSONAS para el número de personas que respondieron a los anuncios, y 18 casos u observaciones. 2.- Obtenga una tabla de clasificación que le permita obtener estadísticas descriptivas por cada tipo de anuncio, seleccionando el menú Analize - Reports - Report Summaries in Rows... colocando la variable PERSONAS en el cuadro Data columns y la variable clasificatoria TIPO en el cuadro Break Columns, solicitando para esta última en el botón Summary las siguientes estadísticas: Suma, Media, Mínimo, Máximo, Número de Casos y Desviación Estándar y dando después un Continue. Posteriormente en el botón Report - Summary solicite las mismas estadísticas que ahora serán calculadas para el total de datos, es decir para los tres tipos de anuncios, dando después un Continue. Después, en el cuadro principal, active la casilla Display Cases para que al desplegar los datos estos aparezcan clasificados por el TIPO de anuncio en el periódico. Finalmente, para obtener la tabla de clasificación seleccione el botón OK. 3.- Leyendo la tabla de clasfflcación obtenida en el punto anterior complete la siguiente tabla de resultados: Minúsculas Mayúsculas TOTAL Recuadro Suma

140

208

Media Mínimo Máximo Núm. de casos (N)

55

211

559


Desv. Estándar

4.- De acuerdo a sus resultados: a) Cuál tipo de anuncio atrajo más clientes? _______________________con______ clientes. b) Cuál tipo de anuncio tuvo la respuesta más concentrada, es decir con la menor dispersión de datos o menor desviación estándar?:______________________con _________clientes de desviación estándar. c) Al comparar las medias, los tipos de anuncio en Mayúsculas y Recuadro arrojan idénticos resultados, superando a la media de las Minúsculas, sin embargo entre estos dos tipos de anuncios el que arroje la menor desviación estándar será el mejor. Con base en lo anterior, cuál es el mejor tipo de anuncio?

Práctica 4 TABLAS DE DISTRIUBUCIÓN DE FRECUENCIAS La compañía de seguros Monterrey - Aetna tiene registrados 40 agentes de ventas en la ciudad de Chihuahua y desea efectuar una evaluación de desempeño y otorgar un bono de compensación a sus mejores agentes, por lo que inspeccionó las ventas de seguros de sus agentes durante el mes pasado. La tabla de datos sobre el número de seguros vendidos por cada uno de los 40 agentes es la siguiente: 7 8 5 10 9 10 5 12 8 6 10 11 6 5 10 11 10 5 9 13 8 12

8

8

10 15 7

6

8 8

5

6

9 7 14

8

7

5 5 14

1.- Abra desde su disco el archivo SEGUROS.SAV, mismo que contiene los datos anteriores, usando para ello el menú File - Open... el cual tiene definida la variable VENTAS como el número de seguros vendidos por cada uno de los 40 agentes o casos, 2.- Obtenga la tabla de frecuencias y su respectivo histograma utilizando el menú Analize – Descriptive - Statistics - Frequencies.... para la variable VENTAS, asegurándose que esté activada la casilla Display frequency tables , para después solicitar en el botón Charts el histograma respectivo con su curva normal, dando un Continue y finalmente un OK. 3.- Con la tabla de frecuencias a la vista, responda lo siguiente: a) ¿Cuántos agentes vendieron 5 seguros: ________y que porcentaje representan:_________? b) ¿Cuántos agentes vendieron 10 seguros: _____ y que porcentaje representan:__________? c) ¿Qué porcentaje de agentes vendieron 8 o menos seguros: ______ y cuántos agentes son:____________? d) ¿Cuántos seguros vendió el 80% de los agentes: ________________? e) Si la compañía desea premiar con un bono de $500 a los agentes que hayan vendido más de 10 seguros en el mes, ¿cuántos agentes merecen el premio:__________ y que porcentaje representan: _______________________? 3.- Con el histograma a la vista, responda lo siguiente: 56


a) ¿Cuál es el número de seguros más frecuentemente vendido:__________ y el de más baja frecuencia: __________________? b) Comparando el histograma con la curva normal, ¿cree Usted que esta distribución empírica se ajusta al modelo probabilístico normal o de Gauss: _______Si o No? ¿Por qué?:______________________________________________________

Práctica 5 TABLAS DE CONTINGENCIA O TABULACIONES CRUZADAS La empresa encargada de administrar la autopista "Unión" que va de Cd. Jiménez, Chih. a Gómez Palacio, Dgo., desea saber si en opinión de los usuarios el servicio de sanitarios en las distintas casetas es “Bueno" 'Regular" o 'Malo" y si dicha opinión es diferente de acuerdo al sexo del usuario. Para lograr lo anterior toma una muestra aleatoria sistemática de 50 usuarios a los cuales interroga y obtiene los siguientes datos: ID

Sexo

Opinión

1

Femenino Malo

2

Masculino Bueno

3

Femenino Bueno

4

Femenino Regular

5

Masculino Regular

6

Femenino Malo

7

Masculino Malo

8

Masculino Bueno

9

Femenino Regular

10 Masculino Regular 11 Masculino Malo 12 Femenino Malo 13 Femenino Malo 57


14 Femenino Malo 15 Masculino Regular 16 Femenino Malo 17 Femenino Regular 18 Femenino Bueno 19 Masculino Regular 20 Femenino Regular 21 Femenino Malo 22 Masculino Malo 23 Masculino Malo 24 Femenino Regular 25 Masculino Bueno 26 Masculino Regular 27 Femenino Malo 28 Femenmo Malo 29 Femenino Regular 30 Masculino Bueno 31 Masculino Bueno 32 Femenino Malo 33 Masculino Bueno 34 Femenino Malo 35 Femenino Bueno 36 Masculino Bueno

58


37 Femenino Reguinr 38 Femenino ao 39 Masculino Bueno 40 Masculino Bueno 41 Masculino Bueno 42 Femenino Malo 43 Masculino Regular 44 Masculino Bueno 45 Masculino Malo 46 Femenino Bueno 47 Masculino Bueno 48 Femenino Buen 49 Femenmo Malo 50 Femenino Bueno

1.- Abra desde su disco el archivo UNION. SAV, mism que contiene los datos anteriores, usando para ello el menú File - Open... el cual tiene definidas 3 variables: una variable llamada ID que identifica al usuario entrevistado y dos variables codificadas SEXO: (1 =Femenino; 2 = Masculino) y OPINION (1 = Bueno; 2 = Regular; 3 = Malo), y los respectivos 50 casos u observaciones. 2. Obtenga una tabla cruzada o tabla de contingencia que le permita obtener frecuencias observadas en cada una de las sesis clases de cruce así como sus respectivas proporciones o porcentajes, seleccionando el menú Analize – Descriptive statistics - Crosstabs... colocando la variable SEXO en el cuadro Rows y la variable OPINION en el cuadro.Columns, solicitando en el botón Cells los siguientes porcentajes: Hilera, Columna y Total y luego dando un Continue. Finalmente, solicite la gráfica correspondiente activando la casilla Display clustered bar chart y después seleccione el botón OK para obtener la tabla cruzada con su gráfica de barras agrupadas. 59


3.- Leyendo la tabulación cruzada obtenida en el punto anterior complete los resultados: Opinión sobre el Servicio de Sanitarios Total

Frecuencia % dentro de Sexo

BUENO

REGULAR MALO Hilera

% dentro de Opinión % del Total FEMENINO Sexo del Entrevistado

6

7

14

27

12

6

5

23

18

13

19

50

22.2% 33.3% 12.0%

MASCULINO

36.0%

Total Columna

100.0% 36.0%

4.- De acuerdo a sus resultados: a) Qué porcentaje del total de entrevistados opina que el servicio es: Bueno _______________ Regular ________________ Malo ___________ b) Qué porcentaje de mujeres opinaron que el servicio es: Bueno ______________ Regular ________________ Malo ________________ c) Qué porcentaje de hombres opinaron que el servicio es: Bueno: ______________Regular: ________________Malo: _______________ d) De acuerdo a sus resultados, la opinión sobre los sanitarios difiere entre los hombres y las mujeres? Si o No? _____________

60


e) Según la mayoría de los hombres, el servicio es: ____________________y mayoría de mujeres el servicio es ___________________

según

la

Práctica 6 MEDIDAS DESCRIPTIVAS DE CENTRALIZACIÓN, DISPERSIÓN Y DISTRIBUCIÓN 1.- Abra desde su disco el archivo COCO. SAV, usando para ello el menú File – Open..., mismo que contiene datos referentes al coeficiente intelectual (variable CI) de 150 observaciones sobre niños de tercer año de primaria, variable para la cual se desea calcular sus medidas descriptivas de tendencia central, de dispersión y de distribución. El archivo contiene además otra variable (logaritmos decimales del coeficiente intelectual LOGCI) que fue agregada en la práctica relativa a la Transformación de Variables y que en este caso no será empleada. 2.- Existen varias opciones dentro de SPSS para obtener medidas descriptivas de un conjunto de datos, siga la vía mas sencilla seleccionando el menú Analize - Descriptive Statistics - Descriptives... para la variable CI. y dentro del botón Options active o verifique que estén activadas las casillas de Media (Tendencia Central), Desviación Estándar, Varianza, Rango, Mínimo, Máximo (Dispersión), "apuntamiento" o Kurtosis y "asimetría" o Skewness (Distribución) y para finalizar seleccione Continue y luego OK. 3.- Reporte los valores de las medidas descriptivas: Media 108.36 Desviación Estándar 11.12 Varianza

Rango

Mínimo

Máximo

Kurtosis (Apuntamiento)

Skewness (Asimetría)

4.- Pruebe la segunda forma de obtener medidas descriptivas seleccionando el menú Analize -Descriptive~ Statistics - Frecuencies... para la variable Cl y dentro del botón Statistics active o verifique que estén activadas las casillas de Media, Mediana y Moda (Tendencia Central); Desviación Estándar, Varianza, Rango, Mínimo y Máximo (Dispersión); Kurtosis y Skevíness (Distribución); y Quartiles dentro de los valores percentiles, mismos que también son medidas de distribución, dando posteriormente un Continue. Para solicitar además una gráfica estadística, seleccione el botón Charts y active la opción del histograma y la casilla que incluye la curva normal dentro de la gráfica, dando posteriormente un Continue. Finalmente, en el cuadro principal de diálogo, 61


desactive la casilla de Display frecueney tables dado que dicha tabla corresponde a un análisis frecuencial y que por lo tanto no se requiere en este momento, y luego seleccione OK. 5.- Además de las medidas reportadas en el punto 3, complemente con las que se obtienen ahora: Media 108.36 Mediana Moda Desv. Est.

11. 12

Varianza

123.588

Mínimo

85

Máximo

129

Kurtosis

-0.814

Skewness

-0.132

Percentil 25%

Percentil 50%

Rango

44

percentil 75%

6.- Pruebe la tercera forma de obtener medidas descriptivas seleccionando el menú Analize -Descriptive Statisties - Explore ... para la variable Cl colocándola en el cuadro Dependet List y dentro del botón Statistics active o verifique que estén activadas las casillas de Descriptives (en esta opción el usuario puede seleccionar el nivel de confianza con que desea que se calcule el intervalo de confianza para la media, siendo el valor por omisión de un 95%) y Percentiles dando después un Continue. Luego, para obtener gráficas estadísticas, dentro del botón Plots active o verifique que estén activadas las casfflas de Box-Plot (Gráfica Caja-Brazos) y Stem-and-Leaf (Diagrama Tallo-Hojas), dando después un Continue y finalmente un OK. 7.- Con esta opción se calculan las mismas medidas anteriores, pero además se obtiene el intervalo de confianza para la media (106.57 < μ < 110.15), el rango intercuartílico (17.25) y los valores percentiles al 5, 10, 25, 50, 75, 90 y 95%, junto con el diagrama Tallo-Hojas y la gráfica Caja-Brazos, 8.- Si lo desea el usuario, se pueden guardar en su disco todos los resultados anteriores en un archivo llamado COCO. SPO, usando para ello el menú File - Save As ... Recordando que la extensión SPO es reservada por SPSS para archivos de resultados o salidas (Output).

Práctica 7 PRUEBAS DE HIPÓTESIS PARA UNA SOLA MUESTRA El material de tapicería es considerado como altamente inflamable, por lo que cierto fabricante está interesado en incluir en sus productos material cuyo tiempo de ignición sea más alto. Uno de sus proveedores de materia prima afirma contar con material que tarda más en inflamarse al contar con un tiempo promedio de ignición de 7 segundos al 62


ser expuesto a una flama directa. Para comprobar lo anterior se decide realizar una prueba de hipótesis con el 95% de confianza, tomando una muestra de 100 eventos de ignición con el nuevo material, arrojando la siguiente tabla de datos: Tiempos de ignición (segundos) del nuevo material de tapicería 2.50 4.50 5.11 9.70 5.62 6.77 3.49 4.90 10.2 8.76 9.33 4.12 3.85 4.97 5.04 2.97 1 3.81 10.6 7.95 7.41 8.64 5.33 3.90 11.2 1.92 1.42 12.8 9.45 6.25 4.71 7.86 2.65 0 5 0 4.79 6.20 1.52 1.38 3.87 4.54 5.12 5.15 11.7 7.35 2.80 6.85 1.20 9.20 1.76 5.21 5 3.40 7.29 8.66 5.04 10.2 6.43 2.97 4.45 5.50 5.92 4.56 2.46 6.90 1.47 2.11 2.32 5 4.19 2.20 4.32 1.5

6.43 4.04 2.51 2.58 3.78 3.75 3.10 6.43 1.70 6.40 3.24 1.79

8.75 2.46 3.62 4.72 7.40 8.81 5.83 6.75 7.65 8.79 10.9 9.65 5.09 4.11 6.37 5.40 2 2. 51

10.2 5.49 3.76 8

1.- Abra desde su disco el archivo FLAMA.SAV, que contiene los datos anteriores, usando para ello el menú File - Open ... Dicho archivo tiene definida una variable llamada IGNICION (Tiempos de ignición, en segundos, del nuevo material de tapicería) y los respectivos 100 eventos u observaciones. 2. Como para este problema, la hipótesis nula que se desea contrastar o probar es que la muestra procede de una población en la que la media del tiempo de ignición es igual a 7.0 segundos, se trata obviamente de una "prueba de hipótesis para una sola muestra". donde la ejecución de la prueba de hipótesis se inicia seleccionando el menú Analize Compare Means - One Sample T Test; llevando la variable IGNICIÓN al cuadro de Test Variable e introduciendo el valor hipotético en el cuadro Test value.' que en este caso particular es un 7.0. El intervalo de confianza para la media de las diferencias se solicita en el botón Options... al introducir un 95% en la casilla de Confidence Interval., aunque el usuario puede seleccionar otro nivel como por ejemplo 90% o 99%, etc., para después oprirnir el botón Continue. Finalmente, seleccione el botón OK para ejecutar la prueba. En los resultados descriptivos se aprecia que la media de ignición es de 5.4261 segundos con una desviación estándar de 2.7714 segundos y en los resultados de la prueba de 63


hipótesis se observa un -5,679 como valor del estadístico de prueba (t), 99 grados de libertad (df), un valor probabilístico (llamado p-valor) asociado al estadístico de prueba de 0.000 (Sig.2-tailed) y la media de las diferencias resulta de -1.5739 con su intervalo de confianza limitado por los valores -2.1238 y -1.0240 con un 95% de probabilidad. La regla de decisión en esta prueba de hipótesis dice que "Si el valor probabilístico asociado al estadístico de prueba (Sig 2-tailed) es MENOR que el nivel de significancia α, SE RECHAZARÁ la hipótesis nula a dicho nivel". Especificamente para este problema se tiene que: La hipótesis nula es "La media poblacional de ignición es igual a 7.0 seg.", es decir Ho: μ = 7.0 El nivel de significancia es del 5% (α = 5% = 0.05) por complemento del 95% del nivel de confianza al cual se realiza la prueba El P-valor (Sig 2 tailed) resultó de 0.000, el cual es un valor MENOR que 0.05 del nivel de significancia α. Por lo tanto, al aplicar la regla de decisión se llega a la siguiente conclusión estadística: "SE RECHAZA la hipótesis nula de que la media poblacional de ignición es igual a 7.0 segundos (Ho: μ = 7.0), con un nivel de confianza del 95% (α = 0.05)" Esta conclusión estadística conllevaría a concluir en la práctica que no es verdad que el nuevo material de tapicería tenga un tiempo promedio de ignición de 7 segundos, pudiendo afirmar esto con un 95% de confianza. La evidencia estadística muestral indica que dicho promedio es menor de 7 segundos, ya que la media muestral es de 5.4261 segundos. 3. Ejecute otra prueba de hipótesis, repitiendo el paso 2, pero ahora para la hipótesis nula de que el tiempo de ignición es de 5.0 segundos, con un 95% de confianza y escriba a continuación tanto su conclusión estadística, como su conclusión práctica:

Conclusión Estadística:

Conclusión Práctica:

64


Práctica 8 PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS RELACIONADAS O APAREADAS En un estudio de la efectividad del ejercicio físico para bajar de peso, un grupo de 32 personas que se iniciaron en un programa prescrito de ejercicio físico por un mes mostraron los resultados que se consignan en la tabla. Compruebe con un nivel de confianza del 99% si el programa de ejercicio prescrito es efectivo para bajar de peso. Núinero persona Peso (libras)

de 1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16

Inicial 209 178 169 212 180 192 158 180 211 193 245 188 201 222 190 199

Peso Final (libras) 1 6 171 170 207 177 190 159 180 203 183 229 190 194 219 195 197

Número persona Peso (libras)

de 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Inicial 170 153 183 165 201 179 243 144 179 202 169 187 213 174 196 201

Peso Final (libras) 164 152 179 162 199 173 231 140 180 197 175 190 205 170 197 201

1.- Abra desde su disco el archivo LIIBRAS.SAV, que contiene los datos anteriores, usando para ello el menú File – Open... Dicho archivo tiene definidas tres variables: ID (Número de identificación de la persona bajo el programa de ejercicio), INICIAL (Peso INICIAL, en libras, de la persona al EMPEZAR el programa) y FINAL (Peso FINAL, en libras, de la persona al T'ERMINAR el programa) y las respectivas 32 personas o casos. Al disponer de una muestra de una población y que, sobre cada individuo de la muestra, se miden dos variables con distribución normal X e Y (en este caso, peso INICIAL y peso FINAL), cuyos posibles valores son comparables, la “prueba de hipótesis para dos muestras apareadas" se utiliza para contrastar o probar la hipótesis nula de que la muestra procede de una población en las que las medias de X e Y son iguales, Es decir, para este problema la hipótesis nula afirmaría que el promedio de peso INICIAL es igual al promedio de peso FINAL (Ho: μ peso inicial = μ Peso Final), por lo que al no ser rechazada, en la práctica se concluiría que el programa prescrito no es efectivo para bajar de peso. Pero, si

65


la hipótesis nula se rechaza implicaría que los promedios INICIAL y FINAL son diferentes y por lo tanto el programa de ejercicio si sería efectivo para bajar de peso. 2. Ejecute la prueba de hipótesis seleccionando el menú Analize - Compare Means Paired Samples T Test; seleccionando con un clic como variable 1 a INICIAL y con otro clic como variable 2 a FINAL y enseguida colocando a ambas variables seleccionadas en el cuadro Paired Variables... El intervalo de confianza para la media de las diferencias se solicita en el botón Options ... al introducir un 99% en la casilla de Confidence Interval... aunque el usuario puede seleccionar otro nivel como por ejemplo 90% o 95%, etc., para después oprimir el botón Continue. Finalmente, seleccione el botón OK para ejecutar la prueba. Los resultados de esta prueba, SPSS los divide en tres apartados: a) Estadísticas de las muestras apareadas: En estos resultados descriptivos se aprecia que la media del peso INICIAL es de 190.19 libras con una desviación estándar de 23.16 libras y que la media del peso FINAL es de 186.72 libras con una desviación estándar de 20.78 libras; b) Correlaciones de las muestras apareadas: Entre los 32 pares de datos analizados se observa un coeficiente de correlación r = 0.979 con una significancia de 0.000, lo cual implica que el grado de asociación entre las variables estudiadas (peso INICIAL y peso FINAL) es "muy alto" y que dicha asociación es "altamente significativa"; c) Prueba de muestras apareadas: En los resultados de la prueba de hipótesis se observa que la media de las diferencias (entre peso INICIAL y FINAL) es de 3.47 con una desviación estándar de 5.07 libras, arrojando un intervalo de confianza al 99% (C1) para dicha media entre 1.01 y 5.93 libras; además un 3.868 como valor del estadístico de prueba (valor de t), 31 grados de libertad (df), y un valor probabilístico (llamado p-valor) asociado al estadístico de prueba de 0.001 (Sig 2-tailed). La regla de decisión en esta prueba de hipótesis dice que "Si el valor probabilístico asociado al estadístico de prueba, reconocido como el p-valor o Sig 2-tailed, es MENOR que el nivel de significancia α, SE RECHAZAR Á la hipótesis nula a dicho nivel". Específicamente para este problema se tiene que: a) La hipótesis nula es "La media poblacional del peso INICIAL es igual a la media poblacional del peso FINAL" (Ho: μ peso inicial = μ peso final) b) El nivel de significancia es del 1% (α = 1% = 0.01) por complemento del 99% del nivel de confianza al cual se realiza la prueba. c) El t-valor (Sig 2 tailed) resultó de 0.001, el cual es un valor MENOR (que 0.01 del nivel de significancia α. Por lo tanto, al aplicar la regla de decisión se concluye estadísticamente que: "SE RECHAZA la hipótesis nula (Ho:μ peso inicial = μ peso final ) de que la media poblacional del peso INICIAL es igual a la media poblacional del peso FINAL, con un nível de confianza del 99 % " 66


Esta conclusión estadística conllevaría a concluir en la práctica que EL PROGRAMA PRESCRITO DE EJERCICO SI ES EFECTIVO PARA BAJAR DE PESO, pudiendo afirmar esto con un 99% de confianza. La evidencia estadística muestral indica que al tomar dicho programa se baja en promedio unas 3.47 libras, bajando de peso desde 1.01 hasta 5.93 libras dependiendo de varios factores personales, mismos que no fueron estudiados en este caso como pudieran ser el sexo de la persona, su edad, etc. Este último intervalo es al 99% de confianza.

Práctica 9 PRUEBAS DE HIPÓTESIS PARA DOS MUESTRAS INDEPENDIENTES Las que siguen son dos muestras aleatorias independientes de los coeficientes intelectuales (CI) de adolescentes que pertenecen a dos grupos étnicos (Lacandón y Huichol). Compruebe con un nivel de confianza del 95% si el promedio de coeficiente intelectual en los adolescentes del grupo Lacandón es diferente de los que pertenecen al grupo Huichol, Etnia Lacandón Lacandón Cl

98

104

Etnia Hichol Hichol Cl

105

Lacandón

95

101

Hichol 103

Lacandón Lacandón Lacandón Lacandón Lacandón Lacandón 98

96

103

99

95

105

Hichol Hichol Hichol Hichol Hichol Hichol 107

100

99

108

114

Lacandón

107

101

Hichol 102

Etnia Hichol Hichol Cl

103

101

1.- Abra desde su disco el archivo ETNIAS.SAV, que contiene los datos anteriores, usando para ello el menú File - Open ... Dicho archivo tiene definidas tres variables: ID (Número de identificación del adolescente), ETNIA (Grupo étnico al que pertenece el adolescente: 1 =Lacandón, 2 = Huichol) y Cl (Coeficiente intelectual del adolescente) y los respectivos 32 casos u observaciones. Al disponer de muestras de dos subpoblaciones y que, sobre cada individuo de cada muestra, se núde una variable X con distribución normal, la prueba para dos muestras independientes se utiliza para contrastar la hipótesis nula de que las muestras proceden 67


de dos subpoblaciones en las que la media de X es la misma. Es decir, para este problema la hipótesis nula afirmaría que el CI del grupo Lacandón es igual que el Cl del grupo Huichol (Ho: μ lacandón. = μ huichol). La regla de decisión en esta prueba de hipótesis dice que "Si el valor probabilístico asociado al estadístico de prueba (Sig. 2-tailed) es MENOR que el nivel de significancia α, SE RECHAZARÁ la hipótesis nula a dicho nivel". Sin embargo, en esta prueba el estadístico de contraste ("t") puede tomar dos valores dependiendo de si las dos subpoblaciones presentan o no la misma varianza. En consecuencia, un paso previo a la prueba de igualdad de medias es contrastar mediante la prueba de Levene, la igualdad de varianzas (Ho: σ2 lacandón = σ2 huichol). Si el p-valor asociado (Sig.) al estadístico de contraste, es menor que el nivel de sigíúficanciaα , se rechazará la hipótesis nula a dicho nivel, es decir se rechazaría la hipótesis de igualdad de varianzas. 2. Ejecute la prueba de hipótesis seleccionando el menú Analize - Compare Means -Independent Samples T Test; llevando la variable CI al cuadro de Test Variables y la variable ETNIA al cuadro de Grouping Variable , donde al seleccionar el botón Define Groups deberá indicar que el Group 1 tiene el código 1 de Lacandón y el Group 2 tiene el código 2 de Huichol dando después un Continue. El intervalo de confianza para la media de las diferencias se solicita en el botón Options... al introducir un 95% en la casilla de Confidence Interval., aunque el usuario puede seleccionar otro nivel como por ejemplo 90% o 99%, etc., para después oprimir el botón Continue. Finalmente, seleccione el botón OK. para ejecutar la prueba. En los resultados descriptivos se aprecia que el coeficiente intelectual de la muestra de 10 lacandones es en promedio de 100.00 con una desviación estándar de 3.37, mientras que en el grupo de 12 huicholes fue de 103.67 como media y con una desviación estándar de 4.96. Previo a la prueba de igualdad de medias, con la finalidad de utilizar el estadístico adecuado, se contrastará con la prueba de Levene, la igualdad de varianzas de la variable Cl en los dos grupos. El p-valor asociado al estadístico de contraste (Sig = 0.368) es mayor que 0.05, luego, al rúvel de signfflcancia 0.05 o de confianza del 95%, no se rechaza la hipótesis nula de igualdad de varianzas. Al no rechazarse la hipótesis nula anterior, el estadístico "t" adecuado para probar la hipótesis de igualdad de medias es el que supone igualdad de vaiianzas (Equal variances assumed), donde el estadístíco de prueba (t) adopta un valor de -1.984 con 20 grados de libertad (df), un valor probabilístico asociado al estadístico de prueba de 0.061 (Sig. 2-tailed), una diferencia promedio entre los dos grupos de -3.67, un error estándar para la diferencia de 1.85 (Std. Error Difference) y un intervalo de confianza al 95% para dicha diferencia promedio entre -7.52 y 0.19.

68


Especificamente para este problema, el p-valor (Sig. 2 tailed) resultó de 0.061, el cual es un valor MAYOR que 0.05 del nivel de significancia α. y por lo tanto, al aplicar la regla de decisión se concluye estadísticamente que: 'NO SE RECHAZA la hipótesis nula de igualdad de medias (Ho: μ lacandón. = μ huichol), con un nivel de confianza del 95% (α = 0. 05)" Esta conclusión estadística conllevaría a concluir en la práctica que LOS DOS GRUPOS ÉTNICOS DE ADOLESCENTES TIENEN EN PROMEDIO EL MISMO COEFICIENTE INTELECTUAL, pudiendo afirmar esto con un 95% de confianza.

Práctica 10 ANÁLISIS DE CONTINGENCIA Cierta institución dedicada a realizar investigaciones sociales desea indagar acerca de la opinión que tienen los ciudadanos sobre despenalizar o no la práctica del aborto. El estudio se realizó en tres áreas (urbana, suburbana y rural) con la finalidad de establecer si existen diferentes opiniones de acuerdo al tipo de residencia de los ciudadanos, Para lo cual se capturó en SPSS un archivo de datos con 2 variables: RESIDE (tipo de residencia, I = URBANO, 2 = SUBURBANO y 3 = RURAL) y DESPENAL (opinión sobre la despenafización del aborto 0 = A FAVOR y 1 = EN CONTRA), incluyendo 500 personas encuestadas u observaciones, En este caso se desea realizar un análisis de contingencia que permita estudiar las diferencias que se dan entre las distintas proporciones de la opinión acerca de la despenalización del aborto por tipo de residencia del ciudadano encuestado, empleando como herramienta fundamental una tabla cruzada o de contingencia y como estadístico de prueba una ji-cuadrada. Las dos pruebas básicas en este tipo de estudio son la Prueba de Independencia (¿las variables analizadas son independientes entre sí?) y la Prueba de Homogeneidad (¿la distribución dentro de las variables son diferentes entre sí?) y aunque existen diferencias conceptuales entre ellas, el procedimiento analítico es el mismo. Para este ejemplo, se trata de una prueba de homogeneidad, donde la hipótesis nula sería "La distribución de las proporciones dentro de las variables OPINIÓN -RESIDENCIA es HOMOGENEA, es decir estas proporciones son iruales entre sí". La comprobación de esta hipótesis se desea realizarla con un nivel de confianza del 99% En el análisis de contingencia enfocado a probar homogenidad es común que el investigador controle una de las variables mediante el establecimiento previo de la proporción o número de casos que se incluirán en el análisis, respetando desde luego el tamaño de muestra (total y/o estratificado) previamente calculado. En este ejemplo, es obvio que la variable que se puede controlar en número de casos es el tipo de residencia y efectivamente, antes de aplicar la encuesta se estableció por parte del investigador que se 69


entrevistarían 200 ciudadanos del área urbana (40%), 200 del área suburbana (40%) y solamente 100 ciudadanos del área rural (20%), para hacer un total de 500 que flie el tamaño de muestra calculado para esta investigación. 1.- Abra desde su disco el archivb ABORTO.SAV, mismo que contiene las variables y casos ya mencionados, usando para ello el menú File - Open 2.- Solicite al SPSS una tabla de contingencia que permita cruzar las variables RESIDE (tipo de residencia) y DESPENAL (opinión sobre la despenalización del aborto) y obtener frecuencias observadas y calculadas en cada una de las seis clases de cruce, así como sus respectivas proporciones o porcentajes, seleccionando el menú Analize - Descptive Statistics - Crosstabs... colocando la variable DESPENAL en el cuadro Rows y la variable RESIDE en el cuadro Columns, solicitando en el botón Cells las frecuencias observadas y esperadas y los siguientes porcentajes: Hilera, Columna y Total. En el botón Statistics y de acuerdo a la escala de medición de las variables solicite el cálculo de la ji-cuadrada, el coeficiente de contingencia y el coeficiente Lambda. Finalmente, seleccione el botón OK para obtener la tabla y los estadísticos de prueba. Al tener a la vista la tabla de contingencia vacíe sus resultados en el siguiente formato: Tipo de Residencia Frecuencia Observada Frecuencia Esperada % Hileras

Total URBANO

SUBURBANO

RURAL

Hilera

143

98

13

254

102

87

246

% Columnas %Total Opinión Sobre la Despenaliza ción Del A FAVOR aborto

101.6 56.3% 71.5% 28.6% 57

70


EN CONTRA

Total

200

200

100

500

40.0%

40.0%

20.0%

100%

Columna

3. De acuerdo a los resultados muestrales o descriptivos de la tabla cruzada: a) Qué porcentaje del total de ciudadanos está a favor:______ % En contra:_______ % b) Qué porcentaje del total de ciudadanos reside en el área Urbana: _______ Suburbana:_________% Rural:_________ % c) Qué porcentaje de ciudadanos rurales está A favor:______ % y que porcentaje está en contra: _______% d) Qué porcentaje de ciudadanos suburbanos está A favor: ______% y que porcentaje está en contra: ________% e) Qué porcentaje de ciudadanos urbanos está A favor:_________% y que porcentaje está en contra:_________% f) ¿A nivel muestral (tabla) las proporciones o porcentajes de ciudadanos que están a favor o en contra de la despenalización del aborto según el área de residencia son homogéneos (iguales) entre sí? Si o No:___________ 4.- Para realizar las conclusiones inferenciales, es decir a nivel poblacional, se deben interpretar los estadísticos de prueba: a). Ji-Cuadrada (Pearson): El valor calculado del estadístico de prueba X2 = 91.715 resulta MAYOR que los valores de X2 tabulados, tanto al nivel de significancia (α = 0. 0 1 que es de 9.210 como al nivel de significancia α = 0.05 que es de 5.992, y por lo tanto se debe RECHAZAR LA HIPOTESIS NULA DE HOMOGENEIDAD DE PROPORCIONES. Sin embargo, en SPSS no es necesario el uso de tablas para comparar el valor calculado con el valor de tablas, ya que el programa aporta directamente el valor probabilístico asociado al estadístico de prueba que en este caso es una X2 . Dicho valor probabilístico (Asymp. Sig. 2-sided) se compara con el nivel de significancia deseado (α) y si es MENOR SE RECHAZA LA HIPOTESIS NULA, pero si resultara MAYOR NO SE RECHAZA LA HIPÓTESIS NULA. En este caso específico, el valor probabilístico asociado a la X2 de Pearson es de 71


Asyimp. Sig. 2 sided = 0.000, que es menor que (α = 0.01, y por lo tanto la conclusión a nivel poblacional es "SE RECHAZA LA HIPÓTESIS NULA de que la distribución de las Proporciones dentro variables OPINIÓN-RESIDENCIA " HOMÓGENEA con un nivel de significancia α = 0. 01, es decir estas proporciones son diferentes entre sí con un 99% de conflanza”. Esta inferencia estadística conllevaría a concluir en la práctica que LA OPINIÓN SOBRE DESPENALIZAR EL ABORTO ES SIGNIFICATIVAMENTE DIFERENTE ENTRE LAS ÁREAS URBANA, SUBURBANA Y RURAL, pudiendo afirmar esto con un 99% de confianza. La evidencia estadística muestral indica que el 71.5% de los ciudadanos urbanos está a favor de que se despenalize el aborto, mientras que en el área suburbana sólo el 49.0% de los ciudadanos apoya dicha despenalizacíón y menos aún, en el área rural ya que sólo el 13% de los ciudadanos está a favor de la despenalización del aborto, es decir, mientras la mayoría de los urbanos (71.5%) apoyan la despenalización, los ciudadanos rurales se oponen abrumadoramente a legalizar el aborto (87%). b). Coeficientes Lambda y de Goodman & Kruskal Tau. Estos coeficientes también miden el grado de asociación entre variables pero con fines de predicción. Un valor de 1 significa que la variable independiente puede perfectamente predecir a la variable dependiente y un valor de 0 indicaría que la variable independiente no sirve con fines de predecir a la dependiente. En este caso, el valor del coeficiente de Goodman & Kruskal Tau, tomando a la variable DESPENAL (Opinión a favor o en contra) como dependiente y por lo tanto a la variable RESIDE (Urbano, suburbano y rural) como independiente, asume un valor de 0. 183 mismo que presenta significancia estadística al tener una Approx. Sig. = 0.000 que es menor que α = 0.01. Es decir, que el tipo de residencia del ciudadano puede predecir su opinión sobre la despenalización del aborto con un 99% de confianza. El caso del coeficiente Lambda es similar al anterior, pero incluye el caso de simetría, es decir cuando las variables interactuan mutuamente. c) Coeficiente de Contingencia. El coeficiente de contingencia es una medida de asociación entre variables. Puede tomar valores entre 0 y 1, donde la máxima asociación teórica se tiene cuando vale 1 y una asociación nula cuando adopta un valor de 0. En este caso, el valor del coeficiente de contingencia es de 0.394 mismo que presenta significancia estadística al tener una Significance = 0.000 que es menor que a = 0.01. Es decir, las variables se encuentran asociadas con un 99% de confianza.

Práctica 11 ANÁLISIS DE CORRELACIÓN Cierta compañía internacional de aviación que trabaja en 15 áreas geográficas diferentes está interesada en realizar un estudio de correlación que le permita medir el grado de asociación entre las distintas variables que considera mas importantes en su operación. 72


Dicho análisis le serviría posteriormente para modelar el sistema (a través de un análisis de regresión) en el que está trabajando y con base en dicho modelo poder proponer el manejo de las variables internas dentro de niveles que optimicen sus utilidades en cada una de las áreas en que se encuentra operando. Las variables de interés para el análisis de correlación son cuatro: 1. Ingreso bruto por venta de boletos (VENTAS); 2. Gastos de promoción (PROMON) 3. Número de aerolíneas competidoras (NUMCOMPE) y 4. Porcentaje de pasajeros que viajan gratis por diversas razones (GRATIS): Area VENTAS PROMON NUMCOMPE GRATIS 1

79.3

2.5

10

3

2

200.1

5.5

8

6

3

163.2

6.0

12

9

4

200,1

7.9

7

16

5

146.0

5.2

8

15

6

177.7

7,6

12

9

7

30.9

2,0

12

8

8

291.9

9.0

5

10

9

160.0

4,0

8

4

10

339.4

9.6

5

16

11

159.6

5.5

11

7

12

86.3

3.0

12

6

13

237.5

6

10

14

107.2

5.0

10

4

15

55.0

3.5

10

4

1. - Abra desde su disco el archivo AVIONES. SAV con el menú File.. Open, mismo que contiene las 4 variables ya mencionadas para las quince áreas geográficas en las que opera la compañía de aviación.

73


2.- Obtenga una MATRIZ DE DIAGRAMAS DE DISPERSIÓN con todas las variables, accediendo al menú Graphs - Scatter - Matrix y colocando con el botón Define las 4 variables en el cuadro Matrix Variables, para finalmente seleccionar el botón OK. 3.- Solicite la MATRIZ DE CORRELACIONES, misma que reporta el cálculo de los coeficientes de correlación entre los distintos pares de variables, seleccionando el menú Analize - Correlate -Bivariate.. pasando las 4 variables al cuadro Variables y verificando o activando la casilla de Pearson en la opción de Coeficientes de Correlación la casilla de Two-Tailed (Dos Colas) en la Prueba de Significancia y la casilla Flag significant correlations para que el SPSS marque en los resultados las correlaciones significativas. Después por medio del botón Options solicite las estadísticas de medias y desviaciones estándar activando la casilla correspondiente, para después dar un clic en el botón Continue y finalmente, seleccione el botón OK para obtener la matriz. 4.- Complete y/o verifique las estadísticas descriptivas, así como la matriz de correlaciones: Variable Media Desv.Est. Casos VENTAS

168.947

15

PROMON

5.487

15

NUMCOMPE

9.07

15

GRATIS

8.47

15

Coeficiente r Significancia

VENTAS

PROMON

NUMCOMPE

GRATIS

1.000

0.891**

0.798**

0.561*

.

0.000

0.000

0.030

15

15

15

15

1.000

0.617*

0.690**

.

0.014

0.004

Tamaño muestral

VENTAS

PROMON

74


15

15

15

1.000

-0.505

.

0.055

15

15

NUMCOMPE

1.000 GRATIS

. 15

El valor de significancia asociado al estadístico de prueba es la segunda cantidad que reporta el SPSS en cada celda y por lo tanto es el que se debe comparar con el nivel de significancia α fijado previamente por el investigador (ya sea 0.01 o 0.05). Por ejemplo, como para la asociación VENTAS-PROMON la significancia es de 0.000 y por lo tanto menor que α = 0.01 se concluye que esta asociaci ón es altamente significativa (marcada por SPSS con un **, ya que si la asociación sólo es significativa, menor que α = 0.05, se marcaría con un *). Al interpretar el valor de r = 0.891 se concluye que esta asociación es positiva y muy alta, es decir que al incrementar los gastos de promoción se incrementan los niveles de venta. 5.- Usando los criterios anteriores se concluye sobre las 6 correlaciones bivariadas que arrojó la matriz anterior: Significancia de la Asociación Grado de Significancia

Correlación

Sig

Ventas-Promon

.000**

Altamente significativa

Ventas-Numcompe

.000**

Altamente signifícativa

Ventas-Gratis

.030*

Significativa

Promon-Numcompe .014*

Significativa

Promon-Gratis

.004**

Altamente significativa

Numcompe-Gratis

.055

No significativa 75


Tipo y Nivel de la Asociación Correlación r Ventas-Promon

.891

Asociación

Positiva / Muy alta

Relación A mayor promoción mayores ventas

Ventas-Numcompe -.798 Negativa / Alta

A mayor número de competidores menores ventas

Ventas-Gratis

A mayor Nº de pasajeros gratis mayores ventas

.561

Positiva / Baja

romon-Numcompe -.617 Negativa / Alta

A mayor promoción menor número de competidores

Promon-Gratis

A mayor promoción mayor Nº de pasajeros gratis

.691

Numcompt-Gratis -.505

Positiva / Alta

******

********

Práctica 12 ANÁLISIS DE REGRESIÓN LINEAL SIMPLE El Departamento de Medicina Preventiva de Pensiones Civiles del Estado se encuentra interesado en realizar un análisis de regresión lineal simple que le permita establecer una ecuación de línea recta para predecir el peso de una persona dada su estatura. Con la finalidad de alcanzar su objetivo realiza un muestreo con los pacientes que acuden diariamente a medicina preventiva y les toma datos acerca de su número de expediente, sexo, estado civil, edad, peso y estatura. Las dos variables de interés para el análisis de regresión lineal simple en este caso, son: A.- Peso del paciente en kilogramos (PESO) y B.Estatura del paciente en centímetros (ESTATURA). 1.- Abra desde su disco el archivo PCE.SAV con el menú File... Open. mismo que contiene las 6 variables ya mencionadas, entre las cuales están las variables PESO y ESTATURA, para una muestra de 8 pacientes que acudieron cierto día a medicina preventiva. 2.- Obtenga un DIAGRAMA DE DISPERSIÓN con las dos variables de interés, accediendo al menú Graphs - Scatter Simple y colocando con el botón Define la variable PESO como

76


dependiente (eje Y) y la variable ESTATURA como independiente (eje X) y después el botón OK. 3.- Solicite al SPSS el ANÁLISIS DE REGRESIÓN, seleccionando el menú Analize - Regression - Linear.. pasando la variable PESO a la casilla de variable Dependent y la variable ESTATURA a la casilla de variable Independent y por medio del botón Statistics active o verifique que estén activadas las casillas de los estimadores de los coeficientes de regresión (Estimates - Regression Coefficients), estadísticas descriptivas (Descriptives) y análisis del modelo de regresión (Model Fit) para después dar un clic en el botón Continue y finalmente, seleccione el botón OK para obtener el análisis de regresión. 4.- Complete y/o verifique los siguientes resultados: Estadísticas Descriptivas Variable Media Desv. Est. PESO

65.75

ESTATURA

163.13

Correlaciones Coeficiente r Significancia

PESO

ESTATURA

1000

0.748

8

0.016

0.748

1000

0.016

8

Tamaño muestral

PESO

ESTATURA

El valor asociado al estadístico de prueba es la significancia calculada y por lo tanto es el que se debe comparar con el nivel de significancia α deseado o previamente fijado por el 77


investigador (ya sea 0.01 o 0.05). Por lo tanto, para la correlación PESO-ESTATURA donde la significancia es igual a 0.016 y menor que α = 0.05 se concluye que el nivel de asociación lineal entre dichas variables es estadísticamente significativo. Al interpretar el valor de r = 0.748 se concluye que esta asociación es positiva y alta, es decir que al incrementarse la estatura de las personas estas tendrán mayores pesos. Al comprobar la significancia estadística de la asociación lineal entre las dos variables se puede proceder a construir la ecuación de regresión lineal simple. Variables Introducidas/removidas En este ejemplo, la variable independiente "estatura del paciente" fue introducida a la ecuación de línea recta y como su asociación con la variable dependiente "peso del paciente" resultó estadísticamente significativa no fue removida y por lo tanto debe ser incluída en dicha ecuación. Resumen del Modelo (Coeficientes de Correlación y Determinación) El Coeficiente de Correlación (R) que mide el grado de asociación entre las variables resultó de 0.748 e indica que la asociación es positiva y alta y por otro lado, el Coeficiente de Determinación (R Square) que mide el porcentaje de explicación de una variable con respecto a la otra resultó de 0.559, es decir el 55.9% del peso de una persona está determinado o explicado por su estatura. Análisis de Varianza de la Regresión En el modelo de regresión lineal simple Y β= o + β1 (X) el estimador de la pendiente β1 también llamado Coeficiente de Regresión, es de mucha mayor importancia que el estimador de la ordenada al origen βo ya que indica la forma en que están relacionadas X y Y, en el sentido que mide cuánto y en que dirección se modifica Y cuando cambia X. Por esta razón en el análisis de regresión normalmente se incluye un ANVA para probar la hipótesis nula de que β 1 = 0 contra la hipótesis altema de queβ 1 es diferente de cero. En este ejemplo, el valor calculado de F = 7.619 y el valor probabilístico asociado a dicho estadístico de prueba es de Sig. = 0.033 que es un valor MENOR que (x = 0.05 por lo que SE RECHAZA la hipótesis nula de queβ 1 = 0, es decir, con este ANVA se concluye que la estatura si explica en cierta medida el peso de una persona con un 95% de confianza. Esa "cierta medida" viene dada de manera global por el coeficiente de determinación (R Square = 0.559 = 55.9%) y de manera unitaria por el coeficiente de regresión (β1 = 0.790) el cual es reportado por SPSS en la última tabla de Coeficientes de la Ecuación de Regresión (Coefficients), interpretándose este último así: "Por cada 1.0 centímetros de estatura de una persona, su peso se incrementa en 0.790 kilogramos".

78


Coeficientes de la Ecuación de Regresión El análisis de regresión usando el modelo de línea recta Y = β o + β1 (X) arroja una Ecuación de Regresión donde se tienen calculados, para la muestra en cuestión, los coeficientes o estimadores de los parámetrosβ o (Constante u Ordenada al origen) y β1 (Coeficiente de Regresión o Pendiente de la recta) y donde la variable Y es la variable dependiente definida por el usuario (PESO) y la variable X es la variable independiente (ESTATURA), también establecida como tal por el usuario, Al sustituir los valores de los coeficientes en el modelo de línea recta quedaría la siguiente Ecuación de Regresión: PESO = -63.132 + 0.790 (ESTATURA) con una R2 = 0.559 En esta última tabla, se observa también que SPSS reporta pruebas “t" de significancia para cada uno de los coeficientes incluidos en el modelo. Particularmente en este caso se reporta que no hay significancia estadística para el primer coeficiente β o (dado que Sig.=O.226 y mayor que α = 0.05), es decir que la Constante u Ordenada al Origen puede excluirse de la ecuación por lo que se recomendaría realizar nuevamente el análisis de regresión pero ahora solicitándole al SPSS que no incluya en la ecuación la Constante u Ordenada al Origen. Por otro lado, la significancia estadística del coeficiente β 1, Pendiente de la Recta o Coeficiente de Regresión, quedó demostrada ya que Sig = 0.033 y menor que α = 0.05 Independientemente de lo anterior, al estudiar el fenómeno de PESO-ESTATURA con el análisis de regresión, se puede hipotetizar que la ecuación de regresión puede mejorar su capacidad para explicar el peso de una persona en función de su estatura, si en lugar de tener una sola ecuación se generan dos ecuaciones, una para hombres y otra para mujeres, o inclusive varias ecuaciones para los dos sexos y para diferentes segmentos de edad de los pacientes, por lo que la muestra deberá abrirse hacia más elementos muestrales que abarque un rango más amplio de edades, sexos y estaturas.

Práctica 13 ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE Cierta compañía internacional de aviación que trabaja en 15 áreas geográficas diferentes está interesada en realizar un análisis de regresión lineal múltiple que le permita establecer una ecuación lineal aditiva que represente el sistema en el que está trabajando y con base en dicha ecuación poder proponer el manejo más adecuado de las variables internas de manera que optimicen sus ventas en cada una de las áreas en que se encuentra operando. Las variables de interés para el análisis de regresión son cuatro: 1. Ingreso bruto por venta de boletos (VENTAS); 2. Gastos de promoción (PROMON); 3. Número de aerolíneas competidoras (NUMCOMPE) y 4. Porcentaje de pasajeros que viajan gratis por diversas razones (GRATIS). Donde obviamente la variable VENTAS es la variable dependiente y las tres restantes son las independientes 79


1.- Abra desde su disco el archivo AVIONES. SAV con el menú File... Open, mismo que contiene las 4 variables ya mencionadas para las quince áreas geográficas en las que opera la compañía de aviación. 2.- Con el menú Graphs - Scatter - 3D defina un Diagrama de Dispersión Tridimensional X-Y-Z, donde la variable dependiente Y son las VENTAS y las variables independientes son Z=PROMON y X=NUMCOMPE, donde es obvio que la 3a variable independiente, GRATIS, no puede ser incluida porque la gráfica requeriría cuatro dimensiones lo cual no es posible en estas representaciones. 3.- Previo al análisis de regresión se debe realizar el análisis de correlación concomitante, donde se obtiene la MATRIZ DE DIAGRAMAS DE DISPERSIÓN y la MATRIZ DE CORRELACIONES deduciéndose de dichas matrices la significancia de las asociaciones entre las variables estudiadas, así como su tipo y nivel. De hecho, en una práctica anterior ya se realizó el análisis de correlación previo. 4.- Solicite al SPSS el ANÁLISIS DE REGRESIÓN, seleccionando el menú Analize - Regression - Linear.. pasando la variable VENTAS a la casilla de variable Dependent. y las variables PROMON, NUMCOMPE y GRATIS a la casilla de variables Independent , después seleccione en la casilla Method el método STEPWISE de análisis para ejecutar la regresión. El programa SPSS proporciona varios métodos para ejecutar la regresión, el método Stepwise se considera en este caso el mas apropiado ya que sin la intervención del usuario discrimina cuáles de todas las variables que se clasificaron como independientes deben ser incluidas en la ecuación y cuales deben ser removidas, empleando para ello como criterio el valor probabilístico del estadístico F; revise en el botón Options los valores que utilizará SPSS para discriminar las variables independientes, y aunque estos valores pueden ser modificados por el usuario, acepte los valores predeterminados dando un Continue. Para concluir, y por medio del botón Statistics active o verifique que estén activadas las casillas de los estimadores de los coeficientes de regresión (Estimates Regression Coefficients), estadísticas descriptivas (Descriptives) y análisis del modelo de regresión (Model Fit) para después dar un clic en el botón Continue y finalmente, seleccione el botón OK para obtener el análisis de regresión. 5.- Verifique los siguientes resultados: Estdísticas Descriptivas Variable Media VENTAS

Desv.Est.

Casos

168.947

15

80


PROMON

5.487

15

NUMCOMPE

9.07

15

GRATIS

8.47

15

Correlaciones La matriz de correlaciones que arroja en segundo término, es la misma que proporcionó en el ANÁLISIS DE CORRELACIÓN ya ejecutado e interpretado en una práctica anterior. Variables Introducidas / Removidas En este caso, el método Stepwise reporta en su primer paso el Modelo 1 donde sólo se incluyó a la variable PROMON como variable independiente, después se agrega en el Modelo 2 a la variable NUMCOMPE y el método finaliza en este modelo, ya que la inclusión de otras variables (en este ejemplo la variable GRATIS) no mejoran estadísticamente dicho modelo. En concreto, el mejor modelo encontrado por el método stepwise fue el Modelo 2 que explica linealmente las VENTAS en función de PROMON y NUMCOMPE y elimina de la explicación a la variable GRATIS. Resumen del Modelo (Coeficientes de Correlación y Determinación) Para el modelo 2, el coeficiente de correlación múltiple (Múltiple R) que mide el grado de asociación lineal múltiple entre las variables resultó de 0.945 que indica que el grado de asociación es muy alto y por otro lado, el coeficiente de determinación R2 (R Square) que mide el porcentaje de explicación de la variable dependiente con base en las independientes resultó de 0.894, es decir el 89.4% de las ventas de la compaiíía de aviación están determinadas o explicadas por los gastos de promoción que realiza la compañía y por el número de sus competidores. Análisis de Varianza de la Regresión y Coeficientes de la Ecuación de Regresion En el Modelo número 1 del Stepwise sólo se incluyó a la variable PROMON arrojando una R2=0.794 y una F = 50.233 con Sig =0.000, eliminando de la ecuación a las variables NUMCOMPE y GRATIS. En el Modelo número 2 del Stepwise se incluyeron a la variables PROMON y NUMCOMPE arrojando una R2 = 0.894 y una F = 50.484 con una Sig, =0.000, eliminando de la ecuación a la variable GRATIS. El método stepwise se detiene en este Modelo 2 al haber logrado los máximos valores de R2 y de F y no poder incluir a la variable GRATIS misma que no es significativa en esta ecuación (Observe en la última tabla de variables excluidas para esta 81


variable GRATIS, el valor de significancia en la prueba de "t" para el estimador de su coeficiente de regresión, que vale Sig.=O.221 mismo que es MAYOR que el nivel de significancia empleado de α = 0.05, por lo que debe ser eliminado de la ecuaci ón). Las acciones de inclusión o elin-únación de variables independientes es automática y transparente para el usuario, por lo que la mejor ecuación de regresión siempre es la que arroja el último modelo o paso del método stepwise. Al reportar los coeficientes de la Ecuación de Regresión del Modelo 2, que resultó ser el mejor, para el análisis de regresión lineal múltiple con un modelo lineal aditivo Y =β o + β1 (X1) + β2(X2) arroja la siguiente ecuación: VENTAS = 159.920 + 22.426(PROMON) - 12.575(NUMCOMPE) con R2=0.894 y Sig F=0.000 Los coeficientes parciales de regresión de cada una de las variables incluidas se interpretan de manera unitaria o por tasa, es decir, para la variable PROMON en la que resultó un coeficiente de regresión β1 = 22.426, se interpreta así: "Por cada 1.0 mil dólares que incremente la compañía en gastos de promoción se obtendrán 22.426 mil dólares de ingresos brutos adicionales por venta de boletos"; para la variable NUMCOMPE en la que resultó un coeficiente de regresión β2 = -12.575, se interpreta así: "Por cada nuevo competidor que entre al mismo mercado geográfico de la compañía de aviación se tendrán 12.575 mil dólares de mermas en los ingresos brutos por venta de boletos". 6.- Usando la ecuación anterior pronostique cuál sería el nivel de ventas de la compañía al incursionar en una nueva área geográfica donde existen 5 competidores y si la compañía invirtiera 5.5 mil dólares en promoción: VENTAS = 159.920 + 22.426 (PROMON) - 12.575(NUMCOMPE) VENTAS = 159.920 + 22.426 ( 5.5 12.575( 5 ) VENTAS Pronosticadas _____________________ mil dólares.

82


Práctica 14 ANÁLISIS DE VARIANZA DE UN FACTOR ¿Qué tipo de comerciales televisivos captan mejor la atención de los niños? Para responder la pregunta se realizó una investigación donde se midió el comportamiento de 15 niños con el tiempo de atención, en segundos, que ponían a tres tipos de comerciales; cinco niños se observaron mientras veían comerciales de juegos y juguetes, cinco mientras veían comerciales de comida y chicles y cinco mientras veían comerciales sobre ropa infantil. Todos los comerciales tenían 60 segundos de duración. Los resultados fueron: Comercial TV

Juegos

Juegos

Juegos

Juegos

Juegos

Juegos

Juegos

Atención (seg)

36

26

31

20

34

42

29

Comercial TV

Juegos

Juegos

Juegos

Juegos

Juegos

Juegos

Juegos

Juegos

Atención (seg)

38

35

39

32

18

23

21

33

¿Proporcionan los datos anteriores suficiente evidencia estadística que señale que existe una diferencia significativa entre los tiempos medios de atención a las tres clases de comerciales? y si son diferentes ¿cuál es el más efectivo?. Utilice un nivel de confianza del 95%. 1.- Abra desde su disco el archivo COMERCIA.SAV, que contiene los datos anteriores, usando para ello el menú File - Open... Dicho archivo tiene definidas tres variables: ID (Número de identificación del niño), TVCOMER (Tipo de comercial televisivo: I = Juegos y juguetes, 2 = Comida y chicles y 3 = Ropa infantil) y ATENCION (Tiempo de atención en segundos, a los comerciales) y los respectivos 15 niños o casos Al disponer de muestras de tres o más subpoblaciones y que, sobre cada individuo de cada muestra, se mide una variable X con distribución normal, el "análisis de varianza de un 83


factor" se utiliza para contrastar la hipótesis nula de que las muestras proceden de tres o más subpoblaciones en las que la media de X es la misma. Es decir, para este problema la hipótesis nula afirmaría que los niveles promedio de ATENCION en el grupo de niños que vieron comerciales de "Juegos y Juguetes", en el grupo que vieron comerciales de "Comida y Chicles"' y en el grupo que vieron comerciales de 'Ropa Infantil" son iguales (Ho: μ Juegos = μ Comida = μ Ropa). La regla de decisión en este tipo de análisis dice que "Si el valor probabilístico (Sig de F) asociado al estadístico de prueba F es MENOR que el nivel de significancia α SE RECHAZARÁ la hipótesis nula a dicho nivel”' y solamente que se haya rechazado esta hipótesis, es decir que se hayan encontrado diferencias estadísticas significativas entre los grupos, procede una "prueba de separación de medias" para distinguir cuál de los grupos presentó la media más alta, cuál la menor, etc., esta prueba de separación de medias puede hacerse por medio de contrastes, DSM (Diferencia Mínima Significativa), Tukey, Duncan, Sheffé, etc. 2. Con el menú Graphs - BoxPlot -Simple solicite un Diagrama Caja-Brazos para visualizar las diferencias muestrales entre los 3 grupos de niños. Con el botón Define introduzca ATENCION al cuadro Variable; TVCOMER al cuadro de Category axis y la variable ID al cuadro Label cases by finalmente dé un clic en OK para obtener la gráfica. 3. Ejecute el análisis de varianza de un factor seleccionando el menú Analize - Compare Means - One Wav ANOVA; llevando la variable ATENCION al cuadro de Dependent List y la variable TVCOMER al cuadro de Factor. La prueba de separación de medias se solicita en el botón Post Hoc... y en este caso se pedirá la prueba de Tukey que permite comparaciones múltiples, dando después un Continue. En el botón Options. se solicitará las estadísticas descriptivas, la prueba de homogeneidad de varianzas y la gráfica de medias, dando después un Continue. Finalmente, seleccione el botón OK para ejecutar el ANVA. 4. Verifique que en los resultados descriptivos o muestrales se aprecia que el promedio de atención en el grupo de niños que vio los comerciales de "Comida y Chicles" es de 36.60 seg. con una desviación estándar de 4.923 seg., mientras que en el grupo de niños que vio los comerciales de "Juegos y Juguetes" es de 29.40 seg. con una desviación estándar de 6.47 seg., y en el grupo de niños que vio los comerciales de "Ropa Infantil" es de solamente 25.40 seg. con una desviación estándar de 6.73 seg. Es decir los comerciales de "Comida y Chicles" captan mejor la atención de los niños, mientras que los de “Ropa Infantil” son los menos efectivos para ello.

84


La prueba de Levene sobre homogeneidad de varianzas entre los tres grupos arrojó una Sig de 0.495 que es el valor asociado al estadístico de contraste y como resulta mayor que 0. 05, luego, al nivel de confianza del 95%, no se rechaza la hipótesis nula de igualdad de varianzas. Esto significa para el ANVA que el supuesto de homogeneidad de varianzas si se cumple y por lo tanto sus conclusiones serán válidas. Verifique después, que en el cuadro de ANVA para este problema, el valor de Sig de la F entre grupos resultó de 0.038, el cual es un valor MENOR que 0.05 del nivel de significancia α. y por lo tanto, al aplicar la regla de decisión se concluye estadísticamente que: "SE RECHAZA la hipótesis nula de igualdad de medias (Ho: μ Juegos = μ Comida = μ Ropa) con un nivel de conflanza del 95% (α = 0. 5)” Esta conclusión estadística conllevaría a concluir en la práctica que LOS TRES TIPOS DE COMERCIALES DE TV CAPTAN DIFERENTES PROMEDIOS DE ATENCIÓN ENTRE LOS NIÑOS, pudiendo afirmar esto con un 95% de confianza. Al encontrarse diferencias significativas entre grupos, procede analizar la prueba de separación de medias, (Post Hoc Tests) que en este caso fue la de Tukey, la cual sólo detectó diferencias significativas (con α = 0. 5) entre los niños que vieron comerciales de "Comida y chicles" y el grupo que vio comerciales de "Ropa infantil”'. Siendo desde luego, los comerciales de "Comida y chicle” los que atraen mas la atención de los niños (el intervalo de confianza para la media poblacional fue 30.48 < μ< 42.72) y los de "Ropa infantil" los menos efectivos para captar su atención (el intervalo de confianza para la media poblacional fue 17.04 < μ < 33.76). La misma prueba de Tukey reporta dos subgrupos homogéneos: Ropa y Juegos, además de Juegos y Comida que no muestran diferencias estadísticas significativas entre ellos. El diagrama de medias (Means Plot) muestra gráficamente el posicionamiento de las medias de los tres tipos de comerciales estudiados.

Práctica 15 ANÁLISIS DE CONGLOMERADOS El análisis de conglomerados, al igual que el análisis factorial y el escalamiento multidimensional, es un método de análisis multivariado interdependiente, es decir este 85


análisis no hace ninguna distinción entre variables dependientes e independientes, sino que estudia al conjunto total de relaciones interdependientes tratando de derivar alguna estructura subyacente en los datos. La función del análisis de conglomerados consiste en agrupar los casos o elementos muestrales en subgrupos o conglomerados. Estos agrupamientos pueden obedecer a leyes naturales, como es el caso de las ciencias biológicas o a cualquier grupo de características comunes a los casos, como ocurre en ciencias sociales. Esta técnica se usa generalmente en estudios exploratorios donde no se tiene una idea preconcebida de como se agrupan los casos, sino que se busca precisamente identificar a estos conglomerados, además, en ciertas condiciones, se usa como paso previo a la aplicación de otras técnicas mas complejas como el análisis factorial o el escalamiento multidimensional. Mientras el análisis de conglomerados trata de agrupar a objetos o individuos en base a características comunes, el análisis factorial se utiliza para estudiar las relaciones entre un gran número de variables y explicarlas por medio de unos cuantos factores que describen al grupo. El análisis de conglomerados forma grupos conteniendo elementos muestrales lo mas parecido posibles entre sí y lo mas diferente posible al compararse con otros grupos y por lo tanto también puede servir como entrada al análisis discriminante que busca establecer los criterios de diferenciación entre dichos grupos. Es decir estas técnicas se complementarían, ya que mientras una establece los posibles grupos o conglomerados, la otra determina cuales criterios o variables sirven para diferenciarlos o discriminarlos. El campo de acción del análisis de conglomerados es muy diverso ya que abarca desde áreas como las ciencias biológicas (establecer clasificaciones o taxonomías de organismos), hasta campos como la lingüística (agrupar lenguas o dialectos), la medicina (agrupar sintomatologías de enfermedades), la psicología organizacional (establecer equipos de trabajo con mejores criterios de afinidad), la sociodemografía (identificar grupos sociales o poblacionales con características comunes), la geología (agrupamiento de formaciones geológicas), la mercadotecnia (establecer segmentos de mercado, comprensión del comportamiento del consumidor, identificar oportunidades para productos nuevos), etc. El procedimiento para realizar un análisis de conglomerado incluye: formulación del problema, selección de un proceso de agrupación, selección de una medida de distancia, decidir el número de grupos, interpretar y elaborar un perfil de los conglomerados y evaluar la validez del conglomerado.

86


Las técnicas de conglomerados por otro lado, requieren que en el estudio predominen las variables de escala de intervalo. Cabe hacer notar que la mayor parte de los métodos de agrupamiento están basados en procedimientos sencillos (reglas heurísticas y algoritmos) que no cuentan con el respaldo del razonamiento estadístico, haciendo con ello un fuerte contraste con otros métodos tales como el análisis de varianza, la regresión, el análisis discriminante y el análisis factorial, cuyo sustento estadístico es muy amplio y fuerte. Sin embargo el análisis de conglomerados, como otras técnicas multivariadas, se aplica sobre una matriz de m medidas en cada uno de n objetos. Esta matriz n x m se transforma en una matriz n x n de similaridades o distancias, donde n es el número de casos que se quieren agrupar. Sobre esa matriz se aplica, entonces, el algoritmo conveniente para determinar los conglomerados. Este algoritmo permitirá establecer las reglas por las que los casos se unirán a los conglomerados en base a las similitudes entre los objetos de la matriz. Existen varios métodos que permiten realizar un agrupamiento de casos y se pueden dividir en dos grandes vertientes: métodos jerárquicos y métodos no jerárquicos, siendo los jerárquicos los más usuales y los cuales se subdividen a su vez en métodos por aglomeración (hacen fusiones) y métodos de partición (hacen divisiones). De ellos, los métodos por aglomeración son los más frecuentes y cuentan con tres subtipos: método de enlace (sencillo, completo y promedio), método de varianza (método de Ward) y método de los centroides. A continuación se abordará un análisis de conglomerados tomando como base un estudio realizado en 1976 por los doctores Funk, Horowitz, Lipshits y Young entre distintas etnias de los Estados Unidos, donde con base en ciertos atributos psicológicos (actitudes) se pretendía establecer la conformación de grupos culturales similares, es decir conglomerados de subculturas étnicas que desde luego se asumiría tendrían conductas o comportamientos parecidos. La tabla de datos se muestra a continuación, donde cada entrada representa la importancia promediada sobre 49 sujetos, que cada una de las etnias asignó en las 7 escalas de actitudes o atributos psicológicos sometidos a estudio: ATRIBUTOS PSICOLÓGICOS (Actitudes) ETNIA

Activista Opulento Agresivo Emocional Laborioso Intelectua Patriótico l

87


Anglo

4.280

2.725

3.341

4.130

3.200

3.825

3.053

Negro americano

3.254

6.006

3.557

4.050

4.846

5.721

4.230

Chino

6.431

5.312

5.938

6.011

3.711

5.243

3.733

Alemán

6.037

4.030

4.894

5.192

3.493

4.508

3.023

Indio

5.484

7.081

5.649

5.721

5.044

5.622

4.280

Italiano

5.823

5.231

4.946

3.528

4.245

4.522

4.017

Japonés

6.167

4.821

5.922

5.827

3.139

5.254

3.599

Judío

5.404

3.100

4.665

4.259

2.867

4.844

2.955

Mexicano

5.170

6.785

5.194

4.356

5.518

5.755

4.873

Negro africano

3.496

6.439

4.038

3.925

4.797

5.262

4.476

Polaco

6.190

5.631

5.822

5.204

4.540

4.956

4.363

Puertorriqueño

5.398

6.988

4.846

4.344

5.239

5.626

4.905

En este estudio cada etnia es considerada como un caso y se desea explorar la posibilidad de que se agrupen o conglomeren en función de sus similitudes en actitudes o atributos psicológicos que a su vez son considerados como variables interdependientes. En resumen, se desea derivar una estructura de agrupamientos por tipos subculturales similares. 1. - Abra desde su disco el archivo FUNYETAL. SAV con el menú File - Open, mismo que contiene la variable de ETNIA con 12 casos y las 7 variables de actitudes o atributos psicológicos, mismas que contienen los promedios obtenidos sobre los 49 individuos incluidos en este estudio. Las características del análisis de conglomerados que se desea realizar incluye: a). Selección del proceso de agrupación: Jerárquico Aglomerativo (fusiones en lugar de divisiones) y por centroides. b). Selección de una medida de distancia: distancia euclidea c). Número de conglomerados: Se determinarán a posteriori dado que el número de casos y variables es pequeño. 88


d). Diagrama : Dendograma (diagrama de árbol) y Gráfica de Carámbanos. 2.- Solicite al SPSS el análisis de conglomerados con las características mencionadas, seleccionando el menú Analize - Classify - Hierarchical Cluster... colocando las variables de actitudes o atributos psicológicos (ACTIVIST, OPULENTO, AGRESIVO, EMOCIONA, LABORIOS, INTELECT y PATRIOTI) en el cuadro Variable(s), y la variable ETNIA en el cuadro Label cases by . SPSS puede hacer conglomerados de casos o variables, pero en este ejemplo se desea agrupar casos, por lo que se debe verificar que la opción Cluster esté activada para Cases. Después, solicite en el botón Statistics el calendario de aglomeración (Agglomeration Schedule ) y la matriz de distancias entre casos (Proximity matriz) , dando después un Continue. En el botón Plots pida las gráficas de dendograma y carámbanos para todos los conglomerados (Icicle....All clusters), dando después un Continue. En el botón Method seleccione el método de agrupamiento por centroides (Centroid clustering) y como medida de distancia para intervalos el cuadrado de la distancia euclidiana (Sguared Euclidean distance), dando después un Continue. Finalmente, seleccione el botón OK para obtener el análisis de conglomerados. De los resultados que arroja SPSS para este ejemplo de análisis de conglomerados, se pueden hacer las siguientes: 3.- Interpretaciones y Conclusiones. a) Matiz de Distancias entre Casos (Proximity Matrix): Esta matriz pernite hacer comparaciones pareadas de similitud entre pares de casos a la vez; el coeficiente tiende a ser alto cuando la similitud entre casos disminuye y tiende a ser bajo cuando la sinilitud aumenta. Por ejemplo, al interpretar la etnia de mexicanos, se observa que la máxima similitud de estos se da con la etnia de puertorriqueños (0.310) y la mínima similitud de los mexicanos se presenta con la etnia de anglos (33.171). b) Calendario de Aglomeración (Agglomeration Schedule): Este "calendario" proporciona información detallada de lo que sucede en cada etapa del proceso de formación de conglomerados. La primer columna del calendario (Stage) contiene el número de etapa del proceso; las dos siguientes columnas (Cluster 1 y Cluster 2) muestran los casos que se combinan tales que el cuadrado de la distancia euclidea entre ellos es la mínima entre todas las posibles. Por ejemplo, para la primera etapa se combinaron los casos 9 y 12 (Mexicanos y Puertorriqueilos) siendo el cuadrado de su distancia euclidea de 0.310 (Coefficient).

89


Las siguientes 3 columnas informan en qué etapa próxima vuelven a aparecer los casos y por ende con cuál caso se agrupa posteriormente. Por ejemplo, el caso de mexicanos (Etnia 9), después de haberse asociado con los puertorriqueños (Etnia 12) en primera instancia, vuelve a aparecer en la etapa 6 asociándose con el caso de indios (Etnia 5).

c) Gráfíca de Carámbanos (Icicle). Otra parte de los resultados se encuentra en la gráfica de carámbanos, donde se puede determinar con precisión cuáles casos se integrarían para un número dado de conglomerados, Las columnas corresponden a los objetos o casos que se agrupan, en el ejemplo son las etnias asignadas del 1 al 12, y los renglones corresponden al número de grupos o aglomerados posibles, en este ejemplo del 1 al 11. Esta figura se puede leer de abajo hacia arriba o viceversa. Si se lee de abajo hacia arriba, se parte del principio de que todos los casos se consideran como conglomerados individuales y habiendo 12 casos considerados, existirían 12 conglomerados iniciales. En el primer paso, se combinan los dos objetos mas cercanos y como resultado se obtienen 11 conglomerados. Los dos casos, etnias puertorriqueños y mexicanos, que se combinan en esta etapa no tienen ningún espacio en blanco que los separe. El renglón número 10 corresponde a la etapa siguiente, con 10 grupos o conglomerados. En esta etapa, las etnias japonés y chino se agrupan, etc. Si se lee de arriba hacia abajo, el usuario puede ir determinando cuales casos se agrupan para un número progresivo de conglomerados deseados, por ejemplo si se desea saber cuáles etnias se agruparían en el caso de considerar sólo 2 conglomerados, el gráfico de carámbanos muestra un sólo corte separando para un conglomerado a los judíos, alemanes y anglos, y todas las otras etnias para el segundo conglomerado. Si se deseara 3 conglomerados la gráfica muestra 2 cortes que arrojan 3 conglomerados: 1. judíos, alemanes y anglos; 2. negros africanos y negros americanos y 3. todas las demás etnias. d) Dendograma. Los resultados mas importantes se pueden deducir de la interpretación del dendograma, que no es mas que un diagrama de árbol, el cual se lee de izquierda a derecha. Las líneas verticales representan los grupos unidos y su posición en la escala indica las distancias en las que los grupos se unen. A menor distancia mayor similitud entre los casos.

90


Para el ejemplo, los tres primeros conglomerados que se conforman en función de sus similitudes en actitudes son MEXICANO-PUERTORRIQUEÑO, CHNO-JAPONÉS y NEGRO AMERICANO-NEGRO AFRICANO, en ese orden, A un nivel de similitud mas bajo se forma un nuevo conglomerado JUDÍO-ALEMÁN y se incorporan otros elementos a los 3 primeros conglomerados, el INDIO al grupo MEXICANO-PUERTORRIQUEÑO y el POLACO al conglomerado CHINO-JAPONÉS. Estos nuevos conglomerados muestran que la similitud entre sus miembros es parcial y no tan elevada como en los conglomerados iniciales. En definitiva, se deduce con claridad que conforme los conglomerados se hacen mas grandes la posibilidad de dar una interpretación adecuada a los mismos es cada vez mas limitada, Además, se debe mencionar que tanto ANGLO como ITALIANO se unen a un conglomerado en una ulterior etapa. Esto puede interpretarse como un signo evidente de la falta de similitud en sus patrones actitudinales con el resto de las etnias. Este mismo hecho se refleja en el conglomerado formado por NEGRO AMERICANO-NEGRO AFRICANO, en el que se puede observar que el patrón de puntuaciones de sus actitudes es tan disímbolo del resto de los grupos étnicos, que no forma conglomerados con ellos hasta el penúltimo paso. Finalmente, el grupo formado por los ALEMANES - JUDÍOS -ANGLOS se unen al resto de las etnias en el último paso, donde la estructura de funcionanúento de la técnica aglomerativa forzó la formación de un conglomerado único para todos los casos. En resumen, con los datos proporcionados por Funk et. al. (1976) y con el análisis de conglomerados, se puede concluir que en los Estados Unidos, existe una estructura cultural formada por 4 grupos étnicos similares en sus actitudes y por ende con similares patrones de conducta o comportamiento, que son: 1.- El grupo MIEXICANO-PUERTORRIQUEÑO-INDIO; 2.- El grupo CHINO-JAPONÉS-POLACO-ITALIANO; 3.- El grupo NEGRO (Americano-Africano) y 4.- El grupo ANGLO - JUDíO - ALEMÁN, formándose estos conglomerados en orden de mayor similitud, es decir el primer grupo de mexicanos-puertorriqueños-indios muestran mucha mayor similitud que el segundo o tercer grupo y es el último grupo anglo-judío-alemán el que muestra menor similitud interna. Análisis de Conglomerado para Variables El análisis de conglomerados se utiliza generalmente para explorar la estructura de agrupación de casos, núentras que el análisis factorial se emplea para agrupar variables, es decir de un número grande de variables interdependientes se trata de obtener subconjuntos de variables similares (factores) que simplifiquen y expliquen mejor el comportamiento de un fenómeno, donde normalmente dichos factores no son directamente observables. Dichos factores son usados posteriormente en análisis de regresión o análisis discriminante, enriqueciendo así el estudio del fenómeno en cuestión. 91


El análisis factorial es el nombre general que se da a una clase de procedimientos que se utilizan, como ya se dijo para resunúr un conjunto grande de variables interdependientes en un pequeño número de factores que explican mejor el fenómeno estudiado, y que requiere de un conocimiento estadístico mas profundo para su aplicación e interpretación, por lo que en este apartado se usará el análisis de conglomerado para variables como una alternativa inicial al análisis factorial. De hecho, el SPSS proporciona el análisis de conglomerados para casos y para variables. Con esto no se quiere generar la idea de que el análisis de conglomerados de variables pueda sustituir al análisis factorial, sino que puede ser empleado para obtener una idea primaria del agrupamiento de variables y por ende si valdría la pena realizar el análisis factorial. El análisis de conglomerado de variables señala los posibles subconjuntos de variables (factores) que explican un fenómeno pero de ninguna manera arrojaría los parámetros del modelo de factores que después se usan en regresión o análisis discriminante, lo cual corrobora que no sustituye al análisis factorial sino que lo apoya de manera inicial. El análisis de conglomerado de variables se puede aplicar para el mismo ejemplo de esta práctica, donde se estudian 7 variables interdependientes que corresponden a atributos psicológicos o actitudes de 12 etnias de los Estados Unidos. Aquí la pregunta principal es que si el número total de las variables explicativas puede ser reducido a un número menor de variables, en este caso llamados subconjuntos o factores, mediante la agrupación por similitud entre las actitudes o atributos psicológicos. Aunque el instrumento principal de interpretación será el dendograrna, solicite a SPSS el conglomerado para variables repitiendo todas las instrucciones del paso 2, excepto que ahora la opción Cluster deberá estar activada para Variables y la variable ETNIA no se usa para etiquetar los casos por lo que la opción Label cases by debe dejarse vacía. Al interpretar la salida de resultados, la conclusión básica es que al menos las variables LABORIOSO-PATRIOTICO, además de AGRESIVO-EMOCIONAL-ACTIVISTA, forman subconjuntos similares, es decir 2 factores que simplificarían el estudio actitudinal de las etnias estadounidenses, al reducir el sistema de 7 variables interdependientes originales a sólo 4 (Los dos factores ya mencionados y las variables INTELECTUAL y OPULENTO.

92


Práctica 16 ANÁLISIS DISCRIMINANTE SIMPLE En cierta investigación se desea determinar las características sobresalientes de las familias norteamericanas que han visitado el centro vacacional de Cancún en Quintan Roo, México, durante los dos últimos años. Los datos se obtuvieron de una muestra de prueba piloto de 42 familias, la cual se ha dividido en 30 familias para integrar la muestra de análisis y las 12 restantes para conformar la muestra de validación. Las familias entrevistadas están divididas en dos categorías básicas, las que visitaron Cancún en los dos últimos años y las que no lo hicieron (VISITA, I = Familia visitante y 2 = Familia No visitante). También se obtuvieron datos sobre el ingreso familiar anual (INGRESO), la actitud hacia los viajes (ACTITUD, medida con base en una escala de nueve puntos), la significancia que se da a las vacaciones familiares (SIGNIFIC, medida con base en una escala de nueve puntos) el número de miembros en la familia (MIEMBROS), la edad del jefe de la familia (EDADJEFE) y los gastos que se realizan en las vacaciones familiares clasificados en tres categorías (GASTOS, I =Bajos, 2=Medios y 3=Altos). El análisis discriminante es un método multivariante que estudia dependencia entre variables cuando se tiene una sola variable dependiente de tipo nominal o categórica y las variables independientes o de predicción tienen naturaleza de intervalo o de razón. Los objetivos del análisis discriminante son: 1. Desarrollar las funciones discriminantes o combinaciones lineales de las variables independientes que discriminan mejor entre las categorías o grupos de la variable dependiente o de criterio; 2. Estudio para identificar diferencias significativas entre los grupos, en términos de las variables de predicción; 3.Determinación de las variables de predicción que contribuyen en mayor medida a las diferencias entre los grupos; 4.- Clasificación de los casos para uno de los grupos con base en los valores de las variables de predicción; 5. Evaluación de la exactitud de la clasificación. Es decir el análisis discriminante busca distinguir y clasificar las observaciones de una investigación, explicar el por qué de esas diferencias, comprobar la división de los grupos, conocer cuáles variables determinan las diferencias y pronosticar a cuál grupo pertenecería una persona de acuerdo a sus características. Existen dos tipos básicos de análisis discriminante, en el "análisis discriminante simple o de dos grupos" sólo participan dos categorías y se desarrolla solo una función

93


discriminante y en el "análisis discriminante múltiple" pueden participar tres o más categorías y se deriva más de una función discriminante. El modelo o función discriminante, propuesto por Fisher, comprende combinaciones lineales de las variables independientes: D = βo + β1 (X1) + β2 (X2) + ...+ βk (Xk) donde D es la clasificación discriminante, β coeficiente dicriminante y X variable. La principal prueba de hipótesis ( λ de Wilk, Mahalanobis, D 2, etc.) es para dicho modelo e intenta averiguar, desde el punto de vista estadístico, si la diferencia en los centroides o la distancia que presentan los promedios de las variables involucradas en el modelo son significativas. Si lo son quiere decir que el modelo es bueno para discriminar. La hipótesis nula afirma que el modelo no es bueno versus la hipótesis alternativa de que sí lo es. La bondad del modelo discriminante se mide en función del porcentaje de casos correctamente predichos, por lo que es necesario, después de análizar y deducir el modelo pasar a una etapa de validación del modelo para lo cual se debe de disponer de una muestra adicional que permita corroborar la bondad del modelo para realizar predicciones. La muestra de validación no debe ser igual a la de análisis pero si debe guardar la misma proporción de observaciones para cada uno de los grupos estudiados. El análisis discriminante parte de los supuestos básicos de la normalidad de los datos y la homogeneidad de varianzas entre los grupos bajo análisis, de manera que el primer paso del análisis discriminante es comprobar estos supuestos y enseguida ejecutar las siguientes etapas: 1. Formular el problema (objetivos, variables dependiente e independientes); 2.- Estimar los coeficientes de la función discriminante; 3.- Determinar la significancia de la función discrminante; 4.- Interpretar los resultados y 5.- Evaluar la validez del análisis discriminante. En este caso se desea realizar un análisis discriminante simple o de dos grupos, en el que la formulación del problema se plantea como objetivo principal el determinar las características sobresalientes de los dos grupos de familias clasificadas como visitantes o no visitantes a Cancún, por lo que la variable dependiente categórica es VISITA y el resto son variables independientes o predictoras, excepto la variable GASTOS que clasifica a las familias en tres grupos (gastos bajos, medios y altos) y con la cual se podría realizar posteriormente un análisis discriminante múltilple.

94


1.- Abra desde su disco el archivo CANCUN30.SAV con el menú File – Open... mismo que contiene las variables mencionadas al inicio de esta práctica y los casos o registros correspondientes a las primeras 30 familias de la prueba piloto. 2.- Solicite al SPSS un análisis discriminante, seleccionando el menú Analize - Classify -Discriminant... colocando la variable VISITA en el cuadro Grouping Variable definiendo su rango con el botón Define Range al dar un 1 (Familias visitantes) para Minimum y un 2 (Familias No visitantes) para Maximum; para después colocar las variables ACTITUD, EDADJEFE, INGRESO, MIEMBROS Y SIGNIFIC en el cuadro Independent. SPSS proporciona dos métodos para realizar el análisis, el método Enter que incluye en el modelo a todas las variables indicadas por el usuario y el método Stepwise que adiciona y/o elimina automáticamente las variables dentro del modelo de acuerdo a un criterio de significancia, en este ejemplo se escogerá el método Enter para dejar todas las variables dentro del modelo. Después, solicite en el botón Statistics las medias, los coeficientes de la función discriminante en las opciones Fisher y no estandarizados, además de la matriz de correlaciones dentro de grupos, dando después un Continue. En el botón Clasify pida la gráfica para los grupos separados (Plots: Separate groups) y que despliegue los resultados para cada caso, así como la tabla de resumen (Display: Casewise results y Sumary table) dando después un Continue, Finalmente, seleccione el botón OK para obtener el análisis discriminante.

3. De los resultados que arroja SPSS para este ejemplo, se destacan los siguientes: a). Medias y Desviaciones Estándar de los Grupos. Medias de los grupos VISITA

ACTITUD

EDADJEFE

INGRESO

MIEMBROS SIGNIFIC

1 (Fam-Visitantes)

5.40000

53.73333

605.20000

4.33333

5.80000

2 (Familias No Visitantes) 4.33333

50.13333

419.13333

2.80000

4.06667

TOTAL

51.93333

512.16667

3.56667

4.93333

4.86667

Desviaciones Estándar de los Grupos

95


ACTITUD

EDADJEFE

INGRESO

MIEMBROS SIGNIFIC

1.91982

8.77062

98.30652

1.23443

1.82052

2 (Familias No Visitantes) 1.95180

8.27101

75.51146

0.94112

2.05171

TOTAL

8.57395

127.95233

1.33089

2.09981

VISITA 1 (FaM-Visitantes)

1.97804

b). Matriz de Correlaciones Agrupadas dentro de Grupos. ACTITUD

EDADJEFE

INGRESO

MIIEMBROS

ACTITUD

1.0000

EDADJEFE

-0.19709

1.0000

INGRESO

0.19745

-0.01431

1.0000

MIEMBROS

-0.01681

-0.04301

0.08887

1.0000

SIGNIFIC

0.08434

0.01742

0.09148

0.07046

SIGNIFIC

1.0000

c). Funciones Discriminantes Canónicas. Valor

Porcentaje Porcentaj Correlació Función e n

Función específ d/varianza acumulad canónica posterio ico o ri :0 1*

1.7862

100%

100%

λ de Wilk

x2

GD Signific

0.35890 26.13 5 8 0

0.0001

0.8007

* Marca la función discriminante que queda en el análisis d). Coericientes Estandarizados y No Estandarizados de la Función Discriminante Canónica No 1.

96


Variable Coeficientes Estandarizados

Coeficientes No Estandarizados

ACTITUD

0.09611

EDADJEFE

0.20922

INGRESOS

0.74301

MIEMBROS

0.46911

SIGNIFIC

0.23329

Constante

0.0496446 0.0245438 0.0084767 0.4273893 0.1202813 -7.9754761

e). Matriz de Estructura. Correlaciones agrupadas dentro de los grupos entre las variables discriminantes y las funciones discriminantes canónicas (variables ordenadas por tamaño de las correlaciones dentro de la función) Variable

Función 1

INGRESOS

0.82202

MIEMBROS

0.54096

SIGNIFIC

0.34607

ACTITUD

0.21337

EDADJEFE

0.16354

f). Resultados para cada uno de los casos e Histogramas Separados de los Grupos. SPSS proporciona una lista completa para cada uno de los casos con su clasificación actual, probabilidades de pertecer a uno u otro grupo según la función discriminante empleada y los puntajes de discriminación alcanzados. Los casos en los que la función discriminante arroja una clasificación distinta a la real o actual, quedan marcados por SPSS con un doble asterisco. También se proporcionan histograrnas separados de los 2 grupos (Mapa 97


territorial en caso de tres o mas grupos) donde se aprecia la distancia a los centroides calculados por el programa. g). Funciones Discriminantes Canónicas evaluadas en las medias de los grupos (Centroides de los Grupos) GRUPO

Función 1

1 Familias Visitantes

1.29118

2 Familias No Visitantes -1.29118

h). Resultados de la clasificación de los casos seleccionados para utilizarse en el análisis. Muestra de Análisis Membresía proyectada en los grupos familiares Grupo Real Número de Casos

1

2

Familias Visitantes

1

15

12 (80%)

3(20%)

Familias No Visitantes

2

15

0(0.0%.)

15(100%)

Porcentaje de casos "agrupados" y clasificados correctamente: 90.00% i). Resultados de la clasificación de los casos No seleccionados para utilizarse en el análisis Muestra de Validación Membresía proyectada en los grupos familiares Grupo Real

Número Casos

1

2

Familias Visitantes

1

6

4(66.7%)

2(33.3%)

Familias No Visitantes

2

6

0(0.0%)

6(100%)

Porcentaje de casos "agrupados" y clasificados correctamente: 83.33% 98


4.- Interpretaciones y Conclusiones. Ambos grupos están más separados en términos del ingreso que de otras variables y al parecer hay más separación por el significado que se les da a las vacaciones familiares más que por la actitud hacia los viajes. La diferencia entre los dos grupos respecto a la edad del jefe de familia es pequeña y con alta variabilidad. Cuando se consideran los indicadores de manera individual, sólo el ingreso, el significado de las vacaciones y el número de miembros en la familia se diferencian significativamente entre aquellas familias que visitaron el centro vacacional y aquellas que no lo hicieron. Según la prueba de hipótesis (λ de Wilk) el modelo propuesto es bueno para discriminar con un 99% de confianza; explica el 64% de la varianza en la variable dependiente (VlSlTA) y pronostica el 83.33% de los casos, según la prueba de validación. Los signos de los coeficientes asociados con todos los indicadores son positivos, lo que sugiere que es más probable que el ingreso familiar más alto, el tamaño de la familia, el significado que se les da a las vacaciones familiares, la actitud hacia los viajes y la edad den como resultado que la familia visite el centro vacacional. Sería razonable desarrollar un perfil de ambos grupos en términos de tres indicadores que parecen los más significativos: ingreso, tamaño de la familia y significado de las vacaciones familiares. Estas son algunas de las conclusiones, ya que de hecho la interpretación de la salida de resultados del análisis discriminante es extensa, compleja y en algunos casos debe reforzarse con otro tipo de pruebas.

99


100


Conceptos 1. Un fabricante de medicamentos desea conocer la proporción de personas cuya hipertensión puede ser controlada por un nuevo producto fabricado por la compañía. Al realizar un estudio en 5000 individuos hipertensos se encontró que 80% de ellos pudo controlar su hipertensión utilizando el nuevo medicamento. Suponiendo que esas 5000 personas es un grupo representativo de los pacientes de hipertensión, conteste las siguientes preguntas: a) Cuál es la población? b) Cuál es la muestra? c) Identifique el parámetro poblacional de interés d) Identifique el estadístico de interés (parámetro muestral) y cuál es su valor. e) Se conoce el valor del parámetro poblacional? 2. Un técnico de control de calidad selecciona piezas de una línea de ensamblaje y anota para cada una de ellas la siguiente información. Clasifique las respuestas para cada pieza como dato cualitativo (nominal, categórico u ordinal) o cuantitativo (discreto o continuo). a) El número de lote al que pertenece la pieza b) Si está o no defectuoso el empaque principal de la pieza c) El número que identifica a la persona que armó la pieza d) La longitud de la pieza (milímetros) e) Estado aparente del recubrimiento epóxico de la pieza (Excelente, Bueno, Regular o Malo)

3. Se quiere describir al estudiante típico de cierta Universidad. Consigne al menos 2 variables por cada caso, que midan algunas características de un estudiante y resulten en: 101


a) Datos cualitativos nominales b) Datos cualitativos categóricos c) Datos cualitativos ordinales d) Datos cuantitativos discretos e) Datos cuantitativos continuos 4. Una pequeña encuesta consta de tres preguntas. Clasifique las respuestas a estas preguntas como datos cualitativos (nominal, categórico u ordinal) o cuantitativos (discreto o continuo). a) Cuál es su religión: cristiana, judía, musulmana, u otra? b) A cuántos ritos religiosos asiste Usted mensualmente? c) Cuánto dinero donó a organizaciones religiosas el mes pasado? 5. Un investigador que está estudiando hábitos de consumo le pregunta a cada vigésima persona que entra a un supermercado acerca del número de veces que va de compras semanalmente. El investigador anota la respuesta como C (Compras). Es C=3 un ejemplo de ___________________________________ (1) una muestra, (2) una variable, (3) un parámetro muestral, (4) un parámetro poblacional, o (5) un dato 6. Una investigadora que está estudiando las actitudes de padres de niños de preprimaria entrevista a 50 madres en una muestra aleatoria, cada una de las cuales tiene un hijo en ese nivel educativo. La investigadora pregunta a cada madre: Cuántas veces expresó afecto a su hijo el día de ayer? y registra la respuesta como A (Afectos). Es A: un ejemplo de (1) una muestra, (2) una variable, (3) un parámetro muestral, (4) un parámetro poblacional, o (5) un dato

102


7. Determine en cada uno de los siguientes casos si se trata de una variable 1) cualitativa nominal, 2) cualitativa categórica, 3) cualitativa ordinal, 4) cuantitativa discreta, o 5) cuantitativa continua. Número telefónico por hogar Número de aparatos telefónicos por hogar Tipo de teléfono: residencial o comercial Número de llamadas locales realizadas por mes Duración en minutos de las llamadas de larga distancia Colores de los aparatos telefónicos por hogar Costo total mensual (pesos y centavos) del recibo telefónico por hogar Nombre de la persona titular en el contrato telefónico Fecha límite de pago de¡ último recibo telefónico Costo más alto (pesos) de una llamada telefónica de larga distancia Opinión sobre el servicio: Excelente, Bueno, Regular, Malo o Pésimo 8. Identifique en cada uno de los siguientes casos el tipo de variable: 1) cualitativa nominal, 2) cualitativa categórica, 3) cualitativa ordinal, 4) cuantitativa discreta, o 5) cuantitativa continua. La resistencia a la ruptura de un cierto tipo de concreto (kg/cm2 El color del cabello de las señoritas que participan en el concurso de "Nuestra Belleza Chihuahua". El número de seííalanúentos de tránsito en poblados con menos de 5,000 habitantes. Si una llave de lavabo está defectuosa o no, El número de preguntas contestadas correctamente en un examen. El tiempo que se necesita para contestar una llamada telefónica en una oficina de bienes raíces. El candidato preferido, dentro de un grupo de 5, en ciertas elecciones municipales. El tiempo necesario para que una herida cicatrice cuando se utiliza un nuevo medicamento. El número de llamadas telefónicas recibidas por día en el comnutador de cierta oficina. La dlstancia a la que puede llegar un balón de fútbol al ser pateado por jóvenes de 18 años. El número de páginas escritas por cada trabajo en la impresora láser del Centro de Cómputo. 103


La clase de árbol navideño empleado en los hogares chihuahuenses (artificial o natural). El grado de satisfacción percibido por los clientes en el servicio de la dulcería de Cinepohs El nivel de conformidad de los comerciantes con una nueva medida fiscal aplicada por la SHCP. 9. Clasifique cada una de las siguientes respuestas de acuerdo con el tipo de variable (1. Cualitativa nominal, 2. Cualitativa categórica, 3. Cualitativa ordinal, 4. Cuantitativa discreta, o 5. Cuantitativa continua) y con el tipo de escala de medición mas adecuado (a. Escala nominal b. Escala ordinal c. Escala de intervalo o d. Escala de razón). Los datos provienen del ingreso de un paciente a cierto consultorio médico. VAR ESC Nombre: Juan González Rascón Sexo: Masculino Edad: 19 años Domicilio: Hidalgo 345. Col. Insurgentes Ocupación: Estudiante Temperatura oral: 39º C Pulso: 70 pulsaciones por minuto Presión arterial: 120/90 mgr/mm Tipo de sangre: B positiva Alergias conocidas a medicamentos: Penicilina Diagnóstico preliminar: Infección en las vías respiratorias 10. Clasifique cada una de las siguientes respuestas de acuerdo con el tipo de variable 1. Cualitativa nominal, 2. Cualitativa categórica, 3. Cualitativa ordinal, 4. Cuantitativa discreta o 5. Cuantitativa continua) y con el tipo de escala de medición adecuado (a. Escala nominal b. Escala ordinal c. Escala de intervalo o d. Escala de razón). Los datos provienen de una solicitud de crédito hipotecario hecha a cierto banco. VAR ESC Número de solicitud: 345 Nombre del solicitante: Valentín Urías Fecha de la solicitud: 13 de Enero del 2000 Número de dependientes económicos: 4 Ingresos familiares mensuales comprobables $7,546.82 Otro tipo de crédito del que disfruta actualmente: Automotriz 104


Calificación a sus antecedentes crediticios (Excelente, Bueno, Regular, Malo o Pésimo): Excelente Monto del préstamo: $120,000.00 Número de pagos mensuales: 360 Número de solicitud: 345 Nombre del solicitante: Valentín Urías

105


/ManualTC