Análisis de la violencia de género con la estadística realizada por dña mª carmen torres alonso, per by rosa calderon

TRABAJO FINAL

ANÁLISIS DE LA VIOLENCIA DE GÉNERO CON LA ESTADÍSTICA

ÍNDICE 1. 2. 3. 4.

Resumen Desarrollo del trabajo Conclusión Referencias y bibliografía

1. RESUMEN En esta práctica final vamos a trabajar la estadística unidimensional y bidimensional, parámetros, diagramas y gráficos, usando datos reales relativos a la violencia de género en España, trabajando así el tema transversal de la coeducación y valores importantes para el desarrollo de nuestros alumnos. Utilizaremos los datos correspondientes a octubre del Ministerio de Interior sobre la implantación del sistema viogen para las víctimas de violencia de género que ha presentado denuncia, disponible en el siguiente enlace: http://www.interior.gob.es/documents/642012/6883291/datos+estadisiticos+octubre/284c348dfaa9-46fe-82a1-3a768467635f En las actividades de la práctica se plantea el estudio bidimensional del número de victimas y casos activos en España, así como el estudio unidimensional de cada variable, con sus correspondientes parámetros estadísticos de centralización, posición y dispersión, gráficos, diagramas, recta de regresión y coeficiente de determinación. Y el planteamiento de alguna predicción. Esta actividad se llevaría acabo en la asignatura de Matemáticas I de 1º de Bachillerato, en el tema de Estadística, aunque el análisis estadístico descriptivo unidimensional también se podría utilizar en Matemáticas Académicas o Aplicadas de 4º de ESO. Se puede coordinar esta actividad con la asignatura de Valores Éticos e incluso con el Plan de Acción Tutorial.

2. DESARROLLO DEL TRABAJO Planteamos la siguiente actividad: 1. Utilizaremos el archivo disponible en http://www.interior.gob.es/documents/642012/6883291/datos+estadisiticos+octubre/284c348d-faa946fe-82a1-3a768467635f con los datos correspondientes a octubre del Ministerio de Interior sobre la implantación del sistema viogen para las víctimas de violencia de género que ha presentado denuncia. Concretamente vamos a utilizar las columnas correspondientes a ‘víctimas’ y ‘casos activos’ (que son justamente los objetos de atención policial). Lo haremos con los datos correspondientes a las distintas provincias de Andalucía. Se pide: a) Recoger en un fichero de la hoja de cálculo Excel o Calc los datos correspondientes. b) Importar los datos a R, R-Commander. Análisis unidimensional de las variables: c) Obtener la tabla de frecuencias e histograma para cada variable. d) Obtener el diagrama de tallos y hojas, así como el diagrama de cajas y bigotes. e) Obtener los parámetros de centralización, posición y dispersión correspondientes a cada variable: media, moda, mediana, cuartiles, rango, varianza, desviación típica, coeficiente de variación. Coeficiente de simetría y coeficiente de curtosis. Análisis bidimensional:

f) Obtener el diagrama de dispersión. g) Calcular la recta de regresión de Y victimas sobre X casos activos, y el coeficiente de determinación para este ajuste. h) Calcular la parábola de regresión de Y sobre X, y el coeficiente de determinación para este ajuste. i) Estime el número de víctimas para un número de casos activos de 2000, con la recta y la parábola.

RESOLUCIÓN: a) Introducimos en la primera hoja de la hoja de calculo Excel o Calc los datos, para ello en la primera fila escribimos ‘casos_activos’ y ‘victimas’ y debajo los datos correspondientes a las ocho provincias de Andalucía. b) Para hacer el ejercicio con R y R-Commander primero importamos los datos desde el libro de Excel. En R-Commander con Datos/Importar datos/desde un archivo de Excel… Llamamos al conjunto de datos viogen_and. Realizamos el análisis unidimensional: c) Para obtener la tabla de frecuencias y el histograma elegimos en R-Commander Gráficas/Histograma… Se obtiene para la variable ‘casos_activos’:

3.0 2.5 2.0 1.5 0.0

0.5

1.0

frequency

500

1000

1500

2000

2500

3000

3500

casos_activos

Para obtener la frecuencia absoluta y poder realizar la tabla utilizamos las instrucciones: > datostabla=hist(viogen_and$casos_activos, scale="frequency", breaks="Sturges", col="darkgray") > datostabla $breaks [1] 500 1000 1500 2000 2500 3000 3500 $counts [1] 1 3 1 0 1 2 $density [1] 0.00025 0.00075 0.00025 0.00000 0.00025 0.00050 $mids [1] 750 1250 1750 2250 2750 3250 $xname [1] "viogen_and$casos_activos" $equidist [1] TRUE

attr(,"class") [1] "histogram" Por último, utilizando los resultados que devuelve hacemos la tabla de frecuencias: Intervalo

Marca de clase

Frecuencia absoluta

(500,1000]

750

(1000,1500]

1250

(1500,2000]

1750

(2000,2500]

2250

(2500,3000]

2750

(3000,3500]

3250

Para la variable ‘victimas’ se obtiene:

4 3 2 0

frequency

5000

10000

15000

20000

25000

víctimas

> datostabla=hist(viogen_and$víctimas, scale="frequency", breaks="Sturges", col="darkgray") > datostabla $breaks [1] 5000 10000 15000 20000 25000 $counts [1] 4 2 1 1 $density [1] 0.000100 0.000050 0.000025 0.000025 $mids [1] 7500 12500 17500 22500 $xname [1] "viogen_and$víctimas" $equidist [1] TRUE attr(,"class")

[1] "histogram" Por último, utilizando los resultados que devuelve hacemos la tabla de frecuencias: Intervalo

Marca de clase

Frecuencia absoluta

(5000,10000]

7500

(10000,15000]

12500

(15000,20000]

17500

(20000,25000]

22500

d) Para hacer los diagramas de tallos y hojas y diagramas de cajas y bigotes se añade en la hoja de calculo viogen_and otra hoja con los datos de frecuencias para casos_activos y victimas de forma conjunta, introduciendo cada marca de clase tantas veces como indica su frecuencia y se vuelven a importar. Llamamos al conjunto de datos viogen_marca_clase. Hacemos la tabla de doble entrada a partir de los datos: casos_activos\vict (5000,10000] (10000,15000] (15000,20000] (20000,25000] (500,1000]

(1000,1500]

(1500,2000]

1 1

3 1

(2000,2500]

(2500,3000]

(3000,3500] 4

1 1

El diagrama de hojas y tallos se hace con la secuencia Gráficas/Gráfica de tallos y hojas… Obteniendo > with(viogen_marca_clase, stem.leaf(casos_activos, na.rm=TRUE)) 1 | 2: represents 1200 leaf unit: 100 n: 8 1 0. | 7 4 1* | 222 (1) 1. | 7 2* | 3 2. | 7 2 3* | 22 > with(viogen_marca_clase, stem.leaf(victimas, na.rm=TRUE)) 1 | 2: represents 12000 leaf unit: 1000 n: 8 4 s | 7777 0. | 1* |

t | 22 f| 2 s|7 1. | 2* | 1 t|2

2000 15000 10000

victimas

20000

1000

1500

casos_activos

2500

3000

El diagrama de caja y bigotes se hace con Gráficas/Gráfica de caja… Obteniendo:

e) Vamos a obtener los parámetros de centralización, posición y dispersión correspondientes a cada variable: media, moda, mediana, cuartiles, rango, varianza, desviación típica, coeficiente de variación. Coeficiente de asimetría y coeficiente de curtosis. Cambiamos primero al conjunto de datos viogen_and. Para conseguir los parámetros tenemos que seguir la secuencia Estadísticos/Resúmenes/Resúmenes numéricos… eligiendo las dos variables y los parámetros correspondientes: > numSummary(viogen_and[,c("casos_activos", "víctimas"), drop=FALSE], statistics=c("mean", "sd", + "IQR", "quantiles", "cv", "skewness", "kurtosis"), quantiles=c(0,.25,.5,.75,1), type="2") mean sd IQR cv skewness kurtosis 0% 25% 50% 75% casos_activos 1910.75 908.4223 1407.25 0.4754271 0.5655303 -1.55968 911 1264.75 1566.5 2672.0 víctimas 11527.88 6061.1362 9280.75 0.5257809 0.6717348 -1.17492 5536 6170.75 10036.0 15451.5 100% n casos_activos 3213 8 víctimas 20786 8 > binnedCounts(viogen_and[,c("casos_activos", "víctimas"), drop=FALSE]) distribution of casos_activos (500, 1000] (1000, 1500] (1500, 2000] (2000, 2500] (2500, 3000] (3000, 3500] 1 3 1 0 1 2 distribution of víctimas (5000, 10000] (10000, 15000] (15000, 20000] (20000, 25000] 4 2 1 1

Así, para casos_activos tenemos media 1910,75 moda 1250 mediana 1566,5 primer cuartil 1264,75 y tercer cuartil 2672,0 rango 3213-911=2302 varianza 908,4223^2=825231,0751, desviación típica 908,4223 coeficiente de variación 0,4754271, coeficiente de simetría 0,5655303 y coeficiente de curtosis -1,55968. Análogamente se sacan los parámetros de victimas a partir de la salida en RCommander. Para victimas tenemos media 11527,88 moda 7500 mediana 10036,0 primer cuartil 6170,75 y tercer cuartil 15451,5 rango 20786-5536=15250 varianza 6061,1362^2=36737372,03, desviación típica 6061,1362 coeficiente de variación 0,5257809, coeficiente de simetría 0,6717348 y coeficiente de curtosis -1,17492.

En cuanto al análisis bidimensional, primero tendremos que pasar al conjunto de datos viogen_marca_clase. f) Vamos a obtener el diagrama de dispersión. En R-Commander seguimos el menú Gráficas/Diagrama de dispersión… elegimos la variable X casos_activos e Y víctimas, y elegimos en Opciones Línea de mínimos cuadrados y Cajas de dispersión marginales. Obtenemos:

20000 15000 10000

victimas

1000

1500

2000

2500

3000

casos_activos

g) Para calcular la recta de regresión de Y victimas sobre X casos_activos, y el coeficiente de determinación para este ajuste tenemos que utilizar Estadísticos/Ajuste de modelos/Regresión lineal… y obtenemos: > RegModel.1 <- lm(victimas~casos_activos, data=viogen_marca_clase) > summary(RegModel.1) Call: lm(formula = victimas ~ casos_activos, data = viogen_marca_clase) Residuals: Min 1Q Median 3Q Max -3475.3 -1625.6 -874.4 1973.1 4327.4

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2578.475 2606.818 0.989 0.36080 casos_activos 4.798 1.212 3.958 0.00747 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3200 on 6 degrees of freedom Multiple R-squared: 0.7231, Adjusted R-squared: 0.677 F-statistic: 15.67 on 1 and 6 DF, p-value: 0.007465 Por tanto la recta de regresión es Y=2578,475+4,798*X y el coeficiente de determinación R^2=0,7231.

h) Para calcular la parábola de regresión de Y sobre X, y el coeficiente de determinación para este ajuste utilizamos en R-Commander el menú Estadísticos/Ajuste de modelos/Modelo lineal… y especificando victimas ~ casos_activos +I(casos_activos²). Se obtiene: > LinearModel.2 <- lm(victimas ~ casos_activos + I(casos_activos^2), data=viogen_marca_clase) > summary(LinearModel.2) Call: lm(formula = victimas ~ casos_activos + I(casos_activos^2), data = viogen_marca_clase) Residuals: 1 2 3 4 5 6 7 8 -1664.0 -567.8 -567.8 4432.2 -1046.3 -1727.1 -1929.5 3070.5 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 13760.843849 7279.304793 1.890 0.117 casos_activos -8.491062 8.272879 -1.026 0.352 I(casos_activos^2) 0.003149 0.001944 1.620 0.166 Residual standard error: 2839 on 5 degrees of freedom Multiple R-squared: 0.8184, Adjusted R-squared: 0.7458 F-statistic: 11.27 on 2 and 5 DF, p-value: 0.01405 Por tanto la parábola tiene ecuación Y=13760,843849 – 8,491062*X + 0,003149*X² El coeficiente de determinación es 0,8184, mayor que el de regresión lineal, luego el ajuste es mejor. i) Para realizar este apartado, es decir, estimar el número de víctimas para un número de casos activos de 2000, con la recta y la parábola, ejecutamos las siguientes instrucciones en R-Commander:

> victimas_lineal<- function(x) 2578.475+4.798*x > victimas_lineal(2000) [1] 12174.48 > victimas_cuadratica<- function(x) 13760.843849-8.491062*x+0.003149*x^2 > victimas_cuadratica(2000) [1] 9374.72

3. CONCLUSIÓN Se puede concluir a la vista de los resultados que la media de víctimas es bastante alta 11527,889 víctimas en Andalucía, con una media de casos activos de 1910,75. La dispersión de los datos es similar en ambas variables:52,58% en las víctimas y 47,54% en los casos activos. Por otra parte, el coeficiente de simetría para victimas es 0,6717 y para los casos activos 0,5655; por lo que se puede indicar que las distribuciones tienen sesgo positivo, o que son sesgadas a la derecha. Este aspecto también se puede observar directamente en el diagrama de tallos y hojas y en el diagrama de cajas y bigotes. El coeficiente de curtosis es para victimas -1,17492 y para casos activos -1,55968; por lo que se puede indicar que las distribuciones del número de víctimas y de casos activos son platicúrticas. Esto es, la distribuciones son más aplastadas que la correspondiente distribución normal. En cuanto al análisis bidimensional, hemos obtenido tanto la recta de regresión como una párabola que se ajuste al modelo. Los coeficientes de determinación son para la recta 0,7231 y para la parábola 0,8184. Son cercanos a uno, luego son buenos ajustes, el de la parábola mejor que el de la recta pues es mayor. Por tanto, entre las dos predicciones que hemos hecho en el último apartado del número de víctimas para 2000 casos activos nos quedaríamos con el de la parábola, 9374,72. Por último, indicar que con esta práctica los alumnos no solo realizarán el estudio estadístico, estudiando diferentes conceptos, sino que además utilizarán el programa R y R-Commander, utilizando por tanto las TIC y si se les pide que hagan algunos cálculos a mano, se darán cuenta de la utilidad del uso del programa y su potencial.

4. REFERENCIAS Y BIBLIOGRAFÍA • •

Apuntes de la página web del curso. Datos del Ministerio de Interior sobre la implantación del sistema viogen para las víctimas de violencia de género que ha presentado denuncia, disponible en el siguiente enlace: http://www.interior.gob.es/documents/642012/6883291/datos+estadisiticos+octubre/284c348dfaa9-46fe-82a1-3a768467635f