Estadística Inferencial: Métodos Cuantitativos by Sandra Crucianelli

Métodos de Investigación Cuantitativos Por Sandra Crucianelli Las encuestas sociales y las más difundidas en el campo del periodismo, las encuestas electorales, son herramientas de documentación y/o investigación del reportero. Intentos de fraude y manipulación en la difusión de los datos pueden ser detectados por el reportero si éste comprende el mecanismo científico sobre el que reposa la realización de encuestas. En este plano, hay dos tipos básicos de investigaciones cuantitativas que podemos realizar: Estadística Descriptiva: Es el caso de la medición de todos los elementos de un universo. Por ejemplo, búsqueda de los mismos datos o variables de estudio para todos los legisladores. El cruce de información o la comparación con estudios previos puede conducir a una primicia. En periodismo, el reportero puede encarar una medición de este tipo cuando nuestro universo a estudiar es demasiado pequeño (ejemplo, individuos estudiados por profesiones, como médicos, abogados, etc.). A nivel estatal, el Censo Nacional es el caso más representativo de Estadística Descriptiva aplicada, independientemente del universo. La forma de analizar sus resultados es mediante identificación de variables, comparando con datos previos, calculando sobre éstos variaciones porcentuales y construyendo medidas de proporción que permitan poner en contexto los datos numéricos, para darles un significado noticiable. Estadística Inferencial: Es el caso de las encuestas. Inferir es deducir o elaborar un pronóstico sobre la base de datos previamente recolectados. Se utiliza cuando el universo en estudio es demasiado grande como para entrevistar a todos sus componentes. Por ejemplo los ciudadanos que integran el padrón electoral. Criterios de Calidad para la Publicación de Encuestas (sociales o electorales): Antes de decidir la publicación de una encuesta, el reportero o editor deberían contar con los datos de la ficha técnica.

Elementos de la Ficha Técnica:  Universo o Población: Se llama así al conjunto total de elementos que son objeto de estudio. Puede estar formado/a por personas, hogares, empresas u objetos.  Muestra: Es una parte de ese universo que lo representa. Se calcula mediante fórmulas. A menos que las poblaciones sean menores de 100.000, el tamaño de la muestra es independiente del Universo  Tamaño de la muestra: Magnitud de los elementos que van a ser encuestados, medidos o estudiados (factor determinante en el resultado)  Error de muestreo: Error cometido y estimado, admitido por el encuestador. Se expresa como un intervalo. Por ejemplo +/- 3 % (esto significa que va desde el valor negativo -3 % hasta el valor positivo +3 %)  Nivel o Intervalo de Confianza: Probabilidad de obtener una confianza concreta de que el resultado de la muestra represente al real. Se trabaja con 90, 95, 99% de IC  Z: (Zeta) Coeficiente que se corresponde a cada IC  Nombre de la encuestadora  Fecha de realización del trabajo de campo  Origen de la financiación.

ERROR MUESTRAL El error que informan las encuestadoras en las fichas técnicas es un error muestral. Es decir, ese error está referido sólo al cálculo del tamaño de la muestra. Es una condición de borde, que la consultora determina antes de calcular el tamaño muestral (sobre la base de su presupuesto, cuanto más dinero se disponga, más chico será el error y por consiguiente más grande será la muestra), ya que para aplicar la fórmula de tamaño de muestra y calcularla, necesito conocer el valor de ese error. Por supuesto, a ese error muestral, hay que agregarle otros, en especial los que tienen que ver con la representatividad de la muestra: que todos los sectores estén proporcionalmente representados (representatividad de la muestra), el diseño del cuestionario y el trabajo de campo, es decir, cómo se seleccionarán las zonas a encuestar, los hogares y dentro de ellos, el individuo que responderá la encuesta. Por lo tanto, como pueden intuir, ese error muestral puede aumentar mucho si se cometieron otros errores durante el trabajo de diseño de la encuesta y la recolección de datos. ¿Para qué nos sirve a los periodistas conocer el error muestral? = Para construir los intervalos posibles de votos que el candidato podrá obtener.

Vamos a suponer que se hizo una encuesta y que el candidato A sacó el 20 % de intención de voto. Si el error muestral admitido e informado por la encuestadora fue del +/- 3 %, entonces, para interpretar mejor esa encuesta hay que construir el intervalo de probables porcentajes que podría sacar ese candidato el día de la elección: restando 3 por un lado y sumando 3 por el otro, con lo que en realidad, lo que me están diciendo es que probablemente el candidato A obtenga un porcentaje de votos que podría ir del 17 al 23 % (Restando 20 % - 3 % y sumando 20% + 3 % ) Como podrán advertir, con valores muy reñidos entre candidatos (por ejemplo, si el candidato A obtiene 20 % y el que le sigue obtiene 19,2 %) es casi imposible predecir quién ganará la elección, porque cuando construyan los intervalos, restando y sumando 3 a cada valor, (si se usó ese error) cada intervalo correspondiente a cada candidato contendrá muchos valores que compartirán (caso conocido como “empate técnico”) Conclusión: No asuman en una crónica y mucho menos en un título que cierto candidato podrá ganar, si la diferencia entre los dos primeros candidatos es muy ajustada. Al menos con ese margen de error del 3 %. Para poder pronosticar un resultado en esos casos se tendría que trabajar con un error muy pequeño, del orden del +/- 1 %, lo cual implicaría usar una muestra excesivamente grande, de alrededor de 10.000 casos

VERIFICACION DEL ERROR Una correlación inversamente proporcional, entre el error muestral informado y el tamaño de la muestra, debe ser observada con detenimiento para detectar posibles manipulaciones numéricas. A mayor tamaño de muestra, menor error de muestreo. Ambos datos, están inversamente relacionados y puede verificarse su correspondencia mediante la aplicación de fórmulas. Por ejemplo, si una encuestadora sostiene que realizó una encuesta sobre 400 casos con el +/- 2 % de error, está faltando a la verdad porque ambos datos no mantienen correspondencia para el Índice de Confianza habitualmente más usado, que es del 95 %. En general, para encuestas electorales nacionales se consideran óptimas muestras de 1.200 casos, con un +/- 3% de error para un Índice de Confianza del 95 %. Para encuestas electorales locales o regionales, muestras de 625 casos resultan óptimas, con el +/- 4% de error muestral.

Philip Meyer dice en su libro “Periodismo de Precisión” que el buen periodista nunca debe olvidarse de este número: 384. Es el tamaño de una muestra, independiente del universo general en estudio, si se trabaja con un nivel de confianza del 95 % y un error del +/- 5 %. Para estudios sociales, en especial los periodísticos y cuando no conozcan la dimensión total del universo en estudio, 384 (ó 400 en general), será un buen tamaño de muestra. Pero tal muestra no aporta seguridad al caso de las encuestas electorales, donde lo que persigue es un pronóstico. Índices de Confianza menores del 95 % no son recomendables, ya que obligaría a trabajar con muestras pequeñas y en consecuencia, con intervalos de error más grandes. Por el contrario, Índices de Confianza mayores del 95 % no son empleados ya que para ello, habría que trabajar con muestras demasiado grandes. Las encuestas realizadas mediante el uso de sitios de Internet no tienen predicción alguna y sus resultados no son generalizables. Las encuestas telefónicas no son predictivas cuando el porcentaje de penetración de la telefonía fija no supera el 85.

NIVELES DE PREDICCION Dependen del momento en que se realice la encuesta. No se debe olvidar que una encuesta es una foto del momento en que se realiza. Cuanto más nos acercamos al día de la elección, más predicción se obtiene. La encuesta comienza a ser predictiva, en términos electorales, aproximadamente 30 días antes del día de la elección y el pronóstico se mantiene siempre y cuando el escenario político-social-económico no observe grandes cambios. ¿Cuál sería el número mínimo de entrevistados necesarios para hacer una buena encuesta electoral en una capital latinoamericana, independientemente de la cantidad de electores que allí vivan? En el caso de las encuestas electorales, hay ciertos criterios de calidad internacionales que sí dependen del universo en estudio, básicamente porque es posible, a través del padrón electoral, conocer la cantidad de electores. Si las poblaciones electorales son menores o iguales a 100.000, una buena muestra ronda en los 625 casos, en cuyo caso el error aumenta un poco, aproximadamente al +/- 4 %. No tendría sentido aplicar el +/- 3 % en una ciudad pequeña, porque tendría que usar una muestra demasiado grande (más de 1.000 casos) y a partir del entrevistado número 625, los resultados no diferirían en mucho (se produce el efecto meseta).

Para ciudades con más de 100.000 habitantes o países en general, en honor a la verdad estadística, se requieren muestras más grandes de 800 si se quiere trabajar con el +/- 3 % de error, ya que con 800 casos se tiene un +/- 3,5 % de error, no de 3. Si una encuestadora dice que relevó 800 casos y el error muestral fue del +/- 3 % mintió. Las capitales requieren muestras similares a las nacionales, aunque las consultoras digan lo contrario. De todos modos, si los resultados no son muy reñidos y el número de indecisos es bajo, se podría aceptar para una capital una muestra de 800, aunque siempre considerando que el error supera a la recomendación de calidad y es de 3,5. TAMAÑOS OPTIMOS DE MUESTRAS Para encuestas electorales nacionales, sí es necesario entrevistar más gente que 800 personas. En estos casos, se recomiendan muestras de alrededor de 1.200 casos, porque es el tamaño de muestra que se obtiene de considerar que el error con el que trabajará el encuestador es del +/- 3 % (el mínimo aceptable). Con una muestra de 800 casos no alcanza, porque no se llega al mínimo de error que se exige (+/- 3 %) para ser considerada de calidad. El tema de la proporcionalidad no tiene que ver con la determinación con el tamaño de la muestra, sino con el método que se usará para entrevistar. En las electorales, siempre se debe aplicar la proporcionalidad (porque es la que permite asegurar la representatividad de todos los sectores), aunque se trabaje en una ciudad pequeña, porque no todos los circuitos electorales o barrios están igualmente distribuidos. En cambio, para una encuesta de tipo social, sí se puede hacer un sorteo de los mismos, usando el 384 e independientemente del Universo. Si el trabajo se diseñó bien, los resultados no deberían diferir mucho en si se sortearan 600 y 800. (Ejemplo: una encuesta entre legisladores) En ese caso, como comprenderán el universo es pequeño comparado con el electoral. Por eso el 384 funciona. Los tamaños de muestras se obtienen a partir de fórmulas estadísticas que responden a determinados modelos matemáticos. La recomendación de calidad para la encuesta electoral es la encuesta domiciliaria, distribuyendo proporcionalmente densidad geográfica de los electores, sexo y edad.

Para encuestas de tipo social, muchas veces no resulta necesaria la proporcionalidad. También es un error pensar que con hacer encuestas en las capitales de los países es suficiente. Toda elección nacional merece una encuesta nacional. Las consultoras dicen que los resultados serían parecidos, pero con electorados tan volátiles como los latinoamericanos, plantear esa hipótesis y darla como válida es demasiado arriesgado. Puede que en un momento del pasado haya sido así. Pero no es una ley universal. En honor a la verdad, no se hacen por cuestiones de costos. ENCUESTAS TELEFONICAS Las encuestas telefónicas sólo son predictivas si la penetración de teléfonos fijos en la población estudiada es superior al 85 %, que es una recomendación de calidad internacional. En nuestros países latinoamericanos no sería posible una telefónica nacional. Los celulares no cuentan. En USA ya no se hacen domiciliarias, solo telefónicas y funcionan por dos razones: el 93 % de los norteamericanos tiene teléfono y por otro lado, ha quedado demostrado que casi el 100 % de quienes van a votar tienen teléfono, ya que allí el voto no es obligatorio.

Regla estadística Básica: REGLA DE LA ALEATORIEDAD “Todos y cada uno de los miembros de una población sobre la que se pretenden generalizar los resultados han de tener la misma probabilidad conocida de formar parte de la muestra” ¿Cómo cumplir con esta regla? Dar a cada miembro de la población en estudio la misma posibilidad de ser incluido, usando un método estadístico-matemático correcto El proceso en el que se agudiza este requerimiento es en la determinación del tamaño de la muestra y la selección de los individuos o elementos a incluir. Concepto de la Pirámide Poblacional  Indispensable para estudios generales (sondeos electorales)  Encuestas representativas deben basarse en este concepto  Sin pirámide poblacional no hay representatividad.  Sin pirámide poblacional se viola la regla de aleatoriedad.  Una muestra debe tener correspondencia con los % de sexo, edad y residencia geográfica conforme los datos del censo.

Tipos de muestreo 1) Método Aleatorio Simple:  Se usa si se dispone de una lista total de los elementos de la población y el azar determina a cuál se estudiará  Todos los individuos tienen la misma chance de formar parte de la muestra  Mismo concepto del sorteo de lotería  Ningún procedimiento debe violar la aleatoriedad de la medición  Ejemplo Aleatorio Simple: Si en una ciudad hay 900 médicos y quiero encuestarlos para consultarlos sobre sus hábitos de fumar. La muestra fue determinada en 277 - Numeraré a los 900 médicos y sortearé 277 Con reposición: Si uno no contesta, se da como parte de la encuesta (NS/NC). Si no se lo encuentra, se sortea otro.

2) Método Estratificado (Proporcional): Es el más usado, en especial en encuestas electorales.  Se divide a la población por grupos o clases llamados estratos. Los elementos de cada estrato son homogéneos. (Ejemplo: Barrios o circuitos electorales)  Se toma una submuestra de cada uno mediante el método aleatorio (electores)  Respeta pirámide proporcional  Ejemplo: estratificado proporcional: Ciudad con 3.000.000 habitantes Muestra: 400 - 6 circuitos electorales (35%, 25%,10%,10%,15%, 5%)- Se calcula la proporción de los circuitos sobre la base de 400 y la selección de los individuos dentro de cada circuito es al azar. 3) Método Por Agrupados:  Consiste en seleccionar al azar grupos llamados conglomerados o agrupados y luego tomar una submuestra de cada uno.  Los elementos de cada conglomerado no son uniformes.  Por ejemplo: Letras de la guía telefónica: Primeros diez de cada letra, con reposición.  No respeta pirámide

¿Cómo detectar encuestas manipuladas o mal realizadas? I. Haga una revisión crítica del tamaño de muestra, del IC y del error usado. II. Deténgase solo en los resultados numéricos y haga su propia interpretación. III. Verifique si el error se corresponde con el tamaño de muestra, apelando a tablas (Anexo Tablas) IV. Detecte posibles errores en el cruce de datos. V. Compare el método usado por la consultora con otras encuestas realizadas por el mismo equipo, para analizar si se empleo el mismo parámetro metodológico. VI. Si encuentra errores o fallas, llame a la consultora, tómela como fuente y pídale explicaciones. VII. Insista en saber el origen del financiamiento de la encuesta y el propósito que la motivo. VIII. No descarte el material que tiene entre manos. Una encuesta mal hecha o un intento de manipulación pueden constituir una noticia. Explote el tema periodísticamente. TEORIA DE LAS PROBABILIDADES La investigación cuantitativa se basa en la Teoría de las Probabilidades. Las probabilidades de que un individuo responda una encuesta o no lo haga, son datos que se deben conocer sobre la base de estudios previos, ya que los mismos son requeridos en las fórmulas de construcción de tamaños de muestra. Es la razón por la que se explica este punto. Pero hagamos un abordaje más práctico: ¿Cómo calcular fácilmente una probabilidad? Muchas veces en los medios de comunicación hablamos de probabilidades, sin tener una idea clara del fundamento científico sobre el que descansa el concepto. El tema forma parte de cursos de estadística universitarios y no siempre resulta sencillo explicar cómo puede servirnos esto a los periodistas. Trataremos de hacer una aproximación sencilla. Todo el mundo tiene una idea primitiva de lo que es la probabilidad. En la vida cotidiana, cuando decimos que habrá un 70 % de probabilidades de que llueva, en realidad estamos hablando de una probabilidad porcentual, ya que teóricamente, la escala para medir una probabilidad se mide de 0 a 1.

Así las cosas, podemos definir Probabilidad como: El conjunto de posibilidades de que un evento ocurra o no, en una escala es de 0 a 1. Si un evento tiene P de no ocurrir, p=0. Si ocurre con certeza, p=1. Lo contrario, la posibilidad de que un evento no ocurra se denota con la letra q. La suma de p+q debe dar 1. Según lo anterior, la condición más desfavorable en este campo es: p = q = 0,5 (incerteza) Voy a poner un ejemplo de aplicación práctica: Supongamos que un juez tiene en su archivo 12 carpetas de sentencias pendientes para resolver, 5 de las cuales están archivadas en carpetas de portada color marrón y 7 tienen tapas negras. Todas las carpetas están mezcladas. Si va a su armario y abre el cajón, saca una de ellas sin mirar ¿qué probabilidad tiene de sacar una de tapa marrón? P = 5 / 12 (se calcula dividiendo 5 entre 12) = 0,4 Por lo tanto, multiplicando por 100, el magistrado tiene un 40 % de probabilidad de sacar una de tapas color marrón. Obviamente, la probabilidad de que saque una negra es: P= 7 / 12 = 0,6 y en porcentaje el 60 %, aunque se podría haber llegado al mismo resultado restando (1 - 0,4), ya que como les expliqué, la suma de las probabilidades puras siempre da 1. Este es el concepto más simple de probabilidad (dividir una parte entre el total) y luego multiplicar por 100, .aunque hay otros aspectos más complejos, pero la idea es que puedan calcular probabilidades sencillas. Así pueden calcular probabilidades tales como: La cantidad promedio de automóviles del Estado que circulan en su ciudad diariamente y del mismo modo la cantidad de accidentes de tránsito que se producen diariamente. Con esos datos, que supongo una fuente les podrá proporcionar, podrían calcular la probabilidad porcentual de que un automóvil oficial protagonice un accidente de tránsito. Si tuvieran acceso al número de hogares totales de la ciudad en la que viven y al mismo tiempo, del número de hogares en los que diariamente se cometen delitos contra la propiedad (hurtos, robos), entonces podrían calcular la probabilidad porcentual de que cada hogar sea víctima de un delito contra la propiedad. Con el dato de la cantidad de electores a nivel nacional, podrían calcular para la muestra ideal de 1.200 casos, la probabilidad que tiene un elector a nivel país de formar parte de esa muestra (*).

(*) La inversa, ¿qué significado periodístico tendrá? Podemos debatir este punto en el foro de la semana.

ANEXO TABLAS Tablas Tamaños de muestra Finitas < de 100.000 (Para IC 95%) U

error 4%

error 5%

error 10%

500

-----

222

1000

385

286

2000

476

333

3000

517

353

4000

541

364

5000

556

370

10.000

588

385

15.000

600

390

20.000

606

392

100

25.000

610

394

100

50.000

617

397

100

100.000

621

398

100

Infinitas > 100.000 (electorales nacionales, para IC 95%) Error

Tamaño Muestra

1.111

625

400

278

204

156

123

10%

100