Issuu on Google+

PSICOMETRÍA


PSICOMETRÍA Carlos Camacho M. Vara de Rey E. Francisco Sánchez García M. Sánchez García


INDICE

0.- Introducción

.........................................................6

1.- La medición psicológica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.- Definición y objeto de estudio de la Psicometría. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.- Introducción a la Teoría de la Medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3.- El error de medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.1.- Tipos de errores de medida y sus consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.2.- La estimación del error aleatorio en la validación de teorías . . . . . . . . . . . . . . . . 13 1.3.- Conceptos de fiabilidad y validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.- La Teoría Clásica de los Tests y su extensión Congenérica . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.- Fundamentos de la Teoría Clásica de los Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.- Definición de Coeficiente de Fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.- Modelo de medida en Puntuaciones Directas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.- Modelos de medida en Puntuaciones Estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.- Fiabilidad........................................................... 3.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.- Procedimientos basados en dos aplicaciones del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1.- Test-retest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2.- Formas paralelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.- Procedimientos basados en una única aplicación del test . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.- Dos mitades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.1.- Fórmula de Rulon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1.1.- Fórmula de Flanagan y Guttman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4.- Coeficiente Alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4.1.- Alpha con elementos dicotómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.- Fiabilidad desde la perspectiva del análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 3.5.- Coeficientes de Consistencia interna basados en resultados de Análisis Factorial. . . . . . 3.5.1.- Coeficiente Theta “θ” de Carmines y Zeller (1979) . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2.- Coeficiente Omega “Ω” de Heise y Bahrnstedt (1970) . . . . . . . . . . . . . . . . . . . . . . 3.6.- Fiabilidad de un test compuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.- Factores que afectan al coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1.- Fiabilidad y variabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2.- Fiabilidad y longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7.3.- Fiabilidad y limitación del tiempo de aplicación del test . . . . . . . . . . . . . . . . . . . . . 3.7.4.- Fiabilidad y características del ítem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.- Valoración de los distintos coeficientes de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.- Validez. ..........................................................


4.1.- Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.- Validez referida al criterio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1.- Validez y fiabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2.- Validez y longitud. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3.- Validez y variabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3.- Validez de contenido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1.- Evaluación de la validez de contenido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.- Validez de constructo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1.- Evaluación de la validez de constructo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1.1.- Análisis factorial exploratorio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1.2.- Modelos estructurales como validez de constructo. . . . . . . . . . . . . . . . . . . . . . 4.4.1.3.- Matriz multirrasgo-multimétodo (MMRMM). . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1.4.- MMRMM analizadas con modelos estructurales. . . . . . . . . . . . . . . . . . . . . . . . 4.5.- Prácticas de validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1.- Validez referida al criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1.1.- Predicción del criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1.2.- Validez y Fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1.3.- Validez y longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1.4.- Validez y variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.- Validez de constructo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.1.- Análisis factorial exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.2.- Análisis factorial confirmatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.3.- Modelos de estructuras de covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.4.- Evidencias de validez convergente y discriminante . . . . . . . . . . . . . . . . . . . . . 4.5.2.4.1.- Matrices MRMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2.4.2.- Validez Conv. y Disc. a través de modelos de estructuras de covar . . . . . 4.5.3.- Otros ficheros para prácticas de depuración de ítems, fiabilidad y validez . . . . . . . 4.5.3.1.- Listado de ficheros de prácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.- Procedimiento general de construcción de una prueba o test . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.- Identificación del Objetivo para el que se utilizarán las puntuaciones . . . . . . . . . . . . . . . 5.3.- Definición del constructo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.- Descripción general de los componentes del constructo . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.- Diseño del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1.- Número de ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2.- Tipo de ítems y número de alternativas de respuesta . . . . . . . . . . . . . . . . . . . . . . . . 5.5.3.- Cómo cuantificar las alternativas de respuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.- Redacción de los ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.- Análisis de la calidad de los ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.1.- Juicio de expertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2.- Análisis estadístico de los ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2.1.- Índices descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2.2.- Índice de discriminación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2.3.- Índices mixtos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.2.4.- A modo de conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8.- Estandarización y Baremación del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.8.1.- Baremos referidos a la Norma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9.- Prácticas de depuración de ítems y fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . APÉNDICE .......................................................... Fórmula 1.5. El error de medida en el modelo de regresión y sus consecuencias . . . . . . . . . . .


Fórmula 4.13 Coeficiente Alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apartado 2.6. Redacción de los ítems: Consideraciones prácticas para la construcción de ítems. Taxonomías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A) Taxonomía de Bloom. Su instrumentación para definir objetivo . . . . . . . . . . . . . instruccionales o evaluables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B) Instrumentos de evaluación para las habilidades claves. . . . . . . . . . . . . . . . . . . . REFERENCIAS BIBLIOGRÁFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


0.- INTRODUCCIÓN Estos apuntes han sido previstos en el programa de la asignatura de Psicometría (curso 20062007) como una ayuda o guía para los alumnos que cursan los estudios de Psicología de la Universidad de Sevilla. Cuando se aborda el tema de la docencia en reuniones o congresos del área de metodología los autores se pronuncian como partidarios de una docencia muy práctica, conceptual e intuitiva; que haga uso de los avances matemáticos, estadísticos e informáticos, pero sin demostraciones ni justificaciones sobre los mismos. En este sentido: Al igual que antiguamente el conductor de un coche debía saber revisar y reponer los distintos niveles del vehículo, cambiarle la polea al ventilador, cambiar una rueda, etc. y hoy día los coches vienen preparados para que ninguna de estas cosas haya que hacerlas tan frecuente ni tan inexcusablemente; en la misma linea presentaremos una asignatura de Psicometría eminentemente práctica y en la que sólo se desarrollarán los fundamentos matemáticos en aquellos casos que los consideremos necesarios para la comprensión del tema. Así lo que antes costaba más trabajo al tenerlo que hacer con calculadora, papel y lápiz; actualmente, con los avances de la informática, el ordenador lo hace en el mínimo tiempo y “sin ningún esfuerzo”. Así pues con la ayuda de la informática quizás no sean tan engorrosas las aplicaciones psicométricas, ni haya que basar la docencia en fórmulas y cálculos que, por otra parte, el alumno nunca va a tener que realizar a mano. Para solucionar algunos problemas didácticos surgidos del seguimiento de una secuenciación basada en el proceso cronológico de construcción de un test este curso seguiremos una secuenciación más clásica y habitual en otras facultades de Psicología: Después de un tema “0" de tipo introductorio en el que se presenta el programa, el plan didáctico, la definición y los contenidos de la disciplina, pasamos a un tema “1" que planteo el problema de la medición en las ciencias humanas y sociales y en Psicología en particular, un tema 2 el que se presentan de forma sucinta los postulados fundamentales de la Teoría Clásica de los Tests ( en adelante TCT), un 3 en el que se desarrollan los dintos procedimientos tanto de recogida de datos como de cálculo para contrastar la cualidad fiabilidad de los tests, un tema 4 en el que se aborda la difícil contrastación de la validez de los tests, y, para terminar, la aplicación de todo lo anterior al proceso de construcción de un test como la mejor estrategia para que las puntuaciones globales con él obtenidas sean útiles para nuestros objetivos.


1.- LA MEDICIÓN PSICOLÓGICA 1.1.- Definición y Objeto de estudio de la Psicometría Como su propio término indica (definición etimológica) Psicometría es la disciplina que desarrolla todos los aspectos relacionados con la medida (metría) de la psique (psico). Como los atributos psicológicos no son abordables de forma directa para medirlos, podemos decir que la Psicometría tiene como objeto material la medida de la psique a través de los comportamientos psicológicos externos de sujetos o grupos sociales (ver fig. 1.1.). Por lo tanto, el objeto material de la medición psicológica y consecuentemente de la psicometría es tan amplio y variado como lo son la gran variedad de atributos de psicológicos y de comportamientos que de ellos se deriven. Pero la Psicometría no sólo se encarga de solucionar el problema de la medición de atributos psicológicos ya integrados en teorías desarrolladas en otros campos de la Figura 1.1.- Medida de la psique. psicología, sino que, a veces, informa a la psicología de determinadas estructuras perceptivas, aptitudinales o de personalidad 1(ver fig. 1.1).

Figura 1.1. Relación de la Psicometría con otros contenidos de la titulación de Psicología. (Adaptado de Meliá, 1990. p. 19)

De lo afirmado en el párrafo anterior no se desprende que la Psicometría esté desprovista de un objeto de estudio que le sea específico dentro de la Psicología. Al igual que ocurre con las disciplinas 1

Así, como se puede apreciar en la figura 1.1 existe comunicación en ambos sentidos entre aplicaciones psicométricas y usos psicométricos.


8 La Medición Psicológica

métricas de otras titulaciones (como Física, Química, Biología, Astronomía, Medicina, Sociología o Pedagogía) la Psico-metría queda delimitada y diferenciada del resto de disciplinas psicológicas por su objeto formal: la elaboración de teorías y la implantación de metodologías para la medición en Psicología (ver fig. 1.1). Así pues lo que delimite el objeto de estudio específico de la Psicometría no es el atributo que se mide en cada caso (objeto material) ni el resultado de la medida (uso psicométrico) sino la fundamentación teórica que justifica el uso de determinadas metodologías para medir en los distintos contextos psicológicos que se presenten, esto es el objeto formal de la psicometría. Dentro la especialidad de Psicología se pueden encontrar otras disciplinas relacionadas con la tarea de la medida, el diagnostico o la evaluación de personas en las muy distintas manifestaciones del comportamiento individual o colectivo ( p.e. Psicodiagnóstico, evaluación escolar, ... etc), pero el campo de la Psicometría queda delimitado por su matiz metodológico que la hace responsable de la fundamentación, elaboración y evaluación de las distintas pruebas y técnicas de medición psicológica. Así pues, resumiendo todo lo anterior, la Psicometría tiene como objeto propio el estudio de los distintos aspectos teóricos (Teoría Psicométrica) en los que se basan las Aplicaciones Psicométricas (Meliá, 1990), consistentes en la construcción de escalas de medida que después pueden ser utilizadas para medir a cualquier sujeto y/o estímulo de la población en la que se ha obtenido la muestra representativa para ensayar, depurar y calibrar el test (ver figura 1.1). En el mismo sentido Olea (1989) atribuye a la psicometría el objetivo de elaborar métodos para y teorías sobre la medición psicológica. En un intento de delimitar aún más el objeto de estudio de la Psicometría, Ponsoda (1984) afirma que la elaboración de modelos formales con la finalidad de investigar algún sector de la psicología entraría dentro del campo de la psicología matemática, mientras que si esos modelos formales se plantean como finalidad el escalamiento de algún tipo de comportamiento más que su comprensión, estamos dentro del campo de la Psicometría. Por el lado práctico de la disciplina psicométrica conviene distinguir la aplicación y el uso diagnóstico de un test (uso psicométrico) de la propia construcción, adaptación o contrastación de las bondades psicométricas (Teoría y Aplicaciones Psicométricas) de dicho test (ver fig. 1.1). Las aplicaciones psicométricas tratan del proceso de elaboración de un instrumento de medida siguiendo la teoría psicométrica del modelo de medida correspondiente. Los usos psicométricos tratan de la utilización con fines de diagnóstico de un instrumento de medida construido previamente. Los usos psicométricos no son Psicometría pero se nutren de los productos de las aplicaciones psicométricas (ver figura 1.1.) y proporcionan, a su vez, a la psicometría masas de datos que depuran sus instrumentos de medida; así como peticiones que requieren investigaciones de las que se obtengan productos (aplicaciones psicométricas) que se necesiten en un momento dado. En el mismo sentido, la Psicometría hace uso de herramientas matemáticas y estadísticas (ver fig. 1.1.) planteadas en otras asignaturas metodológicas; así como proporciona, para un posible uso metodológico general, modelos y técnicas que se descubrieron, en principio, para solucionar necesidades psicométricas. Cualquier libro que consultemos y que trate sobre la construcción de instrumentos de medida o sobre el diseño de situaciones de medida, tratará de concienciarnos de la gran dificulta de la medición psicológica, al tratar de abordar criterios o atributos internos al sujeto y, por lo tanto, no puestos de manifiesto de forma directa sino indirectamente, esto es, a través del comportamiento. Se suele poner la Física como ejemplo de áreas del saber que no tienen este problema, debido a que sus medidas las realizan sobre atributos considerados externos. Esto explica que en el campo de la solución de los problemas metodológicos de la medición psicológica las mayores aportaciones hayan sido hechas por psicólogos, especialmente en el campo de la Teoría Clásica de los Test. El modelo lineal aditivo propio de la Teoría Clásica de los Tests es un tipo de escalamiento muy adecuado a las necesidades y posibilidades del comportamiento psicológico en cuanto al nivel de escala de medida que con dicha teoría (TCT) se obtiene.


Introducción a la Teoría de la Medida 9

Resumiendo, después de esta contextualización de la asignatura se puede entender mejor la definición de la Psicometría como la disciplina que trata de los distintos modelos y técnicas de escalamiento. Entendiendo por escalamiento el proceso empírico por el que, a través de una muestra de sujetos1, elaboramos una escala o regla con la que podemos medir posteriormente a cualquier sujeto de la población.

1.2.- Introducción a la teoría de la medida Los distintos modelos de teoría de la medida (Campbell, 1928, 1938; Stevens, 1946, 1951; Scott y Suppes, 1958; y Suppes y Zinnes, 1963) imponen restricciones a la medición cuantitativa que la hacen inasequible en Psicología, aunque útil a la Física (Carmines y Zeler, 1994) . Habría que redefinir la tarea de medir para las ciencias psicosociales en aquellos casos en los que no se cumplen los requisitos exigidos por Stevens en su clasificación de las escalas de medida. En este sentido la medida hay que considerarla como el proceso de “ligar” los conceptos abstractos de las teorías o constructos con indicadores empíricos. O de otra forma, como la puesta en práctica de un plan sistemático, explícito, para “clasificar”, y, en la mayoría de los casos, “cuantificar” los datos particulares en términos de los conceptos más generales del esquema teórico2. En este sentido, la medición es un proceso que implica tanto consideraciones teóricas como empíricas. Desde el lado empírico tenemos las repuestas observables -las respuestas marcadas en un test o cuestionario, el comportamiento registrado en un estudio observacional, etc -. Del lado teórico, tenemos conceptos no observables directamente3 o constructos, que están representados operativamente por los comportamientos observables o indicadores medidos a través de tests, cuestionarios u observación directa. La tarea de medir es establecer los lazos entre ambos lados: el teórico y el empírico. Los psicólogos que observan la conducta humana aprecian ciertas regularidades a lo largo del tiempo, y en diferentes contextos, para muchos sujetos. Dado que frecuentemente no se conocen los procesos psicológicos que ocurren en el interior de cada sujeto (Prieto, 1997), se interpretan estas regularidades como constructos o especulaciones teóricas hipotéticas (Osterlind, 1989). Estos constructos suelen concretarse en algún tipo de aptitudes o actitudes, rasgo de personalidad o de rendimiento. Pero la operativización o definición semántica (Lord y Novick, 1968) de estos constructos psicológicos tiene algunos problemas (Osterlind, 1989) que queremos analizar: - No hay un procedimiento aceptado universalmente para medir un constructo. Así, por ejemplo para conocer la habilidad de los sujetos de dividir por varias cifras: unos pueden optar por elegir ítems con divisiones por distinta cantidad de dígitos, otros pueden preguntar por la secuencia de pasos que seguiría el sujeto, otros podrían pedir la detección de errores en divisiones desarrolladas, etc. - Con cualquiera de estos procedimientos el test estaría constituido por una muestra limitada de ítems. - La unidad de medida utilizada (nivel de medida) puede ser distinta en cada caso. - Además, como consecuencia de todo ello, las medidas están sujetas a un cierto margen de error. Por todo ello, suele ser aconsejable no conformarse con la definición operativa del constructo, dada su subjetividad, y ratificarla a posteriori con una definición estructural (Bollen, 1989) o 1

Frecuentemente también los ítems son una muestra representativa de un universo de posibles ítems que constituyen el dominio psicológico (atributo) a medir. 2 Dawes (1975) se refiere a este proceso de ligar el constructo con sus indicadores medición de índices. Nunnally y Bernstein (1995) ponen en boca de Bollen y Lennox este tipo de relación causal entre el constructo como causa interna y los indicadores como manifestaciones comportamentales externas. 3 A los que nos solemos referir con términos como constructo, componente, dimensión, factor, etc.


10 La Medición Psicológica

sintáctica (Lord y Novick, 1968) que relacione el constructo con otros constructos o variables observadas de su entorno psicológico. Esto aporta algunas garantías sobre la validez de los tests, pero no está exento de problemas que trataremos posteriormente en un tema específico sobre validez. En resumidas cuentas, queremos precisar que el objetivo que perseguimos a la hora de medir es el de elaborar indicadores empíricos de los constructos teóricos objeto de medida. Para ello es importante disponer de las pertinentes definiciones tanto sintácticas o estructurales como semánticas u operativas de dichos constructos, para así construir grupos de ítems -se entiende que agrupados por constructos- que sean relevantes y representativos1. 1.3.- El error de medida. 1.3.1.-Tipos de errores de medida y sus consecuencias Como no siempre se es lo suficientemente cuidadoso en la medición de las variables psicológicas. Esta fase de medición de variables psicológicas (constructos), previa a todo análisis estadístico descriptivo o inferencial, condiciona de manera importante los resultados de toda investigación. Si no se realiza adecuadamente el proceso de medición, quedarán desvirtuadas de manera significativa las conclusiones psicológicas obtenidas. En estas circunstancias, ¿qué valor tendrán nuestras decisiones? Estaríamos cometiendo errores de medida que harían más confusa loa teoría subyacente al comportamiento psicológico. El término error de medida comprende errores de muy diferente naturaleza. Aquí, distinguiremos, de acuerdo con Jenck y colaboradores (1979, págs.. 34-36), tres tipos de errores fundamentales: a) conceptuales, b) sistemáticos y c) aleatorios. Los errores conceptuales son consecuencia no tanto de medir mal una determinada variable cuanto de medir equivocadamente otra en su lugar. Se trata de un problema relativamente frecuente en psicología donde no suele estar muy claro qué es lo que estamos midiendo. Ocurre, por ejemplo, cuando utilizamos una prueba de razonamiento o de vocabulario como expresión de la inteligencia, o bien cuando tomamos los ingresos como indicador del nivel social. Son errores que quedarían enmarcados dentro del tema de la validez, que estudiaremos más adelante. Los errores sistemáticos son aquellos que siempre se producen en una misma dirección. Por ejemplo, una prueba puede medir siempre de más, o bien, todos los individuos de un grupo han realizado un cierto test con diez minutos menos del tiempo especificado en el manual, o bien, un encuestador induce sistemáticamente a una determinada respuesta. Todas estas situaciones darán lugar a respuestas sesgadas que repercutirán en los valores estimados como resultado del análisis. Es obvio que la estadística como tal poco tiene que hacer con este tipo de errores, donde sólo cabe ser cuidadoso en la planificación y desarrollo del proceso de medición. Tanto los errores conceptuales como los sistemáticos son errores sistemáticos, ya que se cometen sistemáticamente y en el mismo sentido con todos los sujetos2. El mejor ejemplo de error sistemático es el de el ejemplo de tiro “a” de la figura 1.6, en pag. 18, en el que todos los disparos dan sistemáticamente por encima de la diana. Pero no todos los errores sistemáticos son conceptuales sino que son más procedimentales (no seguir las consignas de estandarización del test) que conceptuales.

1

Dichos aspectos (relevancia y representatividad) de los ítems serán desarrollados en los temas de validez y de construcción de una prueba. 2 ¿Qué ocurre con aquellos tests cuya medida favorece sistemáticamente a unos grupos o estratos y perjudica a otros? No son errores aleatorios sino que son errores conceptuales y por lo tanto sistemáticos. Así ocurre con los tests que pretenden medir inteligencia general sin influencia cultural, pero cuyas medidas están sesgadas en detrimento de étnias como gitanos y negros (con menor nivel cultural).


Introducción a la Teoría de la Medida 11

Por último, los errores aleatorios son consecuencia de los múltiples factores desconcocidos que inciden en toda medición y que introducen en la misma una cierta variabilidad, como en las dianas “b” y “c” de la figura 1.5. A diferencia de los errores sistemáticos, los errores aleatorios no guardan relación alguna con el atributo objeto de la medida. Se supone que estos errores aleatorios unas veces actúan en un sentido y otras en otro, de forma tal que se compensan entre ellos (los positivos con los negativos) y a la larga su suma vale cero. Posiblemente un determinado sujeto tenga la misma inteligencia hoy que mañana, pero si le aplicásemos el mismo test en ambos días, presumiblemente obtenga puntuaciones diferentes. Variables tales como estado de ánimo, cansancio, grado de adivinación, errores de codificación ..etc, puedan afectar a los resultados de la prueba aplicada. Tales errores hacen referencia a la precisión de las medidas y entran dentro del terreno de la fiabilidad, que será objeto de estudio en estos temas. Los errores conceptuales y los errores sistemáticos son consecuencia fundamentalmente de un diseño defectuoso del proceso de medición. En el caso de los conceptuales, planteamientos teóricos más rigurosos en torno a la naturaleza del constructo es lo que se hace exigible, mientras que en los sistemáticos, se hace necesario una mayor estandarización de aquellas circunstancias que inciden en la medición, en el sentido de mantener su constancia en todo momento. Los errores aleatorios, aunque pueden reducirse con una mejora en el diseño de medida, nunca pueden ser eliminados por completo. Estos errores aleatorios son inherentes a las características de la medición psicológica. Nunca serán controlados en su totalidad, por lo que la estadística ha de hacerse cargo de ellos. Su naturaleza de "aleatorios" con sus supuestos de media cero e incorrelación los hace idóneos para ser tratados estadísticamente y conocer su cuantía, cuestión que es más difícil de cuantificar en los otros tipos de error.

1.3.2.- La estimación del error aleatorio en la validación de teorías. La existencia de error conceptual en la medición de un constructo implica la imposibilidad de validar teoría alguna en la que participe dicho constructo. Dicho de otra forma cuando un modelo (teoría) estructural de medida no resulta válido puede ser porque dicha teoría sea falsa o porque algunos de los constructor integrados en ella se miden con error conceptual, que es lo mismo que decir que miden otro constructor distinto y que por lo tanto no se comporta como el que pretendíamos medir ni es integrable en la misma teoría que aquél. Los errores sistemáticos en sentido estricto, esto es aquellos que implican sumar o restar una constante a todos los sujetos a los que se mide con un test, no tiene ningún efecto sobre el modelo o teoría estructural que se pretende contrastar. Sin embargo la estimación y posible atenuación de errores aleatorios como son los errores aleatorios de medida reflejados en la fiabilidad de los tests, siempre posibilita dejar como más evidente o clara la estructura o teoría relacional que se da entre los constructos. La no contemplación de los errores aleatorios en la medición psicológica tiene el mismo efecto sobre la manifestación de la teoría subyacente, que el que la niebla tiene para visualizar un coche (p.e.) o que el que el ruido de fondo tiene sobre la audición de una melodía musical. Así podemos comprobar a modo de ejemplo (ver fig. 1.3) cómo la estimación de la fiabilidad con la que se miden dos atributos psicológicos permite mostrar con mayor evidencia la parte estructural o de verdadera relación subyacente entre los constructos.


12 La Medición Psicológica

Figura 1.3.- Comparación de los gráficos a, b y c para comprobar cómo disminuye el parámetro de regresión en la medida en que no controlamos el error de medida.

Pero hay que ser precavidos porque al atenuar los efectos del azar (falta de fiabilidad) cualquier teoría asume parámetros relacionales más altos. Lo hay que ver es que se trate de una teoría substantiva y de que se ajuste a los datos empíricos.

1.4.- Conceptos de Fiabilidad y Validez. De los errores que hemos visto anteriormente hay dos tipos que no interesan especialmente: los conceptuales y los de medida (aleatorios). El error conceptual lo identificamos como la diferencia entre lo que tiene un sujeto de lo que medimos con el test y lo que tiene el sujeto de lo que pretendemos medir con el test (Vx-Vy), mientras que el error de medida lo identificamos como la diferencia entre la medida empírica y verdadera de dicho sujeto en el atributo que se mide con el test (X-Vx). Asociados a estos dos tipos de error nos encontramos con las dos cualidades principales de los tests a las que vamos a dedicar mayor espacio en esta asignatura: validez (Vx-Vy) y fiabilidad (XVx). Así pues, resumiendo, toda medida ha de ser útil para medir lo que nos proponemos en cada caso (validez) y no otra cosa por error conceptual, y además ha de medirlo con precisión y no con error de medida (fiabilidad). A partir de ahora nos vamos a centrar en el concepto de fiabilidad como precisión, concepto que se manifiesta en dos situaciones distintas: como cercanía entre lo que medimos y lo que tiene el sujeto de lo que medimos (fiabilidad absoluta) y como cercanía entre medidas repetidas de un mismo constructo a un mismo sujeto ( fiabilidad relativa). Así pues, tenemos el concepto de fiabilidad absoluta como precisión y de fiabilidad relativa como estabilidad de medidas. Pero en Psicometría esta cualidad de la fiabilidad, que puede asumir diferentes grados o niveles, ha de poder fijarse con un número o valor cuantitativo que nos de una idea más precisa del grado en el que una medida es


Introducción a la Teoría de la Medida 13

fiable (índice de fiabilidad). En este sentido, los indicadores o índices que ponen de manifiesto estos conceptos de fiabilidad absoluta y fiabilidad relativa los vamos a llamar índice de fiabilidad y coeficiente de fiabilidad. Según lo dicho, el índice de fiabilidad sería el número que pone de manifiesto la cantidad de fiabilidad absoluta, y coeficiente de fiabilidad sería el número que pone de manifiesto la cantidad de fiabilidad relativa. Pero conceptuar la fiabilidad directamente como error de medida (X-V) es problemático por dos motivos: su magnitud sería distinta cada vez que se mide con un mismo test, y, además su cálculo es imposible al desconocerse la puntuación verdadera. El primer problema se evitaría calculando el error cuadrático medio (o su raíz cuadrada) de los posibles ensayos de medida. Pero, aún suponiendo que el error típico de medida fuera calculable (no olvidemos el segundo problema), su valor no tendría un significado estandard sino que dependería de la unidad de medida en la que el test ofrece las puntuaciones directas. Este problema se soluciona dividiendo

S e2 S x2 . Con lo cual tenemos la proporción de error en las medidas como el mejor

indicador de la falta de fiabilidad de un test (ver ecuación 1.6). No se puede ni imaginar el paciente lector cuál fue nuestra sorpresa al llegar a la conclusión anterior, pues coincide con lo q ue vamos a estudiar en el tema tres como proporción de varianza no asociada o proporción de error en las medidas realizadas con el test, que es igual a “1" menos la proporción de acierto o de varianza asociada ya que ambas proporciones son complementarias y suman “1".

2

Se

2 Sx

'

j (Xi&Vi) N 2 Sx

2

'

j (Ei) N 2 Sx

(1.6)

2 2

'

Se

2 Sx

2

2

'ρex'1&ρvx

Pero no se desespere el lector si le decimos que ninguna de las expresiones de la igualdad anterior son calculables empíricamente ya que tratan con errores y puntuaciones verdaderas de cada sujeto, que son términos desconocidos para el psicómetra humano y por lo tanto sin poderes divinos. Para que no cunda el pánico, os informamos que la solución, que argumentaremos también en el tema tres,

ρ2

está en que vx es igual a ρ xx que es lo que vamos a llamar coeficiente de fiabilidad como indicador de la fiabilidad relativa. Y su raíz cuadrada, que no es otra cosa que volver a puntuaciones no cuadráticas lo que en su origen elevamos al cuadrado para obtener la varianza, es igual al índice de fiabilidad que es el concepto del que partimos en el párrafo anterior. Y dado 1.6 tenemos que

ρ xx = 1

ρex2 +

Resumimos los pasos seguidos en este apartado. El concepto de fiabilidad absoluta siempre irá unido al de error de medida, pero como el error de medida es fluctuante preferimos como indicador la varianza de los errores. Como esta varianza depende de la escala de medida en que estén los errores dividimos estos por la varianza del test o varianza de las puntuaciones empíricas y obtenemos un indicador estandard de la varianza de los errores en términos de proporción de varianza error (ver ecuación 1.6) Calculamos su complementario o proporción de varianza acierto. Para reconvertir dicho indicador a puntuaciones no cuadráticas (puntuaciones directas) calculamos su raíz cuadrada y obtenemos el número que vamos a utilizar como indicador de la fiabilidad absoluta o índice de fiabilidad. También se ha explicado que como dicho indicador no puede ser calculado empíricamente, se obtiene a partir de raíz cuadrada del coeficiente de fiabilidad.


14 La Medición Psicológica

Así pues, la fiabilidad, en cuanto precisión, es un concepto que no puede ser conocido empíricamente en términos absolutos (Fiabilidad Absoluta), si entendemos por precisión el grado de correspondencia entre la medida empírica y la magnitud real, que llamaremos verdadera, de aquello que estamos midiendo. Así, por ejemplo, sería preciso un examen que reflejara fielmente los verdaderos conocimientos del alumno sobre los contenidos del examen. Es obvio que la única información de la que disponemos en cualquier medida es la propia puntuación observada, mientras que desconocemos la verdadera magnitud de lo medido. Es por ello que se recurre a otro concepto de fiabilidad (Fiabilidad Relativa) que nos permite saber de forma indirecta si estamos midiendo con cierta precisión, ya que la fiabilidad relativa depende, como veremos después, de la fiabilidad absoluta. En este sentido, como no conocemos cuáles son los conocimientos de los sujetos (puntuación verdadera) si no es a través de su medida en un examen, para apreciar el grado de precisión del examen tendré que examinar dos veces al sujeto y deducir la precisión del examen de su estabilidad cuando se mide una misma cosa (p.e. los conocimientos de Periquito Pérez). Del mismo modo que detectamos la fiabilidad (precisión) del tirador haciendole disparar repetidas veces a una diana (ver figura 1.6). Hemos definido la Fiabilidad Absoluta como el acuerdo o correspondencia entre la puntuación que verdaderamente posee el sujeto en el atributo (V) y la puntuación observada como resultado de la medición (X) (ver en figura 1.4. su identificación como correlación (ρxv) o efecto (πxv)) Que es en los modelos Figura 1.4.- Diagrama path de la estructurales la dependencia entre el comportamiento Fiabilidad Absoluta y el factor o rasgo latente aptitudinal o de personalidad. La Fiabilidad Relativa (ver figura 1.5) hace referencia a la estabilidad o consistencia en las medidas. Aquí el término "fiabilidad" corresponde a su significado coloquial o más frecuente. Así, se suele decir que es fiable aquello que se mantiene constante en situaciones semejantes (como debería ocurrir con la nota del examen). Un test cualquiera (como p.e. un examen) es fiable si cada vez que se aplica a los mismos sujetos en las mismas circunstancias proporciona los mismos resultados. Y es a partir de la constancia como inferimos la precisión del instrumento, que es el concepto que realmente nos interesa; cuanto más constante estable- , más preciso. Como en la figura 1.6. cuanto más cercanos entre sí estén los disparos más fiable es el sujeto que dispara. Fiabilidad se identifica con estabilidad y ausencia de fiabilidad con variabilidad, porque suponemos que la Figura 1.5.-Diagrama path de la fiabilidad relativa puntuación verdadera estará dentro del rango de variabilidad observada, y deduciremos que estamos midiendo con mayor precisión cuanto menor sea la fluctuación entre las puntuaciones observadas en circunstancias iguales.


Introducción a la Teoría de la Medida 15

Figura 1.6. cuatro pruebas de tiro distintas tanto en variabilidad alrededor del centro como en centrado respecto de la diana. (Adaptado de Trochin, 1997, pag. 1)

Si nos preguntamos qué relación hay entre índice y coeficiente de fiabilidad, la respuesta queda insinuada en las páginas anteriores cuando hemos hablado de precisión versus estabilidad de las medidas, proporción de variabilidad verdadera en término de desviaciones típicas versus proporción de variabilidad verdadera en términos de varianza. Esto es ρ xv versus ρ xx . 2

ρxx('πxvπxv 'πxv πxv ' ρxx(

(1.7)

Efectivamente, como se puede comprobar aplicando la regla del trazado1 en la figura 1.5, como se puede apreciar, el coeficiente de fiabilidad es igual al producto del índice de fiabilidad de la medida de “X” por el índice de fiabilidad de la medida de “X´” , lo que es igual al cuadrado del índice si ambos índices son iguales (ver ecuación 1.7). Para una mejor comprensión de esta regla se puede poner la analogía de la teoría de la información aplicada a un ejemplo: Supongamos que un padre narra a sus dos hijos (X y X´) la novela recientemente filmada como película “Ala triste”, después de un tiempo se evalúa de alguna forma el porcentaje del mensaje emitido retenido por cada niño. El porcentaje de aspectos retenidos comunes para ambos niños es igual al producto del porcentaje de recuerdo -precisión- de “X” por el porcentaje de recuerdo precisión de “X*´”. Más adelante al presentar la teoría clásica de los test necesitaremos recurrir al supuesto de “medidas paralelas”, de igual fiabilidad de ambas medidas, para poder estimar el índice de fiabilidad a partir del coeficiente de fiabilidad (ver ecuación 1.7). En la visión congenérica de la Toría Clásica de los Tests (TCT) propia de los MEM no es necesario asumir esta restricción de paralelismo de las medidas (Batista y Coonders, 2000).

1

Que especifica, a este respecto, que un efecto complejo es igual al producto de los efectos simples que lo constituyen.


16 La Medición Psicológica

El concepto de validez es algo más complejo, aunque no lo parezca en esta primera aproximación que hemos ofrecido. Parece una obviedad sin más complicaciones afirmar como hemos hecho que "una medida es válida si es útil para medir aquello que pretende". Según esta definición, un metro es válido para medir longitudes y una balanza lo es para medir pesos. Y no parece necesario en este contexto replantearse la validez del metro o de la balanza, ya que las magnitudes físicas están ahí, al alcance de la mano. Esto es que el valor verdadero del objeto (tamaño o peso) se percibe directamente con los sentidos y puede resultar fácil apreciar la covariación entre las medidas obtenidas y el dicho valor verdadero. Pero en psicología las cosas cambian sustancialmente porque... ¿Dónde está aquello que pretendemos medir? ¿Realmente, tal test mide la inteligencia? ¿No medirá razonamiento o fluidez verbal? ¿Y cuando mido ansiedad, estoy seguro de que no estaré midiendo depresión? En psicología la cuestión es que las variables más que darse en la naturaleza (peso, longitud, densidad) son variables creadas por nosotros mismos (esto no quiere decir que sean arbitrarias o irreales como esperamos poder mostrar). Se trata de conceptos -constructos- constituyentes de una teoría. En estas circunstancias, supongo que el lector estará de acuerdo en que es más difícil saber, cuando medimos, qué es exactamente lo que estamos midiendo. En una primera aproximación, estamos considerando la validez (que llamamos teórica) como la correspondencia entre lo que tiene el sujeto de lo que medimos y la magnitud en la que posee el concepto o constructo que se pretende medir. Pero dado que el concepto o constructo que se pretende medir no se suele conocer empíricamente y sin error, está claro que las evidencias sobre validez de las medidas obedece más a consideraciones teóricas que empíricas. Así en el tema cinco, más que presentar un índice incuestionable de la validez de un test, presentaremos distintos tipos de evidencias de validez en función del uso que habitualmente se de a dicho test. Por lo que respecta a la fiabilidad de las medidas, no nos preguntamos qué estamos midiendo sino con cuanta precisión. Este grado de precisión es fácil de determinar (indirectamente) por la constancia de los resultados. Hay un aspecto cuantitativo, empírico, al cual aferrarse como criterio de fiabilidad. Por el contrario, en la validez, el "qué se mide" otorga a la cuestión una dimensión cualitativa, dependiendo la validez de nuestra especial consideración sobre lo que son las cosas, esto es dependiendo de nuestro criterio de validez. Así, si recurrimos al ejemplo de los disparos de un técnico a una diana (ver figura 1.6) con un rifle, nos encontramos con una situación análoga a lo que ocurre cuando un psicólogo evalúa un atributo a un sujeto en repetidas ocasiones a través de un test. El psicólogo es el técnico, el test es el rifle y el centro es el valor del sujeto en el atributo que se pretende medir. La cercanía entre los puntos de cada nube es equiparable a la estabilidad entre las medidas -coeficiente de fiabilidad-. La cercanía entre la nube de puntos de cada diana se deberá tanto a características del rifle (¿Qué pasaría si fuera de goma) como a fluctuaciones en el pulso del que dispara. Así la falta de estabilidad entre las medidas puede deberse tanto a imprecisiones en la materia prima que son los ítems como a fluctuaciones en las distintas circunstancias de aplicación entre las que la actuación del psicólogo es fundamental. Por otra parte, por lo que respecta a la validez, la cercanía entre el centro de la nube y el de la diana es equiparable a la relación o cercanía entre lo que en realidad mide el test y lo que se pretende medir con su uso. Posibles explicaciones de falta de validez del rifle serían el tener alto o bajo el punto de mira así como disponer de un cañón curvado, de igual forma veremos muchas explicaciones de faltas de validez pero todas ellas englobables como errores conceptuales al confundir nuestro objetivo de medida con lo que en realidad medimos. Así pues, los conceptos de fiabilidad y validez son diferentes e independientes por lo que respecta a la validez teórica como correspondencia entre el verdadero nivel del sujeto en lo que medimos y en lo que pretendemos medir. Pero, dado que esta validez teórica es difícil de contrastar, frecuentemente hacemos uso de la validez empírica de los tests con respecto a determinados criterios. Es en este sentido en el que se suele decir que una deficiente fiabilidad hace que también se muestre baja la validez empírica, aunque una baja validez empírica se puede producir por baja fiabilidad o


Introducción a la Teoría de la Medida 17

por baja validez teórica. Nos serviremos de algunos ejemplos típicos y tópicos para explicar el hecho de que la fiabilidad es condición necesaria aunque no suficiente para que se produzca validez empírica. Así, si representamos en un diagrama causal la medida empírica en el test como X; el constructo que en realidad mide el test o puntuación verdadera en el test como Vx; el constructo o criterio que se pretende medir con el test como Vy y la medida empírica del criterio por Y; entonces, según las siguientes figuras; podemos encontrarnos con distintas situaciones en las que, utilizando la regla del trazado del path análisis, la validez empírica ( ρ xy ) es igual al índice de fiabilidad del test ( ρ xv ) x

multiplicada por la validez teórica ( ρ v

xvy

) y multiplicada por la fiabilidad del criterio ( ρ yv ). y

Figura 1.7.- Validez empírica baja con baja validez teórica y alta fiabilidad

En las dos figuras 1.7 y 1.8 presentamos, a modo de ejemplo, dos casos con resultados parecidos por lo que respecta al valor de su coeficiente empírico de validez pero opuestos por lo que respecta a su configuración de fiabilidades y validez teórica. Así, en la figura 1.7, se representa el caso supuesto de que medimos la inteligencia de las personas en base a la longitud de cierta línea de la mano izquierda. Está claro que aunque midamos con gran rigor dicha línea de la mano ( ρ xv = 0.8 ) x

e, incluso, midamos con un test muy preciso la inteligencia ( ρ yv y = 0.98 ), de poco nos servirá (para despecho de los quirománticos) pues parece ser que la relación estricta de dicha linea de la mano con . ). Este es un ejemplo de baja validez la inteligencia de los sujetos es bastante baja ( ρ v x v y = 010 empírica como consecuencia de baja validez teórica -ver figura 1.7-. Algo parecido ocurre en la prueba de tiro “a” de la fig. 1.6. Su autor tiene gran pulso (precisión en el disparo) pero no es consciente de que en lugar de al centro sus disparos van por sistema a la parte superior de la diana. En resumidas cuentas en este ejemplo el problema es la baja validez del arma para dar al centro de la diana y de las lineas de la mano para el diagnóstico de la inteligencia. Igualmente, puede ser baja la validez empírica ( ρ xy = 0.0882 ) (ver figura 1.8) por existir una baja fiabilidad del test ( ρ xv

x

= 010 . )

-igualmente hubiera sido baja la validez empírica por baja

fiabilidad del criterio-, aunque sea alta la validez teórica ( ρ v x v y = 0.98 ). Así ocurre si medimos la inteligencia de un sujeto con un test muy malo, en el que un día se le indica que es un genio y al siguiente que es un deficiente mental (suponemos que no le ha pasado nada grave de un día para otro). De poco nos servirá este test para conocer la inteligencia de dicho individuo (supongamos que el valor criterial ha sido obtenido con una buena prueba) . Algo parecido a lo anterior suele ocurrir


18 La Medición Psicológica

Figura 1.8.- Validez empírica baja con alta validez teórica y baja fiabilidad con los tests proyectivos, por gozar de una (supuesta) gran validez teórica, pero de una gran imprecisión en la medida (baja fiabilidad). Así como ocurre en la prueba de disparo “b”, en la que el arma está bien centrada (es válida para dispara al centro de la diana) pero el sujeto que dispara es muy inestable o el cañón es de plástico. En este mismo sentido, los diagnósticos obtenidos con los tests proyectivos o las entrevistas personales parecen instrumentos muy adecuados para medir la complejidad del ser humano, pero la subjetividad de sus diagnósticos los hace poco fiables.

Figura 1.9. Validez empírica alta exige altas fiabilidades de tests y criterio, y altavalidez teórica o validez en sentido estricto.

Por último, véase en la figura 1.9 cómo una alta validez empírica, implica tanto fiabilidades como validez teórica, o validez en sentido estricto, buenas. Si un test de inteligencia, por ejemplo, predice de forma rigurosa el rendimiento en un examen ( ρ xy = 0.84 ), es porque hay precisión en las medidas de ambos constructos ( ρ xv

x

= 0.95 y ρ yv y = 0.9 ),

y estricta validez o utilidad del

constructo-inteligencia de ese test para predecir los conocimientos que mide el examen ( ρ v x v y = 0.98 ).


Introducción a la Teoría de la Medida 19

Para concluir, es evidente que una débil o fuerte ligazón entre X y Vx así como entre Y y Vy, no afecta de ninguna forma a la validez teórica o validez en sentido estricto ( ρ v v ), mientras que x y

fiabilidades relativamente bajas de test o criterio sí reducen ρ xy . Esto es, para que “X” e “Y” estén fuertemente relacionados, también lo estarán necesariamente los pasos intermedios (recordemos la regla del trazado). Habrá de ser alta tanto la dependencia de “X” con respecto a su constructo “Vx” -índice de fiabilidad del test- , como de “Y” con respecto al suyo (Vy) -índice de fiabilidad del criterio-, así como de un constructo con respecto a otro ( ρ v v ). x y

En resumidas cuentas, con la fiabilidad y la validez ocurre como cuando el ruido nos impide oír la melodía, así como cuando la niebla nos impide ver la figura de un coche que se acerca por la carretera; una baja fiabilidad nos puede oscurecer la validez teórica con una baja validez criterial empírica. Con este primer tema de introducción a la psicometría, y en especial con su apartado de introducción a la medición psicológica, hemos querido poner de manifiesto la importancia del proceso de medición en Psicología. Por eso, a continuación, vamos a dedicar un capítulo a los conceptos de fiabilidad (cap II) y otro (cap III) al de validez, así como a sus manifestaciones prácticas y operativizaciones. Por último terminaremos con la presentación, todo lo práctica que sea posible, del proceso adecuado de construcción de un test para que tenga las aludidas cualidades (fiabilidad y validez).


Introduccion a la teoria