curriculum by Tico2013 hernandez

Capítulo 10 del libro Educación, Aprendizaje y Cognición, teoría en la práctica, Sandra Castañeda (Ed). Manual Moderno

METODOLOGÍA PARA ELABORAR EXÁMENES CRITERIALES ALINEADOS CON EL CURRÍCULUM

Luis Ángel Contreras Niño y Eduardo Backhoff Escudero

El propósito de este trabajo es dar a conocer una metodología poderosa para elaborar exámenes criteriales que estén alineados con el currículo, misma que es una adaptación de la propuesta elaborada por Anthony Nitko en 1994, la cual se utilizó para diseñar y validar un examen de español para la educación primaria en Baja California, México. Se abordan los aspectos conceptuales básicos de la elaboración de pruebas, así como los procedimientos metodológicos específicos para desarrollar este tipo de exámenes, los cuales se organizan en cinco etapas: definición del dominio de resultados que pretende el currículo, análisis del currículo, desarrollo de un plan de evaluación, producción y validación de reactivos, así como el análisis de la ejecución de los examinados. En tres apartados, se presentan ejemplos de los principales productos y resultados esperados. T1 Aspectos conceptuales: tipos de exámenes y estándares de calidad Existen varios criterios para clasificar las pruebas que se emplean para evaluar el aprendizaje. Por su importancia en el contexto de la metodología para la evaluación a gran escala que se presenta en este trabajo, es posible identificar al menos tres sistemas de clasificación: el primero de ellos distingue a las pruebas por su escala de aplicación (a saber, las de pequeña escala y las de gran escala). El segundo las distingue por la referencia que tiene la ejecución ante ellas (así que están las pruebas referidas a una norma y las referidas a un criterio). Finalmente, están las que se distinguen por el tipo de respuesta que demandan del examinado (de respuesta, ya sea

construida o seleccionada). A continuación se comentan brevemente los tres tipos de clasificación.

T2 Exámenes de pequeña y gran escala Un criterio que se emplea para clasificar las pruebas se refiere al contexto en que se emplean, de modo que pueden ser de pequeña o gran escala. Esta distinción resulta relevante debido al poderoso impacto social que pueden tener los exámenes, particularmente los de gran escala. En el cuadro 10–1 se describen ambos tipos de instrumento. Como es evidente, la diferencia básica

entre ambos radica en los propósitos de la evaluación y en el contexto de su uso. ENTRA CUADRO 10-1 Cuadro 10–1. Exámenes de pequeña escala y de gran escala. Tipo de

Contexto

examen

de uso

Propósitos de

Consecuencias de

la evaluación

su aplicación

Ubicación,

Usualmente

Requisitos técnicos Mínimos,

Recursos para la implementación Mínimos o moderados en

Pequeña Salón de clases

monitoreo del

mínimas o

usualmente

cuanto a personal, costos

aprendizaje

moderadas

básicos

y tiempo

escala Más de un

Seleccionar,

Usualmente muy Altos, con

plantel,

rendir cuentas de

poderosas, en

usualmente en

la gestión,

particular para

un Estado,

certificar el logro

alumnos y

región o país

educativo

profesores

Gran escala

Altos, requieren de

procedimientos

especialistas, tiempo,

relativamente

dinero e información

sofisticados

considerables

T2 Exámenes referidos a una norma y a un criterio La principal distinción entre ellos depende de la manera en que se interpreta la ejecución de un examinado (Popham, 1990). En el cuadro 10–2, se contrastan ambos tipos de examen con base en sus características generales y su uso básico. ENTRA CUADRO 10-2

Cuadro 10–2. Características generales de las pruebas normativas y criteriales.

Interpretación de Juicio típico que

Criterio de validez

Tipo de

Propósitos Características

la ejecución del

resume la

de la interpretación

prueba

educativos típicos distintivas

examinado

interpretación

que cumple

La ejecución del En relación con la ejecución de otros

Proporciona una tomada de toda la

encuentra arriba, Normativa

• Selección de

La medida debe ser examinado se

que también

estudiantes medida de la • Comparaciones

población a evaluar o abajo o dentro de

respondieron el

habilidad relativa de una muestra

la norma o examen

internacionales del examinado

representativa de ella promedio • Evaluación de

La medida debe ser En relación con el

Comunica qué tomada de todo el

Criterial

estatus del

puede hacer o no

individuo respecto

el examinado en

a un criterio o

un campo

dominio

determinado

evaluativo bien

(conocimientos y

definido

habilidades)

Proporciona una

dominio de

medida de la

contenido o de una

habilidad absoluta

muestra

del examinado y

representativa de

describe con

tareas obtenidas de

claridad lo que mide

ese dominio

programas • Certificación de competencias académicas • Diagnóstico y diseño instruccional

Cabe señalar que, hasta hace relativamente poco tiempo, la mayor parte de los exámenes de gran escala que se elaboraban eran de tipo normativo; por ello, presentan un nivel de desarrollo psicométrico superior al que tienen los criteriales, mismos que empezaron a desarrollarse en el decenio de 1970-79. T2 Exámenes de respuesta construida y de respuesta seleccionada. Este criterio de clasificación se refiere al tipo de reactivos que forman la prueba. Aunque en un examen pueden ser incluidos diferentes tipos de preguntas, en el contexto de la evaluación a gran

escala se presentan limitaciones en este aspecto debidas principalmente al proceso de estandarización que conllevan. El cuadro10–3 describe los principales tipos de preguntas, sus características, ventajas, desventajas y contexto de uso. ENTRA CUADRO 10-3

Cuadro 10–3. Pruebas de respuesta construida y de respuesta seleccionada. Tipo de

Tipo de

Principales

Contexto

Características prueba

reactivo

ventajas

desventajas

de uso

Pide al estudiante integrar Permite medir aprendizajes Produce un muestreo de

Salón,

complejos y la expresión

contenido muy pobre y

casi

personal

es difícil de calificar

siempre

libremente y por escrito, lo Ensayo que sabe acerca de un tema Hace posible un buen El estudiante responde con Respuesta una palabra, símbolo o

Respuesta breve

Salón,

aprendizajes más bien

casi

simples

siempre

adivinar no conduce al frase corta

construida

Sólo es útil para medir muestreo de contenido y

éxito Pone

Su muestreo de

Enfatiza lo que el a prueba conocimientos y contenido es muy pobre,

Salón,

estudiante puede hacer, no Ejecución

habilidades clave,

difícil de calificar, y

casi

en situaciones reales

consume demasiado

siempre

y complejas

tiempo y recursos

sólo lo que sabe, en un contexto auténtico Es muy flexible, logra

Difícil de construir para

Pide al estudiante elegir la Respuesta

Opción

seleccionada múltiple

medir muchos tipos de

medir aprendizajes

Salón y

aprendizaje y obtener una

complejos. Además, el

gran

buena muestra de

alumno selecciona, no

escala

contenido

produce la respuesta

respuesta correcta o la mejor opción entre las que se le ofrecen Usualmente sólo miden Pide al estudiante juzgar la Facilita la observación del

Respuesta

Salón y aprendizajes simples, y

verdad o falsedad de

dominio en una área y buen

alterna

gran propician copiar y

proposiciones

muestreo de contenido

escala adivinar

Pide al estudiante

Permite un buen muestreo

Sólo mide información Salón y

relacionar conceptos

de contenido y medir la

factual y es difícil

u ordenar fases

habilidad para discriminar

elaborar reactivos

o eventos

eventos relacionados

adecuados

gran

Asociación

escala

Los aspectos considerados en el cuadro 10–3 y otros —como la facilidad para su administración y calificación—, han orientado a los elaboradores de pruebas de gran escala a emplear casi exclusivamente los reactivos de respuesta seleccionada, en particular los de opción múltiple, a pesar de sus limitaciones. Por otra parte, se ha considerado que las pruebas de respuesta construida resultan más apropiadas para el contexto de la instrucción, donde se requiere rastrear errores en la comprensión, proporcionar retroalimentación significativa al aprendizaje de los alumnos, y evaluar habilidades de producción como la redacción y la expresión oral. Al respecto, cabe destacar los esfuerzos recientes por diseñar pruebas de ejecución estandarizadas y de gran escala, agrupados bajo el rubro de pruebas auténticas, que lucen muy prometedoras. Sin embargo, en su estado actual de desarrollo, aún están por demostrar sus bondades a la luz de los criterios psicométricos fundamentales (Hogan, 1992) y su viabilidad para utilizarlas en contextos más amplios que el salón de clases. T2 Estándares de calidad Debido a su dimensión y por el poderoso impacto social que tienen sobre las vidas de alumnos, profesores, padres, directivos escolares, autoridades educativas y la sociedad en general, las pruebas de gran escala plantean condiciones especiales que determinan cuánto de su elaboración, aplicación y evaluación, debe ajustarse a rigurosos estándares de calidad (p. ej., definición de su uso y cobertura, exhibición de evidencias de validez y confiabilidad, uso de procedimientos estandarizados para la administración, calificación e interpretación de resultados, entre otros; Rudner, 1993; Popham, 1990; AERA-APA-NCME, 1999; Martínez, et al. 2000). En el cuadro

10–4 se describen los criterios más importantes que deben satisfacer los exámenes de gran escala, ya sean normativos o criteriales. ENTRA CUADRO 10-4 Cuadro 10–4. Descripción de los principales criterios que definen la calidad de una prueba de gran escala. Criterio de

Principales tipos, Definición resumida

calidad

Observaciones formas o aspectos

Consiste en emplear procedimientos

• Administración

Se trata de lograr eficiencia y

uniformes para administrar y calificar la

(locales, resguardo,

seguridad para recolectar

prueba, así como para interpretar las

instrucciones)

datos comparables acerca del

calificaciones de manera que resulten comparables los resultados de los diferentes Estandarización examinados

• Calificación

logro académico de una gran

(automática,

cantidad de examinados y así

corrección por

propiciar la validez

adivinar, estándares y punto de corte)

• Interpretación de datos Grado en que una prueba mide lo que dice. Contenido (¿la muestra de Técnicamente, se refiere a la obtención de

reactivos representa al universo

evidencias que respaldan las inferencias

de contenido?)

basadas en los puntajes obtenidos en la prueba

humano • Esencial en una prueba criterial

Criterio (¿los puntajes permiten

(es el indicador más importante de la calidad inferir la ejecución en una de la misma)

• Basada en el juicio

variable criterio? [p. ej., el

Validez promedio de calificaciones])

• Depende del tipo de variables criterio que se emplean • Puede ser predictiva o concurrente • Resulta esencial en una prueba normativa

Constructo (¿los puntajes son

No es posible obtenerla en un

una medida del atributo

solo estudio; deben

psicológico de interés?)

acumularse evidencias

Se refiere a la consistencia o reproducibilidad Índice de estabilidad (testde los puntajes de la prueba. Puede ser de retest) ocasión a ocasión, de prueba a prueba,Correlación de de puntajes en Confiabilidad

reactivo a reactivo, de juez a juez, etc.

formas paralelas o alternas Consistencia interna (homogeneidad de los

Observar la consistencia en el tiempo de los puntajes Los modelos deben ser equivalentes (contenido, etc.) Observar si los reactivos funcionan de forma similar

reactivos) Descripción de la conducta medida

Formulación explícita de los conocimientos,Descripción breve (objetivo habilidades, aptitudes y actitudes del

conductual usualmente)

examinado que se pretende medir con Descripción la detallada prueba

Característica en las prueba normativas Característica en las pruebas

(especificaciones de reactivos) criteriales

Se refiere a detectar y eliminar un Ofensa (el reactivo retrata a un funcionamiento diferencial de los reactivos,grupo estereotipadamente)

Su detección requiere de pruebas empíricas y de juicios

Ausencia de ante grupos diferentes de examinados, que no . Penalización (un grupo falla elde personas que representen a sesgo depende del grado de conocimiento o

reactivo aunque posee la misma los grupos potencialmente

habilidad que se mide

habilidad que otro)

afectados

El énfasis reciente en la calidad educativa, en la noción de asumir la responsabilidad y el incremento del impacto social de la evaluación del aprendizaje, obligan cada vez más a quienes elaboran las pruebas y, en general a los educadores, a estar interesados e informados sobre los elementos técnicos que definen la calidad de una prueba educativa.

T1 Aspectos metodológicos: etapas y procedimientos La metodología general que aquí se propone para construir una prueba criterial de gran escala, presupone la existencia de un Comité coordinador del examen, con funciones de diseño general, capacitación, piloteo de instrumentos, análisis de datos y control de calidad, así como elaboración de materiales e informes, integrado por investigadores con experiencia en evaluación, particularmente en los aspectos técnicos del desarrollo de pruebas de gran escala.

Dicho Comité coordinador pondrá en operación las etapas y procedimientos que se describen a continuación. T2 Primera etapa: definición del dominio de resultados que pretende el currículo

Dado que se trata de un examen criterial de gran escala alineado con el currículo, la base sobre la que se construye el examen y las decisiones respecto a qué evaluar y cómo hacerlo están determinadas por los resultados de aprendizaje que establece dicho currículo. Así, el proceso de construcción del examen inicia con la determinación del universo de contenido sobre el cual versará. En consecuencia, el propósito principal de está etapa es hacer explícitas, de manera exhaustiva, las intenciones de formación plasmadas por los planeadores del currículo. A fin de lograr lo anterior resulta necesario operar los siguientes procedimientos.

T3 Selección y capacitación de un Comité diseñador del examen El primer procedimiento para construir la prueba consiste en seleccionar y capacitar a un Comité diseñador del examen, integrado por especialistas en el área del contenido a evaluar (expertos disciplinarios y profesores en servicio), en diseño curricular y en evaluación, en aspectos relativos al análisis curricular, la elaboración de redes de contenido (retículas) y el diseño de especificaciones de reactivos, a fin de contar con un grupo bien entrenado que será la base para construir el instrumento.

La selección y capacitación del Comité diseñador del examen es un punto crítico en el proceso de construcción del mismo, en virtud de la diversidad y complejidad de las tareas que deben realizar, mismas que incluyen analizar el currículo del área correspondiente, detectar y estructurar el contenido importante a evaluar, elaborar las especificaciones de reactivos y, finalmente, juzgar la congruencia reactivo-especificación.

La capacitación del Comité diseñador del examen debe realizarse mediante un curso formal de al menos 20 horas, y debe ser apoyada con un manual que incluya, al menos, los documentos que se describen en el apartado 10–1. ENTRA APARTADO 10–1 T3 Análisis del contenido del currículo Como en la práctica ningún documento contiene todo lo que se debe enseñar o lo que es importante, en esta primera etapa se efectúa un análisis de contenido de diversas fuentes, tanto formales como informales, que definen el currículo del área, como: a) el plan y los programas de estudios, b) materiales instruccionales, c) prácticas educativas de maestros experimentados y d) aspectos particulares de las teorías cognitiva y curricular. Dichas fuentes permitirán hacer explícito el dominio de resultados de logro pretendidos por el currículo del área y determinar su alcance.

Dado que en una prueba criterial la calidad de los reactivos es juzgada constantemente contra los resultados pretendidos por el currículo, la validez del examen depende, de manera crucial, de qué tan bien estén definidas las metas de aprendizaje del currículo. Las principales acciones que permiten dicha definición son:

• Revisar y sintetizar las fuentes de la planeación curricular y las guías de operación elaboradas para apoyar el trabajo de directivos escolares y profesores, así como otras disponibles. Aquí, el trabajo principal consiste en identificar los presupuestos, concepciones pedagógicas, intenciones educativas y estrategias, implícitos en la documentación generada por la instancia planeadora para, posteriormente, efectuar una síntesis de dicha información.

• Detectar los resultados importantes pretendidos por el currículo del área. Cabe aclarar que, en este momento, la intención primaria es dejar claro únicamente lo que es importante para quienes planearon el currículo del área. • De manera simultánea, considerar de manera preliminar las posibles acciones de evaluación asociadas con los contenidos identificados como importantes. Para evitar una autolimitación prematura, se enfatiza el considerar las formas de evaluación más apropiadas, según la naturaleza del contenido, independientemente de que sean o no factibles de realizar en el contexto de la evaluación a gran escala que se está desarrollando.

En general, debe buscarse el consenso como criterio general para acordar. Aunque este criterio puede ocasionar retraso en los trabajos (sobre todo al inicio de las interacciones) después, a medida que se definan con claridad los liderazgos académicos, se propiciará un espíritu de concertación que permita avanzar.

El producto de tales acciones es el dominio curricular completo que puede ser identificado y sobre el cual se desarrollará el examen. El dominio será registrado en una tabla de doble entrada que presente en las columnas los grados escolares incluidos en el nivel educativo respectivo, y en los renglones los ejes y subejes de contenido que aparecen en los programas de estudio. A manera de ilustración, en el apartado 10–2 se muestra una sección de una tabla que representa el dominio completo del contenido de un área de estudios de la educación primaria. ENTRA APARTADO 10–2 T3 Análisis complementario Con el propósito de complementar el análisis curricular efectuado, los miembros del Comité diseñador del examen deben solicitar la colaboración de profesores en servicio de diferentes

grados y con experiencia en la operación de los programas de estudio con el propósito de identificar los que, a su juicio, son los contenidos específicos más importantes del área, en cuanto a que promueven la adquisición y el ejercicio de conocimientos, habilidades y actitudes que todos los egresados deberán ser capaces de manifestar en su educación posterior, a lo largo de su vida o en su práctica profesional, según sea el caso. Este procedimiento debe operar mediante un cuestionario formal con preguntas abiertas y reuniones grupales con docentes en las que se pida su opinión por grado educativo y por eje curricular.

T2 Segunda etapa: análisis del currículo El análisis curricular efectuado en la etapa anterior permitió hacer explícito el dominio de resultados de aprendizaje que establece el currículo del área, es decir, el universo de contenido sobre el que versará la prueba. En esta etapa, el análisis está orientado a definir el universo de medida sobre el que se construirá el instrumento, mediante la estructuración del contenido importante a evaluar. Para ello, se seguirán los procedimientos que se describen a continuación. T3 Elaboración de una retícula del contenido a evaluar Con base en el dominio definido previamente y con el apoyo de los materiales incluidos en el manual correspondiente, el Comité diseñador del examen efectúa un análisis curricular del mismo a fin de estructurar los resultados de aprendizaje importantes que pretende el currículo del área. El análisis se realiza con base en la estrategia de diseño y evaluación curriculares denominada reticulación (Robredo, et al., 1983), la cual permite mostrar los contenidos y las relaciones de servicio entre ellos y cuyo producto notable es una retícula o modelo gráfico que identifica: • Contenidos fuente, que prestan servicios a otros contenidos. • Contenidos sintéticos, los cuales reciben servicios de otros contenidos.

• Contenidos rama o enlace, que dan y reciben servicios simultáneamente. • Contenidos aislados, que no presentan relaciones con otros contenidos.

De esta manera, el análisis consiste en representar gráficamente los contenidos del área, por eje curricular y grado educativo, haciendo explícitas sus relaciones de servicio. Para efectuar tal estructuración se utiliza como base la tabla previamente elaborada (apartado 10–2) para representar el dominio de resultados de aprendizaje, que ya presenta un cierto nivel de organización.

En la reticulación, las relaciones entre los contenidos pueden ser de naturaleza epistemológica, pedagógica, disciplinaria o de algún otra clase; por ello, el número y tipo de enlaces que establece un contenido son elementos estratégicos para definir su importancia relativa respecto a otros. Así, el análisis de la importancia de los contenidos del área que fue iniciada en la etapa anterior se completa en ésta, con base en los siguientes criterios de relevancia y estrategia:

• Un contenido es relevante si proporciona numerosos servicios de contenido. En este caso, su relevancia radica en ser requisito de otros, es decir, si no se logra su aprendizaje, el aprendizaje de los que dependan de él se verá afectado. • Un contenido es sobresaliente si recibe numerosos servicios de otros contenidos. En este caso, su importancia estriba en la función sintética que desempeña el contenido en el contexto del programa, es decir, se trata de un contenido sintético, probablemente difícil, sobre el cual confluyen varios servicios de contenido que deben ser integrados por él antes de que el programa educativo pueda continuar. • Un contenido es importante porque, independientemente de los servicios que da o recibe de

otros, su relevancia es disciplinaria. • Un contenido es significativo por razones de estrategia evaluativa, como sería el caso de evaluar el aprendizaje de un contenido poco relevante en sí mismo, pero para el cual es más fácil redactar preguntas de examen de tipo objetivo y, así, observar si se logró o no otro más relevante, que lo implica en algún sentido.

En todo caso, la idea es contar con un mapa reticulado del contenido importante a evaluar, que permita crear el sistema de evaluación. El apartado 10–2 muestra un ejemplo de retícula que se produjo mediante tales acciones.

T2 Tercera etapa: desarrollo de un plan de evaluación Una vez definido el dominio o universo de contenido, y habiendo sido identificados y estructurados en una retícula los resultados importantes a evaluar, en esta etapa el reto principal es elaborar un plan de evaluación para construir la prueba. El plan incluye tres tipos de acciones: reducir el universo de medida al nivel de un examen de gran escala, diseñar especificaciones para las preguntas del examen y capacitar a las personas que elaborarán los reactivos. A continuación se describen los procedimientos a seguir.

T3 Muestreo de resultados de aprendizaje a evaluar En última instancia, todo plan evaluativo conduce a estrechar el currículo operacional. Ello es así, debido a que existen muchos más resultados de aprendizaje de los que es posible evaluar en una sola ocasión, de modo que se considera que la validez de una prueba criterial sólo es posible cuando se evalúa a un estudiante en el dominio completo de las metas de aprendizaje definidas

por el currículo o cuando se han seguido procedimientos especiales para obtener una muestra representativa de ellos.

De hecho, un procedimiento similar se desarrolla en la etapa anterior. Ante la imposibilidad de evaluar todo el dominio de resultados que pretende el currículo del área, se selecciona y estructura la parte que es considerada más importante. Ahora, ante una dificultad similar —pues el universo de medida es aún demasiado grande—, resulta necesario obtener una muestra representativa tanto del dominio curricular estructurado, como del dominio completo del área. Para lograrlo, el Comité diseñador del examen debe efectuar un muestreo intencional mediante el siguiente método:

• Se toman en consideración todos los aspectos importantes del currículo que fueron definidos en la retícula del área, en el procedimiento anterior. • A continuación, se hace explícito qué partes de currículo siempre serían evaluadas en el examen, por tratarse de los resultados de aprendizaje de primer nivel de importancia o esenciales, y cuáles otras serían incluidas sobre la base de un muestreo al azar, ya que por razones prácticas no es posible evaluarlas en su totalidad. • Se determina el peso relativo que tendrá cada parte del examen, de conformidad con la organización del contenido del área que ha sido definida con anterioridad (es decir, por eje, subeje y línea de formación curriculares, según el detalle con que se estructuró el contenido).

Tales decisiones quedarán registradas en una tabla de especificaciones del examen que, a partir de este momento, continuará desarrollándose hasta que se concluya el plan de evaluación. Usualmente, la tabla incluye 1) los ejes y subejes propios de la organización curricular y, en su

caso, el nivel taxonómico creado con el propósito de que el agrupamiento de los contenidos sea más informativo, la descripción de los contenidos considerados importantes incluidos en cada línea de formación estructurada, su identificación como esenciales (por lo que serán censados) o no esenciales (pero incluidos en la evaluación por insaculación de todos los contenidos no esenciales, para los cuales se reserva un espacio en el examen, según el criterio de obtener una muestra representativa del contenido del área). De esta manera, los contenidos que son evaluados en el examen incluyen los considerados esenciales y los importantes que fueron seleccionados al azar. 2) Además, en otras columnas de la tabla aparecen el número de especificaciones de reactivos y el número de reactivos que se consideran necesarios para evaluar los contenidos de cada línea de formación, así como el tipo de reactivo a elaborar en cada caso.

T3 Diseño de especificaciones de reactivos A partir de los productos elaborados previamente, en particular la retícula del área, la tabla de especificaciones, y con el apoyo del manual correspondiente, el Comité diseñador del examen elabora especificaciones técnicas, tanto desde el punto de vista del contenido como del psicométrico, para la construcción de cada uno de los reactivos de la prueba. Las especificaciones de reactivos tienen como propósito principal proporcionar a quienes los elaboran el contenido específico, derivado de cada línea de formación, y los detalles técnicos necesarios para generar reactivos efectivos. La estructura general de cada especificación de reactivos es la siguiente:

• Una descripción general de la tarea de evaluación. La descripción comprende el enunciado del contenido y su ubicación en el plan de estudios correspondiente. Además, puede incluir una

interpretación del sentido del contenido, de su importancia, una delimitación del segmento del contenido que debería cubrir, o alguna otra nota que deje claro cuál es el concepto o habilidad que se desea evaluar y cómo debe evaluarse. • Una descripción general de los atributos de los estímulos y de las respuestas que debe presentar el reactivo. • La redacción de un reactivo muestra que ilustre la manera en que se aplican los elementos de la especificación. Cabe señalar que el conjunto de reactivos que sirven de muestra para las especificaciones, finalmente puede ser estructurado para formar uno de los modelos de examen.

La idea es contar con un marco normativo compacto, claro y significativo, que permita a los elaboradores de los reactivos producir reactivos válidos y saber cuándo no lo son. También que haga posible que el Comité diseñador del examen tener estándares contra los cuales contrastar posteriormente el mérito de los reactivos elaborados.

Para definir la cantidad de especificaciones y de reactivos que es necesario elaborar para la prueba, se deben seguir ciertos criterios relativos al tipo de estimación de la ejecución del examinado y el tipo de impacto de la prueba (Popham, 1990):

• Si se requiere una descripción de la ejecución de los examinados que sea más bien específica, a fin de poder dar cuenta con cierto detalle del dominio que tienen en los ejes, subejes y líneas de formación del área que se evalúa, lo cual es típico de las pruebas criteriales, entonces se requieren en conjunto bastantes reactivos (quizá unos 10 para explorar cada línea de formación). • Si el impacto esperado del examen implica una afectación mínima a los examinados o a sus profesores, entonces se necesitan más bien pocos reactivos; pero si el examen que se construye

es de alto impacto, como sería el caso de uno de certificación de competencias profesionales, se necesita una cantidad importante de reactivos —alrededor de 20 por conducta medida. • Si surgen contradicciones a partir de la aplicación de estas consideraciones, se puede tener una medida de referencia al revisar la extensión de otros instrumentos de gran escala similares al que se está construyendo. Además, es factible efectuar una pequeña prueba empírica para determinar el tiempo que les llevaría a participantes similares a los examinados, responder sin cansancio o falta de atención a los reactivos muestra del primer conjunto de especificaciones que se elabore.

Una vez definidos estos aspectos y de conformidad con la tabla de especificaciones del examen, se procede elaborar el total de especificaciones previstas para producir los reactivos. A manera de ilustración, en el apartado 10–3 se presenta una especificación de reactivos completa. ENTRA APARTADO 10-3 T3 Capacitación del Comité elaborador de reactivos Para elaborar los reactivos del examen debe ser constituido y capacitado un comité integrado por especialistas, entre asesores de contenido y psicometría, profesores en servicio y directivos escolares, todos ellos con experiencia en la operación del currículo y en la redacción de reactivos de tipo objetivo. Para apoyar la capacitación de este grupo, debe ser elaborado un manual que incluya entre otros documentos: a) la retícula del área previamente elaborada y un documento descriptivo de la misma, b) las especificaciones de reactivos diseñadas, c) documento para la redacción técnica de reactivos, d) tabla de especificaciones de la prueba y e) formatos de registro de información. El entrenamiento correspondiente debe darse en un curso formal de al menos 20 horas y continuar posteriormente por medio de asesorías individuales, según las requirieran los elaboradores de los reactivos.

T2 Cuarta etapa: producción y validación de reactivos Una vez elaboradas las especificaciones de reactivos y habiendo sido entrenado el grupo de quienes los elaborarán, se procede a desarrollar los reactivos, analizarlos a la luz de las especificaciones elaboradas, probarlos empíricamente ante una muestra de examinandos, efectuar un análisis de las respuestas a los reactivos obtenidas mediante su aplicación, así como revisar los reactivo y estructurar la versión final la prueba. Estos cinco pasos se describen a continuación, así como los resultados que se obtienen al operarlos.

T3 Elaboración de reactivos según especificaciones Con base en las especificaciones y en el entrenamiento recibido, el Comité elaborador de reactivos desarrolla el conjunto de los mismos especificado para la prueba, de conformidad con las normas, a fin de propiciar su validez. En general, los elaboradores diseñan los reactivos que les correspondió trabajar de manera independiente o en pequeños grupos, y posteriormente los aplican a sus alumnos o a otros participantes similares, a fin de efectuar una calibración inicial de las preguntas y retroalimentar su trabajo. Al finalizar la elaboración, los responsables entregan los reactivos que diseñaron, junto con los resultados de la pequeña prueba empírica que realizaron. T3 Revisión de la congruencia reactivo-especificación Una vez elaborados, los reactivos son sometidos a una detallada revisión de contenido, psicométrica y lógica, tomando como base las especificaciones de reactivos correspondientes. Además, para la revisión se consideran los estándares, medidas y criterios correspondientes a la calidad del contenido de los reactivos de la prueba y a la calidad técnica de cada uno de ellos. Esta tarea la realiza el Comité diseñador del examen y tiene como propósito garantizar que todos

y cada uno de los reactivos representen al currículo y, con ello, certifiquen su validez. El procedimiento de revisión opera de la manera que se ilustra en la figura 10–1. ENTRA FIGURA 10-1 OJO VER IMPRESIÓN CON CORRECCIONES

C o rre c ci ó n o , e n ca s o, r ee l a bo r ac ió n

no no no R e vi si ó n ítem vs e s p ec if i ca c ió n

R e v is ió n d e e r ro re s d e e sc rit u r a

¿í tem e s c ong rue nte c on espe ci fic ac ión ?

no ¿ít em of ende o p enaliz a?

si ¿ít em es c ongr uent e co n c onten ido?

R e vi si ó n d e se sg o

si ¿ ít em es r ele van te?

R e v is ió n d e la co r re cc ió n de

¿í tem t iene v oc abul ar io apr opiado?

c on t e n id o

R e vi sió n v o ca b u la ri o

¿ha y er r or es c once ptual es ?

ap r op i a d o no

¿la r es pues ta c or r ec ta , lo es?

no si ¿ ít em c on fall as r edac c ión de fác il c or r ec c ión?

co rre c ci ó n in si t u

Fi n

Figura 10–1. Diagrama de flujo del proceso de revisión formal de los ítems de la prueba

Con el propósito de que el procedimiento de revisión resulte fluido, la mecánica de trabajo debe considerar como un requisito para poder efectuar una reunión, la revisión previa por parte de cada miembro del Comité diseñador del examende todos los reactivos a evaluar en cada sesión.

T3 Ensayo empírico y revisión de reactivos

Además de la aplicación del examen, este procedimiento incluye tres acciones previas: 1) Estructuración de los modelos de examen. Con el propósito de efectuar una primera calibración formal de la calidad técnica de los reactivos y modelos, en cuanto a su nivel de legibilidad (redacción clara para los participantes, vocabulario que corresponda con su nivel y conceptos acordes con su desarrollo), dificultad, discriminación, funcionamiento diferencial ante los participantes y confiabilidad, el Comité coordinador estructura los reactivos revisados, de conformidad con la tabla de especificaciones, en el número de modelos de examen previstos. En términos generales, las siguientes características deben estar presentes en cada modelo: a) al inicio del examen se presenta una página que describe a los examinados el propósito del examen, seguido de instrucciones generales para responder y de un ejercicio de práctica que supervisa el aplicador, b) al inicio de cada tipo de reactivo o, en su caso, de cada reactivo, se incluyen las indicaciones necesarias para responder. 2) Obtención de una muestra de participantes a quienes se aplicará el examen. Previa a la aplicación, se selecciona una muestra intencional de examinados, misma que debe pertenecer a la población que será examinada y, por otra parte, que posean una variedad de condiciones que se consideren importantes en cuanto su posible impacto sobre la ejecución del examinado, de tal manera de que sea posible explorar el comportamiento de los reactivos ante grupos diferentes que pertenecen a la misma población, así como la ejecución de ellos en la prueba. 3) Selección y capacitación del Comité aplicador del examen. Debe seleccionarse un Comité aplicador del examen y entrenarse para operar los modelos bajo condiciones estandarizadas, particularmente aquellas relativas a la organización de las actividades, el manejo confidencial de los ejemplares de examen y hojas de respuesta, así como la impartición de instrucciones a los examinados.

Una vez aplicados los modelos de examen, el Comité coordinador procede a capturar los resultados y a efectuar un análisis de reactivos y de confiabilidad de los modelos, para estimar su calidad técnica. Así, se obtienen índices de dificultad apropiados para cada uno de ellos mediante tres procedimientos:

• Se calcula el índice de dificultad o valor p del reactivo, es decir, la proporción de examinandos que contestaron correctamente el reactivo. En el caso de una prueba criterial, se considera que para ser apropiado el valor p que se obtiene de la muestra de ensayo, debe ser mayor que 0.05 y menor que 0.95. • Se obtiene el coeficiente de discriminación del reactivo mediante la correlación del punto biserial del reactivo (rbis), es decir, la relación entre las respuestas al reactivo y las calificaciones

en la prueba de los examinados. En una prueba criterial, el valor discriminativo de un reactivo se considera apropiado si rbis >= 0.2.

• Para estimar la calidad de los puntajes de la prueba, esto es, su calidad integral como instrumento de medida, se estima también la confiabilidad mediante el coeficiente de consistencia interna de cada modelo de examen, es decir, el coeficiente alfa de Cronbach (aOJO SIGNO ALFA)o Kuder-Richardson 20. El coeficiente a se considera apropiado si es mayor o igual a 0.85 en cada caso.

Para la revisión de cada reactivo se toma en consideración —además de los índices de dificultad y discriminación, y del coeficiente de discriminación respectivos— el análisis de los distractores. Esto implica que, de manera complementaria, se observa la ejecución de los examinados ante cada opción de respuesta. De esta manera, pueden ser identificadas varias clases de fallas en los reactivos; los tipos de fallas más comunes incluyen la complejidad cognitiva (demasiado fácil o

muy difícil), discriminación errónea (negativa o muy baja), mala edición (escritura confusa, errores mecanográficos), errores de redacción (conceptos complejos) o una combinación de ellas.

Con base en los resultados del análisis estadístico de los reactivos y de las respuestas a las opciones, el Comité diseñador del examen y el Comité elaborador de reactivos revisan cuidadosamente los reactivos que no cumplen con los estándares de calidad establecidos, a fin de determinar sus fallas, y decidir cuáles de ellos pueden ser corregidos y cuáles deben ser reelaborados.

T3 Revisión de la prueba y estructuración de una muestra de reactivos representativa del dominio curricular Una vez corregidos o reelaborados los reactivos que presentan fallas en cada modelo, el Comité coordinador procede a estructurar una muestra de ellos que resulte representativa del dominio curricular del área, es decir, conforma de nueva cuenta los modelos de examen de tal manera que, mediante una especificación y una selección adecuadas, muestren los resultados del currículo con un peso y una proporción apropiados.

Con esta última acción se dan por concluidos el diseño, la elaboración y el pilotaje de la prueba. Sin embargo, la metodología propuesta incluye desarrollar otros procedimientos que resultan necesarios para pasar el instrumento al nivel de gran escala y probarlo en esa dimensión a fin de garantizar su calidad integral para monitorear permanentemente el aprendizaje de los examinados.

T3 Ensayo empírico de gran escala y revisión de reactivos

A fin de concluir la fase de producción y validación de reactivos, se requiere efectuar el ensayo empírico a gran escala de los mismos. Este procedimiento supone que, previo a la aplicación de la versión final del instrumento, sea seleccionada una muestra de examinados representativa de la población cuyo dominio del aprendizaje se evaluará, y que se lleve a cabo la capacitación del personal que habrá de aplicar la prueba de manera estandarizada. En esencia, los procedimientos para realizar ambas acciones son los mismos que se detallaron en el subtítulo Ensayo empírico y revisión de reactivos. Sin embargo, la aplicación a gran escala de los modelos de examen requiere de una aproximación más técnica y formal, particularmente para obtener una muestra de examinados representativa de la población cuya ejecución se desea describir.

Tras la aplicación, se requiere efectuar la consiguiente revisión y mejoramiento de los reactivos y modelos, ya con suficientes datos empíricos. Los procedimientos para hacerlo son los mismos que se describieron en el subtítulo Ensayo empírico y revisión de reactivos. Sin embargo, a diferencia de la fase en la que el objetivo principal era detectar y corregir los problemas más notorios de los reactivos para estar en condiciones de estructurar una primera versión de la prueba, el análisis en este momento tiene propósitos muy diferentes: por una parte, se intenta que éste cuente con suficientes datos empíricos para asegurar un control de calidad de los reactivos a partir de los estándares definidos y, por otra, se trata de definir formalmente las cualidades que el examen deberá exhibir antes de ser utilizado oficialmente para monitorear la calidad del aprendizaje en el área respectiva. Con ello, la idea es crear y mantener un programa de control de calidad y relevancia del examen, a cargo de la autoridad educativa.

Para lograr lo anterior, es preciso especificar los estándares de calidad para el contenido del reactivo y para su calidad técnica, así como para la calidad integral de los puntajes del examen.

En el cuadro 10–5 se describen las principales áreas de control de calidad para un examen criterial de gran escala.

Cuadro 10–5. Áreas de control de calidad, estándares, medidas y criterios para una prueba criterial.

Área de control

Estándar Medida Criterio que debe satisfacer

de calidad

1. Corrección del contenido

1. Clasificación de cada

1. Promedio de clasificación de

reactivo por expertos en

3.5 por reactivo

contenido (de 0 a 4 puntos)

2. Todos confirman que la

2. Corrección de la respuesta

2. Juicio de expertos en

respuesta correcta lo es, o es la

correcta

contenido (sí-no)

mejor opción 3. Promedio de clasificación de

Calidad del 3. Relevancia e importancia

3. Clasificación de cada

de la tarea a ejecutar

reactivo por expertos en

3.5 por reactivo

contenido de los reactivos de contenido (de 0 a 4 puntos)

4. Promedio de clasificación de

4. Congruencia del reactivo

4. Clasificación de cada

3.5 por reactivo

con el contenido

reactivo por expertos en

la prueba

contenido (de 0 a 4 puntos)

5. Promedio de clasificación de

5. Correspondencia del

5. Clasificación de cada

3.5 por reactivo

reactivo con su especificación

reactivo por expertos en contenido (de 0 a 4 puntos)

1. Escritura de reactivo sin defecto

1. Revisión del reactivo por

1. Cada reactivo debe estar

un profesional de la escritura

exento de cualquier error de

de los reactivos

escritura

2. Todas las palabras en el

2. Cada reactivo contiene,

reactivo deben estar incluidas

exclusivamente, palabras

en los materiales usados en

incluidas en los materiales

Calidad técnica de cada reactivo del test

2. Vocabulario apropiado

la instrucción (juicio del Comité Diseñador: sí-no)

la instrucción (juicio del

empleados en clase

Comité Diseñador: sí-no) 3. Dificultad apropiada

3. Valor p del reactivo,

3. .05 < p < .95

obtenido de la muestra de 4. Discriminación apropiada

ensayo

4. rb is > .2

4. Coeficiente de 5. Evitación de estereotipos

discriminación

étnicos y de género (ofensa)

5. Juicios del comité

6. Evitación de sesgo

Diseñador 6. Juicios del Comité

5. Ningún reactivo juzgado contiene estereotipos 6. Ningún reactivo evaluado pone en ventaja a algún grupo

diseñador del examen

1. Alta confiabilidad

1. Coeficiente alfa o Kuder-

1. Coeficiente mayor o igual

Calidad de las Richardson 20

que .85 en cada modelo

2. Porcentaje de acuerdo

2. Porcentaje de acuerdo de

calificaciones 2. Alto indicador de de la prueba confiabilidad para ensayos

.90 o mayor en cada modelo

T2 Quinta etapa: análisis de resultados de la ejecución de los examinados

Tras haber desarrollado, analizado y probado empíricamente los reactivos, tanto a pequeña como a gran escala, y una vez revisados y estructurados los modelos de examen en su versión final, procede su aplicación regular con los examinados y, posteriormente, a efectuar el análisis de su ejecución en cada una de las áreas curriculares examinadas. Para elaborar los informes de resultados, se sigue el siguiente procedimiento.

T3 Análisis de resultados para elaborar reportes de ejecución por plantel, por eje temático del currículo y por destinatario Una vez aplicados y calificados los exámenes, será necesario efectuar los correspondientes análisis de los resultados obtenidos por los participantes en la prueba, por plantel educativo, por

eje temático del área de contenido evaluada y por destinatario. A partir de estos análisis se deberán elaborar reportes de resultados del examen, apropiados a las necesidades informativas de los usuarios, con el propósito de ir configurando un sistema de información permanente sobre los resultados del examen que apoye eficazmente la toma de decisiones en los diversos niveles donde corresponda.

Así, puestos en la perspectiva adecuada, los resultados obtenidos mediante un análisis riguroso de la información derivada del examen —especialmente aquella que muestra el dominio que lograron los examinados por eje, subeje y línea de formación del área de contenido evaluada—, son de gran valor para las diversas instancias que intervienen en la formación de los educandos con funciones de planeación, operación, evaluación y control educativos mismas que, de hecho, son los usuarios naturales de la información que proporciona el examen. En el cuadro 10–6, se incluyen algunos posibles destinatarios de la información que deriva del examen, así como los tipos de información que resultan más relevantes para apoyar la toma de decisiones en el nivel que les corresponde a cada uno de ellos.

Cuadro 10–6. Destinatarios de los reportes de resultados del examen.

Destinatario

Tipo de información a ser reportada

1. Distribución de promedios de los planteles del Estado, la institución, Funcionario de primer nivel etc., en cada eje curricular (Secretario de Educación, Rector, 2. Distribución de promedios de los planteles por municipio, campus, Director General, etc.) región, etc., en cada eje curricular

3. Tendencia del municipio, campus, región, etc., y promedios en cada eje curricular, durante los cinco años anteriores 4. Gráfica que compara simultáneamente los resultados de logro con acciones educativas determinadas (perfil de profesores, recursos de la escuela, etc.)

1. Promedio de ejecución de estudiantes en grupos de preguntas que Director de planeación educativa, evalúan blancos de aprendizaje claves, por eje curricular Director académico, etc.

2. Promedio de ejecución de estudiantes en cada eje curricular 3. Resultados en 1 y 2, por campus, región, municipio, etc.

1. Promedio de resultados por plantel dentro de la región de servicio, Inspector, Coordinador, etc.

para cada eje curricular 2. Tendencia de la ejecución promedio, durante los cinco años anteriores

1. Promedio general y por género, de resultados de los examinados del plantel, por eje curricular 2. Porcentaje de aciertos por eje curricular, para cada examinado Director de plantel 3. Comparación del promedio general y por género, de los resultados de los examinados del plantel, por eje curricular, contra las correspondientes medias de los planteles del campus, región, etc.

Finalmente, a mediano y largo plazos, el horizonte de desarrollo del examen deberá incluir otras acciones formales orientadas a su continuo mejoramiento. En ese sentido serán necesarios, por ejemplo, estudios para ampliar las evidencias de validez de contenido logradas hasta el momento, y buscar otras de validez criterial y de constructo.

T1 Material requerido 1) Manual para capacitar al Comité diseñador del examen (véase apartado 10–1). 2) Manual para capacitar al Comité elaborador de reactivos (véase subtítulo Capacitación del Comité elaborador de reactivos).

T1 Conclusiones En las últimas tres décadas, han surgido nuevos modelos, métodos y procedimientos para evaluar el aprendizaje de las personas. Lo anterior se evidencia por el enorme crecimiento en el número de revistas especializadas en evaluación, por el incremento de las publicaciones en simposios y congresos en la materia, así como en la aparición de nuevos modelos psicométricos que han cambiado el panorama de la medición en los últimos 20 años.

En este capítulo se ha propuesto un método para desarrollar exámenes criteriales de gran escala alineados con el currículo. La metodología que se presentó tiene las siguientes bondades:

1. Mejora la implementación del currículo. Proporciona información a las escuelas y maestros sobre las ejecuciones de los estudiantes en áreas específicas del currículo. 2. Es justa para los estudiantes. Si el currículo se define con claridad, si los profesores conocen y entienden el plan de evaluación, si los maestros centran su enseñanza en dicho plan y si la evaluación refleja el plan y el currículo, entonces la evaluación es justa para los estudiantes porque se les enseñó y preparó para lo que el examen evalúa.

3. Se puede evaluar el progreso del estudiante. Como el currículo no cambia constantemente, el examen permanece constante, lo cual permite describir lo que los alumnos son capaces de hacer año con año. 4. Mejora la evaluación curricular. La información que proporciona este tipo de evaluación permite identificar cuáles objetivos de aprendizaje se aprenden mejor y en cuáles hay deficiencias importantes. 5. Se diagnostican mejor las deficiencias de los estudiantes. Si se elaboran y utilizan sistemáticamente exámenes criteriales alineados con el currículo de todos los grados escolares, entonces los profesores tendrán información acerca del nivel con que cada estudiante maneja los contenidos específicos de aprendizaje. 6. Entrenamiento de maestros centrado en metas. Los inspectores pueden proveer información de patrones de ejecuciones deficitarias en ciertas áreas del currículo que se presentan en ciertas escuelas y con ciertos maestros, quienes pueden ser entrenados para enseñar las temáticas donde se presentan dificultades académicas. 7. Posibilidad de monitorear el progreso de los estudiantes. Como el currículo es la base para construir exámenes, es posible desarrollar otras evaluaciones para monitorear el aprovechamiento académico de los estudiantes. Es importante decir que el modelo que aquí se propone es distinto a los exámenes tradicionales que parten del currículo, ya que requiere de más investigación empírica y análisis de la información. Además, se propone adoptar formalmente estándares educativos y psicométricos. El modelo también permite conducir análisis secundarios de los resultados para estudiar la ejecución de los estudiantes en relación con los diferentes componentes curriculares. Lo anterior tiene el propósito de proveer información a las autoridades educativas para mejorar el currículo y monitorear las políticas educativas.

Finalmente, esta metodología presenta algunas limitaciones que son importantes de mencionar; entre las más relevantes están:

• Es muy sensible a cambios curriculares. Cada vez que se cambie el currículo, se deberá buscar un realineamiento de examen mediante un nuevo análisis curricular, elaboración de nuevas especificaciones, creación de nuevos reactivos y pruebas empíricas que validen los nuevos modelos de examen. • Consume cuantiosos recursos humanos y financieros. La aplicación del modelo requiere de la voluntad política de las autoridades educativas, del trabajo coordinado de diversos especialistas y de recursos económicos para cubrir los gastos de la elaboración del examen. Por ello, su uso está reservado, principalmente, a las autoridades educativas que requieren monitorear el aprendizaje escolar, certificar competencias académicas, mejorar el currículo y dar cuenta de la gestión educativa. • Básicamente, se utilizan reactivos de selección. Por los altos costos que representa la calificación de reactivos de respuesta construida, en general, los exámenes de gran escala utilizan reactivos de opción múltiple. Sin embargo, este formato impone ciertas limitaciones como es el nivel taxonómico del conocimiento que se evalúa y la participación del azar en las respuestas del estudiante. • Limitaciones impuestas por la Teoría clásica de la medida. Posiblemente, el problema de invarianza sea el de mayor relevancia, que hace que la medición del nivel de competencia académica del evaluado dependa del grado de dificultad de los reactivos y viceversa.

T1 Bibliografía

American Educational Research Association (AERA), American Psychological Association (APA), National Council on Measurement in Education (NCME) (1999) Standards for Educational and Psychological Testing. Washington. AERA. Hogan, T. P. (1992) Prospects and Problems for a National Test: Some Reflections of a Test Author. Ponencia presentada en el simposium National Goals and National Testing, en el encuentro anual del National Council on Measurement in Education. San Francisco. Martínez, F., Backhoff, E., Castañeda S., De la Orden, A., Schmelkes, S., Solano-Flores, G., Tristán, A., Vidal, R. (2000) Estándares de Calidad para Instrumentos de Evaluación Educativa. México, D. F. CENEVAL. Nitko, A. J. (1994) A Model for Developing Curriculum-Driven Criterion-Referenced and NormReferenced National Examinations for Certification and Selection of Students. Ponencia presentada en la Conferencia Internacional sobre Evaluación y Medición Educativas, de la Asociación para el Estudio de la Evaluación Educativa en Sudáfrica (ASSESA). Popham, J. (1990) Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and Bacon. Robredo, J. M., Ledezma, R., Alvarado, J. F. (1983) Reticulación: una estrategia para la elaboración de programas de estudio. UNAM. Facultad de Psicología. Tesis para obtener el grado de licenciatura. Rudner L. (1993) Test Evaluation. Disponible en Gopher ERIC/AE. 12/ 93.

Apartado 10–1. Manual para el Comité diseñador del examen. Entre otros, el manual incluye los siguientes documentos necesarios para realizar las actividades previstas en el diseño de la prueba:

• Materiales curriculares del área que se evalúa. Incluyen el plan y los programas de estudios, libros de texto, guías para el profesor y el alumno, y otros necesarios para identificar el dominio del contenido curricular sobre el cual versará el examen. • Documento descriptivo de la estrategia de diseño y evaluación curriculares denominada “reticulación”. Aquí se hacen explícitos los aspectos conceptuales y metódicos necesarios para determinar y estructurar los contenidos importantes que serán evaluados por el examen. • Modelo de retícula. A fin de ilustrar a los especialistas en contenido acerca de la estructuración de conocimientos y habilidades, con el propósito de que realicen las tareas de análisis curricular, y construyan la retícula o representación gráfica del contenido importante del área correspondiente. • Documento normativo para la estructuración de los contenidos del área correspondiente. El cual contiene los criterios y procedimientos para detectar y muestrear el contenido importante que será la base para construir el examen. • Prototipos de especificaciones de reactivos. Con el fin de ilustrar a los especialistas en contenido acerca de las normas para desarrollar cada reactivo, de tal manera que puedan elaborar las especificaciones que se entregarán a quienes, posteriormente, elaborarán los reactivos del examen. • Literatura sobre teoría cognitiva, evaluativa y curricular. Es necesaria como material de consulta a lo largo del proceso de construcción de la prueba. • Exámenes similares al que se está construyendo. Para tener una referencia que oriente la

construcción del examen hacia altos niveles de calidad. Tal es el caso de pruebas reconocidas nacional e internacionalmente (como los que elabora el Educational Testing Service, en EUA). • Formatos para el registro de información. Necesarios para elaborar especificaciones, consignar propuestas, analizar datos, elaborar reportes y realizar otras actividades de diseño.

Apartado 10–2. Ejemplo de una retícula de contenidos curriculares del área de español.

En la sección de la retícula que se presenta, pueden observarse ciertos aspectos que son importantes para su adecuada interpretación: • Todos los contenidos están enmarcados por un rectángulo y las relaciones entre ellos están representadas mediante flechas de diversos tipos. La punta de la flecha indica la dirección de los servicios de contenido, normalmente de izquierda a derecha, en el sentido de la secuencia pedagógica que va de antes a después. Así, el eje horizontal de la retícula representa el tiempo. Lo anterior significa que este tipo de relación es de naturaleza antecedente-consecuente. Al respecto cabe señalar que, aunque de hecho se presenta la interacción entre contenidos o causalidad recíproca, este tipo de relación implica una administración de los procesos académicos que no está exenta de la variable temporal, es decir, aunque dos contenidos interactúen, necesariamente uno de ellos tiene que ser presentado para su aprendizaje antes que el otro. • Todos los contenidos que aparecen en la retícula representan el dominio o universo de contenido del área (producto de la primera etapa) y, entre ellos, figuran los contenidos que están conectados mediante flechas, los cuales representan el universo de medida, es decir, el contenido estructurado que se juzgó importante evaluar, en conformidad con los criterios antes expuestos. • En consecuencia, los contenidos que no están conectados no son considerados para el diseño de la prueba; ya sea porque no pueden ser evaluados en un examen de gran escala con reactivos de respuesta seleccionada, no son tan importantes como otros o porque, aunque sí lo son, ya fueron considerados de algún otro modo dentro de la estrategia evaluativa. • Usualmente, la mayor parte de los contenidos considerados como importantes forman parte de cadenas de contenido que empiezan en un grado y terminan en otro más avanzado. En tales

casos, normalmente se selecciona para su evaluaciรณn el contenido mรกs integrador, es decir, el que casi siempre estรก al final de la cadena.

Apartado 10–3. Ejemplo de especificación de reactivos.

La especificación que se ilustra enseguida, corresponde al conjunto de especificaciones de reactivos elaboradas para construir los reactivos de una prueba destinada a monitorear la calidad del aprendizaje que logran en el área de español los niños que egresan de las escuelas primarias en Baja California, México. Nótese que la especificación incluye los elementos señalados en el subtítulo Diseño de especificaciones de reactivos, es decir, una descripción general de la tarea de evaluación, el

enunciado y la ubicación del contenido curricular a evaluar, una descripción general de los atributos de los estímulos y respuestas que deben presentarse, la indicación del número de reactivos a elaborar, y la redacción de un reactivo muestra, entre otros elementos.

ÿ Eje: Reflexión sobre la lengua ÿ Subeje: Conocimientos, habilidades y actitudes ÿ Línea de formación: Uso de las palabras en la oración (sujeto, verbo y predicado)

Identificación del sujeto y del predicado en las oraciones (tercer grado)

El propósito es conocer el grado en que el niño de este nivel domina los conceptos de sujeto y predicado, cuando estos elemen tos gramaticales se encuentran en el contexto de la oración. Para ello, se requieren cinco ejercicios que contengan, cada uno, un enunciado que presente los dos elementos oracionales. Se trata de determinar si el niño aprendió dichos elementos por su conceptuación o simplemente por el orden en que se ubican comúnmente en la oración, es decir, en forma mecánica. En cada enunciado que se presente, se deberá variar la ubicación tanto del sujeto como del predicado. Por ejemplo:

ß Los niños llegaron hasta la meta. ß Hasta la meta llegaron los niños. ß Llegaron los niños hasta la meta.

En las instrucciones para responder se establecerá la forma en que los examinados deberán localizar ambos elementos de la oración. En todo caso, se les pedirá que identifiquen en cada enunciado sólo uno de los dos elementos oracionales. Ejemplo de reactivo:

INSTRUCCIONES. Elige la opción que presenta el sujeto en el siguiente enunciado:

Llegaron los niños hasta la meta después de mucho esfuerzo

q meta q después q esfuerzo q niños*