Innover en matière d’évaluation pour mesurer et soutenir les compétences complexes (Résumé)
Le rapport complet est disponible en anglais : OECD (2023), Innovating Assessments to Measure and Support Complex Skills, OECD Publishing, Paris, https://doi.org/10.1787/e5f3e341-en.
Les évaluations jouent un rôle central dans les systèmes éducatifs, en donnant notamment un aperçu des compétences que nous jugeons indispensables et des types de tâches que nous souhaitons voir nos élèves maîtriser Puisque ce que nous choisissons d’évaluer finit inexorablement par être enseigné en classe, évaluer ce qu’il est essentiel de maîtriser – et le faire bien – devrait être une priorité pour les politiques d’éducation. C’est dans cette optique que cet ouvrage appelle à poursuivre l’innovation dans le domaine de l’évaluation, en menant une réflexion sur les types de résultats éducatifs à évaluer, la manière dont nous concevons les tâches (en capitalisant sur la technologie pour produire des sources de données riches et significatives) et les processus requis pour garantir la validité des évaluations en fonction de l’usage auquel elles sont destinées.
Les évaluations pédagogiques doivent cibler ce qu’il est essentiel de maîtriser, et pas seulement ce qu’il est facile de mesurer
Que devons-nous savoir, faire et être ? Cette question enflamme les débats depuis des décennies. Les acteurs éducatifs s’accordent que nous devons promouvoir le développement des constructs cognitifs et socio-cognitifs complexes, plus communément appelés « compétences du XXIe siècle ». Bien que les cadres théoriques décrivant ces compétences s’accordent à certains égards, leur mise en pratique nécessite la convergence des programmes, méthodes d’enseignement et évaluations. Les évaluations peuvent en être un moteur puissant, mais doivent pour ce faire relever différents défis, dont la définition
de constructs et de progressions d’apprentissage complexes, le développement de tâches permettant le recueil de résultats significatifs et la conception de modèles pertinents pour l’interprétation et la communication de ces résultats.
La nouvelle génération d’évaluations doit permettre aux élèves de faire la démonstration de ce qu’ils savent faire dans des contextes authentiques, et rendre compte de la manière dont ils font de nouveaux apprentissages
Pour mieux évaluer les compétences du XXIe siècle, une « nouvelle génération d’évaluations » s’impose Les sciences de l’éducation suggèrent en ce sens plusieurs innovations dans la conception des évaluations, notamment : l’utilisation de tâches à large spectre permettant l’évaluation de niveaux de compétence très faibles et très élevés ; l’inscription de ces tâches dans des contextes authentiques ; l’inclusion de possibilités d’exploration, de découverte et d’invention ; et la possibilité d’un retour d’information et d’un soutien adaptatif. Au cours des évaluations, les élèves devraient ainsi avoir la possibilité de s’engager dans les types de processus d’apprentissage, de prise de décision et de résolution de problèmes que le monde réel nécessite de mobiliser
Les compétences du XXIe siècle étant, dans la pratique, étroitement corrélées, la conception d’évaluations distinctes pour chacune d’elles pourrait ne pas s’avérer une stratégie fructueuse Les trois considérations suivantes peuvent, à cet égard, permettre de mieux orienter le choix des éléments à évaluer :
1) identifier un ensemble de tâches pertinentes amenant les élèves à s’engager dans différents processus d’apprentissage, de résolution de problèmes et de prise de décision ; 2) identifier le contexte ainsi que les connaissances disciplinaires ou interdisciplinaires requises dans ce contexte ; et 3) décider d’intégrer ou non la possibilité pour les élèves de travailler en autonomie ou en collaboration
L’innovation est essentielle à toutes les étapes de la conception des évaluations
La conception des évaluations est toujours un exercice exigeant : les tâches et les méthodes d’interprétation doivent en effet s’ancrer dans un cadre théorique bien défini afin de permettre aux évaluations de produire des inférences valables Et ce constat vaut particulièrement pour la nouvelle génération d’évaluations des compétences complexes. Pour être valables, les inférences sur la capacité des élèves à s’engager dans des processus complexes de résolution de problèmes et à faire de nouveaux apprentissages doivent ainsi combiner des arguments et éléments probants descendants (justifiés par la théorie) et ascendants (visibles dans les données). Tout ceci nécessite, dès le départ, une collaboration étroite entre utilisateurs potentiels des évaluations, experts disciplinaires, psychométriciens, concepteurs de tâches, concepteurs de logiciels et experts en interface utilisateur.
Les technologies numériques élargissent considérablement le champ d’action des concepteurs d’évaluations, mais de nouveaux modèles de mesure plus efficaces sont nécessaires
Les technologies numériques permettent de multiples innovations, notamment sur le plan des formats de tâches (problèmes et environnements interactifs et immersifs), des fonctionnalités de test (adaptabilité et possibilités d’apprentissage) et des sources potentielles d’éléments probants (travaux produits ou solutions, et large éventail de données sur les comportements et processus mobilisés chez les élèves). Or, bien qu’il soit aujourd’hui relativement « aisé » d’obtenir ces nouveaux types de données à partir des évaluations numériques, les modèles psychométriques existants ne parviennent pas bien à gérer leur complexité. De nouveaux modèles de mesure sont donc nécessaires, en particulier à grande échelle, avec par exemple l’exploration de solutions « hybrides » combinant différents modèles
Les systèmes tutoriels intelligents (STI), qui proposent aux élèves des tâches dynamiques, des fonctionnalités interactives et un retour d’information, peuvent constituer une précieuse source d’inspiration pour la conception de tâches d’évaluation et de méthodes de notation innovantes. De nombreux STI ont ainsi fait d’importants progrès en utilisant les technologies d’intelligence artificielle (IA), comme le traitement automatique du langage naturel, pour fournir un retour d’information intelligent aux apprenants, adapter les contenus en fonction de leurs actions et évaluer leurs savoirs et savoir-faire Si les méthodes d’analyse de l’apprentissage se croisent de plus en plus avec celles, plus traditionnelles, de mesure des résultats de l’éducation, des ajustements restent à opérer entre ces deux domaines afin de permettre à ces nouvelles méthodes d’être réellement profitables aux utilisateurs des évaluations.
La nouvelle génération d’évaluations nécessite une validation minutieuse, à la fois via des processus de conception fondés sur des principes et la collecte et l’examen des données
Des constructs complexes sont inévitablement façonnés par les normes et les attentes culturelles. Dans le cadre d’évaluations à grande échelle, il convient donc de trouver le juste équilibre entre la production d’éléments probants valides au moyen de tâches complexes et la nécessité d’assurer la comparabilité des scores. De nouvelles problématiques spécifiques aux évaluations numériques innovantes (comme la relation entre maîtrise du numérique et performance, ou encore les biais potentiels des méthodologies basées sur l’IA) doivent en outre être considérées avec attention. Il est essentiel que les preuves d’équivalence soient établies à la fois par des processus de conception fondés sur des principes et par des études empiriques dédiées. Les données de processus représentent quant à elles une source précieuse de preuves de validité concernant la manière dont les individus et les différents groupes d’élèves s’engagent dans une évaluation.
La nouvelle génération d’évaluations nécessite un investissement intellectuel, financier et politique
Le développement de la nouvelle génération d’évaluations nécessitera l’investissement simultané de plusieurs types de capitaux : intellectuels, avec la collaboration de différentes communautés d’experts en sciences de l’éducation, des mesures et des données pour la résolution des défis conceptuels et techniques ; financiers, pour soutenir les équipes multidisciplinaires nécessaires à la conception des évaluations innovantes et permettre la diffusion des exemples prometteurs ; et politiques, pour investir audelà de ce qui est actuellement possible et transformer des pratiques d’évaluation solidement ancrées, et rassembler les financements nécessaires. Les programmes internationaux d’évaluation à grande échelle, comme le Programme international pour le suivi des acquis des élèves (PISA), peuvent à cet égard jouer un rôle d’avant-garde, en mobilisant ces trois capitaux au service de nouvelles façons d’évaluer.