PROJET ECRISCOL : Constituer un corpus d’écrits d’élèves : collecte et traitement des données

Page 1

Constituer un corpus d’écrits d écrits d’élèves d élèves : collecte et traitement des données Claire Doquet, Jacques David, Serge Fleury EA 7345 Clesthia - Groupe Ecrisol http://www.univ-paris3.fr/ecriscol-300509.kjsp Séminaire Recherches linguistiques et corpus EA 4509 STIH 24 février 2016


Groupe Ecriscol Les é L écrits it scolaires l i - Un objet encore peu décrit en France - Un regard spécifique dû aux caractéristiques de l’écriture scolaire - Des prod productions ctions q quii reflètent des fonctionnements de la langue lang e Le groupe de recherche : - Des enseignants-chercheurs en linguistique informatique (Serge Fleury), didactique de l’écrit (Jacques David, Catherine Boré),linguistique française (Claire Doquet, Pierre-Yves Testenoire) - Des D d doctorants t t : Yilun Yil Li, Li S Sofia fi Akesbi, Ak bi Maya M Sf i Béatrice Sfeir, Bé t i Gerlaud G l d (Cergy), Renlei Wang (Orléans) - Des étudiantes de master : Sara Maziotti, Vanda Enoiu, Myriam Sedjai - Des D ét étudiants di t ett enseignants i t ét étrangers accueillis illi : S Suzana C Cortez t (UFPE Recife, Brésil), Aina Reig (Univ. Valencia, Espagne).


Cadre théorique Génétique textuelle Etudier les manuscrits pour eux-même, en tant qu’ils témoignent de "l'aventure de la création littéraire telle qu'est est advenue matériellement, à partir du premier brouillon et jusqu'aux épreuves corrigées" (Grésillon, 1990)

Linguistique énonciative Josette Rey-Debove (1982) postule que toute rature est métalinguistique, au sens où la rature « travaille sur un discours déjà là » (Rey-Debove 1982, p. 111), impliquant donc une activité sur le discours et non seulement une expansion p de ce discours. « La spécificité du métalangage est due au phénomène autonymique qui correspond à une situation de réflexivité du signe. Cette réflexivité qui motive le signe et bloque la synonymie, mérite d'être recherchée hors du discours métalinguistique, afin de voir si les caractères communs au discours métalinguistique g q et au discours apparemment pp "ordinaire" sur le monde dérivent ou non d'un système unique. C’est une question fondamentale en linguistique de savoir dans quelle mesure un signe ordinaire peut signifier ce qu’il est, c’est-à-dire perdre sa transparence pour imposer son propre signifiant, tout en continuant à signifier le monde. »


Cadre théorique

La « boucle méta méta-énonciative énonciative de modalisation autonymique » (J (J. Authier AuthierRevuz) comme outillage conceptuel d’analyse des ratures :

Il est à l’ouest, pour employer une expression triviale.

Le bouclage provoque un dédoublement du dire, avec (1) ll’écriture écriture d d’un un énoncé A référant au monde (2) un retour et l’écriture d’un énoncé B qui s’articule avant tout à A.

X, j’ai dit X’, et je le confirme / le retire / le redis autrement…


Rature reprise, Rature, reprise réflexivité

-Retour dans le déjà écrit. -Activité de relecture de son propre texte fondamentalement liée à la double valeur du signe : autonyme et mondain (X, j’ai écrit X et je le biffe / je le souligne / etc.) -Degrés d’autonymie : -Une modalisation autonymique qui ne s’énonce pas -Des cas d’autonymie avérée


Mon propos aujourd aujourd’hui hui

1. Contexte de la recherche, corpus recueilli. 2. Traitement du corpus : transcription et annotation. 3. Exemples d’investigation : ponctuation de texte et de mots.


Spécificité p et intérêt des écrits scolaires

Un objet encore peu décrit : dans sa liste des Learner Corpora around the World (actualisée en 2015), l’UCL recense 3 corpus écrits en français (https://www.uclouvain.be/en cecl lcworld.html). (https://www.uclouvain.be/en-cecl-lcworld.html). Un objet qui suscite l’intérêt de didacticiens et spécialistes du langage enfantin : g en France de corpus p d’écrits d’élèves de taille relativement faible et/ou - émergence centrés sur des objectifs très précis (entre 1997 et 2005) ; - projets de constitution de corpus dans différentes universités : Toulouse Jean Jaurès (CLLE ERSS, équipe didactique), Grenoble (Lidilem), Cergy (EMA). Un objet qui suscite l’intérêt des linguistes : - Intégration de membres d’Ecriscol au TGIR Corpus Ecrits (CORLI Huma-Num) - Projet d’intégration du corpus Ecriscol au Corpus de Référence du Français (ILF)


Spécificité p et intérêt des écrits scolaires Que voit-on voit on d’abord d abord dans un écrit d’élève d élève ?


Spécificité p et intérêt des écrits scolaires Que semble voir d’abord d abord un enseignant dans un écrit d’élève d élève ?


Etat actuel du corpus

•1225 copies p + brouillons correspondants p •Environ 800 copies + brouillons transcrits et annotés • Révision des transcriptions et annotations en cours

•Niveaux : CE1, CM2, 3ème (= scolarité obligatoire), entrée à l’université •Production : suite donnée à un texte littéraire


Métadonnées •Élève: prénom, n° dans la classe, date de naissance , âge, classe, sexe, parcours scolaire (redoublement, changement d’école),statut particulier (allophone, handicap, accompagnement), langues personnelles, parlée(s), lu(es), écrite(s), CSP des parents •Établissement: urbain, rural, ZEP, département, banlieue, taille établissement, privé, public •Enseignant: M/F, âge, ancienneté, titres, formation •Tâche: consigne, g , temps p d’écriture,, contexte,, outils d’écriture •Texte: longueur, indications de l’enseignant, commentaires de l’enseignant, gloses de l’élève, soulignement, annotations

Identification du texte: EC-CM2-201415-SDPB-D1-E23-V1


Problèmes techniques

Rendre accessible la lecture des caractéristiques q linguistiques g q des écrits scolaire aux logiciels de textométrie.

-

Créer un système d’annotation permettant de rendre compte des spécificités

écrits scolaires. -

Optimiser le passage de la transcription à l’annotation.

-

A moyen terme, travailler à une automatisation partielle de l’annotation. l annotation.


Transcription La transcription diplomatique « photographie le document en rapportant, avec les outils qui le permettent, malgré leurs limites, tous les événements du manuscrit » (Crasson & Fedeke, 2007). C’est C est « une reproduction dactylographique d’un manuscrit qui respecte fidèlement la topographie des signifiants graphiques dans l’espace »(Grésillon, 1994).


Transcription La transcription linéaire est la « reproduction dactylographique d’un manuscrit (…), mais sans respecter la topographie de la page ; celle-ci est souvent remplacée par un début de chronologisation des éléments écrits (…). C’est un début d’interprétation, puisque la verticalité des paradigmes de réécriture est mise à plat et traduite en successivité p 246). ) horizontale » ((1994,, p. La rivière coulait <s’écoulait> avec paresse <L’eau avançait avec lenteur> dans d’interminables méandres et la jeune je ne fille pensait q qu’elle ’elle n’en finirait pas de sortir de la cité. [Pendant ce temps,] <A l’extérieur,> le long des murs, Foin co


Transcription

Une transcription diplomatique aménagée

<Le troll> [L'ogre] et aller devant les [toillète]toilettes des fille quand hermione [la] et sortie des toilettes, hermione à vu Le troll et elle et partie sous les lavabots. lavabots


Transcription I di ti d Indication des diffé différents t scripteurs i t ett d des campagnes d’é d’écriture it

et [T2#apparer]<T2#apparaît> une grand-mère très vieille et laide. Les enfants repartent aussitôt, ils quittent la forêt très rapidement id t ett ilils s'amusent ' t autre t partt que dans d la l forêt. Les gamins jurent de ne plus revenir dans la forêt. [T2#sauf]<T2#Sauf> accompagnés d'un adulte pour peut-être revenir voir la maison et la grand-mère de la maison en bois. b i Tou<T2#t> T T2#t le l village ill appelle ll lla grand-mère d è "La vieille dame des bois". Mais heureusement ça ne [c]<s>'est pas encore passé [T2#.]<T2#:> <P#Qu'est-ce qui ne s'est pas encore passé ?> [T2#Car] <T2#ce n'était qu'un rêve>.§


Transcription Indication des annotations marginales

{[P#un peu long]} forĂŞt. Les gamins jurent de ne plus revenir dans la


Transcription / annotation Ils [alla]<vont> voir! Et c'était un monstre tout [salle]<sale> il cassér tout, il manger tout. Ça veut dire que il y avait plus rien. Les enfant prévenir leur parents les parent [arrivère]<arrivent>. Le monstre est partit. ducout les parents ont crut que c'était les parents m'était leurs enfants dans leur enfants. Les p chambre et les punicer.

Ils ®[alla]//vont//® voir! Et c'était un monstre tout ®[salle]//sale//® il <cassér>_<cassait> tout, il <manger>_<mangeait> tout. Ça veut dire que il y [avait] plus rien. Les <enfant>_<enfants> <prévenir>_<préviennent> <leur>_<leurs> parents les <parent>_<parents> ®[arrivère]//arrivent//®. Le monstre est <partit>_<parti>. <ducout>_<Du coup> les parents ont <crut>_<cru> que c'<était>_<étaient> les enfants. Les parents <m'était>_<mettaient> leurs enfants dans leur chambre et les <punicer>_<punissaient>.


Manuscrit, transcription, annotation

Soudain une vieille dame descend l'escalier. Elle habite cette maison depuis des siècles elle ss'appelle appelle Marie puis Gégé dit: "excusez-nous on ne savait pas que cette maison était habitée." Tout à coup, il se <mets>_<met> à pleuvoir puis un orage éclate. La vieille dame (Marie) ®[dit]//dit//®:§ -je ne vais tout de même pas vous laisser partir avec ce temps."Max répond:§ " "merci i vous êtes ê généreuse". é é " Gégé Gé é répond é d <est>_<et> dit: di -"mais nos parents vont s'inquiéter <si_ils>_<s'ils> <voyent>_<voient> qu'on n'est pas <rentré>_<rentrés> ils vont nous gronder » Il commence à faire pratiquement nuit. Marie dit: -"regardez la pluie se calme vous allez pouvoir partir". Ils boivent un verre d'eau puis ils s'en vont. Fin. [XXX] §

Soudain S d i une vieille i ill dame d descend d d l'escalier. l' li Elle habite cette maison depuis des siècles elle s'appelle Marie puis Gégé dit: "excusez-nous on ne savait pas que cette maison était habitée." Tout à coup, il se mets à pleuvoir puis un orage éclate. La vieille dame (Marie) [dit] <dit> :§ - "je ne vais tout de même pas vous laisser partir avec ce temps." Max répond:§ "merci vous êtes généreuse". Gégé répond est dit: -"mais mais nos parents vont s'inquiéter s inquiéter si ils voyent qu'on n'est pas rentré ils vont nous gronder" Il commence à faire pratiquement nuit. Marie dit: -"regardez la pluie se calme vous allez pouvoir partir". Ils boivent un verre d'eau puis ils s'en vont. vont Fin [XXX] §


Ponctuation blanche : le texte


Ponctuation blanche : le texte Un élève de Cours Elémentaire 1 (7 ans et deux mois)

U poète Un èt : Phili Philippe Jacottet J tt t (cité ( ité par Favriaud, F i d 2004) Je marche dans un jardin de braises fraiches sous leur abri de feuilles


P Ponctuation t ti blanche bl h / ponctuation t ti noire i

En l'absence d'un signe de ponctuation, que reste-t-il? Un blanc lequel est déjà un signe blanc, signe, le plus primitif et essentiel de tous, un « signe en négatif » (Catach, 1980)


Ponct ation blanche : les mots Ponctuation Exemples de sous-segmentation 7a

Lucile <jour>_<joue> <o>_<au> <plénobile>_<play-mobiles>

7b

Juliette <mê>_<met> <con>_<son> <cêrtête>_<serre-tête>

7 7c

<É>_<Et> É Et ils il <petidéjene>_<petit-déjeunent> tidéj tit déj t

7d

et <toutacou>_<tout à coup> un dragon <aparè>_<apparait>

7e <aujour dui>_<aujoud’hui>, <maifrair>_<mes frères> <sinstal>_<s’installent> sur la table du salon 7f

pendant les vacances, <mêparan>_<mes parents> <ramas>_<ramassent> les <gros>_<grosses> oranges

7g g

Il était une fois dans un <châteaufor>_<château fort>

7h

Pablo <Bouadeleau>_<boit de l’eau>


Ponct ation blanche : les mots Ponctuation

Exemples p de sur-segmentation g 8a

et ont fait un <bau-naum-de-neige>_<bonhomme de neige>

8b

et il fera <cho>_<chaud> et les <fers>_<fleurs> <repou ceron>_<repousseront>


Ponct ation blanche : les mots Ponctuation

Les sous-segmentations g observées varient selon la taille des segments g affectés, en fonction des classes de mots subissant une agglutination : majoritairement les déterminants, les pronoms et les prépositions, précédant ou suivant les noms et les verbes. Ces amalgames p g montrent la difficulté pour les jeunes élèves à catégoriser les parties du discours. Ce constat peut renvoyer à une difficulté de catégorisation inhérente au système de la langue et à la discursivité : glissement de catégorie lexicale / phénomènes de collocation / relations graphie-phonie en lien avec la généralisation de syllabes ouvertes (consonne/voyelle) à l’oral.


Perspectives Deux axes d’étude de la segmentation : i) Approche qualitative pour envisager la diversité des segmentations attestées, afin d d’offrir offrir des descriptions précises des zones du système écrit qui semblent plus fragiles à acquérir par les élèves et tout autant délicates à enseigner. pp q quantitative p pour appréhender pp leur nombre respectif, p , en les ii)) Approche rapportant aux classes grammaticales et aux niveaux scolaires impliqués. Les écrits rassemblés et mis en ligne dans le corpus Ecriscol doivent offrir un ensemble de données exploitables en vue d’élaborer une linguistique des usages qui nous renseigne rétroactivement sur les zones de résistance du système et de fragilité de sa description.


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.