Page 1

SYLED - CLA2T Université de la Sorbonne Nouvelle - Paris 3

Explorations textométriques

Volume 2 : séries textuelles chronologiques Sous la direction de André Salem et Serge Fleury

A. Salem, J-M. Leblanc, Li-Chi Wu, S. A. de Sousa 2009


2

Explorations textomĂŠtriques


3

Explorations textométriques

Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblées ici ont été choisies pour mettre en évidence la très vaste gamme des domaines d'application des méthodes textométriques ainsi que les fonctionnalités des logiciels Lexico3 et mkAlign. Elles sont publiées sous la forme de trois volumes (volume 1 : corpus et problèmes, volume 2 : séries textuelles chronologiques, volume 3 : corpus multilingues).

Lexico3 http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ mkAlign http://tal.univ-paris3.fr/mkAlign/

Lexicometrica http://www.cavi.univ-paris3.fr/lexicometrica/


Explorations textométriques

4

Fonctionnalités de Lexico3

Tableau des fonctionnalités

Pour présenter les fonctionnalités mises en œuvre dans les sections suivantes, nous avons réunis ci-dessous les différentes icônes associées aux fonctionnalités visées dans leur contexte d’utilisation : Fenêtre/barre principale

Fenêtre « carte des sections »

Fenêtre PCLC

Fenêtre « groupe de formes »

Le tableau ci-contre rassemble, nomme et présente brièvement l’ensemble des fonctionnalités du logiciel Lexico3 utilisées pour mener à bien l'exploration textométrique proposée dans les sections suivantes. On pourra aussi se reporter aux différents manuels du logiciel disponibles en ligne.


Explorations textométriques

5

Nom

1

SEGMENTATION

Liste de délimiteurs Par défaut : .,:;!?/_-\"'()[]{}§$

Barre principale

3

CONCORDANCE

Forme (ou Type Généralisé)

Barre principale

4

SEGMENTS REPETES

5

PCLC

6

PARTITION

6 7

VENTILATION CARTE DES SECTIONS

8

GROUPE DE FORMES

5.3

AFC

5.1, 7.2

SPECIFICITES (POSITIVES NEGATIVES)

Paramètres

Localisation

Barre principale Une fois la partition construite, on peut accéder au tableau présentant les Principales Caractéristiques lexicométriques de la partition. Une clé définissant une partition dans le corpus original est du type : <CLE= « valeur »> C’est le nom de la clé qui est donné ici pour construire la partition visée Forme ou groupe de formes délimiteur de section Cette fonctionnalité produit des listes de formes qu’il est possible de mémoriser, d’exporter ou de « projeter » sur les graphiques construits par Lexico3. Elle permet surtout de faire des recherches de formes ou de groupes de formes en utilisant la notion d’expression régulière.

Barre principale

Barre principale

Barre principale

Barre principale

Fenêtre des PCLC Fenêtre des PCLC Partie ou section du corpus

Lexico3, Tableau des Fonctionnalités

Carte des sections

icône


6

Explorations textométriques

Glossaire segmentation - opération qui consiste à délimiter des unités minimales dans un texte. Les unités minimales (pour un type de segmentation) - unités que l’on ne décompose pas en unités plus petites pouvant entrer dans leur composition (ex : dans la segmentation en formes graphiques les formes ne sont pas décomposées en fonction des caractères qui les composent) caractères délimiteurs / non-délimiteurs : distinction opérée sur l'ensemble des caractères qui entrent dans la composition du texte, permettant aux procédures informatisées de segmenter le texte en occurrences (suite de caractères non-délimiteurs bornée à ses extrémités par des caractères délimiteurs). On distingue parmi les caractères délimiteurs: - les caractères délimiteurs d'occurrence (encore appelés "délimiteurs de forme") qui sont en général : le blanc, les signes de ponctuation usuels, les signes de préanalyse éventuellement contenus dans le texte. - les caractères délimiteurs de séquences : sous-ensemble des délimiteurs d'occurrence correspondant, en général, aux ponctuations faibles et fortes contenues dans la police des caractères. - les caractères séparateurs de phrase : (sous-ensemble des délimiteurs de séquence) qui correspondent, en général, aux seules ponctuations fortes. forme ou "forme graphique" : archétype correspondant aux occurrences identiques dans un corpus de textes, c'est-à-dire aux occurrences composées strictement des mêmes caractères non-délimiteurs d'occurrence partition (d'un corpus de textes) : division d'un corpus en parties constituées par des fragments de texte consécutifs, n'ayant pas d'intersection commune et dont la réunion est égale au corpus. ventilation (des occurrences d'une unité dans les parties du corpus) : La suite des n nombres (n = nombre de parties du corpus) constituée par la succession des sous-fréquences de cette unité dans chacune des parties, prises dans l'ordre des parties motif : un ensemble d'objets possédant une propriété reconnaissable. analyse factorielle : famille de méthodes statistiques d'analyse multidimensionnelle, s'appliquant à des tableaux de nombres, qui visent à extraire des "facteurs" résumant approximativement par quelques séries de nombres l'ensemble des informations contenues dans le tableau de départ. spécificité positive : pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique positive de la partie j (ou forme caractéristique* de cette partie) si sa sous-fréquence est "anormalement élevée" dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou supérieures à la sous-fréquence constatée est inférieure au seuil fixé au départ spécificité négative : pour un seuil de spécificité fixé, une forme i et une partie j données, la forme i est dite spécifique négative de la partie j si sa sous-fréquence est anormalement faible dans cette partie. De façon plus précise, si la somme des probabilités calculées à partir du modèle hypergéométrique pour les valeurs égales ou inférieures à la sous-fréquence constatée est inférieure au seuil fixé au départ partie (d'un corpus de textes) : fragment de texte correspondant aux divisions naturelles de ce corpus ou à un regroupement de ces dernières. section : portion de texte comprise entre deux délimiteurs de section (exemple : le paragraphe, etc.). segment répété (ou polyforme répétée) : suite de forme dont la fréquence est supérieure ou égale à 2 dans le corpus.


Explorations textométriques

7

Les expressions régulières avec Lexico3 Dans les sections qui suivent on utilisera à plusieurs reprises la notion d’expression régulière en particulier à travers la fonction «GROUPE DE FORMES ». Nous rappelons ci-dessous brièvement cette notion et les différents opérateurs disponibles avec Lexico3 pour écrire de telles expressions. Les expressions régulières permettent de représenter de manière générique des motifs textuels : un motif est un ensemble d'objets possédant une propriété reconnaissable, par exemple tous les mots terminés par le suffixe « able » ou commençant par le préfixe « pré ». Les expressions régulières permettent ainsi de décrire des portions de texte à l’aide d’opérateurs particuliers. Le tableau suivant rassemble l’ensemble des opérateurs disponibles avec Lexico3 pour écrire des motifs sous la forme d’expression régulière :

Opérateur . (le point)

Fonction

Application

Représente n'importe L'expression "m.l" représente quel caractère comme : mal, mol…

des

séquences

*

0 ou n occurrences du L'expression "com*e" représente des séquences caractère qui précède comme : coe, come, comme, commme…

+

1 ou n occurrences du L'expression "com+e" représente des séquences caractère qui précède comme : comme, commme,…

\b

L'expression "\bcapital" représente des Représente un début de séquences comme : capital, capitale, mot capitalisme…

\b

L'expression ".*isme\b" représente des Représente une fin de séquences comme : syndicalisme, mot capitalisme…

[ ]

L'expression "[aeiou]" représente des séquences comme : un des caractères de l'ensemble des Représente un ensemble voyelles minuscules. de caractères L'expression "[a-z]" représente un des caractères minuscules compris entre a et z.

[^ ]

Représente la négation L'expression "[^aeiou]" représente un des du contenu de l'ensemble caractères parmi ceux qui ne sont pas ceux de de caractères l'ensemble des voyelles minuscules


8

Explorations textométriques

Sommaire Fonctionnalités de Lexico3 ...................................................................................................... 4 Tableau des fonctionnalités .................................................................................................... 4 Glossaire ................................................................................................................................. 6 Les expressions régulières avec Lexico3 ................................................................................ 7 Tutoriel n°2 : Séries textuelles chronologiques...................................................................... 9 1 L’analyse des séries textuelles chronologiques : analyses de la série textuelle Duch8M ... 9 2 Rechercher les formes prototypiques de l’évolution ......................................................... 13 3 Faire varier l’échelle d’analyse ......................................................................................... 22 4 Organiser le retour au contexte ......................................................................................... 23 5 Proposer une interprétation ............................................................................................... 25 6 Conclusion ......................................................................................................................... 26 7 Références ......................................................................................................................... 26 8 Principales fonctionnalités Lexico3 utilisées..................................................................... 27 Vœux présidentiels ................................................................................................................. 29 1 Contexte de la recherche ................................................................................................... 29 2 Affinités et contradictions lexicales .................................................................................. 29 3 L’originalité Gaullienne ? ................................................................................................. 30 4 Analyse factorielle et temps lexical. ................................................................................. 32 5 Des ethos fortement contrastés - Spécificités des marques énonciatives ......................... 32 6 Registres personnels ou chronologie ? .............................................................................. 33 7 Références ......................................................................................................................... 37 8 Fonctionnalités Lexico3 utilisées dans cette navigation .................................................... 37 Essai de textométrie politique chinoise................................................................................. 38 1 Contexte de la recherche ................................................................................................... 38 2 Recueil des données, préparation du corpus ..................................................................... 40 3 La série chronologique 1921-2007 .................................................................................... 44 4 Explorer les dimensions chronologiques du corpus .......................................................... 52 5 Faire varier les échelles de l’analyse : un corpus restreint (1982-2007) ........................... 60 6 Conclusion ......................................................................................................................... 67 7 Références ......................................................................................................................... 67 Le discours de Fidel Castro. Essai de lexicométrie politique. ............................................ 68 1 Contexte de la recherche ................................................................................................... 68 2 Le corpus ........................................................................................................................... 70 3 Exploration lexicométrique ............................................................................................... 72 4 Conclusion ......................................................................................................................... 94 5 Références ......................................................................................................................... 94


Explorations textométriques

9

Tutoriel n°2 : Séries textuelles chronologiques [STC] André Salem

salem@msh-paris.fr

Apprendre à : 1. Constituer une série textuelle chronologique 2. Repérer la structure chronologique 3. Repérer les formes prototypiques de l’évolution 4. Utiliser les outils d’analyse chronologique 5. Organiser le retour au texte Les séries textuelles chronologiques sont des corpus constitués par la réunion de textes similaires produits par une même source textuelle au cours d’une période de temps. Comme nous allons le voir, la prise en compte de la dimension chronologique de tels corpus permet de mettre en évidence des variations qui surviennent au cours du temps dans l’emploi du vocabulaire, de mettre en évidence des moments importants dans l’évolution de celui-ci1. L’analyse des séries textuelles chronologiques s’appuie sur une série de méthodes tout particulièrement adaptées à ces objectifs. Les 96 livraisons qui constituent le corpus Duchn constituent un découpage en unités trop ténues pour permettre aux analyses quantitatives de mettre en évidence des variations chronologiques. Comme nous l’avons vu plus haut, les analyses opérées à partir de ce type de découpage font ressortir des oppositions qui concernent avant tout des différences stylistiques dans la confection des différents numéros. Nous allons voir dans ce qui suit que dès que l’on regroupe les livraisons publiées au cours de la même semaine, de la même quinzaine ou du même mois les analyses textométriques mettent en évidence des évolutions chronologiques liées à l’évolution du vocabulaire au cours du temps. 1 L’analyse des séries textuelles chronologiques : analyses de la série textuelle Duch8M

La partition du corpus Duchn en huit parties regroupant chacune les livraisons parues au cours d’un même mois permet de centrer plus précisément nos observations sur l’évolution du vocabulaire au cours de la période couverte par le corpus.

1

Sur l’analyse des séries textuelles chronologiques on consultera, par exemple [Salem 1993].


10

Explorations textométriques

1.1 Typologie sur les 8 périodes L’AFC réalisée à partir de ce regroupement en 8 parties met en évidence met clairement en évidence la proximité relative des périodes consécutives et leur échelonnement dans le temps.2

Figure 1 AFC sur le corpus Duchn 8 périodes d’un mois x 1420 formes de fréquence ≥10 1.2 Interprétation des analyses chronologiques

==== Repère méthodologique ====

l’effet Guttman

L’AFC réalisée à partir des séries textuelles chronologiques produit souvent des figures particulières, dont l’interprétation doit être faite selon des règles spécifiques. L’existence d’une évolution progressive du vocabulaire au fil des parties d’un corpus chronologique induit un système de distances particulier sur l’ensemble des parties soumises à l’analyse : ● les parties consécutives dans les temps se révèlent plus proches entre elles que les parties séparées par une période de temps plus important.

2

Les traits rouges qui relient les parties consécutives dans le temps on été rajoutés par nous sur le résultat de fournis par l’analyse. Signalons que l’on rencontre très régulièrement ce genre de résultats lorsqu’on analyse des corpus chronologiques (cf. [Salem 19xx]).


Explorations textométriques

11

La décomposition de ces distances selon les différents axes de la représentation factorielle constitue alors une suite d’approximations progressive plutôt plus complexes que le phénomène relativement simple dont elles à rendent compte. Le schéma théorique correspondant à une telle évolution est le suivant : ● le premier facteur rend compte d’une évolution linéaire. ● les facteurs suivants sont des fonctions de degré plus élevé (2, 3, 4, etc.) de ce premier facteur. L’analyse des corpus chronologiques réels relève pour partie de ce schéma même si d’autres oppositions peuvent venir perturber le schéma théorique décrit plus haut. :

Pour en savoir plus : P on consultera par exemple : Salem, A. : « Approches du temps lexical », in Histoire et mesures, XXXXX, Klincksieck, 19xx Guttman 1941]. On trouvera un exposé plus accessible dans [Benzécri 1973] p 192-196, et des applications dans [Van Rijckevorsel 1987]..

Figure 2 Les facteurs issus de l’analyse du scalogramme 20 x20


Explorations textométriques

12

Guide de lecture pour la figure 2

On voit sur cette figure les valeurs prises par les cinq premiers facteurs issus de l’analyse du scalogramme 20x20. Les points dessinent une parabole sur le plan des deux premiers facteurs si on les relie dans cet ordre. L'étude des facteurs suivants montre que ces derniers sont également des fonctions, de degré supérieur, du premier facteur. La prise en compte de facteurs supplémentaires apporte, dans ce cas, une information d'ordre systématique qui est peu intéressante. Tableau 1 Scalogramme de dimension 20 x20 C 1 L1 L2 L3 L4 L18 L19 L20

C 2

C 3

C 4

-

1 1 0 0 1 1 1 0 0 1 1 1 0 0 1 1 ............................... 0 0 0 0 0 0 0 0 0 0 0 0 -

C 18

C 19

C 20

0 0 0 0

0 0 0 0

0 0 0 0

1 1 0

1 1 1

0 1 1

Le modèle de l’effet Guttman nous fournit un éclairage important pour comprendre la disposition des parties sur la courbe présenté à la figure 1. Devant des résultats de ce type on évitera donc de commenter séparément les oppositions constatées sur chacun des axes factoriels pris isolément. Le schéma classique de l'interprétation d'une typologie que l'on affine au fur et à mesure par la prise en compte de nouveaux axes factoriels doit faire place à la reconnaissance d'une situation caractéristique globale liée à l'existence et à la dominance d'une gradation progressive. Au delà de cette mise en évidence, le modèle d’analyse attire notre attention sur les moments particuliers de l’évolution lexicale. La particularité de l’évolution constatée ici à propos de l’évolution de la série Duch8M tient au fait que la période M7 ne s’inscrit pas totalement dans l’évolution d’ensemble. 1.3 Retour à l’analyse des tableaux lexicaux A la différence du scalogramme soumis à l’AFC dans la section qui précède, les tableaux lexicaux tels que celui que nous avons soumis à l’AFC à la section §1 comptent en général plusieurs dizaines de milliers de cellules. De plus, ces tableaux résultent de décomptes réels effectués sur des textes et non d’une construction formelle comme c’était le cas pour le scalogramme. Si les résultats issus de l’analyse factorielle appliquée à ces deux tableaux présentent des similitudes, ils présentent aussi des différences profondes. Dans les tableaux lexicaux, la propriété d’autocorellation des facteurs ne concerne pas tous les facteurs issus de l’analyse bien que les premiers facteurs possèdent en général cette propriété. De plus, comme on a pu le vérifier sur la figure 1, le schéma des distances que l’on construit sur la base d’un tableau lexical ne présente pas la régularité de celui que l’on obtient à partir d’un scalogramme. Comme dans le cas du scalogramme, les premiers facteurs issus de l’AFC du corpus Duch8M possèdent la propriété de rapprocher les périodes consécutives dans le temps. Cette propriété d’une variable s’appelle l’autocorrélation. On vérifie sur la figure XX que tel est bien le cas pour le premier facteur issus de l’analyse du tableau (1420 formes x 8 périodes).


Explorations textométriques

13

L’expérience prouve que dans le cas de l’analyse des tableaux réalisés à partir de séries chronologiques

0,3 0,2 0,1 0 M1

M2

M3

M4

M5

M6

M7

M8

F1

-0,1 -0,2 -0,3 -0,4

Figure 3 Le premier facteur issu de l’analyse du tableau 8 périodes d’un mois x 1420 formes de fréquence ≥10 1.4 Mesures de contiguïté

==== Repère méthodologique ====

le coefficient de Geary

Parmi d’autres coefficients du même type, le coefficient de Geary permet de mesurer l’autocorélation d’une série de nombres : x1, x2,… xn. Une valeur faible du coefficient indique que les valeurs successives sont « en moyenne » plus proches

Pour en savoir plus :

Lebart, L., Salem, A. : Statistiques textuelles, Paris, Dunod, 1994.

2 Rechercher les formes prototypiques de l’évolution

La disposition des 8 parties que l’on voit sur la figure 1, nous laisse penser que l’évolution dans le temps de la série Duch8M n’est pas complètement régulière. Des formes voient leur importance croître au cours du temps mais on peut penser que cette croissance connaît un ralentissement en M7 pour reprendre dans la huitième période. Une des premières questions qui se posent est celle de mettre en évidence tout ou partie de l’ensemble des formes lexicales dont le profil ressemble à cette évolution. Plusieurs méthodes statistiques peuvent nous aider à mettre ces formes en évidence3. Dans ce qui suit nous avons 3

A partir des résultats de l’AFC, les formes possédant une coordonnée factorielle positive et également pourvues d’une forte contribution relative au facteur constituent de bons candidats pour ce type de sélection.


14

Explorations textométriques

sélectionné une classe de formes construite par une méthode de classification hiérarchique à partir des profils des formes.

Figure 4 Quelques formes prototypiques de l’évolution de la série Duchn8M Dans une classe plus large qui contient : patriotes, meilleurs, complots, surplus, accusent, victoire, réjouissance, modérés, revient, tricherie. 2.1 Calcul des spécificités chronologiques Le calcul des spécificités chronologiques permet de mettre en évidence les formes qui ont une ventilation particulièrement centrée sur une période ou un groupe de période consécutives du corpus.4 Ce calcul signale comme le fait le plus saillant, sur l’ensemble du corpus, la répartition de la forme patriotes centrée sur la période M6. Tableau 2 : Spécificités chronologiques majeures du corpus Duchn

4

Sur le calcul des spécificités chronologiques, on consultera [Salem 1993] et [Lebart & Salem 1994]


15

Explorations textométriques

Guide de lecture pour le tableau 2 Le tableau fournit les spécificités chronologiques majeures calculées pour le corpus Duchn muni de la partition en 8 périodes d’un mois. • La première colonne du tableau indique le terme pour lequel le diagnostic de spécificité chronologique a été calculé ; • la seconde F. donne la fréquence du terme dans l’ensemble du corpus ; • la troisième f la fréquence de ce même terme dans la période considérée ; • la quatrième Coeff. fournit le coefficient de spécificité chronologique calculé pour le terme et la période ; • on trouve dans la dernière colonne la période pour laquelle le diagnostic a été calculé.

==== Repères méthodologiques ==== Spécificités chronologiques – Accroissements spécifiques Pour chaque unité textuelle (forme, segment répété, etc.) d’un corpus divisé en périodes, le calcul des spécificités chronologiques permet de déterminer l’intervalle temporel (période ou groupe de périodes consécutives) au cours duquel cette unité connaît un emploi spécifique maximal (positif ou négatif). Les spécificités ainsi calculées sont ensuite triées par coefficient de spécificité décroissant (i.e. les plus remarquables en tête) afin de mettre en évidence les distorsions les plus remarquables dans l’emploi des termes par les différentes périodes (ou groupes de périodes consécutives). Pour chaque période du corpus (à partir de la seconde), le calcul des accroissements spécifiques permet de mettre en évidence le vocabulaire et les segments dont l’utilisation connaîssent un accroissement particulièrement


Explorations textométriques

16

important au cours de la période (accroissements spécifiques positifs) ou au contraire ceux dont l’utilisation se raréfie brutalement après une utilisation plus intensive accroissements spécifiques négatifs).

Pour en savoir plus : Pour un exposé et des exemples d’application de l’analyse des spécificités à l’étude des corpus de textes, on consultera par exemple : Salem, A. : « Approches du temps lexical », in Histoire et mesures, XXXXX, Klincksieck, 19xx Lebart, L., Salem, A. : Statistiques textuelles, Paris, Dunod, 1994. Les diagnostics suivants concernent, dans l’ordre décroissant d’importance : l’abondance des formes constitution et paris dans les deux premières parties du corpus puis, plus loin dans la liste, d’autres diagnostics dont plusieurs concernent à nouveau la période M6 (phélippotin, nouvelle, etc.) ==== Lexico3 ==== Liste des spécificités chronologiques 9 9 9 9

Sélectionner l’icône PCLC (5 ème icône à partir de la gauche) Sélectionner une partie ou un groupe de parties Appuyer sur le bouton SpecDia (à droite de la fenêtre) Les résultats apparaissent dans un onglet spécifique dans la fenêtre centrale. On peut trier ces diagnostics en cliquant sur le titre de chaque colonne.

2.2 Calcul des accroissements spécifiques Tableau 3 Spécificités majeures pour les formes et les segments répétés dans la période M6 du corpus Duch8M Terme

patriotes *phélipotin les patriotes nouvelle c est là que *vincent est là là que c est là conspirateurs ai les accuser diviser mes contre les meilleurs généraux culottes aristocrates

Frq. Tot.

*sans

Fréquence

Coeff.

152 13 91 46 10 15 36 12 28 48 202 4748 10 16 120 298 31

60 13 36 21 8 10 15 8 13 18 48 687 7 9 30 60 13

18 13 11 9 7 7 6 6 6 6 6 6 5 5 5 5 5

10

7

5

133

32

5


17

Explorations textométriques Forme patriotes les patriotes *phélipotin *vincent nouvelle les conspirateurs *camille généraux *sans culottes *bouchotte c est là diviser aristocrates *phélipotins est là c est là que les meilleurs ai victoires victoire mes contre là que accuser en réjouissance de meilleurs réjouissance les conspirateurs en réjouissance des patriotes

Frq. Tot. 111 68 13 10 42 3667 35 8 7 9 24 13 94 6 30 10 22 179 7 20 101 243 12 9 8 29 8 19 8 10

Fréquence 60 36 13 10 21 687 18 8 7 8 13 9 32 6 15 8 13 48 6 11 30 60 8 7 6 13 6 10 6 7

Coeff. 21 13 11 9 8 8 7 7 7 7 6 6 6 6 6 6 6 5 5 5 5 5 5 5 5 5 5 5 5 5


18

Explorations textométriques

Figure 5 2.3 Un vocabulaire « offensif » L’analyse des spécificités positives (unités textuelles particulièrement abondantes dans chacune des parties du corpus) montre que le caractère le plus marquant de cette évolution lexicale réside dans l’augmentation progressive, particulièrement remarquable dans la sixième partie M6, d’un vocabulaire dont on peut remarquer qu’il est lié au conflit politique et que nous appellerons, dans le cadre de cette étude, vocabulaire offensif. Ce vocabulaire, relativement sous-utilisé dans les premières parties du corpus (M1, M2, M3) connaît par la suite une utilisation croissante qui trouve un paroxysme en M6. Du point de vue de cette évolution d’ensemble, la période M7 marque un net recul dans l’utilisation de ce vocabulaire qui sera à nouveau utilisé en M8. On trouve à la figure 6 la ventilation dans les 8 parties du corpus de quelques-unes des formes les plus caractéristiques de cet ensemble : les formes patriotes, nouvelle, conspirateurs5. Comme on le voit sur cette figure, le schéma de l’évolution fréquentielle de ces formes, exprimé à la fois en terme de fréquence relative (à gauche) et en termes de spécificité (à droite), correspond bien au type d’évolution chronologique que nous avons décrit plus haut.

5

J.C Deroubaix a proposé d’appeler ces formes, particulièrement représentatives d’un type de distribution remarquable des parangons de leurs classes respectives.


Explorations textométriques

19

Figure 6 Ventilation des formes patriotes, nouvelle, conspirateurs dans les 8 périodes du corpus Duch8M

==== Lexico3 ==== Statistiques par parties 9 9 9 9

Sélectionner l’icône Statistique par parties (6 ème icône à partir de la gauche) Sélectionner une clé pour créer une partition du corpus (ici : mois) Traîner sur la fenêtre ainsi crée une ou plusieurs forme ou un groupe de formes Choisir le mode de représentation (fréquence relative, absolue ou spécificité) en sélectionnant sous le graphique le bouton correspondant.

2.4 Vers une sémantique de corpus Examinons maintenant la liste des formes les plus spécifiques de la partie M6 (tableau 3). Pour plusieurs de ces formes : conspirateurs, accuser, diviser, fripons, etc., l’appellation vocabulaire offensif paraît tout à fait légitime dans la mesure ou ces termes véhiculent dans leur définition et dans tous leurs emplois discursifs une charge polémique évidente. Pour des termes comme aristocrates ou phélipotins (partisans d’un certain Phélipot), une connaissance, même superficielle, de la période historique permet de reconstituer la charge polémique que ces termes ont pu revêtir dans le contexte de la lutte révolutionnaire. La situation est plus délicate lorsqu’il s’agit d’expliquer l’appartenance à cet ensemble de formes comme nouvelle, meilleurs, etc. auxquelles on a pas coutume d’attacher de valeur polémique dans la langue courante. Pour comprendre la raison de la présence de ces formes dans des situations de conflit, il nous faut retourner à l’ensemble des contextes de leur utilisation. Sur le tableau 4, les contextes de la forme nouvelle à l’intérieur de la partie M6 du corpus ont été triés en fonction de la forme qui suit le pôle. Un rapide examen de ces contextes permet de vérifier que, si l’on excepte les quelques occurrences de la forme qui renvoient à la forme substantivale une (bonne/mauvaise) nouvelle, la majorité des contextes renvoie à la forme adjectivale une nouvelle X. Dans un second temps, on peut vérifier que les contextes droits de cette forme adjectivale renvoient le plus souvent à des entités auxquelles le contexte


20

Explorations textométriques

historique permet d’attribuer une valeur négative, ex : une nouvelle *vendée6, soit à des entités présentées comme négatives par l’emploi de formes explicitement dépréciatives (une nouvelle clique d’aristocrates, une nouvelle clique de modérés).7 Dans ces contextes, les entités auxquelles on fait allusion renvoient à des ennemis X dont on pensait s’être débarrassé dans un passé récent. L’adjectif nouvelle X introduit l’idée que la lutte n’est pas terminée et qu’il convient de la poursuivre. Tableau 4 Concordances pour les formes nouvelle et meilleurs dans la période M6 du corpus Duch8M Partie : 06, Nombre de contextes : 21 lipoterie ; s ' il propose de former une recruter tous les brigands et former une e est venu à son secours . " formons une andelle ; je savais qu ' il existait une colère du *père *duchesne . de voir une gtemps que je furetais pour découvrir la courriers extraordinaires ont apporté la lus . la convention vient de recevoir la bonnets rouges . ces *sans - culottes de l débite gratis . au dénouement de cette ont unis , ne sera pas le jouet de cette ' est pas assez , il faut savoir quelle a *vendée , ou plutôt pour en former une rahisons , serait le connétable de cette urs desseins . quand je découvre quelque : victoire , vive la république . grande ommères , en réjouissance de cette bonne parole . voilà , mon vieux , une grande uronnés , quand ils vont apprendre cette dinaires ont apporté la nouvelle d ' une détruire , lui donnent au contraire une

nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle nouvelle

Partie : 06, Nombre de contextes : 13 vention même ; cries , gueule contre les s manigances des *phélipotins contre les u plus d ' audace ? celui qui traite les s osent lever la crête , et accusent les nt de sauver la république ; dénonce les à la porte de ce comité pour accuser les artes à la convention , en dénonçant les elle branches se raccrocher accusent les , et tous les nains qui asticotaient les ents de *pitt et *cobourg , accusent les vu les plus vils intrigants accuser les s sa fureur de mordre et de déchirer les ssassiner la patrie , qui ont égorgé les

meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs meilleurs

*vendée en mettant en liberté ses bons *vendée en proposant d ' ouvrir les pri *vendée , lui a dit l ' animal cornu , clique d ' aristocrates , de modérés , clique de modérés , de feuillants , d ' conspiration qui est maintenant sur le d ' une nouvelle victoire , on a annonc de la destruction totale des brigands ; fabrique se sont répandus dans les sect farce contre - révolutionnaire , nous d intrigue . après avoir sauvé la *france liste civile paye les rhapsodies qu ' i , mais suivons pied à boule notre endor majesté égorgeante ; *brissot serait so manigance contre les *sans - culottes , , mes amis , leur ai je dit ; femmes , , qui donne le coup de grâce aux aristo qui va faire gueuler , dans tous les co . sa grande colère contre certains jean victoire , on a annoncé que les lignes vie . ils tiennent les patriotes en hal

*montagnards , accuse le comité de sal citoyens , et surtout contre les génér patriotes de bourreaux , d ' assassins patriotes de tous les coups de chien q patriotes . " § le monstre *phélipotin patriotes . les amis de la royauté , l patriotes pour faire revenir sur l ' e patriotes pour qu ' on les oublie , ou patriotes sont rentrés cent pieds sous républicains , et les *sans - culottes républicains ; je me doutais bien que républicains on l ' étouffera comme un républicains subirent tous le supplice

L’examen des contextes de la forme meilleurs dans cette même partie M6, montre que cette forme introduit une distinction, particulièrement insistante dans la période M6, parmi des catégories d’actants présentés jusqu’alors comme positives dans leur totalité. L’apparition de l’adjectif meilleurs devant chacun de ces groupes induit la question de l’hétérogénéité de la catégorie et la possibilité de l’existence d’intrus parmi les gens susceptibles de s’en réclamer. Pour plus de clarté, les meilleurs X sont d’ailleurs présentés comme faisant l’objet d’intrigues, 6

La Vendée est une province française qui a connu un soulèvement armé contre le pouvoir révolutionnaire. Ce soulèvement à fait l’objet d’une répression très dure, qui apparaît comme terminée à l’époque où sont produits ces textes. 7

Un examen similaire sur les contexte de la forme nouveau montre un fonctionnement identique de la forme (nouveau complot, nouveau coup de chien), cette fois dans la partie M5 du corpus.


21

Explorations textométriques

de manigances, d’accusations diverses de la part d’ennemis plus difficiles à identifier. Dans ce sens, la spécificité de la forme meilleurs dans la partie M6 peut tout à fait être rattachée au vocabulaire « offensif » signalé plus haut. 2.5 Le cas de la forme les La forme les, que la méthode des spécificités signale comme particulièrement représentée dans la période M6 du corpus Duchn8M, mélange, compte tenu de la méthode de segmentation en formes graphiques utilisée depuis le début de cette expérience, les occurrences de l’article défini pluriel les et celles du pronom personnel homographe. De plus, comme dans la plupart des textes rédigés en français que nous avons étudiés, cette unité est très fréquente dans le corpus (4 748 occurrences). Quelle signification peut-on accorder à la présence abondante des occurrences de cette forme dans les parties qui recourent fortement au vocabulaire que nous avons qualifié d’offensif ? L’analyse des segments les plus fréquents commençant par la forme les nous donne quelques indications. Comme on pourra le vérifier en annexe B, en se reportant à une liste plus fournie de ces segments, l’article défini les introduit souvent les actants, en majorité hostiles, que nous avons évoqués plus haut en les constituant comme des groupes dont l’unité ne peut pas être remis en cause au moment de l’énonciation : les patriotes (91 occ.), mais aussi : les traîtres (86 occ.), les aristocrates (75 occ.), les fripons (64 occ.), les brigands (63 occ.), etc.. Par conséquence, la condensation des occurrences de , la ventilation de cette forme graphique constitue également un indicateur de l’accroissement du discours offensif que nous avons évoqué lus haut. Ce que l’on peut vérifier dans le paragraphe présenté ci-dessous à titre d’exemple. [§ 487] /…/ les *brissotins, comme les jean-foutres de conseillers de *capet, ont persécuté les patriotes et les ont accusé également d'être des anarchistes. on se sert aujourdhui d'un autre mot pour avilir les ardents républicains. on les appelle des ultrarévolutionnaires, parce que les mots de factieux et de désorganisateurs sont usés; mais foutre, le peuple ne prendra pas le change, ce sont encore les apôtres du modérantisme, les amis de la royauté et les aristocrates déguisés qui les accusent. /…/

Figure 7


Explorations textométriques

22

Ventilations des termes patriotes, les et tous les dans les 8 périodes du corpus Duch8M

3 Faire varier l’échelle d’analyse

Comme on l’a vu plus haut, la division du corpus Duchn en 8 périodes d’un mois permet de mettre en évidence une évolution du vocabulaire employé au fil du temps qui n’était pas repérable sur le corpus découpé en unités trop fines (les 96 numéros). On peut voir sur la figure XX, le résultat d’une analyse portant sur le même corpus découpé cette fois en 16 parties correspondant chacune à un intervalle de temps de deux semaines. Les quinzaines ont été numérotées à l’aide de deux chiffres. Le premier de ces chiffres correspond au mois de parution également mentionné dans l’analyse en 8 parties. Le second indique s’il s’agit de la première ou de la seconde quinzaine.

. Figure 8 AFC sur le corpus Duchn 16 périodes d’une semaine x 1420 formes de fréquence ≥10 Comme on le voit sur cette seconde analyse, la partition du corpus en unités plus fines amène des résultats un peu moins lisibles, du fait de la plus grande variabilité de ces parties. En revanche, l’analyse permet cette fois de porter des jugements sur des périodes de temps plus courtes et par la même de tenter de produire un commentaire qui colle de plus près à la chronologie des événements. Tout le problème devient alors de faire le départ entre les variations qui traduisent des modifications chronologiques survenues sur des périodes courtes, hautement pertinentes pour le chercheur, et des variations qui sont à mettre sur la réduction de la taille des unités


Explorations textométriques

23

statistiques dans lesquelles sont effectuées les décomptes.8 On note que pour cette seconde analyse opérée sur le découpage en quinzaines, les parties proches dans le temps occupent toujours des positions voisines sur le premier plan factoriel. Si l’on conserve le modèle d’interprétation chronologique proposée à partir de l’analyse en 8 parties, on peut préciser le scéma d’évolution proposé plus haut en situant désormais dès la première quinzaine de la partie 7 le repli opéré par le Père Duchesne par rapport à l’évolution chronologique d’ensemble du vocabulaire. 4 Organiser le retour au contexte

Il nous reste à vérifier en retournant au contexte que l’hypothèse de la montée d’un vocabulaire offensif rend bien compte de l’évolution lexicale au sein du corpus étudié. Sur le tableau XX nous avons projeté le type constitué par les formes les plus spécifiques de la partie M6. Le logiciel a ensuite calculé, pour chaque section, la spécificité attachée à ce type dans chacun des paragraphes du corpus. Un seuillage de ce diagnostic a permis de colorier de manière différenciée les paragraphes. Les paragraphes en couleur sombre contiennent en principe un nombre important de formes et de segments appartenant au type étudié (ici, le type : formes les plus fréquentes du vocabulaire spécifique de la partie M6). Remarquons qu’in certain nombre de ces parangons n’appartiennent pas à la partie M6. on en conclura que ces parangons extérieurs anticipent (pour ceux qui sont situés dans la période M5, par exemple) l’expression particulière qui va avoir lieu dans la période M6. Le parangon situé dans la période M8 constitue au contraire un écho de cette expression Parmi d’autres parangons signalés en couleur sombre, le paragraphe sélectionné au tableau XX révèle une tonalité particulièrement offensive. Aux formes qui ont servi à construire le type viennent s’ajouter plusieurs formes comme : rebelles, malveillants, bourreaux, assassins, ecraser que leur faible fréquence a écarté de notre sélection mais qui auraient tout à fait leur place dans liste des termes polémiques. ==== Lexico3 ==== Repérage des parangons pour un type donné 9 9 9 9

8

Construire le type que l’on désire spatialiser (forme, groupe de formes, liste ...) Construire une carte des sections en fixant un délimiteur de section (§ 2.1) Traîner le type sur la carte des sections Cocher la case « seuillage » (en haut sur la carte des sections) après avoir éventuellement modifié le niveau des seuils (bouton à gauche de cette case)

Plusieurs modèles statistiques ont été proposés par les statisticiens pour aider les chercheurs face à ce type d’interrogation.


24

Explorations textométriques

Tableau 5 : Repérage des parangons pour un type donné

H328 [§ 447] celui qui traite les meilleurs patriotes de bourreaux, d' assassins, et qui en même temps s' apitoye sur le sort des aristocrates, n' est il pas un conspirateur, qui veut rallier tous les malveillants, encourager tous les traîtres pour les armer contre la république? n'est il pas un rebelle contre les décrets de la convention /.../ les faux patriotes, les fripons qui ne savent plus à quelle branche s'accrocher, tâtent les modérés et les aristocrates; ils cherchent à faire cause commune pour écraser ensemble les hommes purs qui les pourchassent. 4.1 Les types caractéristiques Une sélection ou zone textuelle est un ensemble d’occurrences sélectionnées dans le corpus. Une zone peut être constituée par un ensemble de partie, de paragraphes ou de phrases consécutives ou non ou encore par une sélection arbitraire d’occurrences éparpillées dans le texte. Pour une zone donnée, on appellera type caractéristique, ou type spécifique toute liste des formes constituées par les formes les plus caractéristiques de la zone. Dans l’exemple ci-dessus, les formes les plus caractéristiques prélevées parmi les spécificités majeures de la partie M6, dont nous avons analysé la ventilation dans les paragraphes du corpus constituent donc un type spécifique pour la zone M6. Le type caractéristique présenté plus haut nous a permis de localiser les parangons de la partie M6 (paragraphes particulièrement saturés en formes spécifiques de la partie M6). Le graphique présenté à la figure 9 permet d’apprécier l’évolution de ce que nous avons appelé le vocabulaire offensif dans un découpage plus fin du corpus.


Explorations textométriques

25

Figure 9 : Ventilation dans les 32 semaines du corpus Duchn du type spécifique T5 (M6) (formes de spécificité <1/105 dans la partie M6) L’histogramme présenté à la figure XX permet avec plus de précision l’apparition et l’augmentation du vocabulaire offensif introduit plus haut. ==== Lexico3 ==== Etude de la variation des types caractéristiques 9 9 9 9

Construire le type que l’on désire étudier (forme, groupe de formes, liste ...) Construire une partition en choisissant une clé Traîner le type sur le graphique Choisir le mode de représentation (fréquence relative, absolue ou spécificité)

5 Proposer une interprétation

Dans le cadre de ce seul paragraphe, nous tenterons d’opérer un rapprochement entre les particularités observées dans la répartition des formes lexicales mises en évidence par les analyse textométriques et les principaux événements survenus au plan politique dans la


26

Explorations textométriques

période couverte par le corpus. En d’autres termes, d’esquisser une tentative d’interprétation au plan historique des phénomènes constatés9. Les premières périodes du corpus (M1-Mx) voient un renforcement des positions défendues par l’auteur du Père Duchesne au détriment des ennemis politiques qu’il ne cesse de dénoncer (Brissotins, i.e. partisans de Brissot, etc.). Les 31 députés girondins qui constituent le parti des modérés, parmi lesquels Brissot, seront exécutés le xxx qui correspond à la période Mxx du corpus. Après cette victoire politique, Hébert entre en opposition avec le mouvement jacobin et plus particulièrement avec les montagnards du Comité de salut public (Robespierre, St Just, etc.). Dans le but d’influencer l’action du Comité de salut public, il redouble d’ardeur dans la dénonciation des conspirateurs, des faux patriotes, des nouvelle(s) clique(s) de modérés, de ceux qui veulent allumer une nouvelle Vendée et appelle à l’union des meilleurs patriotes. Les jacobins réagiront d’abord par la voix de Camille Desmoulins qui attaquera Hébert dans son journal Le vieux cordelier (période M7)10. Le Père Duchesne tentera dans un premier temps de reprendre l’offensive en faisant à nouveau appel aux thèmes qui ont assuré sa popularité des premières périodes : lutte pour la déchristianisation, lutte contre la présence de nobles à la tête des armées. Devant l’échec de cette tentative, il reprendra, sans succès au cours de la dernière période M8 qui verra son arrestation et son exécution, l’offensive amorcée en M6. 6 Conclusion

L’exploration du corpus Duchn, à l’aide des méthodes textométriques met en évidence une importante évolution du vocabulaire au cours des huit mois sur lesquels s’étend le corpus. Les analyses quantitatives sur la partition en 96 livraisons, mettent en évidence des différences stylistiques liées à une alternance de genre entretenue par l’auteur du corpus. De ce fait, elles ne permettent pas d’apprécier l’évolution lexicale du corpus. Un regroupement des livraisons en périodes de 30 jours consécutifs permet par sa part de cerner l’évolution lexicale de manière nettement plus satisfaisante. Les méthodes quantitatives permettent alors tout à la fois : de mettre en évidence un vocabulaire offensif qui trouvera un emploi particulièrement remarquable dans la période M6. Le retour au contexte permet de préciser ces analyses. 7 Références

Lamalle C., Salem A., « Types généralisés et topographie textuelle dans l’analyse quantitative des corpus textuels », in actes des 6emes journées d’analyse statistique des données textuelles, Inria, St Malo, 2002 http://www.cavi.univ-paris3.fr/lexicometrica, 1997

9

Cette tentative d’interprétation est née dans le cadre d’une collaboration étroite et ancienne entre l’auteur de ces lignes, nullement spécialiste de ces problèmes et des historiens spécialistes de la période concernée, tout particulièrement J. Guilhaumou, connaisseur des langages de la Révolution française.

10

On trouve d’ailleurs, dans le journal de Hébert, des traces de cette polémique en M6 et M7 qui concernent, le /gentil /renégat/ benêt/ niais/ Camille.


27

Explorations textométriques

8 Principales fonctionnalités Lexico3 utilisées

N° 2 5 5.6 5.6 4 8 7

Fonctionnalité

Résultat

Partition (clé a, pour année) Principales car lexicom (PCLC) Accroissement du vocabulaire (corpus) Accroissement du vocabulaire (P92, P93)

Tableau 2 Figure 1 Figure 2

Segments Répétés (seuil minimal =2) Sélection d’un Type (occurrence de SR long>10) Carte des sections (paragraphes, présence SR de long>10)

Figure 3


28

Explorations textomĂŠtriques

Annexe


Explorations textométriques

29

Vœux présidentiels [Vœux] Jean-Marc Leblanc leblanc.jeanmarc@free.fr Résumé : Un corpus de vœux présentés français à l’occasion de la nouvelle année par les différents présidents de la cinquième république permet d’étudier les évolutions lexicales survenues dans ce type d’intervention au cours des quarante dernières années. On esquisse ensuite une étude de l’énonciation de chacun des locuteurs notamment du point de vue de l’emploi des pronoms personnels. Abstract : A corpus of New Year addresses by the French President of the Republic offers an opportunity to study the lexical evolutions in this type of speech during the last forty years. An analysis can then be carried out on each speaker’s enunciation particularly regarding the use of personal pronouns.

1 Contexte de la recherche

Le corpus rassemble les quarante-trois messages de vœux adressés l’occasion de la nouvelle année par les cinq présidents qui se sont succédés à la tête de la cinquième République de 1959 à 2001. Ce corpus lexicométrique compte 41 125 occurrences pour 5 200 formes qui se répartissent de la manière suivante entre les différents chefs d’état. Partie De Gaulle Pompidou Giscard Mitterrand Chirac

occurrences 11498 2850 6066 11991 8720

formes 2407 890 1360 2521 1798

hapax 1440 577 833 1490 1048

Fréq. Max Forme 531 de 118 de 262 de 546 de 421 de

Tableau 1 Principales caractéristiques de la partition locuteur 2 Affinités et contradictions lexicales

L’analyse factorielle réalisée selon la partition locuteur caractérise les grandes oppositions du corpus. Sur le deuxième axe, un clivage essentiellement diachronique oppose le lexique des trois premiers présidents aux deux derniers. Sur le premier axe, De Gaulle s’oppose à l’ensemble de ses successeurs. On observe par ailleurs des proximités entre Giscard et Pompidou d’une part et Mitterrand Chirac par ailleurs, dont on peut penser qu’elles sont dues en partie à la chronologie et à l’événementiel, d’autant que l’opposition la plus forte, matérialisée par la diagonale de l’analyse factorielle réside entre De Gaulle et les deux derniers présidents de la République.


Explorations textométriques

30

Figure 1 : AFC du corpus vœux selon la partition locuteur. La représentation factorielle ne laisse en rien présager d’une quelconque affinité entre De Gaulle et Mitterrand, à qui l’on prête souvent volontiers quelques analogies dans leur façon de concevoir la fonction et quelques traits communs dans leur vision de la France. A cela plusieurs explications peuvent être avancées : vingt trois années séparent la première intervention du général De Gaulle de celle de François Mitterrand qui clôt le corpus. Il est donc probable que les usages lexicaux aient subi une importante mutation au cours de cette période. D’autre part l’analyse factorielle met en évidence les seules oppositions relevant de la distribution du stock lexical. C’est pourquoi il convient de pousser plus avant l’analyse avant de tirer des conclusions que pourrait inspirer une interprétation hâtive de la configuration de la représentation factorielle. Celle-ci n’en a pas moins le mérite de susciter des interrogations, d’orienter l’analyse. 3 L’originalité Gaullienne ?

La position particulière qu’occupent les textes produits par le général De Gaulle sur la représentation factorielle soulève quelques questions. On peut se demander s’il n’est pas plus proche discursivement et lexicalement des pratiques de la quatrième République. Pour tenter de répondre à cette interrogation, nous avons, à titre expérimental, intégré les seuls messages de vœux existants des présidents de la Quatrième République. (Vincent Auriol, décembre


31

Explorations textométriques

1946, 1948, 1953). Étonnamment ces discours se placeraient au voisinage de Pompidou et Giscard, de Gaulle conservant la singularité qu’on a pu observer. Ainsi, la chronologie et l’événementiel ne seraient pas les seuls facteurs explicatifs de ce phénomène. S’agit-il alors d’une opposition relevant de registres personnels ? Il est probable que la personnalité des locuteurs soit pour beaucoup dans la configuration de l’analyse factorielle. Une seconde A.F.C, réalisée selon la partition année conforte cette hypothèse.

Figure 2 : AFC du corpus vœux selon la partition année. Points superposés :93(88), 90(83), 62(60).

De cette deuxième représentation on retiendra la configuration remarquable de l’AFC où la disposition des années permet d’identifier aisément les locuteurs. L’ensemble des interventions du général De Gaulle se trouve regroupé dans une zone restreinte du plan, en marge de toutes les autres années du corpus. Il en ressort que son discours est à la fois très différent des autres dans le lexique et très stable d’une année sur l’autre. La faible dispersion des années 1996-2001 et 1981-1995 nous conduit à établir une conclusion identique : Bien que proches l’un de l’autre, les deux derniers présidents affichent une grande stabilité lexicale. Le constat est quelque peu différent pour Giscard et Pompidou. L’amplitude est beaucoup plus importante. On y verra peut-être la volonté novatrice de Giscard dans sa stratégie de communication et la recherche de compromis de Pompidou, entre rupture et continuité, fidélité au général De Gaulle et volonté de renouvellement. Si la première représentation illustre les affinités et divergences des locuteurs, la seconde souligne la grande stabilité des présidents, plus particulièrement de Gaulle, Mitterrand et Chirac. Au-delà de l’aspect chronologique, les A.F.C semblent mettre en évidence des oppositions de registres personnels.


Explorations textométriques

32

4 Analyse factorielle et temps lexical.

La diachronie semble cependant constituer un facteur déterminant de ces représentations factorielles. L’AFC sur les locuteurs en particulier représente leur succession selon l’ordre chronologique. Pour autant, ces représentations ne reproduisent pas précisément le modèle de l’effet Guttman relatif au phénomène de temps lexica11l. En effet, d’après ce phénomène de temps lexical, si le seul facteur de modification du lexique était le temps, les points portés sur les deux axes factoriels seraient ordonnés selon une courbe idéale, incurvée en son centre. Ainsi, les années ou périodes contiguës seraient proches sur le graphique. Le facteur chronologique est pourtant nettement visible. A cela plusieurs explications. Les messages sont relativement courts, ce qui rend difficile l’émergence de faits liés à la chronologie, en particulier sur la partition par année. De plus, bien que les conditions d’énonciation soient quasiment identiques, on ne peut considérer qu’on est en présence d’un locuteur collectif mais bien d’une succession de locuteurs. Il est donc probable que les ethos différents viennent brouiller le phénomène chronologique. Notons par ailleurs que bien que la périodicité soit régulière, le corpus se place plutôt dans la ponctualité que dans la continuité. 5 Des ethos fortement contrastés - Spécificités des marques énonciatives

La personnalité des locuteurs transparaît au travers de profils énonciatifs contrastés. Le tableau qui suit synthétise la répartition des emplois des pronoms personnels et adjectifs possessifs en termes de spécificités. De Gaulle Pompidou nous je j' vous on notre nos mes votre vos moi me m' ma

+E02 -E16 -E06 -E25 -E02 +E03 +E02 -E08 -E09 -E06 -E02 -E03 -E02

+E03 -E03 -E03 +E03

V.G.E

Mitterrand

Chirac

-E02 +E05

-E04 +E02 +E05

+E03

+E10 -E05

-E03 +E02 +E03

+E20 -E02 -E04 +E03 +E11 +E11 +E02

+E03 -E02 -E03 +E02 +E02 +E02

Figure 5 : Spécificités des pronoms personnels et adjectifs possessifs.

11

Cf., sur ce problème du temps lexical le tutoriel n°2 du présent volume.

-E02 -E02 -E03


33

Explorations textométriques

Figure 6 : Pronom personnels et adjectifs possessifs. Histogramme des spécificités Ces oppositions relèvent-elles uniquement de la personnalité du locuteur où trouvent-elles également leur origine dans une modification plus profonde du genre vœux présidentiels au cours des années que nous étudions ? 6 Registres personnels ou chronologie ?

Les spécificités chronologiques font apparaître un phénomène général qui n’est pas simplement le fait de personnalités différentes mais témoigne d’une évolution du discours politique, et de la conception de la fonction présidentielle. Il semblerait qu’au fil du temps le président de la République assume son énoncé, s’implique d’avantage dans son propre discours. Le tableau des spécificités évolutives de la première personne du singulier montre une tendance à la personnalisation du discours centrée sur le je qui ne semble pas cependant se poursuivre chez Chirac avec la même intensité. L’observation des fréquences relatives de la première personne du singulier chez le dernier président de la République affine ce constat.


34

Explorations textométriques

Figure 7 : Fréquences relatives des marques de la première personne du singulier. On note une diminution sensible des marques de la première personne du singulier (le pronom personnel suivant globalement la même évolution que le groupe je, j’ mon, ma, mes, me, m’, mien(s), mienne(s)). La personnalisation du discours n’a cessé de décroître sur l’ensemble de la période considérée, malgré un pic important en 1997. Cette période coïncidant avec le début de la cohabitation, doit-on en déduire que le chef de l’État s’est alors personnellement impliqué dans le discours pour revenir sur les raisons de la dissolution, pour redéfinir son rôle, se présenter comme le garant des institutions, légitimer sa présence dans la nouvelle configuration politique qui se présente à lui ? Autour du je présidentiel… Examinons maintenant le statut du je présidentiel réduit à sa forme graphique en explorant ses espaces cooccurrentiels dans les messages de vœux aux Français.

Figure 8 : Carte des sections (paragraphe) de la forme je sur la partition locuteur. L’outil carte des sections établit la distribution de la forme personnelle dans la linéarité du texte, délimité en paragraphes. Dans cette « topographie textuelle », [Lamalle, Salem, 2002] chaque carré du tableau 5 représente un paragraphe du texte. Les unités colorées indiquent les paragraphes qui cotiennent au moins une fois la forme recherchée. Au moyen de cette cartographie, on


35

Explorations textométriques

appréhende des usages, des positionnements énonciatifs en termes de fréquences mais aussi de rythme, de cadence. Entre de Gaulle et Giscard, par exemple, on note deux configurations : de longues successions de paragraphes contenant je chez Giscard, de rares îlots chez De Gaulle. Le calcul des cooccurrents spécifiques met en évidence, à partir des sections délimitées par cette cartographie, les formes spécifiques des paragraphes attestant le je. La liste produite porte sur l'ensemble du corpus et ne présente que les formes dont la valeur absolue de l’indice de spécificité est supérieure à 2. Les seuils sont de 5%, la fréquence minimale des formes considérées est de deux occurrences. Ce calcul ne diffère pas du modèle de spécificité si ce n’est que les parties sur lesquelles porte la comparaison ne sont plus constituées sur la base d’une partition en locuteurs mais à partir de la présence ou de l’absence du pronom personnel je. Le diagnostic de spécificité est alors établi sur la base d’une partition binaire : l’ensemble des sections dans lesquelles la forme analysée est présente par rapport à l’ensemble du corpus. Les coefficients indiqués au tableau qui suit correspondent donc à des indices de spécificité. Une spécificité positive signifie qu’une forme considérée a tendance à apparaître de façon plus importante que le modèle théorique ne le laissait prévoir dans les contextes du pôle analysé, par rapport aux autres sections du corpus, une spécificité négative indiquera un rejet ou un sous-emploi. En d’autres termes, ce calcul appliqué aux sections permet de repérer les fréquences remarquables au voisinage de la forme pôle. Tableau 9 : Cooccurrents spécifiques majeurs de la forme je F orm e je s o u h a ite vous voeux m es s a is v o u d ra is p en se s u is fo rm e v iv e h eu reu se bonne veux c ro is que d ire d is c o m p a trio te s ai année vos ch ers m e fra n ç a is v o tre chacune m er

F r q . T o t. F ré q u e n c e 344 344 65 64 326 227 80 62 102 75 19 19 19 19 22 21 26 24 17 16 60 42 22 19 76 51 11 11 11 11 677 336 48 35 12 12 62 43 41 31 205 110 39 27 55 37 22 17 142 80 59 38 25 20 19 14

C o e ff. 51 23 23 10 10 8 8 7 7 5 5 5 5 5 5 5 5 5 5 5 4 4 4 4 4 4 4 3

F orm e j g ra n d e u r s o ir ad resser m a nom m on a m is fra te rn ité s e u ls fra n c e v iv e n t m v o is m in is tre fa m ille trè s fa is fra n ç a is e s d o iv e n t quel la a lg é rie é c o n o m iq u e qu peut eu ro p e p art nous

F rq . T o t. F réq u en ce 88 51 7 7 42 28 7 7 20 15 30 21 29 19 11 10 19 14 14 12 302 150 10 9 23 17 6 6 6 6 25 17 27 18 6 6 41 27 14 1 12 0 1397 546 21 3 46 10 313 108 50 11 99 28 32 3 655 217

C o e ff. 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 -3 -3 -3 -3 -3 -3 -3 -3 -5 -7

Les spécificités positives montrent la forte proportion des verbes qui gravitent autour du référent-locuteur. (Tableau 6) : verbes marquant la volition (souhaite, voudrais, forme [le vœux], veux), le jugement (pense crois), factifs (fais +3), verbes d’état et auxiliaires (suis, ai), énonciatifs (dis), verbes marquant la connaissance (sais, vois ), quelques infinitifs (dire, adresser), constituent l’essentiel du système verbal restitué par la recherche des cooccurrents spécifiques. On note aussi de façon plus inattendue la présence d’un verbe à la troisième personne du pluriel : vivent (+3), dont on trouve les occurrences dans de fréquentes adresses aux Français qui vivent à l’étranger (De Gaulle, 1967), qui vivent dans la solitude (V.G.E,


36

Explorations textométriques

1978), qui vivent dans la peine (Mitterrand, 1986), qui vivent dans la difficulté quotidienne (Mitterrand, 1988). Ces messages sont donc particulièrement marqués par des verbes de « circonstance », (souhaiter, adresser former), par des volitifs et des verbes exprimant la connaissance. Cependant, cette interprétation sémantique a priori doit être corrigée par l’examen des contextes. Une analyse approfondie indique que la forme voudrais est intimement liée au référent de l’interlocuteur, sur-employée chez les locuteurs qui précisément multiplient les marques énonciatives en direction des Français. La valeur n’est donc que rarement purement volitive, les emplois étant essentiellement métadiscursifs, modalisateurs, intervenant dans des annonces de plan où bien souvent le locuteur s’adresse à une certaine catégorie de Français (Je voudrais d’abord exprimer ma sympathie à toutes celles et à tous ceux qui vivent ces derniers jours de 1999 dans l’épreuve. [Chirac, 1999]). Giscard et Pompidou qui entretiennent un lien plus étroit avec les Français emploient cette forme dans une modalité directive qui intensifie la relation (Je voudrais que vous sentiez, que vous compreniez…). Les contextes de veux montrent également une tendance vers des emplois métadiscursifs ou explicatifs (Je veux dire), même si la volition apparaît parfois chez Chirac et Mitterrand dans une faible mesure. Quant aux verbes exprimant le jugement, on remarque que penser intervient essentiellement dans des énoncés énumératifs (Je pense aux artisans, je pense aux agriculteurs, je pense à certaines petites entreprises) mais bien souvent affectifs et empathiques, liés à l’évènementiel (Et je pense aussi à nos compatriotes de Toulouse…[Chirac, 2001]) ou plus généralement destinés à adresser un geste en direction des Français les plus démunis, évocation qui devient systématique à partir de Pompidou. (Je pense spécialement à ceux de nos aînés qui vont franchir seuls le cap du nouvel an. [Chirac, 2000], Je pense à celles et à ceux d’entre vous qui connaissent le deuil, les chagrins, le poids de la maladie et de la solitude, qui souffrent du chômage. [Mitterrand, 1981]). Parmi les verbes exprimant la conscience et la connaissance, l’examen des contextes montre que la forme sais entre essentiellement dans des modalités allocutives. Les emplois sont avant tout des renforçateurs d’empathie, plus particulièrement chez Chirac, parfois constitutifs d’un procédé argumentatif. Cette marque d’empathie introduit dans de nombreux cas chez Chirac une relance incitative et mobilisatrice, que l’on peut synthétiser dans le tableau 10. Tableau 10 : Marques de l'empathie chez J. Chirac et relances incitatives. L’empathie dans les messages de vœux, les cognitifs…


Explorations textométriques

37

L’examen des verbes associés à la première du singulier à révélé une caractéristique importante des messages de vœux : l’empathie et la compassion, au moins à partir des années Pompidou. Ces emplois s’accompagnent souvent de procédés argumentatifs articulés autours de deux schémas essentiels : Je sais donc, je sais mais…Ceci nous engage à explorer deux pistes nouvelles : quelles autres traces de l’empathie peut on relever au sein des vœux présidentiels ? Les cognitifs y tiennent ils une place particulière comme on l’a constaté avec le verbe savoir ? Groupe de formes sais, vois, constate, ….distribution par locuteur et par année.

7 Références

Lamalle C., Salem A., « Types généralisés et topographie textuelle dans l’analyse quantitative des corpus textuels », in actes des 6emes journées d’analyse statistique des données textuelles, Inria, St Malo, 2002

8 Fonctionnalités Lexico3 utilisées dans cette navigation

N° 2 5 5.6 5.6 5.6 4 8 7

Fonctionnalité

Résultat

Partition (clé a, pour année) Principales car lexicom (PCLC) Accroissement du vocabulaire (corpus) Accroissement du vocabulaire (P92, P93) Accroissement du vocabulaire ([P92,P93] et [P89,P90])

Tableau 2 Figure 1 Figure 2 Figure 4

Segments Répétés (seuil minimal =2) Sélection d’un Type (occurrence de SR long>10) Carte des sections (paragraphes, présence SR de long>10)

Figure 3


Explorations textométriques

38

Essai de textométrie politique chinoise Les congrès du Parti Communiste Chinois (1921-2007)

[Congrès PCC] André Salem, Li-Chi Wu12

salem@msh-paris.fr, wulucie@yahoo.com.tw

Résumé : L’analyse textométrique d’une série de discours prononcés par les principaux dirigeants du Parti communiste chinois, à l’occasion des congrès survenus depuis sa création, permet d’étudier l’évolution du vocabulaire employé au cours de son histoire. Des typologies d’ensemble permettent de vérifier le caractère progressif de cette évolution. L’analyse des spécificités majeures pour chacune des périodes permet d’en dégager le vocabulaire caractéristique. L’analyse des chroniques spécifiques permet de localiser des moments importants de l’évolution autour desquels on peut ensuite organiser avec précision le retour au contexte. Les mêmes méthodes appliquées à l’étude d’une série plus restreinte (1982-2007) permettent de décrire plus précisément les évolutions survenues dans la dernière période. Mots-clés : Textométrie, séries textuelles chronologiques, discours politique chinois Abstract : The textometric analysis of a series of speeches made by the main leaders of the Chinese Communist Party during its Congress provides insight into the evolution of vocabulary used since the party's creation. Global typologies of the text show the progressive character of this evolution while the study of major specificities for each one of these periods yields its characteristic vocabulary. The analysis of specific chronicles helps locate important moments in the evolution of these speeches and points out precise areas of contextual interest. The same methods when applied to a narrower period (1982-2007) help describe more precisely the evolutions which occurred in the last chronological period. Keywords : Textometrics, textual time series, Chinese political discourse

摘要

:

本文运用词量法来分析自中国共产党成立以来,历届重要领导人在共产党代表大会上所作的报告,从而对报告中词汇使用 的历史演变进行研究。可以通过整体类型学来验证这一演变的特性。通过历时性特征分析,可以勘测出词汇使用变化的几 个关键时期,并将其回归到上下文从而进行详细考察。文章最后,特别针对党代表大会的后半阶段(19822007),采用相同的研究方法进行分析,更详尽地推敲此时期词汇的演变。

关键词 : 词量法 ; 年代文本系列 ; 党代表大会报告 1 Contexte de la recherche

Il y a peu de temps, l’étude que nous présentons aujourd’hui, avec des défauts et des lacunes que nous espérons provisoires, n’aurait pu être envisagée. En effet, si la textométrie des séries chronologiques connaît depuis une dizaine d’années de nombreuses applications portant sur des corpus rassemblés dans des sphères d’activités diverses, le traitement textométrique de larges séries chronologiques de textes chinois restait, pour plusieurs raisons, totalement inaccessible tout au long de ces dernières années. D’abord les difficultés inhérentes à la prise en charge informatique des textes rédigés dans des langues qui, à l’instar du chinois et à la différence des langues occidentales, nécessitent pour leur transcription un très grand nombre de signes graphiques. En second lieu, l’impossibilité 12

Les auteurs remercient Miao Jun, Serge Fleury et Cédric Lamalle pour leur aide et leurs conseils précieux dans la réalisation de ce travail.


39

Explorations textométriques

qu’il y avait jusqu’à ces derniers temps à se procurer, à des fins d’analyse textométrique, des matériaux textuels concernant une longue période chronologique, librement utilisables et présentés sur support informatisé avec une homogénéité suffisante. Toutes ces limites sont brusquement tombées dans la dernière période du fait d’un développement rapide et parallèle de deux séries d’activités. D’une part, des systèmes d’encodage et de restitution des textes adaptés à la grande variété des systèmes d’écriture existant dans le monde ont été adoptés par l’ensemble de la communauté des informaticiens. Parallèlement, des standards de présentation se sont progressivement imposés à tous les internautes désireux de manifester une présence sur le web (organisations internationales, partis politiques, institutions gouvernementales et indépendantes, entreprises commerciales, etc.). La nécessité de mettre à disposition du public un certain nombre d’archives textuelles présentant le périmètre de l’activité de l’intervenant, permettant également d’appréhender son histoire, a progressivement été intégrée au nombre de ces standards. Ces circonstances nous ont permis de recueillir sans trop de difficultés un vaste corpus de textes politiques chinois qui s’étend sur près d’un siècle afin de le soumettre à des analyses textométriques dont les résultats font l’objet du présent article. Avant de passer à l’exposé des résultats obtenus, il convient de préciser notre propre vision critique du type d’activité auquel nous sommes livrés à propos de ces textes. Notre sentiment est que nous avons eu la chance d’être parmi les premiers à projeter, sur une masse de textes produits dans des conditions historiques que nous connaissons de manière insuffisante, un éclairage textométrique que nous avions appris à maîtriser sur d’autres séries textuelles chronologiques rassemblées selon les mêmes principes dans des langues et à des époques différentes. Nous sommes conscients que cet avantage méthodologique ne nous a pas transformés, pour autant, en spécialistes de la période historique considérée. Tout au long de cette étude, nous avons tenté de résister aux tentations de réintroduire par un biais ou un autre, afin d’expliquer les variations les plus importantes constatées au plan textométrique, les quelques éléments d’histoire de la période connus de tous. Dans certains cas cependant, il nous a semblé indispensable, pour la compréhension du lecteur, d’établir un lien entre des résultas obtenus de manière formelle et certains éléments du contexte historique dans lequel les textes avaient été produits. Pour souligner le caractère hétérogène des remarques de ce dernier type par rapport aux résultats que nous avions obtenus en utilisant des méthodes de traitement formalisées et automatisées, nous avons fait précéder ces tentatives d’interprétation de la mention commentaire. Ces commentaires constituent dans notre esprit autant d’incitations adressées aux spécialistes de l’étude des textes politiques chinois à prolonger, en se servant de leur connaissance du contexte sociopolitique, l’indispensable processus d’interprétation des constats obtenus à l’aide des procédures textométriques formalisées. Ainsi, nous nous sommes efforcés de présenter nos analyses de la manière la plus vérifiable possible et de proposer des modes de description compréhensibles par d’autres chercheurs. Notre but serait que les constats que nous avons opérés puissent leur être utiles, qu’ils confirment certaines de leurs connaissances, en infirment d’autres, qu’ils suggèrent surtout de nouvelles pistes de recherche multidisciplinaires dans un cadre de description stabilisé. Nous espérons que l’exposé qui suit pourra convaincre le lecteur que nous ne nous sommes pas trop écartés de ces principes posés au départ.


40

Explorations textométriques

2 Recueil des données, préparation du corpus

Pour cette première étude sur l’évolution du discours politique chinois, nous avons choisi de rassembler des textes produits dans les congrès du Parti communiste chinois (PCC), organisation politique créée à Shanghai en 1921 et au pouvoir en Chine populaire depuis 1949. Pour chacun des dix-sept congrès, qui se sont tenus durant cette période, nous avons sélectionné le discours prononcé par le principal responsable du parti. Nous avons appelé CongPCC ce corpus chronologique qui s’étend sur près de 90 ans. L’ensemble du corpus compte 331 239 occurrences de 2 336 caractères (hanzi) différents. Le corpus peut être divisé en dix-sept parties qui correspondent chacune à un des congrès dont on trouvera la liste au tableau 3. 2.1 Rappels sur le chinois et son système d’écriture13 Le chinois possède un système d’écriture dans lequel chaque caractère correspond plus ou moins à un morphème et à une syllabe de l’oral. Les caractères (appelés aussi sinogrammes ou hanzi) utilisés par ce système d’écriture se comptent en milliers (parfois en dizaines de milliers, si l’on tente d’inclure des graphies rares ou tombées en désuétude)14. Cette profusion de signes graphiques a longtemps constitué un obstacle majeur au traitement des textes chinois sur ordinateur. L’avènement du système Unicode permet désormais de coder l’ensemble des caractères chinois, aussi bien sous leur version traditionnelle que sous la forme simplifiée adoptée en 195015.

Bien que l’écriture chinoise n’intègre pas d’espace entre les unités lexicales16, la notion de mot est présente dans la grammaire chinoise. Pour appréhender un texte, le lecteur chinois découpe la chaîne textuelle en unités distinctes, à partir de sa connaissance du lexique. Les mots chinois sont composés d’un ou de plusieurs sinogrammes. Les textes s’écrivent sans que des espaces ne viennent séparer les mots (cf. tableau 1, infra). Un même mot peut avoir différentes fonctions grammaticales en fonction du contexte dans lequel il entre (ex :來回 lai hui verbe : aller et venir17 ; substantif : un aller-retour ; proposition adverbiale : en allant et revenant). La plupart du temps, le genre et le nombre des noms ne sont pas marqués explicitement (ex : 工人gong ren ouvrier / ouvriers / ouvrière/ ouvrières). 2.2 Segmentation du texte

Les comparaisons textométriques supposent que l’on définisse des unités de décompte dont on étudiera les variations de fréquence au sein des différentes parties du corpus. 13

On trouvera une description rapide du système d’écriture chinois et des problèmes du dépouillement automatique des corpus de textes chinois dans [Miao et Salem 2008] pour une description plus complète du système d’écriture chinois, on se reportera par exemple à [Alleton 1997].

14

Le Kangxi zidian (Dictionnaire de Kangxi), élaboré sur commande impériale en 1716, compte au total 47 035 caractères, intégrant des raretés, des variantes et des sinogrammes obsolètes. Le Xinhua zidian (Dictionnaire Xinhua), la référence actuelle pour ce qui est des dictionnaires de caractères, en compte environ 10000.

15

A partir de 1952, le gouvernement de la République Populaire de Chine commence à promouvoir un système d’écriture en caractères simplifiés, appelés à remplacer les caractères traditionnels. Un comité pour la réforme de l’écriture est créé pour superviser cette tâche. En 1964, une liste de caractères simplifiés, qui sera plusieurs fois mise à jour par la suite, est publiée dans un document intitulé « Table intégrale des caractères chinois simplifiés » (简化字从表 jianhua zi congbiao).

16 17

A l’instar de nombreux systèmes d’écritures de l’antiquité gréco-latine.

Dans ce qui suit, nous nous efforcerons de respecter les conventions typographiques suivantes : les séquences textuelles citées en chinois sont suivie de leur transcription pinyin (en italique) ainsi que de leur traduction française, ex : 工人 gong ren ouvrier.


41

Explorations textométriques

Tableau 1 Extrait du discours du secrétaire général du PCC au 17e congrès (2007) reproduit sur le site web de l’agence Xin Hua 新华网18

Pour pouvoir mettre en œuvre des comparaisons textométriques, on utilise dans un premier temps des outils informatiques qui permettent de découper automatiquement au fil du texte les unités dont on pourra ensuite décompter les occurrences. Plusieurs logiciels réalisent désormais des segmentations automatiques des textes chinois en mots. Pour dépouiller notre corpus, nous avons utilisé un seul de ces logiciels dans le but d’obtenir une cohérence maximale pour l’ensemble du dépouillement19. On peut voir, dans le haut du tableau 2, un extrait de ce même texte segmenté automatiquement. On trouve une traduction de ce dernier extrait dans le bas du même tableau. Des caractères ‘#’ ont été insérés pour délimiter les divisions qui correspondent aux paragraphes que l’on peut repérer dans le texte original20. 18

Téléchargeable sur : http://news.xinhuanet.com/ziliao/2004-11/24/content_2255749.htm.

19

Dans le présent travail, nous avons utilisé exclusivement le logiciel : ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System), mis au point par Kevin Zhang à l’Institute of Computing Technology, Chinese Academy of Sciences. Signalons que l’observation de la ventilation des unités ainsi découpées dans le corpus nous a quelquefois conduits à corriger des erreurs manifestes produites par la segmentation automatique du texte (segmentations différentes pour une même séquence de caractères dans différentes portions du texte). 20

L’écriture chinoise possède ses propres signes de ponctuation. Pour faciliter le traitement informatique par des logiciels qui ne prennent pas encore en compte la ponctuation chinoise, nous avons remplacés les principales ponctuations du chinois par leurs équivalents occidentaux. Le caractère de ponctuation demi-virgule qui sert en chinois à séparer les


42

Explorations textométriques

Tableau 2 Corpus textométrique CongPCC Le début du discours de 2007 balisé et segmenté en mots suivi de sa traduction française #<cong=2007> #胡锦涛 在 中国 共产党 第 十七 次 全国 代表 大会 上 的 报告 # 高举 中国 特色 社会主义 伟大 旗帜 为 夺取 全面 建设 小康 社会 新 胜利 而 奋斗 # - - 在 中国 共产党 第 十七 次 全国 代表 大会 上 的 报告 # ( 2007 年 10 月 15 日 ) # 胡锦涛 # 同志 们 : # 现在 , 我 代表 第 十六 届 中央 委员会 向 大会 作 报告 . # 中国 共产党 第 十七 次 全国 代表 大会 , 是 在 我国 改革 发展 关键 阶段 召开 的 一 次 十 分 重要 的 大会 . 大会 的 主题 是 : 高举 中国 特色 社会主义 伟大 旗帜 , 以 邓小平 理论 和 " 三个代表 " 重要 思想 为 指导 , 深入 贯彻 落实 科学 发展观 , 继续 解放 思想 , 坚持 改革开放 , 推动 科学 发展 , 促进 社会 和谐 , 为 夺取 全面 建设 小康 社会 新 胜利 而 奋斗 . # 中国 特色 社会主义 伟大 旗帜 , 是 当代 中国 发展 进步 的 旗帜 , 是 全党 全国 各族 人民团 结 奋斗 的 旗帜 . 解放 思想 是 发展 中国 特色 社会主义 的 一 大 法宝 , 改革开放 是 发展 中国 特色 社会主义 的 强大 动力 , 科学 发展 & 社会 和谐 是 发展 中国 特色 社会主义 的 基本 要求 , 全面 建设 小康 社会 是 党 和 国家 到 二 0 二 0 年 的 奋斗 目标 , 是 全国 各族 人民 的 根本 利益 所在 . <cong=2007> # texte intégral du rapport de hu jintao prononcé au xviie congrès du pcc # lever bien haut l'étendard du socialisme a la chinoise et lutter pour réaliser de nouveaux succès dans le développement général d'une société de moyenne aisance # -- rapport au xviie congrès du parti communiste chinois # (15 octobre 2007) # hu jintao # camarades, # au nom du xvie comité central, j'ai l'honneur de présenter ici le rapport d'activité au xviie congrès du parti. # le xviie congrès du parti communiste chinois est un congrès particulièrement important dû au fait qu'il s'est tenu dans une phase cruciale de la réforme et du développement de notre pays. le thème de ce congrès se définit comme suit : en brandissant bien haut l'étendard du socialisme à la chinoise et en nous guidant sur la théorie de deng xiaoping et sur la pensée importante de triple représentativité, appliquons le concept de développement scientifique de façon approfondie, continuons à manifester une grande liberté d'esprit, poursuivons la réforme et l'ouverture sur l'extérieur, encourageons le développement scientifique, favorisons l'harmonie sociale et luttons pour réaliser de nouveaux succès dans le développement général d'une société de moyenne aisance. # l'étendard du socialisme à la chinoise est un drapeau qui guide la chine contemporaine vers le développement et le progrès, et qui exhorte tout le parti et tout le peuple multiethnique à se livrer à la même lutte dans une parfaite union. pour le développement du socialisme à la chinoise, l'émancipation d'esprit est une arme particulièrement efficace, la réforme et l'ouverture sur l'extérieur une force motrice puissante, et le progrès scientifique et l'harmonie sociale une exigence fondamentale. quant à la construction in extenso d'une société de moyenne aisance, elle constitue un objectif que notre parti et notre pays devront atteindre d'ici à 2020, et qui reflète les intérêts fondamentaux de notre peuple multiethnique.

différents termes d’une énumération a été remplacé par le caractère ‘&’. Ajoutons que dans l’attente de la prise en compte des fichiers unicode par les futures versions du logiciel Lexico3 que nous avons utilisé, le corpus a été stocké dans l’encodage GB2312 (Windows936).


43

Explorations textométriques

2.3 Caractéristiques quantitatives du corpus CongPCC

Dans ce qui suit nous avons choisi de travailler sur des textes dépouillés en occurrences de mots découpés par le segmenteur automatique ICTCLAS. Le corpus ainsi découpé compte 179 447 occurrences de 10 680 formes graphiques différentes. On recense 4 272 formes hapax, la forme la plus fréquente (la particule 的de) compte 15 273 occurrences.

==== Repères chronologiques sur la période (1921-2007) ==== 1921 Fondation à Shanghai du Parti Communiste Chinois. Formation d'un gouvernement nationaliste dirigé par Sun Yat-sen. 1925 Mort de Sun Yat-sen - Chiang Kai-shek à la tête du Guomindang. 1927 Chiang Kai-shek écrase la révolution à Shanghai et crée un gouvernement. 1931 Les communistes établissent la République soviétique chinoise à Jiangxi. 1934 Longue Marche de l'Armée rouge, pour échapper aux nationalistes. 1937 Début de la guerre contre le Japon. 1946 Guerre civile entre nationalistes et communistes. 1949 Les communistes fondent de la République populaire de Chine. Le gouvernement nationaliste du Guomindang se réfugie à Taiwan. 1950 Traité d'amitié sino-soviétique. Guerre de Corée (1950-1953). 1953 Plan quinquennal, priorité à l'industrie lourde. Collectivisation agraire. 1957 Campagne des Cent fleurs, suivie d’une répression en juin. 1958 Lancement du Grand bond en avant et des communes populaires. 1960 Catastrophe alimentaire, crise sino-soviétique. 1966 Début de la Révolution culturelle. 1975 Campagne des quatre modernisations (armée, science, agriculture, industrie) 1976 Mort de Zhou Enlai et de Mao Zedong. Fin de la révolution culturelle, arrestation de la bande des quatre. 1978 Les rénovateurs au pouvoir avec Deng Xiaoping. 1979 Création de zones économiques spéciales. 1984 Relance des réformes économiques. 1987 Reprise des relations entre la Chine populaire et Taiwan. 1989 Répression de la contestation étudiante sur la place Tian'anmen. 1992 Deng Xiaoping lance l'économie socialiste de marché. 1993 Jian Zenmin chef de l’Etat et secrétaire général du PCC. 1997 Mort de Deng Xiaoping. Rétrocession de Hong Kong à la Chine. 2004 Hu Jintao dirige le PCC.


Explorations textométriques

44

3 La série chronologique 1921-2007

Comme nous l’avons signalé plus haut, la série des dix-sept congrès du PCC survenus entre 1921 et 2007, bien qu’elle ait été produite par une même organisation politique tout au long des 90 années couvertes par le corpus, ne présente pas une homogénéité totale du point de vue des conditions de production. Nous tenterons, dans un premier temps, d’établir une typologie sur l’ensemble des textes afin de mettre en évidence les principaux clivages dans l’évolution du vocabulaire. Nous analyserons, dans un second temps des groupes constitués sur une base plus homogène afin d’affiner les premiers constats. Tableau 3

Principales caractéristiques lexicométriques du corpus CongPCC Année

Lieu

occurrences

formes

hapax

Fréq. Max

Forme

1921

Shanghai

1441

481

276

158

1922

Shanghai

5067

1529

882

467

1923

Guangzhou

467

251

172

28

1925

Shanghai

1543

562

328

127

1927

Wuhan

3786

991

545

416

1928

Moscou

4284

1017

534

485

1945

Yanan

22130

3038

1403

2046

1956

Pékin

23132

3005

1330

2432

1969

Pékin

11002

2254

1155

988

1973

Pékin

5003

1440

806

418

1977

Pékin

15375

2783

1399

1251

1982

Pékin

16501

2840

1419

1556

1987

Pékin

16114

2785

1300

1375

1992

Pékin

12868

2605

1335

984

1997

Pékin

13827

2617

1305

1023

2002

Pékin

13669

2545

1261

948

2007

Pékin

13238

2587

1276

571

Les textes ainsi rassemblés correspondent à ce que nous appelons une série textuelle chronologique21. En effet, ces textes ont été produits au cours du temps, dans une même langue, par une même source institutionnelle, dans un cadre qui s’est toujours appelé congrès. Cependant, la longueur de la période considérée (plus de 90 ans), le statut de l’organisation politique responsable de ces textes, laquelle s’est transformée, durant la période que nous considérons, d’un petit groupe d’intellectuels opposants en un parti politique dominant durablement la vie politique du pays, nous permet de questionner l’homogénéité réelle de conditions de productions qui peuvent sembler proches au premier abord.

21

Pour de plus amples informations sur les séries textuelles chronologiques, on consultera par exemple [Salem 94] et [Lebart & Salem 94, p.197-240].


Explorations textométriques

45

En outre, l’examen du volume des textes produits au cours de la période montre que la production n’a pas été régulière. Aux textes très courts, entre 500 occurrences de mots graphiques (1923) et 5000 occurrences (1922), produits dans la première période ont succédé de longues périodes pendant lesquelles aucun congrès n’a été convoqué. Les congrès de 1945 et de 1956 qui se sont tenus à des intervalles de 10 à 13 ans avec le congrès précédent ont donné lieu à des textes très volumineux (respectivement de 22 000 et de 23 000 occurrences). A partir de 1982, après la fin des troubles liés à la révolution culturelle, le congrès est convoqué régulièrement cinq ans après le congrès précédent. Le discours du principal responsable se présente désormais sous la forme d’un texte qui compte entre 13 000 (1992) et 16 000 (1982) occurrences. La série des derniers congrès (1982-2007) constitue du point de vue de l’ensemble de ces critères une série textuelle chronologique nettement plus homogène que la série complète des dix-sept congrès rassemblés dans le corpus. 25000

20000

15000

10000

5000

_ 19 69 19 73 19 77 19 82 19 87 19 92 19 97 20 02 20 07

_

_ 19 56

_

_ 19 45

_

_

_

19 21 19 22 19 23 19 25 19 27 19 28

0

Figure 1 Les 17 congrès du PCC entre 1921 et 2007 et leur taille exprimée en nombre d’occurrences après segmentation en mots 3.1 Typologie d’ensemble

Nous commencerons par analyser l’ensemble des textes réunis dans la série complète (19212007) afin de mettre en évidence les principaux changements survenus dans l’emploi du vocabulaire entre le début et la fin de la période couverte par notre corpus. Dans un second temps, nous analyserons une série plus restreinte et nettement plus homogène constituée par les textes produits dans les dernières années du corpus (1982-2007) afin de cerner plus précisément les évolutions survenues dans la dernière période. Comme c’est souvent le cas lorsqu’on analyse une série textuelle chronologique, l’analyse factorielle (AFC, cf. infra) réalisée à partir du corpus constitué par le décompte des formes de fréquence supérieure à dix dans les dix-sept congrès rassemblés dans le corpus CongPCC nous amène au constat d’une forte dépendance du vocabulaire par rapport à la période dans laquelle s’est tenue le congrès22. Les congrès séparés par une période de temps courte se

22

Dans les analyses textométriques, on a pris l’habitude d’asseoir ce genre de typologie sur les formes dont la fréquence dépasse un certain seuil afin de restreindre le nombre des unités lexicales. Notons que les typologies du même type appuyées sur les décomptes faisant intervenir la totalité des formes conduisent à des résultats très similaires.


Explorations textométriques

46

trouvent placés à proximité les uns des autres sur les synthèses factorielles alors que ceux qui sont séparés par un intervalle de temps plus long se trouvent plus distants23. On retrouve sur la gauche du graphique, dans un ordre strictement chronologique les congrès survenus entre 1982 et 2007. Les textes, nettement moins longs, qui correspondent aux congrès survenus entre 1921 et 1945 se situent sur la droite du graphique, dans un ordre proche de l’ordre chronologique même si on peut remarquer quelques anomalies, de ce strict point de vue. Un troisième groupe est constitué par les trois congrès survenus entre 1969 et 1977, ce qui témoigne d’une certaine homogénéité de ces groupes pour ce qui concerne l’emploi du vocabulaire. Les congrès de 1945 et 1956 constituent des cas particuliers à la fois par l’abondance des matériaux textuels auxquels ils ont donné lieu et par les très longues périodes de temps qui se sont écoulées entre les congrès. Un examen attentif des coordonnées factorielles sur axes suivants conduit à ne pas rattacher le congrès de 1945, essentiellement dominé par l’expression de préoccupations liées à la guerre contre le Japon au groupe 1921-1928, même si sa position sur les deux premiers axes témoigne par ailleurs d’une proximité lexicale avec la période initiale.

==== Repères méthodologiques ====

L’analyse statistique des séries textuelles chronologiques

De nombreuses études ont montré que l’évolution du vocabulaire au fil du temps constitue la caractéristique statistique majeure des corpus constitués par échantillonnage au cours du temps d’une source textuelle homogène. L’Analyse factorielle des correspondances (AFC) permet de mettre en évidence les principales caractéristiques de cette évolution d’ensemble et de localiser les principaux moments de rupture dans l’emploi du vocabulaire. L’Analyse des spécificités permet d’illustrer chacune des périodes du corpus par la mise en évidence du vocabulaire qu’elle emploie ou au contraire du vocabulaire qu’elle cesse d’employer par rapport aux autres périodes du corpus. L’Analyse des spécificités chronologiques permet d’illustrer chacune des périodes du corpus par la mise en évidence du vocabulaire qu’elle emploie ou au contraire du vocabulaire qu’elle cesse d’employer par rapport aux périodes qui ont précédé.

Pour en savoir plus :

Lebart, L., Salem, A., Statistiques textuelles, Paris, Dunod, 1994 Salem A., "La lexicométrie chronologique", Actes du colloque de lexicologie politique "Langages de la Révolution", collection "St.Cloud", Paris, Klincksieck, 1994

23

L’analyse a été réalisée à partir du tableau des 2119 formes dont la fréquence est supérieure ou égale à dix occurrences. Un premier axe se détache très nettement (23% de l’inertie totale). L’ensemble présente les caractéristiques communes aux séries textuelles chronologiques.


Explorations textométriques

47

Figure 2 Analyse factorielle des correspondances du corpus

==== Guide de lecture pour la figure 2 ==== •

Les congrès sont positionnés sur les deux premiers facteurs issus de l’AFC réalisée à partir du tableau (2 119 formes de fréquence ≥ 10 x 17 congrès).

• •

Les congrès séparés par un intervalle de temps réduit sont relativement proches sur ces axes. Un premier axe (horizontal sur la figure 2) se détache nettement, qui porte 23% de l’inertie totale. Les congrès se disposent sur cet axe selon un ordre qui est proche de l’ordre chronologique (schéma classique pour l’analyse des séries textuelles chronologiques). Comme c’est souvent le cas pour les analyses de ce type, pratiquées à partir de séries textuelles chronologiques, ces résultats permettent d’avancer l’hypothèse que c’est transformation du stock lexical au cours du temps qui sous-tend l’évolution mise en évidence. Enfin, les écarts que l’on remarque par rapport au schéma d’une progression uniforme constituent des points de départs pour une réflexion sur les moments particuliers de l’évolution du vocabulaire.

3.2 Principales périodes chronologiques

Dans ce qui suit, nous proposons de considérer quatre groupes de périodes découpés en tenant compte à la fois de leur proximité sur les axes factoriels et de l’intervalle temporel écoulé entre deux congrès successifs. Nous examinerons tour à tour quatre groupes de périodes : 1921-1928, 1945-1956, 1967-1979, 1982-2007.


Explorations textométriques

48

Tableau 4 Les spécificités positives majeures de la période 1921-1928 Forme 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

革命 军阀 势力 帝国主义 运动 国民 帝国主义者 小资产阶级 所以 之 阶级 无产阶级 中国 工人 民权 暴动 压迫 争斗 资本 能 封建 列强 冲突 资产阶级 他 农民 意识 工农 群众 机会主义

Équivalent français révolution expédition militaire puissance impérialisme mouvement peuple impérialiste classe petite bourgeoise donc (particule grammaticale) classe prolétariat Chine ouvrier droit(s) du peuple soulèvement oppression se battre capital pouvoir féodale grande puissance collision classe bourgeoise il paysans conscience ouvrier et paysan masse populaire opportunisme

FTot.

FPart

Coeff.

577 67 126 225 176 108 49 62 78 215 217 245 1080 98 29 22 91 20 62 338 57 21 33 217 116 208 40 29 583 25

213 64 85 132 91 67 44 46 52 85 84 89 222 53 28 22 46 20 36 91 33 20 25 67 46 65 27 22 120 19

*** *** *** *** 47 42 40 35 35 33 32 31 30 29 29 24 24 22 22 21 20 20 20 20 19 19 19 18 17 16

==== Guide de lecture du tableau des spécificités majeures ==== •

• •

Les termes (formes et segments répétés) les plus spécifiques sont présentés par ordre d’indice de spécificité décroissant (i.e. en commençant par les termes dont la présence est jugée la plus abondante dans la période) du point de vue du calcul de l’indice. La colonne 3 fournit un équivalent français du terme chinois que nous proposons pour faciliter la compréhension du lecteur mais qui ne peut rendre compte de l’ensemble de ses emplois effectifs en discours, dans les différentes périodes du corpus. On trouve ensuite les fréquences respectives du terme : dans l’ensemble du corpus (col. FTot) et dans la partie considérée (col. FPart). La dernière colonne fournit l’indice calculé par la méthode des spécificités. Un indice de a a correspond à une probabilité de l’ordre de 10– que le terme ait une fréquence supérieure à la valeur constatée. Les valeurs de l’indice supérieures à 50 ont été remplacées par la séquence de symboles **. Un calcul similaire fournit un diagnostic pour chaque segment répété du corpus.

3.2.1 La période 1921-1928


49

Explorations textométriques

Le tableau 4 rassemble les formes et les segments répétés les plus spécifiques pour les six congrès tenus dans la première période du corpus. On peut vérifier sur la figure 2 que ces congrès, dont la taille est inférieure à celle des autres congrès rassemblés dans le corpus, constituent un ensemble relativement homogène sur les premiers axes factoriels. Commentaire : Le vocabulaire spécifique majeur des congrès appartenant à ce premier groupe semble avant tout lié à l’analyse économique et politique marxiste de la société chinoise propre aux textes de cette première époque (革命 geming révolution, 势力 shili puissance, 帝国主义 diguo zhuyi impérialisme, 帝国主义者 diguo zhuyi zhe impérialistes, 工人 gongren ouvrier(s), 小资产阶级xiao zichan jieji classe petite bourgeoise, 无产阶级 wuchan jieji prolétariat, etc.). Au fil du temps, une partie de ce vocabulaire sera progressivement remplacée par d’autres formes textuelles en liaison avec l’évolution des catégories d’analyse socio-économique des instances de direction du PCC. Nous tenterons plus loin de dégager les principales tendances de cette évolution. 3.2.2 Les congrès de 1945 et de 1956 Comme nous l’avons signalé plus haut, ces deux congrès plutôt atypiques, surviennent après de longs intervalles sans convocation de l’instance suprême du parti. Ils donnent lieu à la publication de textes relativement abondants. Convoqué après dix-sept années sans congrès, le congrès de 1945 est dominé par les problèmes qui tournent autour de la guerre qui vient de s’achever avec le Japon (抗日kangri combattre le japon, 解放区jiefang qu région libérée, 日本侵略者riben qinluezhe envahisseur japonais, 侵略者 qinlue zhe envahisseurs). La mention de la Chine (中国zhong guo) y est particulièrement fréquente. Après un intervalle de onze années durant lesquelles le congrès n’est plus réuni à nouveau, le congrès de 1956, introduit un vocabulaire propre qui sera abandonné par la suite (五年计划 wunian jihua plan quinquennal, 社会主义改造shehui zhuyi gaizao réforme du socialisme, etc.). Semblables du point de vue de leurs tailles respectives, ces deux congrès ne constituent cependant pas une classe homogène du point de vue du vocabulaire employé. 3.2.3 La période 1969 -1977 Les congrès survenus entre 1969-1977, forment un groupe particulier sur les deux premiers axes issus de l’analyse factorielle présentée sur la figure 2. On note la présence de toute une série de formes de haute fréquence, quasi-exclusives pour cette période : 毛 主席 mao zhuxi Président Mao (380 occurrences dans la période sur 380, au total), 四人帮 sirenbang la bande des quatre24 (138 occurrences sur 139 au total). Commentaire : Ces congrès portent la trace lexicale des affrontements internes, largement commentés par la presse internationale, qui ont marqué la période dominée par les luttes politiques autour de la succession politique Mao Zedong mort en 1976. On peut compléter cette liste en remarquant la présence de termes de moindre fréquence, également exclusifs pour ce groupe de périodes comme : 修正主义xiuzheng zhuyi révisionnisme (42/42), 叛徒pantu traître (36/36), etc. qui portent la trace lexicale d’affrontements politiques qui ont marqué la période considérée.

24

Rappelons que sous cette appellation de四人帮bande des quatre, la direction du PCC désignait à l’époque un groupe de dirigeants ayant exercé une grande influence politique pendant la période de la révolution culturelle, démis de leurs fonctions puis arrêtés en 1976, après la mort de Mao Zedong.


Explorations textométriques

50

Tableau 5 Les spécificités positives majeures de la période 1969-1977 Forme 1 2 3 4 5 6 7 8

毛主席 四人帮 主席 毛 毛主席的 走资派 无产阶级专政 苏修

9

无产阶级文化大革命

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

刘少奇 革命 修正主义 无产阶级 列宁 资产阶级 叛徒 斗争 反革命 批 搞 月 伟大 四人帮的 他们 指出 复辟 指示 了 阴谋 教导 社会主义革命 批判 路线斗争 毛主席关于 夺权

Équivalent français Président Mao bande des quatre président Mao du Président Mao voie du capitalisme

dictature du prolétariat Suxiu (nom propre) révolution culturelle du prolétariat Liu Shaoqi révolution révisionnisme prolétariat Lénine classe bourgeoise traître lutte contre-révolutionnaire critiquer faire mois remarquable / important de la bande des quatre ils montrer restauration monarchique indiquer (particule grammaticale) complot instruire révolution du socialisme porter un jugement critique lutte de phase Président Mao à propos prendre le pouvoir

FTot.

FPart

Coeff.

380 139 389 384 97 60 83 43

380 138 388 384 97 60 68 43

*** *** *** *** *** 46 38 34

44

44

34

44 577 42 245 70 217 36 353 103 54 89 130 318 32 546 93 28 39 1789 50 25 41 43 24 24 24

44 221 42 123 57 109 36 149 67 44 59 74 131 31 191 58 28 34 470 39 25 33 34 24 24 24

34 33 33 32 32 28 28 28 27 25 25 24 24 23 23 22 22 21 21 21 20 19 19 19 19 19

3.2.4 La période 1982-2007 Nous avons rassemblé dans un dernier groupe les congrès survenus après 1982. Dans cette dernière période, les congrès sont convoqués régulièrement tous les cinq ans, le volume du discours du secrétaire général compte, à chaque occasion, près de 12 000 occurrences. Par ailleurs, l’examen de la figure 2 montre que, sous l’influence d’une transformation progressive du vocabulaire employé, les points représentant chacun de ces congrès s’éloignent vers la gauche de manière régulière au fur et à mesure que l’on avance dans la chronologie interne du corpus. Le tableau 6 présente le vocabulaire spécifique de ce dernier groupe de période.


Explorations textométriques

51

Tableau 6 Les spécificités positives majeures de la période 1982-2007 Forme 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

体制 建设 社会主义 经济 完善 中国特色 坚持 社会 改革 和 开放 现代化 特色 改革开放 发展 文明 加强 推进 特色社会主义 中国特色社会主义 制度 提高 新 管理 市场 现代化建设 精神 基本 结构 体制 改革 加快 体系 经济体制 创新 有中国 特色

Équivalent français système édification socialisme économie excellent à la chinoise insistance société réforme et ouvrir au public modernisation caractéristique réforme et ouverture développement civilisation consolidation faire progresser socialisme caractéristique socialisme à la chinoise système améliorer nouveau / neuf gestion marché oeuvre de modernisation élan fondamental structures réforme du système activer système système économique innovation spécifique à la Chine

FTot.

FPart

Coeff.

276 1108 1318 1180 217 177 466 709 650 4688 258 238 187 161 1480 155 449 188 138 136 466 333 621 228 271 131 211 363 107 103 116 138 88 90 88

274 920 913 950 216 177 395 550 594 2865 255 230 185 161 1138 155 363 180 138 136 368 280 466 206 237 130 191 293 107 103 113 129 88 90 88

*** *** *** *** *** *** *** *** *** *** *** *** *** *** *** 50 46 46 44 44 42 42 42 42 42 40 39 37 35 33 32 30 29 29 29

Commentaire : Les termes sélectionnés portent essentiellement sur les réformes du système économique et sur les problèmes de l’adaptation des principes généraux du socialisme aux spécificités chinoises (改革 开放gaige kaifang réforme et ouverture, 现代化 建设xiandai hua jianshe oeuvre de modernisation, 中国 特色 zhongguo tese à la chinoise, 有 中国 特色 you zhongguo tese spécifique à la Chine, etc.).


Explorations textométriques

52

4 Explorer les dimensions chronologiques du corpus

Les typologies présentées dans les sections précédentes permettent de vérifier que le corpus CongPCC relève, au plan quantitatif, de la description proposée par le modèle des séries textuelles chronologiques et que l’évolution du vocabulaire constitue bien la principale caractéristique quantitative du corpus. Dans ce qui suit, nous présenterons succinctement quelques méthodes de textométrie chronologique qui permettent de préciser la description d’un corpus chronologique et d’explorer ses dimensions spécifiques. 4.1 Mesurer l’évolution lexicale

A côté des représentations factorielles qui fournissent des descriptions synthétiques calculées à partir de l’ensemble de données la représentation de chroniques spécifiques permet de visualiser l’évolution, sur l’ensemble du corpus, de groupes plus restreints constitués de formes caractéristiques (spécifiques) pour un sous ensemble particulier du corpus.

==== Repères méthodologiques : les chroniques spécifiques ==== •

Pour une période donnée d’un corpus (ici la période 1969-1977), il est possible de dégager un ensemble de formes particulièrement sur-représentées: les spécificités majeures de la période. • Une chronique spécifique est constituée par la sélection, sur la base d’un seuil de spécificité, des formes de spécificités maximales (ici : indice de spécificité >= 20). • L’analyse de la ventilation des unités qui constituent une chronique dans l’ensemble du corpus permet de mettre en évidence : l’apparition, la disparition, l’accroissement brusque, la mise en sommeil brutale ou progressive, etc., d’ensembles spécifique d’unités textuelle, de repérer des moments de rupture et de renvoyer le chercheur vers des sites textuels caractéristiques à partir d’observations réalisées à une échelle plus importante. Pour en savoir plus :.

Salem, A. : Les chroniques spécifiques, Lexicometrica, décembre 2008. Pour réaliser le diagramme présenté à la figure 3, nous avons préalablement constitué deux ensemble de formes. • Le premier que nous appelons C+21-28, en rouge sur le graphique, rassemble les formes dotées d’un indice de spécificité supérieur à 20 dans le premier groupe de congrès (1921-1928). • Le second que nous appelons C+82-07, en bleu sur le graphique, rassemble les formes dotées d’un indice de spécificité supérieur à 20 dans le dernier groupe de congrès (1982-2007) On ne s’étonnera pas que les deux chroniques ainsi constituées prennent des valeurs importantes sur les congrès à partir desquels elles ont été constituées (resp. : le premier et le dernier groupe de périodes). L’intérêt de cette représentation vient du fait qu’elle permet de construire des hypothèses nouvelles qui concernent le rythme et les moments forts de la transformation du vocabulaire que l’on observe pratiquement dans toute série textuelle chronologique. On observe sur ce graphique que le changement du vocabulaire concerné n’est pas tout à fait progressif. Bien que la tendance à l’apparition et à la disparition de chacun des deux groupes de formes soit vérifiée à une grande échelle, des reculs succèdent assez systématiquement aux avancées, particulièrement dans les premières périodes du corpus. A partir des années 70, l’évolution devient plus régulière tant en ce qui concerne les formes dont l’emploi tend à se raréfier qu’en ce qui concerne celles qui deviennent dominantes.


53

Explorations textométriques

La représentation simultanée des deux chroniques suggère de vérifier l’hypothèse que le congrès de 1969 a été l’occasion d’un recul dans la dynamique de transformation du vocabulaire. Une partie du vocabulaire abandonné lors du congrès précédent par rapport aux débuts de la période considérée a été mobilisée à nouveau. Inversement une partie du vocabulaire dont l’utilisation avait notablement augmenté en 1956 et qui sera mobilisée de manière encore plus importante dans la dernière partie du corpus a été mise en sommeil au cours de ce congrès de 1969.

Figure 3 Chronique des spécificités positives majeures pour les deux groupes de périodes (1921-1928 et 1982-2007)


54

Explorations textométriques 4.2 Application à l’étude des résonances locales

Comme dans les sections qui précèdent, la chronique présentée sur la figure 4 a été réalisée en sélectionnant les formes dont l’indice de spécificité positive est supérieur à 20 dans le groupe des périodes 1969-1977. On peut voir la liste de ces formes au tableau 5. L’examen de la ventilation de ces formes, considérées, le temps d’une expérience, comme une même entité, nous amène à conclure que : 1. le groupe des formes qui constitue la chronique connaît deux périodes d’utilisation maximale en 1969 et en 1977, interrompues par une période (1973) pendant laquelle cet ensemble de formes est un peu moins utilisé ; 2. cette chronique reprend en partie un vocabulaire mis en place lors du congrès de 1927 ; 3. les termes qui constituent cette chronique tomberont en désuétude lors des congrès de la période 1982-2007.

Figure 4 Chronique des formes les plus spécifique pour la période 1969-1977 (indice de spécificité ≥ 20 dans le groupe 69-77) En s’appuyant sur la représentation de cette chronique sur la carte des sections, représentée sur la figure 5, on peut localiser plusieurs paragraphes qui nous permettront d’illustrer des similitudes entre les congrès de 1927, 1969 et 1977 dans l’utilisation des formes lexicales. Nous avons rassemblé, au tableau 7, trois paragraphes particulièrement représentatifs, prélevés dans les textes des congrès pour lesquels la chronique prend des valeurs fortes et localisés à l’aide d’un calcul de spécificités appliqué à chacun des paragraphes du texte.


55

Explorations textométriques

Tableau 7 Trois sections spécifiques pour la chronique C20-69-77 Section 161 (congrès de 1927) 上海工人的经济罢工 , 加上 了 革命 的政治色彩之后 , 那些和帝国主义有密切关系的大 资产阶级 , 立刻起来消灭这个 运动 . 结果 , 他们 破坏 了 革命 的战线 , 帮助 了帝国主义 . 关税会议和法权会议 , 并非帝国主义者为报答 资产阶级 背叛 革命 的勋劳而开的 , 乃是 无产阶级和民权势力用革命 的行动在帝国主义者手中所强夺来的 . # 所领导的 资产阶级 民族主义的政纲 , 是想用 军事的胜利统一中国 , 然后与帝国主义谋妥协 , 使中国大多数民众仍被 剥削 Après la grève économique des ouvriers de Shanghai et en raison de la couleur politique de la révolution, la classe de la grande bourgeoisie liées étroitement à l’impérialisme ont immédiatement anéantit le mouvement. Finalement, ils ont détruit la ligne de combat révolutionnaire et ont aidé l’impérialisme. Les congrès des douanes et des droits légitimes se sont tenus non pas parce que les impérialistes ont récompensé les classes bourgeoises qui avaient trahi la révolution, mais parce que le prolétariat et les forces droit-de-l’hommistes les ont pris des mains des impérialistes au moyen du mouvement révolutionnaire. Le programme politique du nationalisme de la classe bourgeoise dirigeante est d’unifier la Chine par la victoire militaire puis de comploter avec les impérialistes pour continuer à exploiter la majorité du peuple chinois. Section 752 (congrès de 1969) 我们这次代表大会 , 是在 毛 主席 亲自发动和领导的 无产阶级文化大革命 取得 了 伟大 胜利的时刻召开的 . 这个 伟大 的 革命风暴 , 摧毁 了以 叛徒 & 内奸 & 工贼 刘少奇为首的 资产阶级 司令部 , 揭露 了以 刘少奇为总代表的党内一小撮 叛徒& 特务 & 死不改悔的走资本主义道路的当权派 , 粉碎 了 他们 复辟 资本主义的 阴谋 , 大大地加强 了 我国的 无产阶级专政 , 大大地加强 了我们的党 , 从政治上 & 思想上 & 组织上为这次代表大会准备 了充分的条件 . Ce congrès se tient au moment de la victoire remarquable de la révolution culturelle prolétarienne lancé et gouverné par le président Mao. Cette grande tempête révolutionnaire a détruit le commandant d’une garnison de la classe bourgeoise, Liu shaoqi, le dirigeant des traîtres, des espions, des voleurs. Cette révolution a dénoncé le parti au pouvoir qui se dirige dans la voie du capitalisme dans lequel Liu Shaoqi est le représentant des traîtres, des agents secrets sans se repentir. Elle a fait échoué des complots visant à restaurer le capitalisme, a fortement consolidé la dictature du prolétariat dans notre pays et a raffermi notre parti. Elle a permis, pour ce congrès, les conditions adéquates en matière politique, dans les esprits et du point de vue de l’organisation. Section 928 (congrès de 1977) 我们党同王张江姚 " 四人帮 " 反党集团的 斗争 , 是我党历史上第十一次重大的路线斗争 . 这次路线斗争 , 是 无产阶级 同 资产阶级 的一次生死大搏斗 , 关系我们党 & 我们国家的前途和命运 . 这次路线斗争的 伟大胜利 , 应当归功于 伟大领袖 毛主席, 归功于伟大的毛泽东思想和 毛主席的 革命路线 , 归功于我们 伟大的党& 伟大的军队和伟大的人民 . La lutte contre la « Bande des quatre » des Wang, Zhang, Jiang et Yao, opposés au parti, est la 11ème grande lutte de phase dans l’histoire de notre parti. Cette lutte de phase est une lutte à mort de la classe prolétaire contre la classe bourgeoise. Il s’agit de notre parti, de notre avenir et du destin de notre pays. La grande victoire de ce combat doit être attribué à notre grand président Mao, à sa pensée remarquable et à sa ligne révolutionnaire, et aussi à notre parti, à notre grandiose armée et à notre grand peuple.


56

Explorations textométriques

Figure 5 : Chronique des spécificités positives majeures de la période 1969-1977 (indice ≥ 20) représentée sur une carte des paragraphes du texte.


Explorations textométriques

57

4.3 Répétitions segmentales

De nombreux travaux textométriques réalisés dans le domaine de l’étude des textes politiques ont montré, au delà des études qui prennent pour objet l’évolution des formes isolées du vocabulaire, l’intérêt particulier qu’il y a à étudier les répétitions segmentales25. Tableau 8

Quelques segments répétés longs et fréquents Segments répétés 1 2 3 4 5 6 7 8 9 10

在 过去 几 年 中 党 同 人民 群众 的 建设 有 中国 特色 的 建设 有 中国 特色 社会主义 有 中国 特色 的 社会主义 有 中国 特色 社会主义 的 以 经济 建设 为 中心 第 二 个 五 年 毛 主席 的 无产阶级革命 路线

11 12 13 14

侵略者 和 建设 新 中国 建设 有 中国 特色 的 社会主义 建设 有 中国 特色 社会主义 的 建设 有 中国 特色 社会主义 理论 走 资本主义 道路 的 当权 派 建设 有 中国 特色 社会主义 的 理论

15 16

改革开放 和 现代化 建设 的

Équivalent français

Fréq.

durant les dernières années du parti et des masses populaires construire … à la chinoise construire le socialisme à la chinoise le socialisme à la chinoise … du socialisme à la chinoise centrer l’activité sur l’édification économique le deuxième cinq ans phase de la révolution prolétarienne du président Mao de la réforme, de l’ouverture et de la mise en oeuvre de la modernisation les envahisseurs et édifier la chine nouvelle construire le socialisme à la chinoise construire … du socialisme à la chinoise construire la théorie du socialisme à la chinoise

10 10 13 43 19 34 12 10 10

le parti au pouvoir qui se dirige dans la voie du capitalisme construire la théorie du socialisme à la chinoise

13

15 10 11 24 11

10

Le tableau 8 montre quelques-unes des séquences les plus longues et les plus fréquemment répétées dans le corpus CongPCC. La figure 6 montre que, loin d’être uniformément étalée dans le temps, la répétition de ces séquences se fait au contraire dans des périodes du corpus qui ne sont pas trop éloignées dans le temps. Ainsi, par exemple, le segment : 建设 有 中国特色 社会主义 的 (construire … du socialisme à la chinoise) qui est de longueur 5 et de fréquence 10, trouve toutes ses occurrences dans les congrès postérieurs à 1992, alors que le segment : 毛 主席 的 无产阶级革命 路线 (phase de la révolution prolétarienne du président Mao) n’apparaît que dans les congrès qui se sont tenus entre 1969 et 1977. On voit sur la figure 6

une ventilation des ces segments exprimée en spécificités à l’intérieur de l’ensemble du corpus.

25

Sur les utilisations du calcul des segments répétés, on consultera, par exemple [Lebart et Salem, 1994].


Explorations textométriques

58

Figure 6 Ventilation au sein du corpus de quelques segments répétés de haute fréquence a) capitalisme … impérialisme资本帝国主义 ziben diguozhuyi b) phase de la révolution prolétarienne du président Mao 毛主席的无产阶级革命路线 mao zhuxi de wuchanjiejigeming luxian c) construire … du socialisme à la chinoise 建设有中国特色社会主义的 jianshe you zhongguotese shehuizhuyi de

==== Repères méthodologiques ====

Segmentation du texte chinois et calcul de segments répétés

• •

• •

Le système d’écriture chinois constitue le texte sous forme de longues séquences de caractères (hanzis) qui ne sont pas interrompues par des espaces. Plusieurs logiciels permettent de segmenter les textes chinois en mots (à partir de critères qui ne sont pas toujours identiques). Une telle segmentation permet ensuite d’étudier la répartition des mots ainsi découpés dans le corpus de textes. Le calcul des segments répétés permet de repérer les suites d’unités textuelles qui trouvent plusieurs occurrences dans le texte. Ce calcul ne dépend pas totalement de la nature des unités de segmentation. Appliqué aux mots découpés par un segmenteur, il repèrera des séquences de mots qui auraient été repérées par le même algorithme appliqué au suites de caractères isolés. Si le segment composé de deux mots : ABC DEF trouve x occurrences dans un corpus découpé en mots, le segment A B C D E F composé de 6 caractères isolés trouvera, au moins, le même nombre d’occurrences dans le corpus segmenté en caractères isolés. 4.4 Mesures comparatives de la répétition segmentale

La figure 7 permet d’établir une synthèse à propos de la ventilation de l’ensemble des segments composés d’au moins quatre formes, dont la fréquence est supérieure à dix dans le corpus. On voit sur cette figure que les périodes 1992 et 1997 contiennent un nombre relativement élevé de répétitions de ce type. Cette constatation nous incitera à vérifier l’hypothèse d’une répétition globalement plus importante des segments dans ces deux périodes du corpus.


Explorations textométriques

59 Tableau 9

Spécificités positives majeures de la période 1992 dans le corpus CongPCC Forme 1 2 3 4 5 6

改革开放 有 中国特色 改革开放 和 建设 现代化 和 现代化 建设

7

改革开放 和 现代化

8

改革开放 和 现代化 建设

9 10 11 12 13 14 15

现代化 建设 中国特色 社会主义 十四 年 和 现代化 建设 有 中国特色 有 中国特色 社会主义

Équivalent français réforme et ouverture à la chinoise réforme et ouverture et construction modernisation et oeuvre de modernisation réforme et ouverture et modernisation réforme, ouverture et oeuvre de modernisation oeuvre de modernisation à la chinoise socialisme quatorze ans et modernisation édification…à la chinoise socialisme à la chinoise

FTot.

FPart

Coeff.

157 69 54 857 228 40

56 34 29 135 56 22

25 21 20 18 17 16

38

22

16

36

21

16

127 98 886 14 46 45 57

39 34 130 13 23 23 25

16 16 15 15 15 15 15

Figure 7

Ventilation dans les parties du corpus des segments répétés de longueur ≥ 4 et de fréquence ≥ à 10 Le tableau 9 présente un certain nombre de segments particulièrement répétés dans le congrès de 1992. Comme on peut le vérifier sur ce tableau, ces segments fortement répétés concernent avant tout : les réformes, l’ouverture, la modernisation et l’édification du socialisme à la chinoise. Le retour au texte permet de localiser des sections qui opèrent une utilisation privilégiée de ce type de vocabulaire. On trouve au tableau 10 deux sections caractéristiques


Explorations textométriques

60

de ce dernier point de vue. On voit que les termes relatifs à l’édification du socialisme à la chinoise et aux réformes économiques sont, ici aussi, dominants. Tableau 10

Deux sections de la période 1992 utilisant un grand nombre de segments répétés Section 1515 (congrès de 1992)

党的基本路线 要 毫不动摇 地 长期 坚持 下去 , 社会主义 的 改革开放 和 现代化 建设 要 搞 得 更 好 更 快 , 国家 要 长治久安和繁荣富强 , 关键在于我们党 , 在于坚持用邓小平同志 建设 有中国特色社会主义的理论武装全党 . La ligne fondamentale du parti devra persister à long terme sans se laisser ébranler. La réforme et l’ouverture du socialisme, ainsi que l’établissement de la modernisation devront se faire encore mieux et plus rapidement. Pour obtenir prospérité et stabilité à long terme, et pour que le pays s’épanouisse, la clé réside dans le parti et dans le renforcement de tout le parti grâce à la théorie de l’édification du socialisme à la chinoise de notre camarade Deng Xiaoping. Section 1517 (congrès de 1992)

第一 , 认真 学习 建设有中国特色社会主义 的理论 , 增强贯彻执行党的基本路线的自觉性和坚定性 . Premièrement, nous étudions consciencieusement la théorie de la construction du socialisme à la chinoise et appliquons, avec ardeur et animés d’une conscience et d’une détermination accrues, la ligne fondamentale du parti.

5 Faire varier les échelles de l’analyse : un corpus restreint (1982-2007)

Comme nous l’avons signalé plus haut, la question de l’homogénéité des textes qui composent une série textuelle chronologique doit être examinée sous plusieurs aspects. Une fois posée le principe d’homogénéité constitutive qui permet de rassembler des textes à partir de critères qui en font a priori un corpus homogène, il convient de vérifier que les textes réunis ont réellement été produits dans des conditions de productions comparables qui permettront d’observer, sans buter sur de nombreux artefacts, l’évolution du vocabulaire au cours de la période couverte par le corpus. De ce point de vue, l’analyse d’un sous ensemble de congrès extraits du corpus précédent et limité aux seuls congrès tenus entre 1982 et 2007 va nous permettre de constituer une série chronologique beaucoup plus homogène que la série que nous venons d’étudier. Comme nous l’avons vu dans les analyses présentées aux sections précédentes, les congrès survenus à partir de 1982 ont donné lieu à des productions beaucoup plus homogènes, tant du point de vue de l’intervalle de temps écoulé entre chacun des congrès que de celui des caractéristiques quantitatives que l’on peut calculer à partir de chacun des textes. Nous appellerons Cong82-07 la série qui rassemble les 6 derniers congrès survenus entre 1982 et 2007. Dans cette nouvelle série textuelle chronologique, les congrès ont été tenus à des intervalles de temps comparables, ils présentent une homogénéité plus grande du point de vue de la longueur des textes produits. Les analyses sur l’ensemble CongPCC ont montré d’autre part, leur proximité relative au plan lexical ainsi qu’une évolution lexicale repérable au fil du temps. L’analyse de ce corpus restreint va nous permettre de préciser les premières constatations faites sur le corpus. 5.1 Analyse globale de l’évolution (1982-2007)

L’AFC réalisée à partir du corpus Cong82-07 montre le caractère plus progressif des changements chronologiques dans ce second corpus26. Les six congrès sont classés dans 26

Comme lors de l’expérience précédente, nous avons analysé un tableau croisant les 6 congrès retenus avec les formes dont la fréquence est au moins égale à dix occurrences dans le second corpus.


61

Explorations textométriques

l’ordre chronologique sur le premier axe, de la droite vers la gauche, à des intervalles très réguliers.

Figure 8 Analyse factorielle des correspondances de la série 1982-2007 L’analyse des chroniques effectuée sur ce second corpus montre, à l’instar de ce que nous avions obtenu pour l’ensemble du corpus CongPCC, une progression régulière de la chronique S10+82-92, constituée par la réunion des formes dont la spécificité dépasse l’indice de spécificité 10 dans les congrès tenus entre 1982 et 1992. De manière symétrique, la chronique S10+97-07 est constituée à partir des formes les plus spécifiques dans le groupe des trois derniers congrès du corpus Cong82-07. Le fait que les courbes prennent des valeurs plus élevées sur les parties qui ont servi à dégager les ensembles de formes spécifiques ne constitue pas une surprise en soi. La progression régulière de ces courbes au fil du temps couvert par le corpus apporte un éclairage interprétable sur l’évolution lexicale propre au corpus.


62

Explorations textométriques

Figure 9 : Évolution des chroniques spécifiques S10+82-92 - formes de spécificités supérieure à 10 dans les congrès 1982, 1987 et 1992 S10+97-07 - formes de spécificités supérieure à 10 dans les congrès 1997, 2002 et 2007 5.2 Evaluation de l’apport spécifique de la période 2007

Comme nous l’avons vu à la section précédente, les chroniques spécifiques permettent d’esquisser une description de la variation lexicale survenue dans l’ensemble d’un corpus chronologique. Dans cette dernière section consacrée à l’analyse des chroniques spécifiques, nous nous concentrerons sur l’appréciation des transformations lexicales survenues par rapport aux congrès précédents, lors d’une période particulière. Pour illustrer cette démarche, nous avons choisi congrès de 2007, dernière période du corpus Cong82-07. Comme plus haut, nous avons constitué une chronique spécifique S10+07 en sélectionnant les formes dont l’indice de spécificité est supérieur à 10 dans la dernière partie du corpus. La ventilation de la chronique S10+07 sur une carte des sections qui découpe le corpus en paragraphes permet de localiser les paragraphes qui contiennent une proportion particulièrement élevée27 de formes appartenant à cette chronique. On repère également des paragraphes du congrès 2007 qui ne contiennent que peu ou pas du tout de formes appartenant à la chronique spécifique de la période 2007. On note que plusieurs des paragraphes appartenant à des congrès précédents contiennet également un grand nombre de ces formes. Ces données nous amèneront à étudier l’hypothèse que ces paragraphe constituent une première introduction de thèmes qui deviendront dominants pour le congrès de 2007. La figure 11 présente, exprimées cette fois en terme de spécificités, les mêmes données relatives à l’apparition du vocabulaire spécifique pour la période 2007. Cette vue permet de confirmer le caractère extrêmement progressif de la mise en place du nouveau vocabulaire dont on trouve les principales formes spécifiques au tableau 12.

27

Dans une métrique définie par le calcul des spécificités.


63

Explorations textométriques

Figure 10 : Corpus Cong82-07 : Les spécificités chronologiques positives majeures de la période 2007 sur une division en paragraphes

Figure 11 : Corpus Cong82-07 : Les spécificités chronologiques positives majeures de la période 2007 ventilées sur l’ensemble de la période 1982-2007


64

Explorations textométriques

Tableau 11 : Corpus Cong82-07 : Quelques paragraphes spécifiques des congrès de 2002 et de 2007 Section 647 (annonce dans le congrès tenu en 2002) ( 六 ) 坚持稳定压倒一切的方针 , 正确处理改革 发展 稳定的关系 . 稳定是改革和 发展 的前提 . 要把改革的力度 & 发展 的速度和 社会 可承受的程度统一起来 , 把不断改善人民生活作为处理改革 发展稳定关系的重要结合点 , 在 社会 稳定中 推进 改革 发展, 通过改革 发展促进 社会 稳定 . # 6) Maintenir le principe selon lequel la stabilité sociale prime tout et traiter judicieusement les rapports entre la réforme, le développement et la stabilité sociale. Celle-ci étant la prémisse de la réforme et du développement, il importe de bien combiner les exigences en matière de vigueur de la réforme, de rythme de croissance et de capacité d'adaptation de la société à leurs effets, et de faire de l'amélioration continuelle de la vie du peuple le point de jonction incontournable de ces rapports et ce, de manière à promouvoir la réforme dans la stabilité sociale et à favoriser celle-ci par la réforme et le développement. # Section 778 (congrès de 2007) 高举 中国特色社会主义伟大旗帜为夺取 全面建设 小康社会新胜利而奋斗# lever bien haut l'étendard du socialisme à la chinoise et lutter pour réaliser de nouveaux succès dans le développement général d'une société de moyenne aisance. # Section 806 (congrès de 2007) 改革开放是党在新的时代条件下带领人民进行的新的伟大革命 , 目的就是要解放和 发展 社会 生产力 , 实现国家 现代化 , 让 中国 人民富裕起来 , 振兴伟大的中华民族 ; 就是要推动我国社会主义制度自我完善和 发展 , 赋予社会主义新 的生机活力 , 建设 和 发展 中国特色 社会主义 ; 就是要在引领当代 中国 发展进步中加强和改进党的建设 , 保持和发展党 的先进性 , 确保党始终走在时代前列 . # la réforme et l'ouverture s'inscrivent dans la grande révolution menée par le peuple sous la direction du parti dans le nouveau contexte historique. cette révolution a pour mission de libérer et de développer les forces productives sociales, de moderniser notre pays, de faire accéder la population chinoise à la prospérité et de redresser la grande nation chinoise. cette révolution a également pour but de pousser le régime socialiste de notre pays vers l'auto-perfection et le développement, de procurer de nouvelles vitalités au socialisme, ainsi que de construire et développer le socialisme à la chinoise. tout en menant le progrès et le développement de notre pays, elle vise aussi, pour que le parti reste toujours à la pointe de notre époque, à renforcer et améliorer l'édification du parti, ainsi qu'à conserver et développer sa nature progressiste. # Section 920 (congrès de 2007) 让 我们高举 中国 特色 社会主义 伟大 旗帜 , 更加 紧密 地 团结 在 党中央 周围 , 万众一心 , 开拓 奋进 , 为 夺取 全面建设小康 社会新胜利 & 谱写人民美好生活新篇章而努力奋斗 ! # en brandissant bien haut l'étendard du socialisme à la chinoise, nous nous efforcerons, unis autour du comité central du parti, animés d'une seule et même volonté et dotés d'un esprit novateur, de réaliser de nouveaux succès dans le développement général d'une société de moyenne aisance et de composer un nouveau chapitre de la vie heureuse du peuple chinois ! #

Commentaire : Le thème général qui émerge de l’évolution du vocabulaire constatée en 2007 concerne, comme on peut le vérifier au tableau 11, le développement harmonieux de l’économie et la mise en place d’une société de moyenne aisance.


Explorations textométriques

65

Tableau 12 : Corpus Cong82-07 : Les spécificités chronologiques positives majeures de la période 2007 Forme 1 2 3 4 5 6 7 8 9 10 11 12 13

体系 和谐 创新 发展观 社会 发展 着力 特色 公共 社会和谐 推进 特色社会主义 理论体系

14

发展中国特色社会主义

15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

中国特色社会主义 发展中国 中国特色 保障 科学 完善 健全 文化 自主创新 和平发展 贯彻 落实 科学 协调 能力 贯彻落实 落实 小康社会 安全

32

全党全国各族人民

33

中国

Équivalent français

FTot.

FPart

système harmonie innovation concept de développement société développement effort inlassable caractéristique public harmonie sociale faire progresser socialisme système théorique développement du socialisme à la chinoise socialisme à la chinoise développer --- Chine à la chinoise assurer science excellent perfectionner civilisation innovation autonome développement dans la paix appliquer - appliquer - science coordination capacité appliquer - appliquer appliquer société de moyenne aisance sécurité tout le parti et l'ensemble de notre peuple multiethnique chine

129 40 90 21 550 1138 25 185 24 12 180 138 11

67 33 50 21 164 283 20 65 18 12 60 51 11

Coeff. 22 21 19 18 18 18 13 12 11 11 10 10 10

11

11

10

136 15 177 100 198 216 97 270 13 8 8 56 70 9 33 41 52

50 13 60 39 62 67 38 74 11 8 8 26 29 9 18 21 24

10 10 10 9 9 9 9 8 8 8 8 8 8 8 8 8 8

8

8

8

508

123

8

On a rassemblé au tableau 13 les spécificités négatives majeures (i.e. formes dont l’emploi dans la dernière période est jugé particulièrement faible par le calcul des spécificités). Cette approche permet d’entreprendre l’étude de la partie du vocabulaire présent aux débuts du corpus considéré, à laquelle les rédacteurs du dernier texte feront moins appel que lors des congrès précédents. Ce vocabulaire mis à l’écart ou tombé en désuétude constitue une donnée


Explorations textométriques

66

toute aussi importante pour analyser les évolutions de la politique d’une l’organisation politique telle que celle que nous étudions28. Tableau 13 : Corpus Cong82-07 Les spécificités chronologiques négatives majeures de la période 2007 Forme 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

28

对 我国 不 斗争 纪律 现在 两 于 这个 的思想 民族的 在社会主义 许多 着 严重 他们 文明的 这样 情况 的领导 建设有中国特色 社会主义 来 的精神 企业的 这是 的经济 一个 条件 路线 也

Équivalent français pour notre pays (négation) lutte discipline maintenant deux (particule grammaticale) ce pensé de du peuple dans le socialisme multiple (particule grammaticale) sévir ils de la civilisation ainsi fait (nom) direction de édification du socialisme à la chinoise venir / pour élan de de l’entreprise ceci est de l’économie un condition phase aussi

Frq. Tot. Fréquence

Coeff.

384 283 414 86 53 57 85 109 112 72 48 42 59 66 67 57 36 59 58 97

38 25 43 4 1 1 4 6 7 2 0 0 1 2 2 1 0 1 1 4

-4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4

44

0

-4

130 39 36 79 49 124 131 128 152

8 0 0 3 1 7 8 6 9

-4 -4 -4 -4 -4 -4 -4 -5 -5

Rappelons que des difficultés résiduelles de la segmentation automatique des textes chinois compliquent provisoirement cette dernière tâche. Des segmentations différentes d’une même séquence prise dans des contextes différents pouvant compliquer le repérage des occurrences d’une même séquence.


67

Explorations textométriques

6 Conclusion

A partir d’une série textuelle chronologique de textes politiques chinois échelonnés sur près d’un siècle nous avons mis en évidence, à l’aide des méthodes de la textométrie chronologique, la variation progressive du vocabulaire employé dans ces textes. Une première série d’outils textométriques (afc, spécificités, etc.) nous a permis de vérifier que la variation du vocabulaire au fil du temps constituait bien la caractéristique quantitative majeure du corpus. Ces mêmes méthodes nous ont permis de procéder à une typologie sommaire du corpus répartissant les congrès en quatre grandes périodes et de procéder à l’étude des spécificités lexicales de chacune de ces périodes. L’analyse des chroniques spécifiques nous a permis de mettre en évidence des moments particuliers de l’évolution d’ensemble. La constitution d’ensembles de formes variant en liaison étroite avec la dimension chronologique du corpus nous a permis de préciser notre description et de mettre en lumière des sections particulières du corpus qui constituaient autant d’illustrations en contexte des phénomènes globaux que nous avions mis en évidence. L’application des mêmes méthodes à un corpus réduit à des textes plus homogènes, les congrès survenus dans la toute dernière période (1982-2007), nous a permis de décrire avec une précision accrue les changements lexicaux survenus dans une période plus courte. Les procédures de textométrie chronologique que nous avons employées pour décrire l’évolution de ce corpus de textes politiques chinois nous semblent constituer désormais un ensemble de méthodes mobilisables pour la description de tout corpus textuel chronologique.

7 Références

Lamalle C., Salem A., "Types généralisés et topographie textuelle dans l’analyse quantitative des corpus textuels", Actes des 6èmes Journées d’analyse des données textuelles, St Malo, 2002 Lebart L., Salem A., Statistique textuelle, Paris, Dunod, 1994, téléchargeable sur le site : http://www.cavi.univ-paris3.fr/lexicometrica/livre/st94/st94-tdm.html Miao J., Salem A., Comparaisons textométriques de traductions franco-chinoises, in Explorations textométriques, 2008. Salem A., "La lexicométrie chronologique", Actes du colloque de lexicologie politique "Langages de la Révolution", collection "St. Cloud", Paris, Klincksieck, 1994. Salem A., "Les chroniques spécifiques", Lexicometrica, http://www ;lexicometrica.fr, décembre 2008.


Explorations textométriques

68

Le discours de Fidel Castro. Essai de lexicométrie politique29. Serge A. de Sousa serge.desousa@netcourrier.com Résumé : L’exploration textométrique d’une série de discours prononcés par le leader de la révolution cubaine le 26 juillet de chaque année, lors de la commémoration de l’attaque de la Caserne Moncada du 26 juillet 1953, devenu jour de fête nationale, permet de mettre à jour les principales caractéristiques de la parole castriste. L’utilisation de méthodes propres à la lexicométrie chronologique permet de souligner l’évolution du vocabulaire sur l’ensemble de la période considérée, à savoir 1959-2004 et de proposer, sur des bases lexicales, une périodisation du régime castriste. Mots-clés : Textométrie, séries textuelles chronologiques, discours castriste, Castro, révolution cubaine.

Abstract : The textometric analysis of a series of speeches pronounced by the leader of the Cuban revolution on July 26th of every year, during the remembrance of the Moncada Attack of July 26th, 1953, become day of national holiday(feast), allows to put on light the main characteristics of the Castro speech. The use of methods appropriate for the chronological lexicometric allows to underline the evolution of the vocabulary on the whole period considered, namely on 1959-2004 and to propose, on lexical bases, a periodisation of the Castro regime. Keywords : Textometrics, textual time series, analysis of castrist presidential discourse, Castro, Cuban revolution.

1 Contexte de la recherche

Le 26 juillet 1953, une centaine d’assaillants tentaient en vain de prendre d’assaut une des principales casernes militaires de Cuba, la Moncada. Comme le dira Ernesto Guevara, qui par ailleurs n’y participa pas, "l’attaque fut un échec, l’échec se transforma en désastre" [Guevara 1965], entrainant alors une répression sévère envers la centaine d’insurgés qui avaient osé s’attaquer au régime du général Batista. Cette escarmouche n’en constitua pas moins l’événement fondateur30 de ce qui alors n’était pas encore connu comme "castrisme", tout juste comme "fidelisme". Fidel Castro, comme c’est de lui qu’il s’agit, jeune avocat, avait organisé cette attaque, qui selon lui devait donner le départ à une insurrection populaire générale. Fait prisonnier quelques semaines après l’attaque alors qu’il s’était réfugié dans la sierra, celui qui était alors connu "pour son énergie et sa facilité de parole" [Thomas 2004, 616] demanda à assurer lui-même sa défense, cependant que le général Batista "redoutait à ce point son éloquence que son cas fut disjoint et il fut jugé seul, à huit-clos, dans une petite salle" [Merle 1965 : 288g] : sa longue plaidoirie, terrible réquisitoire contre le régime de Bastista, restera dans l’histoire pour sa conclusion : "condenadme, no importa, la historia me absolverá" [Castro 1961]. Quand, à l’aube de l’année 1959, Fidel Castro et ses hommes renverseront le régime de Batista et arriveront au pouvoir, le 26 juillet, proclamé jour de fête nationale, sera l’occasion pour Fidel de prononcer chaque année un long discours lors des festivités de commémoration 29

Merci à Etienne Brunet, Damon Mayaffre, Max Reinert et André Salem pour leur intérêt et leur aide technique respective. 30

Événement fondateur, rappelé fréquemment par Fidel Castro bien sûr, mais aussi par [Guevara 1965].


69

Explorations textométriques

de cet événement fondateur devenu mythique. Plus que tout autre peut-être, Fidel Castro a fait du discours, de l’art oratoire, un élément fondamental de son régime. Tour à tour commandant en chef des forces armées, premier ministre, président du conseil, celui-ci prononce régulièrement, devant des milliers de cubains réunis place de la Révolution à La Havane et harangués apparemment avec plaisir, d’interminables discours, ce qui fait dire à certains que, "selon les règles de l’éloquence grecque, Castro parl[e] trop" [Sartre cité par Rigoulot 2007, 35]. "Orateur grandiloquent" [Rigoulot 2007, 35], "classique" [Fogel & Rosenthal 1993] ou "hors-pairs" [Ramonet 2006, 513], doué d’une "simplicité" [Fogel & Rosenthal 1993] de parole ou prononçant des "discours-fleuves décousus" [Rigoulot 2007, 35], "logorrhée castriste débouchant souvent sur des incantations désordonnées et des incohérences" [Rigoulot 2007, 35] qui "renvoie à la rhétorique de Hitler" [Verdès-Leroux] ou "éloquence impressionnante" [Ramonet 2006, 513], Fidel Castro et son discours ont fait l’objet des qualificatifs les plus variés tant les commentaires sur la révolution cubaine et ses acteurs restent entachés d’une émotion partisane. Tous cependant s’accordent à souligner l’importance de l’art oratoire dans l’action de Fidel Castro. C’est pourquoi l’approche de la révolution cubaine ne peut se passer d’une analyse qui, prenant appui sur une théorie du discours, prenne pour objet la masse considérable des discours de son principal et presque unique leader de 1959 à 200831, analyse facilitée par la mise à disposition d’outils lexicométriques permettant d’appréhender une telle masse textuelle32. C’est une modeste contribution à telle analyse que cette étude se propose d’apporter.

==== Repères chronologiques sur la période (1926-2008) ==== 1926 Naissance de Fidel Castro. 1953 Le 26 juillet, Fidel Castro, avec un groupe de 165 hommes, attaque la caserne Moncada. Fidel Castro est arrêté le 1er août puis jugé le 1er octobre et condamné à 15 ans de prison. 1955 A la faveur d’une amnistie générale, Castro est libéré. Il fonde le Mouvement du 26 Juillet et dans le but d’organiser l’opposition à Batista depuis l’étranger, s’exile au Mexique où il rencontre Ernesto Guevara. 1956 Fidel Castro et 82 autres expéditionnaires débarquent sur la côte est de Cuba à bord du yacht Granma. Début de la guerre révolutionnaire à Cuba dont les focos se situent principalement dans la Sierra Maestra. 1959 Le 1er janvier, Batista quitte Cuba, les rebelles arrivent au pouvoir. Castro devient commandant en chef des Forces Armée Révolutionnaires (janvier) puis, le 16 février, 1er ministre du gouvernement révolutionnaire. Les USA commencent à envisager son élimination. 1961 Les États-Unis rompent leurs relations diplomatiques avec Cuba et ferment leur ambassade à La Havane. Castro déclare le caractère socialiste de la révolution. Envoyés par la CIA, 1500 contre-révolutionnaires débarquent à Playa Girón. Castro prononces ses « Paroles aux intellectuels » stipulant « Avec la révolution, tout ; contre la révolution, rien ». 1962 Cuba est exclue de l’OEA. Début de l’embargo instauré par les USA. Crise des missiles. 31

Date de son retrait officiel et définitif de la direction du pays ; pour les différentes fonctions officielles exercées voir la chronologie ; la révolution cubaine n’a en effet pas eu d’autres leaders qui puissent rivaliser avec Fidel Castro tout au long des cinquante années de présence de celui-ci à la tête du pays, tout juste peut-on évoquer, mais dans un autre registre, Che Guevara durant les premières années du régime et Raul Castro mais qui en tout état de cause ne peut pas être considéré (avant son accession au pouvoir en 2008) comme un leader.

32

Plus de 7 millions d’occurrences pour près d’un millier de discours dans une version encore incomplète mais déjà exhaustive.


70

Explorations textométriques

1965 Création du Partido Comunista de Cuba, Castro en est élu premier secrétaire. Création de Granma, organe officiel du PCC. 1967 Castro annonce au peuple cubain la mort d’E. Guevara. 1970 Echec de la zafra de los diez millones. Castro reconnait sa responsabilité dans cet échec. 1971 Padilla est arrêté après publication d’un recueil de poème et contraint de faire son autocritique publique. 1972 Adhésion de Cuba au COMECON, marché commune des pays socialistes. 1976 La première constitution politique de la Cuba socialiste est adoptée par référendum. Castro, de premier ministre (1959-1976), devient président du Conseil d’Etat (chef de l’Etat) et président du Conseil des ministres (chef du gouvernement). Sans adversaires, il est réélu à la tête de ces Conseils par leurs membres tous les 5 ans. 1979 Castro est élu président du Mouvement des non-alignés lors du 4° sommet, à La Havane. Victoire des sandinistes au Nicaragua. 1980 Deuxième crise migratoire avec les Etats-Unis. Mise en place du pont maritime entre la Floride et le port de Mariel. Cuba autorise tous ceux qui le souhaitent à quitter l’ile. Entre avril et septembre, près de 125000 cubains quittent l’ile. 1985 Arrivée de Gorbatchev au premier secrétariat du PCU, début de la glasnost et perestroïka (transparence et restructuration), que Castro refusera pour Cuba en 1988. 1986 Début du processus de « rectification des tendances négatives », Castro dénonçant les erreurs dans la direction du Parti, l’économisme, la bureaucratie, les égoïsmes et la corruption. 1990 Début de la « période spéciale en temps de paix » et annonce des 14 mesures de restriction de consommation d’essence et d’électricité. 1991 Effondrement de l’URSS. Chute du PIB cubain de 35%. 1992 Durcissement de la période spéciale. Premières élections municipales au suffrage direct. 1994 Crise des balseros qui se jettent à la mer pour tenter de gagner les USA. 1996 Par la loi Helms-Burton, le blocus économique instauré par les USA est durci. 2006 Suite à des problèmes de santé, Castro délègue ses pouvoir à une équipe de 7 personnes présidée par son frère Raul Castro. 2008 Fidel Castro se démet de toutes ses fonctions en faveur de son frère Raul.

2 Le corpus

Pour cette exploration textuelle, nous avons choisi de constituer, à partir du corpus exhaustif de Fidel Castro, un échantillon comprenant un discours par an de 1959 à 2004. Le discours choisi est celui prononcé chaque année par Fidel Castro lors des festivités de commémoration de l’attaque du 26 juillet 1953. Le corpus ainsi constitué, dont nous synthétisons les principales caractéristiques quantitatives dans le tableau ci-dessous, compte près de 460.000 occurrences, réparties sur une période de 46 ans, de 1959 à 2004. Selon les besoins de l’analyse, nous avons partitionné le corpus de différentes façons qui nous permettront d’éprouver la dimension chronologique du corpus : -la partition année sépare le corpus en 42 sous-parties correspondant aux 42 années effectives du corpus (42 années effectives au lieu des 46 années de la période sur laquelle s’étend le corpus car à ce jour le discours des années 1969, 1994, 1997, 2001 sont restés introuvables) ; -la partition lustre sépare le corpus en 9 sous-corpus de cinq années (seul le premier qui va de 1959 à 1964 a une période de 6 années) ;


Explorations textométriques

71

-enfin, la partition décennie qui sépare le corpus en 4 périodes de 10 ans et une période de 5 ans (2000-2004). Les différentes partitions et leurs caractéristiques lexicométriques sont présentées dans les tableaux ci-dessous. Partition Lustre

1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973

Partition Décennie

Occ.

Form

Hapa

Fmax

1959-64

85082

7804

3728

4922

1965-69

47851

5890

3014

2914

1970-74

66967

8148

4207

4900

1975-79

34254

5273

2866

2296

1980-84

51797

7469

3949

3950

1985-89

64575

7339

3699

4376

1990-94

45585

6178

3208

2895

1995-99

49937

7749

4219

3244

2000-04

20263

4964

3146

1461

19592004

466311

23928

10362

30958

Occ 11908 5817 18068 15742 14755 18792 12886 13425 11889 9651 --18297 13894 13759 8730

Form 2079 1290 2654 2563 2827 3150 2466 2602 2521 1828 --3327 3052 2648 2398

Hap 1124 736 1332 1351 1590 1705 1396 1479 1452 997 --1835 1755 1521 1570

Fmax 708 317 1097 825 925 1130 762 857 732 563 --1371 1066 935 631

1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988

Occ 12287 5132 5791 8709 8342 6280 9548 11576 12994 6184 11495 11279 13583 14187 18090

Occ.

Form

Hapa

Fmax

132933

19380

4794

7836

1959-69

101221

10282

5064

7196

1970-79

116372

11119

5415

8326

1980-89

95522

10714

5385

6139

1990-99

20263

4964

3146

1461

2000-04

466311

23928

10362

30958

19592004

Partition Année Form Hap Fmax 2485 1441 897 1324 803 387 1533 944 424 1911 1093 554 2292 1507 504 1601 969 427 2215 1271 632 3032 1881 907 3049 1838 1075 1949 1335 467 2620 1529 869 2408 1388 769 2937 1708 821 2740 1550 963 3301 1804 1252

Occ

Form

Hap

Fmax

7436 1861 1131 571 1989 12757 2734 1589 832 1990 801 1991 12241 2615 1510 734 1992 11003 2350 1332 9584 2182 1282 528 1993 --------1994 3770 1352 934 265 1995 9168 2231 1363 522 1996 --------1997 1998 23427 4805 2800 1512 945 1999 13572 3189 1941 5828 2021 1456 450 2000 --------2001 2918 1211 895 204 2002 4863 1712 1203 369 2003 6654 2143 1464 438 2004 1959- 466311 23928 10362 30958 2004

Le corpus constitue ce que la statistique textuelle appelle une série textuelle chronologique, c'est-à-dire, un ensemble de texte possédant un aspect sériel et s’échelonnant dans le temps. L’objet de cette analyse est d’éprouver, à l’aide des outils et concepts lexicométriques, la structure générale de cette série textuelle chronologique, dont l’homogénéité des conditions de production des discours donne une certaine cohérence, en mettant à jour les principaux


Explorations textométriques

72

mouvements du vocabulaire. De prochaines études sur ce même corpus devraient s’attacher à des phénomènes plus précis parmi les stratégies discursives mobilisées par le locuteur. 3 Exploration lexicométrique 3.1 Configuration d’ensemble et périodisation de la série textuelle chronologique

Nous commencerons cette étude par la mise à jour de la configuration d’ensemble du corpus et des principaux mouvements dans l’évolution lexicale. Pour cela, l’analyse factorielle des correspondances (AFC) permet à l’analyste de se représenter graphiquement l’organisation d’ensemble des différentes parties du corpus analysé selon le profil lexical de celles-ci. Il est inutile de préciser ici en quoi consiste l’analyse factorielle des correspondances, bornons-nous simplement à dire d’une part que deux textes ayant une large part de vocabulaire commun se retrouveront plus proches sur le plan factoriel que deux textes n’ayant que peu de vocabulaire commun. D’autre part, et sans évoquer, non plus, plus en détails la notion de série textuelle chronologique (STC), pouvons-nous dire qu’une série de textes ayant une même source énonciative et échelonnés dans le temps possède des caractéristiques de renouvellement de son vocabulaire telles que les différents textes composant cette série sont représentés sur le plan de l’analyse factorielle des correspondances selon leurs rapports de contigüité chronologique et formant plus ou moins un arc de cercle33. Ainsi, ces principes étant posés, il nous est possible d’observer l’AFC réalisée à partir de notre corpus et de ses différentes partitions, et de voir en quoi celle-ci diffère des observations communément admises. Partant, nous pourrons alors déceler des irrégularités dans l’évolution du vocabulaire, indices de stratégies discursives et de conditions sociohistoriques d’énonciations particulières. L’AFC réalisée sur le corpus entier selon la partition décennie (figure 1) nous indique : • que la plupart des sous-parties du corpus s’ordonnent de façon régulière et chronologique en formant un arc de cercle, indice d’un renouvellement régulier et à priori normal du vocabulaire tout au long de ces cinq décennies ; • qu’une exception notable cependant est constituée par la période 1990-1999 qui, on le voit, s’éloigne ostensiblement de l’ordonnancement attendu, bien que respectant encore le rapport de contigüité chronologique, et nous amène à penser que les thématiques du discours castriste ont, à cette époque, subies une évolution plus rapide que l’évolution d’ensemble du discours ; • que le premier axe, notons-le au passage et nous y reviendrons plus tard, sépare les années 1959-89 (partie supérieure du plan) des années 1990-2004 (partie inférieure du plan) et que le deuxième axe sépare la première décennie, 1959-69 (extrémité gauche du plan), du reste du corpus (les années 1970-2004). Ces deux césures ont toute leur importance et nous indiquent dès lors la structuration générale des mouvements de vocabulaire du corpus34. Elles pourront nous servir pour la périodisation du discours castriste et l’étude des spécificités par période. En conclusion donc de cette première AFC, on remarque un renouvellement a priori et globalement régulier du vocabulaire à l’exception de la décennie 90, un corpus structuré en trois temps (1959-69 ; 1970-89 ; et 1990-2004) dont la première décennie est celle qui s’individualise le plus sur le premier plan factoriel. 33 34

Pour ce qui concerne les STC nous renvoyons à [Salem], [Salem], [Mayaffre]

Nous verrons que la classification automatique effectuée par Alceste nous propose des césures légèrement différentes en isolant d’abord les années 70 puis les années 1990-2004 (classe 3).


73

Explorations textométriques

Figure 1 AFC réalisée sur l’ensemble du corpus les formes de fréquences supérieures à 10 selon la partition décennie. Les différentes partitions chronologiques du corpus permettent à l’analyste un changement d’échelle dans ses observations lui permettant alors d’affiner ou de pondérer certaines observations sur le renouvellement du vocabulaire. Ainsi, si nous observons maintenant l’AFC réalisée sur l’ensemble du corpus partitionné par périodes de 5 années, le même type d’observations peuvent être formulées, mais de façon plus précise, sur des périodes de temps réduites : • de façon générale, les 9 sous-corpus de périodes de 5 ans s’organisent sur le plan factoriel selon leur rapport de contigüité chronologique, indice d’un renouvellement régulier du vocabulaire ; • cependant, nous remarquons également que durant la décennie 1990, le vocabulaire castriste a subi un renouvellement anormal : la première période de la décennie (les années 90-94) se trouve proche du centre topologique, indice d’un vocabulaire proche de la "moyenne", en contrepartie, la seconde période de la décennie, correspondant aux année 1995-99 se trouve particulièrement excentrée, indice d’un vocabulaire singulier ; surtout, la partie 90-94 s’éloigne de la position attendue pour se rapprocher des premières années du corpus, les parties 59-64 et 65-69, signe d’une tentative de retour aux fondamentaux ou au discours originel de la Révolution ; globalement donc, une décennie discursivement chaotique ; • enfin, deux autres phénomènes peuvent être relevés, qui n’apparaissaient pas dans l’AFC précédente : d’une part les deux périodes de la décennie 70 (70-74 et 75-79) sont très proches, indice a priori d’une stagnation dans le renouvellement du vocabulaire et d’un figement du discours durant toute la décennie ; d’autre part, le bouleversement des rapports de contigüité entre les deux périodes de la décennie 80 semblaient déjà annoncer les variations dans l’évolution régulière du vocabulaire durant les années 90. • notons aussi le premier axe qui sépare les années 1959-64 et 1990-2004 des années intermédiaires (1965-1989), et surtout le deuxième axe séparant les années 1959-69 du reste du corpus.


74

Explorations textométriques

Figure 2 AFC réalisé sur l’ensemble du corpus les formes de fréquences supérieures à 10 selon la partition lustre. Les observations concernant la configuration générale du corpus mise à jour à travers les AFC peuvent avantageusement être complétées par la méthode Luong (analyse arborée) qui, sur des principes et calculs différents, permet une représentation graphique des distances entre textes. Ainsi, l’analyse arborée nous confirme-t-elle les constatations effectuées à partir de l’AFC : • un corpus où le facteur chronologique semble être le principal critère structurant le vocabulaire (en d’autres termes où l’évolution lexicale épouse l’évolution chronologique) ; • un corpus où les 9 sous-corpus de 5 années consécutives chacun se répartissent en 4 mouvements principaux correspondant aux quatre branches de l’arbre : les années 60 d’une part ; les années 1970 d’autre part ; puis les années 1980 ; et enfin les années 1990-2004 ; • un corpus où deux décennies se singularisent fortement, les années 60 et les années 90-2004, et où au contraire des décennies restent lexicalement très proches, les années 70 et 80 ; • enfin, les années 1990-94 qui s’individualisent sur la représentation.


75

Explorations textométriques

Figure 3 Arbre des distances réalisé sur l’ensemble du corpus selon la partition lustre. Ainsi, deux sous-corpus proches chronologiquement sont donc rapprochés sur l’arbre. Indice de la connexion lexicale entre ces différents sous-corpus, ceci confirme que le principal facteur structurant le lexique est le temps lexical. En réalité un tel constat concernant la connexion lexicale n’est que relatif car il apparait qu’en changeant certains critères relatifs aux calculs, comme par exemple la prise en compte de la fréquence, et non plus uniquement de la présence/absence, des formes ou des lemmes, l’arbre obtenu diffère sensiblement. Cependant, ayant éprouvé les différents calculs et représentations multidimensionnelles obtenues sur notre corpus, nous pouvons dire que les différents points, que les grands mouvements de vocabulaire que nous venons d’évoquer ci-dessous (individualisation lexicale des années 59-69, 90-94, etc) restent stables. Au contraire, en prenant en compte la fréquence des formes dans le calcul de la connexion (devenant ainsi la distance intertextuelle et non plus la connexion lexicale [Labbé & Labbé] la singularité des années 1990-94 mais aussi des années 85-89, déjà remarquée sur l’AFC, tendent à s’accentuer, celles-ci se rapprochant des années 60 (comme nous l’avions remarqué sur l’AFC) et les années précédant cette période, les années 85-89 tendent à suivre le mouvement en s’éloignant des années 70-79 et 80-85. Ainsi, dans l’arbre effectué à partir des fréquences, les irrégularités dans l’évolution du lexique, les périodes à l’évolution lexicale troublée, se trouve plus marqué dans la représentation graphique. Eléments de contextualisation : La mise en relation des variations lexicométriques constatées et du contexte sociopolitique général de Cuba permet d’éclairer avantageusement ces ruptures lexicométriques. Il est remarquable alors de voir que les périodes à l’évolution lexicale irrégulière correspondent aux périodes socio-historiquement très marquées à Cuba : • les années 70 s’ouvrent à Cuba par la condamnation et le procès du poète Heberto Padilla marquant dès lors la décennie du sceau du durcissement idéologique. Cette période verra en outre l’institutionnalisation de la Révolution, par la tenue du Premier Congrès du Parti Communiste Cubain et la promulgation de la Constitution, et un rapprochement de l’URSS par l’entrée dans le COMECON (1972). Ces différents


76

Explorations textométriques

éléments peuvent éclairer la constatation lexicométrique d’un vocabulaire qui se renouvelle peu durant ces dix années. • De même concernant les constatations lexicométriques des années 90, il ne faut pas oublier que cette décennie s’ouvre par l’effondrement du bloc soviétique qui voit Cuba bien seule sur la scène internationale. De plus, marquée par la crise économique et les doutes idéologiques d’une population cubaine en majorité née après la victoire castriste, et qui par conséquent n’a pas connu la période antérieure, "Cuba la Révolutionnaire traversa la phase la plus difficile de son histoire" [Trento 107] amenant le gouvernement à instaurer une "période spéciale en temps de paix". Ces éléments sociohistoriques éclairent à leur tour le revirement lexical des cinq premières années de la décennie 90 avec un discours qui lexicalement se rapproche du discours originel : face à la désagrégation du bloc soviétique, à la chute du modèle communiste et aux difficultés économiques, Fidel Castro réaffirme la validité du socialisme et de la Révolution. 3.2 Accroissement chronologique et richesse du vocabulaire

Après avoir considéré et commenté la configuration d’ensemble de notre corpus, nous allons nous attacher, dans les lignes qui suivent, à l’étude de la dimension structurelle du corpus (richesse du vocabulaire, accroissement chronologique). Ainsi, si l’on considère l’accroissement chronologique du vocabulaire pour l’ensemble du corpus, il apparait que le discours de Fidel Castro a des caractéristiques plutôt opposés à ce qui est habituellement observé. En effet, les expériences lexicométriques (Labbé, etc.) ont montré que "dans tout texte en langue naturelle, l'afflux de mots nouveaux est d'abord extrêmement fort puis il décroît rapidement, tout en demeurant positif, même dans les textes extrêmement longs" [Arnold 2005]. Ceci se trouve représenté par une courbe ayant la forme d’une demi-parabole (voir graphique figure 4a). Or, dans le cas de Fidel Castro la courbe a une toute autre forme, proche de la ligne droite : chez Fidel Castro, les caractéristiques de l’accroissement chronologique se trouvent donc en quelque sorte inversées : relative pauvreté lexicale durant les premières années de la révolution puis, par la suite, renouvellement thématique plus important.

Figure 4a et 4b Courbe d’accroissement chronologique du vocabulaire. Pour compléter cet aspect, l’observation de l’accroissement chronologique du vocabulaire interne à chaque décennie nous confirme alors que le vocabulaire des années 60 est beaucoup moins varié que celui des années suivantes (figure 6). En d’autres termes, dans les années 60, les thématiques abordées par Fidel Castro semblent beaucoup plus stables et reprises d’année en année amenant alors un vocabulaire régulier ; par la suite, les thématiques abordées lors du


77

Explorations textométriques

discours du 26 juillet par Fidel Castro semblent se renouveler d’année en année, certainement beaucoup plus marquées par le contexte, international en particulier, et beaucoup moins centrées sur "le triomphe de la révolution", comme nous pourrons le voir par la suite grâce aux spécificités.

Figure 5 Accroissement chronologique du vocabulaire pour chaque décennie du corpus. 3.3 Structure thématique de la série textuelle chronologique

Quelle est la structure thématique du discours castriste35 ? Quelle est la "structure même de la composante sémantique" [Labbé 1977, 43] du discours de Fidel Castro, ou, en d’autres termes, quel est "l’univers des préoccupations" [Labbé 1977, 28] du locuteur ? Sans entrer dans des discussions plus approfondies sur cette question, nous pouvons dire qu’un discours est "organisé autour de quelques motifs pivots qui forment les thèmes constitutifs" [Labbé 1977, 43], motifs pivots dont "la fréquence s’est révélée être le meilleur indicateur" [Labbé 1977, 43]. Ces motifs pivots, mots clés ou mots thèmes autours desquels s’articulent des motifs ou items associés, doivent être pris dans leur dimension syntagmatique, ou cooccurrentielle, étant entendu que le sens nait des relations qu’entretiennent les mots entres eux, mais aussi dans leur dimension paradigmatique. Le tableau ci-dessous indique les formes les plus fréquentes du corpus. Plusieurs remarques peuvent être formulées : • Notons tout d’abord et sans surprise la présence d’une série de formes, attendues dans le discours du premier dirigeant d’un pays36 même si l’ordre ("pueblo" en première position) ne manque pas de signification, désignant la collectivité nationale et l’horizon international global: "pueblo", "país", "cuba", "mundo".

35

Dès lors, et pour la suite de cette étude, nous entendrons discours castriste au sens de l’échantillon que nous nous proposons d’analyser soit de notre corpus composé des 42 discours du 26 juillet. Il ne pourrait être question de considérer ces échantillons comme statistiquement représentatif du discours castriste dans son ensemble, sa composition ne répondant pas aux règles préconisées par exemple par Charles Muller. 36

Ainsi ce sont ces quatre mêmes formes, avec un ordre différent qui apparaissent dans la liste dix formes lexicales les plus fréquentes du discours présidentiel français sous la 5° République, de sorte que nous pouvons supposer qu’il s’agit de la structure thématique de base [Mayaffre 2002]. On les retrouve aussi chez Menem [Armony 1993].


Explorations textométriques

78

• Notons ensuite, quoiqu’en dernière position, la désignation d’une valeur prônée surtout dans les premières années de la révolution : "trabajo". • Notons enfin, et c’est certainement le plus remarquable, la présence parmi les dix formes lexicales les plus fréquentes des deux mots "estados" et "unidos", attestés quasi exclusivement dans le segment répété : "estados unidos". Ainsi, si le discours castriste s’attache d’abord et en premier lieu à évoquer le "peuple" cubain et son "pays", "Cuba", les États-Unis, de par leur proximité géographique et historique, de par leur mainmise politique en Amérique latine et particulièrement à Cuba (première moitié du 20° siècle), semblent constituer, à première vue, un des principaux acteurs de ce discours. • Ainsi, et l’inventaire distributionnel de ces formes semble le confirmer, nous pouvons supposer la présence de deux motifs pivots dans le discours castriste : d’une part "Cuba" et la "révolution" ("Cuba", "revolución", "pueblo", "país"), d’autre part les "États-Unis" et le "monde" ("pueblo", "estados unidos", "mundo"). Le discours castriste semble donc construire un rapport antagonique entre deux acteurs collectifs, rapport verbalement incarné par les prépositions "por" et "para", d’une fréquence élevée dans le corpus et faisant partie de l’inventaire distributionnel de chacune des formes paradigmatiques. Cette bipolarisation est d’ailleurs caractéristique des idéologies de combats37. Items 1 2 3 4 5

pueblo país revolución cuba años

Fréquence absolue 2262 1702 1652 1221 962

Fréquence relative (‰) 4,85 3,65 3,54 2,61 2,06

Items 6 7 8 9 10

estados mundo unidos provincia trabajo

Fréquence absolue 769 765 752 749 674

Fréquence relative (‰) 1,65 1,64 1,61 1,60 1,44

Afin de cartographier les attirances et répulsions de ces dix formes les plus fréquentes, de mettre à jour plus avant la structure thématique du discours castriste c'est-à-dire les réseaux lexicaux qui se construisent autours de ces deux axes thématiques, nous mettrons à profit l’analyse factorielle, l’analyse arborée et enfin la carte des sections (l’analyse des cooccurrences et des univers lexicaux nous le permettraient tout autant). L’AFC ci-dessous, effectuée sur ces dix formes lexicales les plus fréquentes du corpus, nous amène à tempérer nos constatations. Ainsi, en ce qui concerne la présence et l’organisation lexicale de ces mots-thèmes, les deux motifs pivots mis à jour dans le discours ne sont pas coïncidents. Deux temps peuvent être mis à jour : • une première période, marquée par la forte présence de la "révolution" et du "peuple" (année 60) (ainsi que, nous le verrons, la forte présence du locuteur à travers le "nosotros") ; • une deuxième période marquée par la présence antagoniste de "Estados Unidos" et "Cuba" (1995-2004). En d’autres termes, la victoire castriste voit le développement dans les années 60 d’un discours répétant à l’envie ces trois formes, qui deviendront alors l’antienne de cette période : "peuple, travail, révolution", sorte de devise de la révolution cubaine dans ses premières années. D’ailleurs, Franz Fanon souligne bien l’attitude d’un pays juste libéré de la tutelle de la puissance coloniale, comme ça pouvait être le cas de Cuba vis-à-vis des États-Unis au 37

Cette même construction antagonique a été mise à jour par nous dans le discours néozapatiste [2007] et par [Labbé 1997] dans le discours communiste.


79

Explorations textométriques

début des années 60 : "les dirigeants nationalistes n’ont d’autres ressources que de se tourner vers le peuple et de lui demander un effort grandiose. De ces hommes affamés on exige un régime d’austérité, à ces muscles atrophiés on demande un travail disproportionné" [2000 : 94]. A cette époque "Cuba", tout comme les "États-Unis", ne sont alors pas très présents dans le discours castriste. Puis, les difficultés arrivant (fin des années 1980 et "période de rectification de erreurs" [sic]), le discours de Fidel Castro change. Le leader de la révolution cubaine adopte une stratégie discursive consistant à prêcher une proximité géographique avec le peuple, une sorte de "provincialisme" ("provincia") ; enfin, les difficultés intérieures persistant, le discours de Fidel Castro, cette fois-ci cherche à désigner le responsable de tous ces maux : les États-Unis. Ceux-ci servent d’exutoire. C’est l’époque de l’ouverture au monde (dans le discours) et de la proclamation verbale presque constante de l’antagonisme entre les États-Unis et Cuba, antagonisme qui s’incarnera finalement dans la dénonciation constante de la politique de Georges Bush et le dénigrement de sa personne38. L’analyse arborée, effectuée sur ces dix formes, nous confirme bien l’attirance d’une part de "Cuba" et "Estados Unidos", et la répulsion de ces deux derniers termes avec "revolución", "pueblo", "trabajo". Si l’on regarde alors la ventilation dans la carte des sections (phrases) des formes "Cuba" et "Estados Unidos", on remarque alors clairement que ces deux formes connaissent des périodes de forte présence, période durant laquelle elles se trouvent d’ailleurs en situation de cooccurrence (années 90-2000). Enfin, le graphe de ventilation nous confirme bien l’existence, en ce qui concerne l’utilisation de ces dix mots-thèmes, de deux temps dans le discours castriste. La ventilation et la fréquence de ces formes dans le discours castriste nous laisse alors envisager une réorientation du discours castriste qui interviendrait au cours des années 80 (figure 9).

38

Cette période ne se trouve pas sa pleine réalisation dans notre corpus car l’obsession pour G. Bush commence en 2004, dernière année de ce corpus, preuve en est la ventilation d’une telle forme, qui avec 89 occurrences dans notre corpus, 71 se trouve dans le seul discours de 2004. Nous renvoyons à l’étude de cet aspect pour un corpus 2007-2008, à "Le vocabulaire des "Reflexiones del compañero Fidel" de Fidel Castro : l’obsession étatsunienne".


80

Explorations textométriques

Figure 6 AFC des dix formes lexicales les plus fréquentes.

Figure 7 Analyse arborée des dix formes lexicales les plus fréquentes.


81

Explorations textométriques

Figure 8 Ventilation par phrase des formes "estados unidos" et "cuba" (1959-1971 et 1996-2004).

Figure 9 Ventilation des formes "pueblo", "revolución", "trabajo", "cuba" et "estados unidos" sur le corpus entier (partition décennie).


82

Explorations textométriques

Ainsi, ce passage d’un discours centré sur la révolution à un discours ayant pour sujet un terme moins marqué, Cuba, ce passage en réalité d’un discours marqué à gauche ("trabajo", "revolución", "pueblo") à un discours beaucoup moins marqué idéologiquement et où les États-Unis prennent un place grandissante comme responsables des maux cubains par leur blocus, nous amène à prendre en considération, pour la mise à jour de la structure thématique la dimension diachronique du corpus., et les spécificité propre à chaque période. 3.4 Spécificités lexicales des principales périodes chronologiques

3.4.1 Périodisation du corpus

Dans cette partie, et toujours dans le but d’explorer le discours castriste afin d’en faire ressortir les principales caractéristiques, nous allons tenter de caractériser les différentes périodes de notre corpus par les formes graphiques qui leurs sont spécifiques. Pour cela, la méthode des spécificités va nous permettre de constituer pour chaque période une liste de formes statistiquement sur-employées. Une fois celles-ci constituées, nous effectuerons un rapide commentaire afin de tenter de dégager les axes thématiques de chacune de ces périodes. Cependant la méthode des spécificités suppose une partition du corpus afin de faire contraster les fréquences dans les sous-corpus avec le corpus, partition qui peut parfois être considérée comme une périodisation a priori et donc une intervention subjective, orientée du chercheur sur son objet d’étude. C’est pour cela que d’une part nous avons cherché dans un premier temps à éprouver la structure diachronique de notre corpus, à l’aide des AFC, des analyses arborées, etc. afin de voir quelle périodisation se dégageait du corpus, en limitant donc le regard subjectif du chercheur. D’autre part, nous avons soumis le corpus, partitionné en année, donc en discours vu qu’il n’est constitué que d’un seul discours par année, mais aussi en lustre et décennie à une classification descendante hiérarchique, à l’aide du logiciel Alceste qui opère par fractionnement successif du corpus selon la distribution des mots dans les énoncés. Il en résulte un classement des énoncés du corpus selon l’utilisation ou l’agencement du vocabulaire, classement dans lequel n’intervient pas le chercheur39. Un tel classement peut nous permettre de confronter la structuration du corpus que les AFC effectuées dans la première partie de cette étude nous avait amené à proposer et, le cas échéant, nous suggérer une périodisation du corpus.

Figure 10 Classification automatique (CDH) des énoncés du corpus (Alceste).

39

A priori, car, en réalité, les différents réglages effectués par le chercheur avant l’analyse automatique peuvent avoir des influences sur les classes résultant de la classification automatique [Delavigne].


83

Explorations textométriques

La classification automatique débouche sur 5 classes correspondant, sauf pour les années 9094 rattachées aux années 80, aux 4 décennies (figure 10). Les spécificités peuvent être analysées en partitionnant le corpus par décennie. Pour la période 90-94, à mi-chemin entre la décennie 80 et les années 95-2004, rattachées dans un premier temps à la période 1990-2004, nous considérerons ensuite son vocabulaire séparément. 3.4.2 Les années 60 : "nous, la Révolution, le peuple..."

Le tableau ci-dessous rassemble les 40 formes les plus spécifiques des années 60. A l’examen de celui-ci, plusieurs remarques peuvent être formulées : • Tout d’abord, les années 60 correspondent à la décennie présentant le discours le plus typé : comme on peut le voir, les formes spécifiques de cette période présentent un indice très fort, et à rang égal, nettement plus fort que celui des spécificités des autres décennies du corpus, même si pour les années 1990-2004 la différence est moindre. Ainsi, au rang 10, le coefficient de spécificité atteint un indice de +E39 pour les années 60 alors qu’au même rang, il a pour valeur E15 (années 70), E22 (annés80) et E24 (année 90 et 2000). Les AFC et l’analyse arborée nous avait déjà signalé la singularité du discours des années 60 par rapport à l’ensemble du corpus, la liste des spécificités et les indices correspondant nous le confirme. • Ensuite, il s’agit d’un vocabulaire politique de base, très marqué idéologiquement : le discours construit des catégories antagoniques, ce qui est caractéristique des rhétoriques de combat : d’une part "nosotros", "revolución", "pueblo", "campesinos", "revolucionarios" et d’autre part "imperialistas", "enemigos", "explotadores," "parasitos", "contrarevolucionarios", "burgueses" et " yankis". • Enfin, notons parmi la liste des spécificités ci-dessous une série de formes fonctionnelles qui illustre bien la rhétorique de combat de cette époque : -la forte présence de l’adverbe de la négation ("no" E+42), indice d’un discours polémique et offensif ; [et d’un discours qui se construit comme un contrediscours] -la forte présence de la conjonction causale "porque", forme la plus caractéristique de cette époque avec 722 occurrences pour 10 discours, indice d’un discours fortement explicatif et argumentatif ; -la forte présence de la forme verbale à la non-personne "es" : on sait que l’espagnol possède deux formes verbales différentes pour exprimer la notion d’"être" (ser/estar) qui servent à distinguer "l’existence en soi" (ser) de "l’existence circonstancielle" (estar) : ainsi, la forte présence du "ser" à la nonpersonne nous amène à constater la "vision définitoire des choses" [Fretel 2007] qui ressort du discours castriste ; en d’autres termes, "es" sert à donner la nature des choses, selon le point de vue du locuteur même si celui-ci s’efface, il sert à établir une relation d’essence entre un support, envisagé depuis le point de vue du locuteur, et un prédicat : de cette façon, il s’agit de l’une des principales formes servant à articuler l’idéologie du locuteur en donnant sa définition des choses sans pour autant que sa présence ne soit explicitée (il n’y a pas par exemple, dans ce cas, de modalisation) ; -enfin, notons, même s’il n’apparait pas dans le tableau, la très forte spécificité du point d’interrogation : celui-ci est un indice fort de la rhétorique castriste des ces années-là. En contexte, on le trouve attesté dans de longues séries de questions rhétoriques servant à amener le peuple-auditoire à une communion d’idée avec le locuteur à travers des réponses implicitement suggérées. Ainsi,


84

Explorations textométriques

associé au point d’interrogation, l’adverbe de négation "no" "suele emplearse como reclamando o pidiendo contestación afirmativa" [DRAE 1992]. -pour finir, soulignons que ces quatre éléments soulignés fonctionnent conjointement dans le discours castriste de cette époque, ils servent une même stratégie discursive, ils construisent un discours combatif, argumentatif et offensive.

Figure 10a et 10b Ventilation dans le corpus (partition décennie) des formes "es", "?", "no", "porque" en fréquence relative (x10000) (fig. a) et du point d’interrogation (spécificités) (fig. b). Ces différents éléments peuvent être donnés à voir dans les extraits suivants : Vocabulaire politique et construction de catégories antagoniques : § Que NOSOTROS NO tenemos que rendirle cuenta a nadie de nuestros actos, PORQUE somos un PUEBLO libre, PORQUE somos un PUEBLO soberano, PORQUE tenemos DERECHO a luchar por nuestra felicidad, y PORQUE ese DERECHO ES un DERECHO soberano y sagrado de los PUEBLOS, PORQUE Cuba ES una república independiente y soberana. Discours du 26 juillet 1959, La Havane. § La reacción y la contrarrevolución NO levantarán cabeza, NO, como dicen ellos, PORQUE haya muchos comités de defensa de la REVOLUCIÓN, PORQUE haya muchos batallones de milicia, PORQUE haya muchos sindicatos, PORQUE haya muchas asociaciones de JÓVENES, y de mujeres, o de estudiantes, o de deportistas, o de cuadros REVOLUCIONARIOS, ¡ NO ! hay muchos batallones de milicia, y muchos comités de defensa, y muchas asociaciones de mujeres, y muchas escuelas revolucionarias, y muchos centros de estudiantes becados, y muchas cooperativas, y muchas granjas del PUEBLO, y muchas asociaciones de pioneros, y muchos cuadros REVOLUCIONARIOS, sencillamente PORQUE el PUEBLO está con la REVOLUCIÓN, y la contrarrevolución NO levantará cabeza PORQUE el PUEBLO está contra ella, PORQUE NO tiene PUEBLO, PORQUE son capillitas de privilegiados, capillitas de EXPLOTADORES, capillitas de gusanos, capillitas de PARÁSITOS, capillitas de traidores, capillitas de confusos, capillitas de vendepatrias, capillitas de lamebotas del imperialismo, capillitas de ENEMIGOS del obrero, de ENEMIGOS del CAMPESINO, de ENEMIGOS del estudiante, de ENEMIGOS de nuestra juventud, de ENEMIGOS de nuestra sociedad, de ENEMIGOS de nuestra nacionalidad, de ENEMIGOS de nuestro PORVENIR, de ENEMIGOS de nuestro progreso. Discours du 26 juillet 1959, La Havane. Formes fonctionnelles, rhétorique argumentative : § ¿Y aquí NO había también discriminación? ¿Y quién importó la discriminación aquí? Ellos, todas esas familias aristocráticas, ¿qué modo de vida tenían e idealizaban?: el modo de vida norteamericano. Discours du 26 juillet 1963. § ¿Acaso NO es hoy nuestra revolución más fuerte que hace un mes? ¿Acaso después de las ofensas que se han inferido a nuestra patria, nuestra revolución NO es más fuerte?


Explorations textométriques

85

Discours du 26 juillet 1961 § ¿Se explican por qué había hambre? ¿Se explican por qué había analfabetos? ¿Se explican por qué NO había hospitales, por qué NO había escuelas, por qué NO había caminos, por qué NO había obras, por qué había tanta miseria y tanto desempleo en nuestro país? ¿Se lo explican? ¡Sencillamente porque el dinero se lo llevaban las compañías extranjeras, se lo llevaban los ricos, lo gastaban en lujos, lo gastaban en paseos, lo gastaban en viajes! Discours du 26 juillet 1962 § ¿Y quién NO se acuerda de lo de antes?, ¿quién se ha olvidado de lo de antes? ningún gobierno podía reunir la décima parte del pueblo que aquí se reúne. Discours du 26 juillet 1961 § Los que quieran saber lo que ES una verdadera democracia, que vengan a Cuba; los que quieran saber lo que ES un pueblo gobernando, que vengan a Cuba; los que quieran conocer de un país donde el pueblo lo ES todo, donde la palabra pueblo tiene su significado real, no teórico, que vengan a Cuba; los que invocando hipócritamente la palabra democracia nos calumnian, que vengan a cuba para que sepan lo que ES una democracia. Discours du 26 juillet 1959 § Una empresa revolucionaria no ES obra de dirigentes revolucionarios, ES obra de todo un pueblo, ES obra y ES tarea de las masas del pueblo. Discours du 26 juillet 1961

Comme ces exemples nous le donnent à voir, le discours de Fidel Castro de cette époque est en réalité un discours assez simpliste, dessinant deux groupes ceux qui sont "por" et qui sont "contra" la révolution. Dans un appel incessant au peuple, le locuteur procède alors à de longues énumérations où les procédés anaphoriques, la répétition et les reformulations sont autant de procédés pour marteler un même message, où les questions rhétoriques amènent l’auditoire à adhérer au point de vue du locuteur, où la très forte présence de la forme verbale "es", de la forme "porque" construisent un discours définitoire et explicatif. Cependant, cette rhétorique, si elle reste caractéristique du discours de Castro en général, va nettement évoluer à mesure que s’institutionnalisera la Révolution. Comme nous l’avons vu précédemment, des catégories, somme toute assez simplistes comme le "Peuple", la "Révolution", les "Ennemis", s’effaceront peu à peu du discours castriste laissant place à d’autres thématiques, tout comme les catégories grammaticales évolueront pour passer d’un discours somme toute verbal, à un discours plus nominal, au fur et à mesure aussi de l’institutionnalisation de la révolution, laissant cependant à nouveau place au verbalisme lorsqu’il s’agira de faire preuve de volontarisme et même d’agressivité verbale durant l’institutionnalisation, de la crise cette fois (années 90).

Tableau 1 Les spécificités positives majeures de la période 1959-69. Forme 1 porque 2 revolución 3 nosotros

Frq. Fréq. Coeff. Forme Tot. Rel. 1541 722 *** 21 aquí 1652 791 *** 22 jóvenes 1451 715 *** 23 qué

Frq. Fréq. Coe Tot. Rel. ff. 793 342 19 198 114 18 938 389 18


Explorations textométriques

86 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

pueblo que campesinos es los no campesino imperialistas esos pueblos democracia quiere derecho enemigos hombre gorilas hombres

2262 17451 264 3925 9949 6164 96 372 707 482 112 183 234 135 322 41 434

1247 6231 204 1522 3451 2239 88 209 340 251 84 118 141 92 172 39 210

*** *** *** 45 43 42 39 29 29 28 25 24 24 22 21 20 19

24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

explotadores revolucionario reunir miedo vivir machetes todos le parásitos revolucionarios a porvenir patria entonces contrarrevolucionarios yankis burgueses

89 63 358 173 39 35 68 52 107 70 25 25 1078 424 666 282 37 33 249 128 9393 3007 77 53 364 169 221 116 51 39 98 62 80 53

17 16 16 16 16 15 15 15 15 15 15 14 14 14 13 13 13

3.4.3 Les années 70 : "internationalisme marxiste et institutionnalisation de la révolution"

Le vocabulaire spécifique des années 70 porte, de même que la période précédente, les marques de son époque : l’internationalisation et l’institutionnalisation de la révolution cubaine. Ainsi : • Notons, tout d’abord, qu’aucun verbe ou presque n’apparaissent dans cette liste de spécificités, contrairement à la période précédent où même si peu de verbes se trouvaient être spécifiques de la période, la forte présence de "es", mais aussi celle de "quiere", n’en était pas moins caractéristique de la rhétorique castriste de l’époque. Ici donc, c’est l’énoncé qui semble primer sur l’énonciation, le dit sur le dire. • Ainsi, les préoccupations internationales de la révolution cubaine sont marquées par trois pays en particulier : le "Vietnam", le "Nicaragua" ("sandinistas") et l’"Angola" ("angola", "neto" (20 des 24 occ. désignent le leader révolutionnaire angolais Agustinho Neto). Significatifs des préoccupations tricontinentales40 de la Révolution cubaine, le discours et l’intérêt pour ces trois pays représentent déjà un affrontement symbolique et idéologique avec les États-Unis ("Nixon"), en dehors de la stricte question cubaine, même si les Etats-Unis n’apparaissent encore que peu dans le discours. Enfin, l’Union soviétique est présent dans le discours de cette époque en ce qu’elle constitue un modèle pour ce qui apparait comme le deuxième axe du discours et l’un des chantiers importants de cette époque : l’institutionnalisation de la Révolution. • L’institutionnalisation se trouve marquée par la création, en 1975, du Parti communiste Cubain ("partido") et la mise en place de différentes structures ("estructura", "poderes" "populares"). Une forme comme "dirección" utilisée 4 fois seulement au cours des années 60 mais plus de 60 fois durant les années 70 se trouvent être un bon indice de ce discours sur l’institutionnalisation de la Révolution. Ces différents éléments peuvent être donnés à voir dans les extraits suivants : 40

Rappelons la tenue en 1966 à La Havane de la Conférence Tricontinentale, symbole de la création d’un axe reliant les pays du tiers-monde des trois continents, et opposés au colonialisme, dans la droite ligne du Pacte de Bandung.


Explorations textométriques

87

Internationalisme : Nicaragua, Vietnam, Angola : § ¡Esa disposición del pueblo de Viet Nam de no retroceder una pulgada, de defender sus demandas, y de defender sus puntos básicos, que permitan la liberación de Viet Nam, es decir, el derecho de Viet Nam a su independencia, que eviten la repetición de lo que ocurrió cuando los acuerdos de ginebra, que eviten la implantación del neocolonialismo en ninguna región de Viet Nam! Nixon debiera tomarlo en cuenta. Nixon no debe subestimar en lo más mínimo el apoyo del pueblo soviético, del partido comunista de la Unión Soviética y de la dirección soviética a Viet Nam. Nixon no ignora, Nixon no puede ignorar cuáles son las posiciones del pueblo soviético y cuáles son las posiciones de la dirección, del partido y del gobierno soviéticos en relación con Viet Nam. § Con Angola hemos cumplido nuestro elemental deber internacionalista. § Hemos cumplido nuestro deber internacionalista con el hermano pueblo de Angola y nos sentimos orgullosos por ello. § Como sabemos, nuestro país ha estado retirando el personal militar que no era indispensable en las actuales condiciones; pero en Angola, por acuerdo entre el gobierno de la república popular de Angola y el de Cuba, permanecen las unidades militares cubanas y las armas necesarias para apoyar a la república popular de Angola en caso de agresión exterior. § Claro está - ya que dije Viet Nam -, la intervención de estados unidos en Nicaragua habría sido un acto realmente suicida para la política de estados unidos en este hemisferio, porque no tenemos la menor duda de que los sandinistas habrían seguido luchando, aunque se produjera una intervención yanki. § De modo que no habría sido impune una intervención en Nicaragua, desde luego - hay que estar claros -, pero nos alegramos de que la firme lucha del pueblo nicaragüense, la solidaridad internacional, el apoyo de los pueblos latinoamericanos, el realismo y la flexibilidad de los sandinistas, hayan impedido que se cometiera uno de los más infaustos disparates que podían concebirse, pero sobre los cuales había riesgos reales. § Los sandinistas han dado una lección más de lo que puede el espíritu revolucionario. § Un medico como los que hemos tenido ejerciendo la medicina en Argelia, o en Yemen, o en Tanzania, o en Somalia, o en Angola, con ello no pierde el país; gana, gana un profesional que se hace más consciente, que se hace más revolucionario. Y nosotros conocemos a nuestros médicos y a nuestros maestros, que van a donde sea necesario: si tienen que ir a una montaña, van a una montaña; al campo, van al campo. en cuba y en Etiopía, en Viet Nam, en Yemen, en Angola, en cualquier parte. Institutionnalisation de la Révolution : § ¡Se hacen porque corresponde a los principios de la democracia revolucionaria y del marxismoleninismo! Ahora bien: muchos conciudadanos se preguntarán cuáles van a ser las funciones y qué actividades van a desarrollar los poderes populares de Matanzas. Y es por eso que nosotros queremos decir algo sobre esto, para que se conozca el contenido de la actividad de los poderes populares que se están organizando. § Quedarán responsabilizados con las siguientes actividades : del ministerio de educación : todas las actividades, centros educacionales y unidades de apoyo que dirige y administra, exceptuando la sede universitaria, así como la totalidad del personal que labora en las diversas instancias de dirección del organismo, municipales, regionales y provincial. Es decir, la administración de todos los centros educacionales pasa a los poderes populares.

Tableau 2 Les spécificités positives majeures de la période 1969-79. Forme 1 2 3 4 5 6 7 8

las nixon viet nam dirección populares 1970 poderes

Fq Tot F Part Coeff. 5580 1534 25 32 32 22 198 100 19 198 100 19 117 68 18 43 36 18 85 54 17 42 34 16

22 23 24 25 26 27 28 29

Forme delegación villareños administra relaciones organismo angola estructura perú

Fq Tot F Part Coeff. 36 26 11 21 19 11 18 17 11 206 85 11 29 23 11 113 54 10 21 18 10 37 26 10


Explorations textométriques

88 9 10 11 12 13 14 15 16 17 18 19 20 21

neto 1975 en 1971 de su labora masas camagüey y solidaridad 1969 unidades

25 24 50 37 13095 3193 30 25 30958 7196 1667 482 17 17 181 81 99 52 14509 3463 95 49 26 21 98 50

16 15 15 13 13 13 12 12 12 12 11 11 11

30 31 32 33 34 35 36 37 38 39 40 41 42

partido soviético transportación dificultades principios futuro apoyo provincial cerdos sandinistas movimiento laborales instancias

372 44 27 193 126 129 141 21 17 33 153 13 16

132 29 21 80 55 57 61 17 15 23 65 12 14

10 10 10 10 9 9 9 9 9 9 9 8 8

3.4.4 Les années 80 : préoccupations intérieures et infrastructurelles

Le tableau 3 ci-dessous rassemble les spécificités de la période 1980-89. Comme nous l’avons fait pour les deux périodes précédentes, nous pouvons formuler quelques brèves remarques concernant le vocabulaire castriste des années 80. Deux thématiques principales semblent se détacher de cette liste : • Tout d’abord, une série de dénomination géographique reflétant les préoccupations intérieures de Fidel Castro : ainsi "provincia", "provincias", "orientales", "guantánamo", sancti spiritus", "tunas", "cienfuegos", viennent remplacer les "internacionalismo", "angola" "vietnam" et "nicaragua" de la période précédente. Économiquement, Cuba commence à connaitre des difficultés, et internationalement, c’est l’ouverture de l’ère néolibérale par l’arrivée au pouvoir de Reagan, Tatcher, et dans une moindre mesure de Mitterrand, puis de la remise en question de modèle soviétique par Gorbatchev, entrainant alors le refus cubain de suivre l’exemple soviétique : ainsi, l’internationalisme et l’exportation de la Révolution s’avère difficile à maintenir, le peuple cubain a des attentes et commence à remettre en question les efforts internationaux si ceux-ci signifient un désintérêt des difficultés intérieures : le gouvernement cubain doit donc signifier au peuple qu’il prend sa situation au sérieux et Fidel Castro adopte alors un discours plus proche des cubains et de leur préoccupations en soulignant notamment les réalisations infrastructurelles. • Ce qui nous amène à souligner la deuxième caractéristique du discours de cette période : un vocabulaire économique et infrastructurel à travers des formes comme "obras", "producccion", "agua", "desarrollo", "creció", "electricidad", "construccion", "plan", "areas", "capacidad", "litros", "caballerias", "toneladas", "planta", "kilometros", "potencial", "crisis", "fiebre", "área". Ces différents éléments peuvent être donnés à voir dans les extraits suivants : Préoccupations intérieures et provinciales: § Esta provincia, en años anteriores, necesitaba decenas de miles de Habaneros, de Orientales, de fuerza de otras provincias para hacer la zafra. § En esta provincia seca no había un solo embalse de agua, se han construido ya embalses con capacidad de 300 millones de metros cúbicos de agua, y se seguirán construyendo nuevos embalses. § Sin embargo, analizando la producción de la provincia de Guantánamo y comparándola con la etapa previa a la revolución, esa producción ha aumentado en cinco veces, se ha multiplicado por cinco desde el triunfo de la revolución. § Como estamos impulsando los planes de desarrollo de la vivienda, quisimos saber exactamente cuánto necesitábamos de cobre y de material plástico, para producir en esta misma industria de la provincia de la habana los cables eléctricos que requiere nuestro ambicioso programa actual de


Explorations textométriques

89

construcción de viviendas. Discours économique et réalisations infrastructurelles: § Seguirá desarrollándose el programa de construcción de centrales azucareros y de la ampliación de la producción azucarera. § Las Tunas sobrecumplió su plan de producción de azúcar en esta zafra y molió 24 millones de arrobas de caña sobre lo comprometido ; produjo 106578 toneladas métricas de azúcar más que la pasada zafra, aprovechó al 86% la norma potencial de sus centrales, sobrecumplió la productividad planificada para corte manual; la siembra de primavera de este año ascendió a 3 630 caballerías, que representan 1384 caballerías más que la primavera pasada ; cumplió su plan de limpia manual antes del 26 de julio, aunque sus 7413 caballerías era la cifra mayor del país. § Se crea una importante zona industrial con la mayor planta de estructuras metálicas del país y la mayor planta de producción de botellas y una de las más modernas del hemisferio, que tendrá a plena producción una capacidad de casi 100000 toneladas de vidrio por año y que empleará más de 1200 trabajadores. § La capacidad de producción de energía eléctrica de Cienfuegos - y no cuento la nuclear actualmente es 30 veces la producción que tenía antes de la revolución. § En el último año, en las montañas de la antigua provincia de oriente, se distribuyeron alrededor de 500 pequeñas plantas eléctricas; a la provincia de Guantánamo le correspondieron 86, y ya en 86 comunidades aisladas, todas las que había sin electricidad, hay electricidad varias horas a prima noche. § Se hizo - aunque ya estaba empezada y la revolución la construyó en sus tramos más fundamentales y difíciles - la carretera de Guantánamo a Baracoa ; se construyeron numerosas carreteras hacia distintas poblaciones en el interior de la provincia ; por ejemplo, la carretera de Guantánamo a sagua, terminada recientemente ; se está construyendo la autopista de Santiago de cuba a Guantánamo ; la llamada vía de la mulata, que es otra carretera que atraviesa las montañas en dirección a baracoa y se está construyendo la carretera de Moa a Baracoa y de Baracoa a Maisí, sin embargo, todavía habrá que construir más carreteras.

Tableau 1 Les spécificités positives majeures de la période 1980-89. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Forme provincia obras en guantánamo año provincias producción agua sancti desarrollo orientales 1981 spíritus creció de electricidad cienfuegos nicaragua se la alrededor

Fq Tot 741 189 13095 99 788 239 466 150 39 313 63 50 39 84 30958 64 107 144 6033 16355 147

F Part Coeff. Forme 478 *** 22 construcción 135 41 23 plan 3798 28 24 metros 76 27 25 áreas 332 26 26 1983 132 24 27 capacidad 213 23 28 litros 95 23 29 1984 38 22 30 caballerías 156 22 31 toneladas 52 22 32 reagan 45 22 33 1982 38 22 34 esta 63 22 35 planta 8326 17 36 kilómetros 47 16 37 potencial 66 16 38 tunas 81 16 39 crisis 1767 16 40 fiebre 4504 16 41 plantas 80 15 42 área

Fq Tot F Part Coeff. 259 122 15 194 96 14 57 41 14 68 46 14 22 22 14 166 86 14 37 31 14 21 21 14 81 50 13 256 117 13 32 27 13 20 20 13 1022 352 12 73 46 12 99 57 12 35 28 12 31 26 12 87 51 12 24 22 12 75 46 12 46 34 12


90

Explorations textométriques

3.4.5 Les années 90 / 2004 :

Le vocabulaire de cette période est plus délicat à analyser en ce que la période 90/94 semble avoir un vocabulaire à mi-chemin de celui des années 80 et des années 1995-2004. C’est pourquoi nous considérerons dans un premier temps le début des années 90 avant de nous intéresser à la fin de la période. -1990-1994 : désintégration de l’URSS, le modèle socialisme toujours viable, période spéciale et crises migratoires Le discours du début des 1990 est clairement marqué par deux éléments : crise économique et crise migratoire. • En effet, le début des années 90 est marqué par l’accentuation de la crise économique, crise qui avait commencée à se faire sentir durant la décennie précédente et qui n’a nullement pu être résorbée par le gouvernement cubain : "divisas", "capital", "petroleo", "millones", "divisa", "dollares", "convertible", "dinero", "mercado", "comprar", "ingresos"… • Dans ce contexte difficile, de nombreux cubains choisissent l’exil : ne pouvant sortir légalement du territoire, certains choisissent de se jeter à la mer quand d’autres prennent d’assaut les ambassades, événements très commentés par Fidel Castro à cette époque : "embajada", "embajadas", "españa", "asilo"… • Enfin, notons aussi l’évocation de l’"URSS", qui vient de se désintégrer ainsi que la situation sud-africaine à travers "Mandela" (qui vient d’être libéré de 30 années de prison) et l’"apartheid". A travers l’évocation de la désintégration de l’URSS, Fidel Castro réitère sa confiance dans l’avenir et la validité du modèle socialiste de société (forte recrudescence de l’utilisation de la forme "socialismo") et fustige par la même occasion le capitalisme, source de tous les maux (forte recrudescence de la forme "capitalismo" attestée notamment dans des formules telles que "las calamidades del capitalismo"). Ces différents éléments peuvent être donnés à voir dans les extraits suivants : Préoccupations économiques: § La provincia de Matanzas ingresó 77 millones de dólares en bruto - digo en bruto porque de ahí hay que descontar ciertos gastos en divisas -, ¡setenta y siete millones en el año 1990! y aspiran a alcanzar 100 millones de ingresos brutos este año de 1991, para que puedan ustedes apreciar qué avance y qué ritmo lleva ese programa. Crise migratoire: § Ayer 25, salieron los tres que estaban en la embajada de suiza, de modo que quedan 18 en la embajada española y cuatro en la residencia de la embajada italiana. § Ya hemos vivido esa experiencia en el pasado, lo recuerdo cuando más de una vez entraron por la fuerza en alguna embajada latinoamericana; cuando más de una vez accedimos a que salieran, escuchando solicitudes y peticiones, inmediatamente, de manera automática, se producían nuevos ingresos de esos elementos en las embajadas, y ocurría lo mismo: eran elementos a los que no les daban visa para viajar legalmente y se la daban, en cambio, cuando entraban por la fuerza en las embajadas. § En una ocasión cuando, precisamente a causa de uno de esos hechos de violencia, muere un custodio, nos vimos en el deber de suspender la custodia de una embajada aquí en la capital, que fue la embajada de Perú. § A cambio de eso, les sugerimos a España y al gobierno español, y le sugerimos a la comunidad económica europea que, en nombre de los derechos humanos, si tendrían la amabilidad de recibir a los señores del tipo de los que han ingresado en las embajadas y que quieran ir a residir a Europa. Validité du socialisme, calamités du capitalisme: § El socialismo tiene apenas decenas de años, está en pañales; diríamos que el socialismo está en esa etapa que en los hospitales materno-infantiles llaman perinatal. El socialismo está en fase perinatal,


91

Explorations textométriques que son esos primeros seis o siete días de vida del niño, que son los más peligrosos y hay que tener cuidados especiales; nosotros hemos creado salas de servicios intensivos perinatales, como parte de nuestro programa para la protección de la salud de los niños. Es decir, es lógico que el socialismo, la más justa de todas las ideas, tenga que atravesar períodos y dificultades; en algunos países desapareció. § Yo me preguntaba : pero, ¿de dónde vino la injusticia?, ¿de dónde vino la desigualdad?, ¿de dónde vino la pobreza?, ¿de dónde vino el subdesarrollo?, ¿de dónde vinieron todas esas calamidades sino del capitalismo?, ¿y de dónde vino el colonialismo sino del capitalismo?, ¿y el neocolonialismo y el imperialismo sino del capitalismo? parece que los creadores del cielo y de la tierra son los culpables de que haya pobres y que el sistema social no tiene nada que ver con eso, que el capitalismo no tiene nada que ver con eso.

-1995-2004: Bush et les États-Unis, l’affaire Posada : terrorisme et narcotrafic Les années 1995-2004, dernière période du corpus, sont centrés sur une seule thématique : les "États-Unis". Celle-ci se décline autours de plusieurs axes : "Bush" d’une part, l’affaire "Posada" de l’autre symptomatique selon Castro des méthodes employés par la "CIA" et l’opposition cubaine de "Miami" pour le déstabiliser et même l’éliminer physiquement. Le discours de ces années a énormément de mal à s’éloigner de cet horizon : • Bush n’est présent dans le discours qu’en 2004 ; précédemment la forme n’est attestée qu’à quelques reprises seulement en 2002 et 2003 ainsi que dans les années 1990 (mais dans ce dernier cas elle désigne George Bush père) ; il n’en reste pas moins qu’elle est la forme la plus spécifique de la période 1990-2004. Les propos tenus sur Bush sont critiques et même presque moqueurs. Ainsi, dans un premier Fidel Castro évoque les critiques et l’hostilité de Bush par rapport à Cuba, en particulier à travers l’accusation de "turismo sexual", puis dans un deuxième temps, afin de démontrer l’inconséquence des propos de Bush et s’appuyant en partie sur le livre d’un certain "docteur Frank", Fidel Castro évoque tout à la fois le penchant passé de Bush pour l’alcool, sa foi, sa propension au mensonge, son peu de goût pour la lecture, etc. Ainsi, ce discours du 26 juillet 2004 est tout entier dédié à George Bush et à son dénigrement ; • Ces différents éléments peuvent être donnés à voir dans les extraits suivants : Bush: § A continuación, refiriéndose ya al presidente de Estados Unidos en particular, expone : § "Bush ha dicho públicamente que dejó de consumir alcohol sin la ayuda de alcohólicos anónimos (una organización dedicada al tratamiento de adictos al consumo de alcohol), ni de ningún programa contra el uso indebido de sustancias prohibidas, y ha afirmado que dejó el hábito para siempre con la ayuda de instrumentos espirituales, tales como el estudio de la biblia y conversaciones con el evangelista Billy Graham. § Las calumnias y mentiras del señor Bush y sus asesores más cercanos fueron elaboradas precipitadamente para justificar las atroces medidas tomadas contra ciudadanos de origen cubano residentes en Estados Unidos que poseen vínculos con familiares allegados en Cuba. Posada et le terrorismo de l’exil cubain de Miami: § Estados unidos es culpable de los numerosos planes de atentados contra mí, en este caso, o contra cualquier dirigente de la revolución, que llevan a cabo estos señores, esta mafia, estos gángsteres mercenarios pagados por la fundación cubano americana, por acción o por omisión § Y, evidentemente, por todos los elementos de juicio con que contamos, es culpable por acción de muchos de aquellos crímenes y atentados terroristas que se cometieron contra nuestro país § Debo decir que Clinton ha sido miserablemente engañado, le presentaron una fundación supuestamente pacífica y beatífica; una fundación, una institución terrorista, encabezada por un individuo que practicó durante años directamente el terrorismo y continuó aplicándolo a lo largo de los años a través de esa fundación.


Explorations textométriques

92

§ Pero allí en Miami estos grupos, la mafia terrorista y fascista se impone por la fuerza; y esa mafia llevó a Clinton a la aprobación de la ley Torricelli, la primera § el tipo, cínicamente, responde de esa forma cuando le preguntan si es el ala militar de esa mafia, llamada fundación cubano americana § hace apenas tres días la mafia terrorista de Miami, creada, amamantada, entrenada y apoyada por la administración de Estados Unidos, declaró los millones que invierte en actividades injerencistas, desestabilizadoras y terroristas contra nuestro pueblo § Ellos, por soberbia, muchas veces han rechazado la cooperación de cuba en la lucha contra las drogas, a pesar de que ningún país en este hemisferio ha luchado más consecuentemente contra el tráfico y uso de drogas que Cuba y no precisamente porque los narcotraficantes traten de establecer aquí un mercado de drogas, sino porque, dada la posición geográfica de nuestro país, un avión o un barco, por problemas técnicos o errores de navegación, han aterrizado o recalado en nuestro territorio, o porque lanzaban la droga cerca de nuestras costas, o porque, como desgraciadamente ocurrió, algunas cabezas locas concibieron la idea de mezclarse en cuestiones de droga, creyendo que podía ser algo útil § "Fueron exiliados cubanos, como Posada, los que fueron reclutados por la CIA para los subsiguientes atentados contra la vida de Castro.

Tableau 4 Les spécificités positives majeures de la période 1990-2004. Forme 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

bush posada unidos estados drogas cuba autoridades tráfico embajada fundación narcotráfico castro dólares europea españa dijo funcionarios clinton divisas presidente mafia

Fq Tot F Part Coeff. 89 82 42 66 66 41 752 354 40 769 352 37 89 79 37 1221 474 28 61 55 27 43 42 25 57 50 24 47 44 24 35 35 22 57 48 21 135 82 19 32 31 18 47 40 18 127 76 17 38 33 16 24 24 16 95 61 16 112 67 15 29 27 15

Forme 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

urss especial millones miami cia me terroristas cooperación vean o documentos turismo narcotraficantes ley cocaína mundo embajadas información 2002 washington cubano

F Tot F Part Coeff. 103 63 15 152 82 15 587 229 15 46 36 14 74 49 14 324 141 14 47 35 13 88 54 13 69 45 13 1345 448 13 31 27 13 72 47 13 18 18 12 124 66 12 23 21 12 765 272 12 17 17 11 64 41 11 17 17 11 34 27 11 159 77 11

3.5 Explorer la dimension chronologique du corpus : chronique et résonnances

Comme nous avons pu le constater tout au long de cette exploration, le facteur temps est l’un des principaux critères régissant l’évolution lexicale du discours castriste (partie 1). Nous terminerons alors cette étude par la mise en lumière de certaines caractéristiques de la répartition chronologique du lexique. Nous avons relevé les principales formes caractéristiques de chacune des grandes périodes de notre corpus (partie 2). Nous présentons dans le graphe ci-dessous la ventilation sur l’ensemble du corpus des chroniques spécifiques (ensemble des formes spécifiques majeures dont l’indice est supérieur à un seuil donné) de chacune des quatre grandes périodes du


93

Explorations textométriques

corpus. Nous avons constitué ainsi quatre ensembles de formes : Sp5969 pour les spécificités de la période correspondant aux années 60, Sp7079 pour les spécificités de la période correspondant aux années 70, Sp8089 pour les spécificités de la période correspondant aux années 80 et Sp9004 pour les spécificités de la période correspondant aux années 90 et 2000. On observe sur ces deux graphiques plusieurs phénomènes : • Un sursaut du discours révolutionnaire : le vocabulaire spécifique des années 60 cesse de décroitre à partir des années 80, signe d’un changement dans le discours : la mise en sommeil progressive des thématiques des années 60 semble cesser, même si celleci seront à nouveau mise en sommeil à partir de la fin des années 80. • Un entrecroisement des vocabulaires spécifiques des années 70 et 80 :


94

Explorations textométriques

4 Conclusion

Au terme de cette première exploration du discours castriste, il convient de rassembler les divers éléments que nous avons pu mettre à jour. Tout d’abord, le discours de Fidel Castro se trouve être un objet d’étude particulièrement propice à l’analyse statistique : après cinquante de pouvoir, cinquante ans à être le principal et seul leader de la Révolution cubaine, cinquante à prononcer d’interminables discours, Fidel Castro nous laisse un corpus qui répond aux exigences de la lexicométrie : vaste (7 millions d’occurrences), homogène (un même locuteur dans une même fonction), s’étendant sur une longue période (50 ans), celui-ci est aussi chronologiquement contrastif, idéologiquement marqué et historiquement incontournable. Dans une logorrhée parfois hallucinante, le discours de Fidel Castro en vient parfois à donner une sensation de tournis : ainsi, ce 26 juillet 1961, ne prononce-t-il pas moins de 225 fois le mot « révolution », en un seul discours ! De ce corpus, nous nous sommes intéressés à un discours par an, celui, incontournable de commémoration de la naissance de la révolution. La transformation du vocabulaire suit globalement les règles de l’évolution chronologique bien que des évolutions plus soudaines, répondant aux stratégies discursives du locuteur puissent être observés. […]

5 Références

Castro F., La historia me absolverá: autodefensa de Fidel Castro ante el Tribunal de Urgencia de Santiago de Cuba el 16 de octubre de 1953, La Habana, Ediciones populares, 1961, 129 p. Fanon F., Les damnés de la terre, Paris, La Découverte, 2002. Merle R., Moncada, premier combat de Fidel Castro, Paris, Robert Laffont, 1965. Labbé D., Monière D., Le discours gouvernemental, Paris, Honoré Champion, Lebart L., Salem A., Statistique textuelle, Paris, Dunod, 1994, téléchargeable sur le site : http://www.cavi.univ-paris3.fr/lexicometrica/livre/st94/st94-tdm.html Ramonet I., Fidel Castro. Biografía a dos voces, México, Debate, 2006, p.513 Rigoulot P., Coucher de soleil sur La Havane. La Cuba de Castro, 1959-2007, Paris, Flammarion, 2007, p.35. Salem A., "La lexicométrie chronologique", Actes du colloque de lexicologie politique "Langages de la Révolution", collection "St. Cloud", Paris, Klincksieck, 1994. Thomas H., Cuba, la lucha por la libertad, Barcelona, Debate, 2004. Fogel & Rosenthal, Fin de siècle à la havane,

Explorations textométriques. Volume 2  

Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherch...