
4 minute read
Un thème ancien toujours d’actualité
Déjà durant l’Antiquité on trouve des exemples de batailles retranscrites de manières différentes et parfois contradictoires par différents historiens. Cela a perduré jusqu’à nos jours : le progrès technologique, à partir de l’invention de l’imprimerie par Gutenberg et jusqu’à internet et aux réseaux sociaux, a radicalement modifié la production et l’accès à l’information, mais n’a évidemment pas résolu le problème de sa fiabilité et de sa confiance.
Cette question, qui reste plus actuelle que jamais, s’est imposée comme un enjeu majeur ces dernières années, illustré par une série d’événements marquants. Nous pouvons mentionner la thématique récurrente des « fake news » au cours de la campagne présidentielle de Donald Trump en 2017, ou la large circulation de théories du complot et d’informations contradictoires durant la pandémie de COVID-19, alimentant la confusion et la méfiance envers les sources officielles. Les médias sociaux ont joué un rôle prépondérant dans la propagation de ces fausses informations, accentuant encore davantage la difficulté de distinguer le vrai du faux.
Plus récemment, nous avons assisté à l’émergence d’une nouvelle famille de technologies, que l’on appelle « IA générative », et dont le bot conversationnel ChatGPT est l’un des exemples les plus médiatisés. Les capacités (quasi) humaines de génération de textes, couplées, dans la plupart des cas, avec l’absence de références dans les textes générés, ont donné naissance à un intense débat sur la confiance que nous pouvons accorder à ces outils. Bien que l’IA générative puisse s’avérer très utile pour un grand nombre de tâches, les limites des algorithmes sous-jacents, ainsi que les biais présents dans les données d’entraînement des modèles, soulèvent des questions subtiles.
Le lancement du service ChatGPT de l’entreprise OpenAI a rendu accessible au grand public un puissant générateur de textes via une simple connexion Internet. Les experts, tout comme les citoyens lambda, ont pu tester et interagir avec ce service, donnant ainsi une visibilité massive à cette innovation et exhibant ses défauts par la même occasion. Ce phénomène a ouvert la porte à une multitude de perspectives, permettant à chacun de se faire sa propre opinion sur les opportunités et les limites de l’IA générative.
Toutefois, la mise à disposition généralisée de ChatGPT soulève des préoccupations quant à la véracité des informations qu’il propose. En effet, tous les utilisateurs n’ont pas nécessairement les compétences ou les outils pour discerner le vrai du faux. La capacité de générer du texte au style fluide et convaincant peut donner l’illusion d’une information authentique, même si celle-ci est erronée ou trompeuse. Plus encore, la distinction entre le vrai et le faux ne peut souvent pas être réduite à une simple dichotomie : elle peut être sujette à interprétation, subtile et complexe. Il n’est dès lors pas surprenant d’observer qu’une large majorité des utilisateurs sont indécis quant à la confiance qu’ils accordent aux modèles génératifs.
« Who the Early Fans of Generative AI Are »[3] by Morning Consult, février 2023.

Avant de commencer notre analyse, définissons quelques termes et acronymes liés à l’intelligence artificielle qui seront utilisés tout au long de notre discussion :
• Machine Learning (ML) : terme anglais signifiant apprentissage automatique ou apprentissage machine. Le machine learning englobe une famille d’algorithmes dont le but est « d’apprendre sans suivre d’instructions explicites, en utilisant des algorithmes et des modèles statistiques pour analyser des données et en tirer des conclusions » (Oxford dictionary). Ce processus d’apprentissage est mathématiquement formulé comme un problème d’optimisation de paramètres. Les données constituent un ensemble d’exemples à partir desquels l’algorithme déduit une règle générale, lui permettant d’accomplir la tâche souhaitée sur de nouvelles données qu’il n’a pas vu auparavant.
• Deep Learning (DL) : terme anglais signifiant « apprentissage profond ». Le deep learning est une branche du ML qui se concentre sur l’entraînement de modèles comportant plusieurs couches de réseaux neuronaux artificiels, permettant au modèle d’extraire des motifs complexes dans les données d’entrée. Le deep learning a démontré des capacités remarquables dans différents domaines, notamment le traitement du langage naturel, la reconnaissance d’images et la synthèse vocale.
• Natural Language Processing (NLP) : terme anglais signifiant le traitement du langage naturel . Il englobe les méthodes utilisées pour permettre aux ordinateurs de comprendre, analyser, manipuler et générer des séquences de mots en langage humain tel que l’anglais, le français, etc. Les applications courantes du NLP incluent la traduction automatique, la reconnaissance vocale ou encore le résumé de texte.
• Large Language Models (LLM) : terme anglais signifiant « grand modèle de langage », utilisé pour désigner un modèle de deep learning appliqué au domaine du natural language processing, et qui possède un grand nombre de paramètres. Les LLM ont démontré une capacité remarquable à générer du texte de manière cohérente, à répondre à des questions, à synthétiser des informations, mais aussi à produire du code dans des langages de programmation.
• IA Générative : terme faisant référence à la partie du machine learning qui se concentre sur les tâches génératives, c’est-à-dire la création de nouvelles données, plutôt que la classification et l’analyse de données existantes. Introduisons également quelques notions essentielles pour les développements à venir sur la fiabilité de l’information.
• Source : il s’agit de l’origine d’une information, généralement identifiée et datée. Les sources peuvent prendre différentes formes, telles que des études quantitatives statistiques, des transcriptions de discours publics, etc.
• Rapporteur : ce terme désigne l’entité qui communique une information. Cette information peut être relayée avec plus ou moins de fidélité. Un rapporteur peut être par exemple un professeur, un journal, ou même ChatGPT.
Ce dont traite cette section
• Proposer une définition d’une information fiable.
• La confronter à des cas d’usage de l’IA générative.
• Identifier les informations peu fiables.
Ce qu’elle ne couvre pas
• La définition d’une règle absolue pour déterminer si vous pouvez demander à ChatGPT d’écrire un article à votre place ou de faire les devoirs de vos enfants.