3 minute read

Comment apparaît un biais algorithmique ?

Tout cela ne nous dit pas comment l’IA est devenue la fabrique à biais que l’on connaît et que l’on décrit. Plusieurs mécanismes sont à l’œuvre et se renforcent pour amplifier les erreurs, distordre les réalités et masquer les nuances.

Pour modéliser le monde et le faire tenir dans un algorithme, il faut des données qui sont supposées représenter ce monde, des règles à appliquer et des résultats à vérifier.

Gran et al [113], To be or not to be algorithm aware: a question of a new digital divide?

[111] https://www.acfe.com/-/media/images/acfe/products/publication/fraud-examiners-manual/2022_ fem_toc.ashx

[112] https://www.youtube.com/watch?v=tmFFd8fMqxk

[113] https://www.tandfonline.com/doi/epdf/10.1080/1369118X.2020.1736124?needAccess=true&role=button

Les données utilisées sont la première source d’introduction de biais, pour deux raisons principales : la sélection et l’imitation.

Biais de sélection

La nécessité de sélectionner des données constitue la première cause de biais. La sélection des données est un prérequis à l’efficacité de nombreux modèles, car l’utilisation de données non directement liées au sujet de modélisation, ou de données de mauvaise qualité introduit du « bruit », réduisant l’efficacité de l’IA.

Les modèles de langage de grande taille (LLM) sont avides de données : ils en ont besoin pour détecter des relations et apprendre des motifs reproductibles. Leur structure en couche et les puissances de calcul leur permettent de tirer profit d’une quantité plus importante de données. Cependant, l’accès à la donnée demeure un facteur limitant : le coût financier associé au traitement de ces données reste important. Il faut donc se contenter d’une portion des données mondiales.

Ci-dessous, le détail du nombre de token (unités résultants en NLP du découpage de chaînes de caractère, ou « strings », par un modèle spécifique : ce peut être un mot, une lettre, etc.) utilisés par OpenAI pour entraîner la première version de GPT-3 en 2020.

Table 2.2: Datasets used to train GPT-3. «Weight in training mix» refers to the fraction of examples during training that are drawn from a given dataset, which we intentionally do not make proportional to the size of the dataset. As a result, when we train for 300 billion tokens, some datasets are seen up to 3.4 times during training while other datasets are seen less than once.

Malgré ces chiffres vertigineux, il faut garder à l’esprit le sens des proportions. Ces 500 milliards de token représentent moins de 1 % de la donnée humaine disponible. Le fait même de n’utiliser que ces données introduit un biais dit de sélection. Ces données d’apprentissage sont volumineuses mais sont-elles représentatives de la pluralité et de la diversité des sociétés humaines ?

Le langage est ici un biais évident : le jeu de données utilisé est majoritairement en anglais. Même si ce jeu de données peut comporter des informations sur des sujets non liés à la langue anglaise ou aux cultures anglophones, la probabilité d’y trouver des données spécifiques à des cultures non anglophones est réduite. De même, puisque l’on utilise des données issues d’Internet, on utilise alors, surtout, les données de culture ayant accès à Internet. Or, l’accès à internet présente des disparités fortes, comme l’illustre la carte ci-dessous, qui représente le pourcentage de population utilisant internet.

Les problèmes de représentation ne sont pas apparus avec l’IA générative et les milieux militants sont déjà actifs pour rééquilibrer la représentation du monde dans les sources d’information en ligne.

Ainsi, un début de réponse transparaît dans l’initiative de l’utilisatrice SusunW [116] , mise en avant par la Wikimedia Foundation. SunsunW a passé ces dix dernières années à enrichir Wikipédia pour rééquilibrer la présence et la représentation des femmes sur la plateforme. Chaque jour, des volontaires s’affairent à créer de nouvelles entrées et à étayer des articles existants pour façonner un recueil de l’histoire de l’humanité.

Niveau de pénétration d’Internet (nombre d’internautes en pourcentage de la population), 2023, Jeff Ogden (W163) [115] , CC BY-SA 3.0.

[115] https://commons.wikimedia.org/w/index.php?curid=19202338

[116] https://wikimediafoundation.org/news/2023/03/14/susunw-is-on-a-mission-to-write-women-intohistory-with-wikipedia/

« While SusunW’s Wikipedia work focuses on biographies of women, she told me she also often finds herself drawn to « activists, immigrants, and people who are doubly un- or under-represented in the historical record ». That means she seeks out opportunities to improve articles at the intersection of gender, ethnicity, science, disabilities, immigration, and more. » Source : Wikimedia Foundation [116] .

Il est clair que tant que ce travail laborieux ne permettra pas de mettre en évidence l’importance des femmes, des minorités ou des exceptions à la norme, la portion utilisée pour l’entraînement d’un modèle de langage ne reflétera qu’une partie très limitée de la diversité des sociétés humaines.

Biais d’imitation

Malgré tous les efforts entrepris pour sélectionner des données de manière à en maximiser la représentativité, on peut aussi se retrouver confronté à un problème autrement plus complexe : la société elle-même est biaisée. Ces biais sont présents directement dans les données d’origine humaine qui sont utilisées pour l’apprentissage des algorithmes, et ceux-ci se contenteront de proposer une représentation de ce qu’ils observent à travers elles.