ChatGPT L’esprit d’un enfant de 9 ans ?

from Cerveau & Psycho 154 - mai 2023

Apprendre comme dans « Avatar »

En grandissant, un enfant apprend à distinguer ses propres pensées de celles des autres. Le robot conversationnel ChatGPT aurait développé spontanément cette aptitude, appelée « théorie de l’esprit ». Pour l’instant, il aurait les capacités d’un enfant de 9 ans.

D’après une étude récente, ChatGPT, le fameux robot conversationnel, aurait réussi à passer des tests qui nécessitent de comprendre un point de vue différent du sien. Cette aptitude cognitive porte le nom, en psychologie, de « théorie de l’esprit ». Le niveau de théorie de l’esprit de ChatGPT serait alors celui d’un enfant de 9 ans… Mais on ignore si l’intelligence artificielle (IA) utilise vraiment la théorie de l’esprit comme le fait un humain, ou si elle trouve d’autres moyens de réussir les tests.

« Ce qu’elle fait, c’est qu’elle montre une capacité analogue à celle d’un jeune enfant à réussir certaines de ces tâches de référence, ce qui n’est pas anodin », déclare Ian Apperly, de l’université de Birmingham (Royaume-Uni), qui n’a pas participé à ces travaux. La théorie de l’esprit, ou la capacité à envisager ce que pensent les autres, est considérée comme une pierre angulaire de l’intelligence humaine et est essentielle pour les interactions sociales. Les psychologues ont mis au

En Bref

£ La théorie de l’esprit est la capacité d’un être humain d’attribuer à ses semblables des pensées qui diffèrent parfois des siennes.

£ Le robot conversationnel ChatGPT a récemment passé des tests révélant un niveau de performance sur ce plan équivalent à celui d’un enfant de 9 ans.

£ Il reste à lui soumettre des énigmes nuancées pour savoir ce qu’il a vraiment « dans la tête » et si cela va plus loin que des recombinaisons de séquences de mots.

point des tests pour déterminer quand cette capacité apparaît chez les jeunes enfants et si elle existe chez les animaux, mais elle est difficile à mesurer et le type de tests à utiliser fait l’objet de nombreux débats.

L’un des tests les plus courants est celui dit « des fausses croyances », qui consiste à lire une histoire dans laquelle une personne croit savoir quelque chose sur une situation alors que cette connaissance est fausse. Il faut être en mesure de distinguer la réalité de ce que croit cette personne. Et cela nécessite de disposer de la fameuse capacité appelée « théorie de l’esprit ».

Dans cette récente étude, Michal Kosinski, de l’université Stanford, en Californie, et ses collègues ont confié deux types de tâches de fausses croyances au modèle linguistique de ChatGPT, qui a été développé par la société d’IA OpenAI.

La première histoire présentée à ChatGPT est celle d’un individu qui trouve un sac portant l’inscription « pop-corn », mais dans lequel on

DÉCOUVERTES Intelligence artificielle explique qu’il se trouve en fait du chocolat. Que s’attend à trouver l’individu dans le sac ? Pour répondre correctement à cette question et réussir le test, ChatGPT doit être capable (comme vous le faites sans hésiter) de comprendre qu’il y a une différence entre ce qui se trouve dans le sac et ce que la personne s’attend à y trouver en fonction de l’inscription.

Le second type d’histoire est celle d’une petite fille qui déplace un chaton d’une caisse vers un panier, alors que son père n’est pas dans la pièce. À son retour, le père ira probablement chercher le chat dans la boîte, car c’est le dernier endroit où il l’a vu. Mais pour prédire ce comportement du père, il faut comprendre qu’il croit que le chat est dans la caisse alors qu’il n’y est pas.

Des Taux De R Ussite Lev S

Au total, Kosinski et son équipe ont finalement créé pas moins de vingt tâches différentes et inédites, ceci dans le but de s’assurer que l’IA ne les avait jamais rencontrées auparavant dans ses données d’entraînement, ce qui lui aurait permis d’apprendre situation par situation la réponse à fournir. Les chercheurs ont ainsi exécuté chaque tâche des milliers de fois sous différents formats.

Le modèle linguistique GPT-3.5 (une version de ChatGPT) a réussi 100 % des tâches d’étiquetage inattendu (l’histoire du pop-corn) et environ 80 % des tâches de changement de scénario (le chat dans la caisse puis dans le panier), ce qui correspond au niveau de performance d’un enfant de 9 ans. D’après les critères utilisés par les psychologues pour évaluer cette capacité chez les enfants, l’IA semble donc posséder la théorie de l’esprit, explique Kosinski. « Même s’il est possible qu’elle utilise d’autres méthodes pour réussir les tests, cela n’en est pas moins intéressant, dit-il. Cela devrait conduire à une réévaluation de la manière de tester cette forme cruciale d’intelligence. »

L’IA n’a jamais été entraînée à passer ces tests, de sorte que sa capacité à les résoudre semble avoir émergé spontanément, contrairement à ce qui fut le cas de l’IA de DeepMind appelée Theory of Mind-net, ou ToM-net. Celle-ci avait été spécifiquement développée et entraînée pour atteindre cette capacité, mais n’avait pu atteindre qu’un niveau de réussite comparable à celui d’un enfant de 4 ans…

Ne Pas Surinterpr Ter Ces R Sultats

Les résultats de ces travaux sont intéressants, mais le fait de réussir des tests de théorie de l’esprit n’est pas très utile en soi, affirme Ian Apperly.

« Ce n’est pas parce que vous réussissez certains de ces tests que vous pouvez utiliser votre capacité à penser aux perspectives, croyances, désirs ou intentions d’autres personnes dans un large éventail de circonstances utiles. »

Les tâches de fausses croyances sont un point de départ utile pour voir comment les modèles d’IA peuvent utiliser la théorie de l’esprit, mais elles sont inaptes à rendre compte de la complexité du monde réel, explique Ian Apperly. Bien que courantes en psychologie, ces tâches ne font la différence qu’entre deux types de croyances, les vraies et les fausses. Or, dans la réalité, les gens adoptent toute une série de représentations du monde différentes, et il est difficile de vérifier concrètement si un individu donné, ou une machine, comprend cela.

Pour en savoir plus, il serait intéressant d’observer si ChatGPT est capable de résoudre des énigmes plus nuancées, utilisées pour tester la théorie de l’esprit chez les personnes âgées, par exemple. Mais de telles énigmes sont difficiles à concevoir et ne font pas l’objet d’un large consensus parmi les psychologues, selon Ian Apperly.

Quant à savoir si la théorie de l’esprit est une propriété émergente de ces systèmes, c’est possible, mais il ne faut pas perdre de vue que le principal mécanisme du modèle de langage qui fonde ChatGPT est la compréhension de la relation entre les mots, explique Mhairi Aitken, chercheuse à l’institut Alan-Turing de Londres. « L’IA montre à travers ces tests qu’elle comprend l’association entre les mots et qu’elle établit ces liens pour prédire correctement le résultat, mais je pense qu’il serait précipité de conclure qu’elle comprend les intentions ou les états cognitifs et émotionnels de l’être humain », déclare-t-elle. Ce qui n’a pas suscité de commentaire de la part d’OpenAI… £

M. Kosinski, Theory of mind may have spontaneously emerged in large language models, ArXiv, février 2023.