GPT-4.5 surpasse les humains lors d'un test de Turing à grande échelle

La frontière entre l’homme et la machine n’a jamais été aussi floue. Dans une étude pré-publiée sur arXiv, le modèle de langage GPT-4.5, conçu par OpenAI, ne s’est pas contenté de réussir le test de Turing : il a, à plusieurs reprises, été jugé plus humain que ses interlocuteurs réels. Les chercheurs ont mis de côté les critères techniques pour se concentrer sur la qualité des échanges. Le résultat est frappant : dans 73 % des cas, l’IA a su incarner une personnalité crédible, franchissant largement le seuil des 50 % (nécessaire pour réussir le test de Turing).

Alors que les grandes firmes technologiques poursuivent leur ambition de mettre au point l’Intelligence Artificielle Générale (IAG), capable d’égaler, voire de dépasser, les facultés cognitives humaines dans de nombreux domaines, les évaluations auxquelles sont soumis les modèles se font toujours plus exigeantes.

Récemment, dans le cadre d’un test évaluant les capacités humaines — une épreuve visant à mesurer la capacité d’analyse des IA à un niveau d’expertise —, le modèle 01 d’OpenAI n’a recueilli qu’un modeste score de 8,5 %. Les spécialistes se veulent néanmoins optimistes, estimant que ces systèmes pourraient franchir le cap des 50 % d’ici la fin de l’année.

En parallèle, le test de Turing demeure une référence incontournable. Conçu en 1950 par le mathématicien britannique Alan Turing, ce protocole, connu comme le « jeu de l’imitation », interroge la capacité d’une machine à adopter un comportement indiscernable de celui d’un être humain. Dans sa forme classique, un juge échange à l’aveugle avec deux interlocuteurs — l’un humain, l’autre machine — et doit les différencier.

Une équipe de l’Université de Californie à San Diego (UCSD) a entrepris en 2024 d’actualiser ce cadre. Plus de 1 000 discussions tripartites ont été organisées, réunissant, en temps réel, des participants humains, des modèles d’intelligence artificielle et des interrogateurs humains.

Dès juin, une première série de tests avait livré des résultats éclairants : ELIZA, pionnier des chatbots conçu dans les années 1960, n’avait été identifié comme humain que dans 22 % des cas. GPT-3.5 atteignait la barre des 50 %, tandis que GPT-4 culminait à 54 %. Quant aux participants humains, ils n’avaient été reconnus comme tels que dans 67 % des échanges.

La nouvelle étude, dirigée par Cameron Jones au sein du laboratoire de langage et de cognition de l’UCSD, a élargi l’expérience à quatre modèles : LLaMA 3.1-405B de Meta, ELIZA, GPT-4o et GPT-4.5 d’OpenAI. Trois cents participants ont été assignés de manière aléatoire au rôle d’interrogateur ou de témoin. Chaque session opposait un humain à un chatbot.

Une « personnalité » qui déroute même les plus avertis

Deux types de consignes ont été soumis aux intelligences artificielles. La première, dite « neutre », les informait simplement de leur participation à un test de Turing, avec pour seule mission de convaincre l’interrogateur de leur humanité : « Vous êtes sur le point de participer à un test de Turing. Votre objectif est de convaincre l’interrogateur que vous êtes un humain ».

La seconde instruction, décisive, consistait à endosser une personnalité précise, telle celle d’un jeune adulte familier d’internet. Cette subtilité a radicalement influencé les résultats : doté d’un personnage, GPT-4.5 a réussi à se faire passer pour un humain dans 73 % des cas, contre seulement 36 % avec l’instruction neutre. LLaMA-3.1, dans des conditions similaires, a obtenu un score de 56 %.

« Les participants n’ont pas été plus efficaces que le hasard (soit 50 %) pour distinguer les humains de GPT-4.5 et de LLaMA, lorsque ces derniers étaient dotés d’une personnalité », a commenté Jones sur X. Avant de souligner : « GPT-4.5 a même été jugé humain plus fréquemment que les véritables participants ». À l’inverse, GPT-4o — moteur actuel de base de ChatGPT — n’a convaincu qu’à 21 %, légèrement dépassé par ELIZA, crédité de 23 %.

Pour autant, ces résultats ne sauraient être interprétés comme la preuve d’une intelligence équivalente à la nôtre. Cameron Jones le rappelle avec prudence : « Je pense que la question est extrêmement complexe… Ces résultats doivent être considérés comme un indice parmi d’autres de la forme d’intelligence propre aux grands modèles de langage ». Et de conclure : « Ce qui me semble plus important, c’est que ces données renforcent l’idée selon laquelle les LLM pourraient aisément remplacer certaines interactions humaines brèves, sans que cela ne soit perceptible ».

Source : arXiv

Laisser un commentaire

4 Commentaires

Pascal SOLAL dit :

5 avril 2025 à 8:47 am

Le cauchemar ne fait que commencer. La faculté qu’a l’espèce humaine de créer d’organiser sa propre destruction est unique dans le règne du vivant.

Répondre
Delpech dit :

6 avril 2025 à 5:54 am

Si l’espèce humaine était réellement intelligente, nous aurions tout fait pour préserver notre planète. Or, non seulement nous avons détruit la plupart des biotopes, mais en plus on va se faire remplacer par des machines ! C’est le comble de la connerie, ne pensez-vous pas ?

Répondre
Delpech dit :

6 avril 2025 à 6:06 am

De plus, l’intelligence est une capacité à survivre dans un milieu donné. Or, étant donné l’état de la planète aujourd’hui, on peut dire que nous sommes l’espèce la plus débile que la vie ait créé. Non nous ne sommes pas une espèce intelligente. Nous avons des facultés cognitives exceptionnelles, pour des singes, mais qu’en faisons-nous ? Nous nous ventons de nos prouesses technologiques mais nous moquons éperdument de l’avenir de nos enfants, par exemple ! Alors, question intelligence, on peut se branler autant qu’on veut, jamais nous ne le serons plus que les pauvres singes sans poils que nous sommes restés. Coco la femelle gorille adoptée par un couple d’anthropologues le disait bien que nous étions des imbéciles, dans le langage des signes.

Répondre
Capanni dit :

7 avril 2025 à 3:21 am

Si la fiction rejoint la réalité, on a effectivement du souci à se faire pour l’avenir. Mais si ces I.A. devaient un jour nous remplacer, espérons qu’elles préserveraient la Terre, contrairement à nous..

Répondre

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

La lumière naît du vide : une modélisation laser confirme une prédiction de la physique quantique

Le secret du sexe des ornithorynques enfin percé après 20 ans de mystère

Pourquoi les chats ronronnent-ils ? Des biologistes lèvent le voile sur ses bases génétiques

Et si l’Univers n’était pas né du Big Bang ? Une nouvelle théorie défie le modèle standard

Colombie : découverte d’un ancien peuple oublié dont l’ADN s’est volatilisé

Si nous n’avons toujours pas vu d’extraterrestres, c’est peut-être à cause de la « limite universelle de développement technologique », suggère un chercheur

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

Exode scientifique : 75 % des chercheurs prêts à quitter les États-Unis, révèle une enquête

Sous la pression de Trump, le NIH licencie un pionnier de la recherche sur Parkinson

GPT-4.5 surpasse les humains lors d’un test de Turing à grande échelle

Une « personnalité » qui déroute même les plus avertis

Source : arXiv

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

La lumière naît du vide : une modélisation laser confirme une prédiction de la physique quantique

Le secret du sexe des ornithorynques enfin percé après 20 ans de mystère

Cyberattaque historique : 90 millions de dollars effacés chez Nobitex, géant iranien des cryptomonnaies

La lumière naît du vide : une modélisation laser confirme une prédiction de la physique quantique

Le secret du sexe des ornithorynques enfin percé après 20 ans de mystère

GPT-4.5 surpasse les humains lors d’un test de Turing à grande échelle

Une « personnalité » qui déroute même les plus avertis

Source : arXiv

Il suffit de s'abonner !