Pourquoi c'est une erreur de demander aux chatbots quelles sont leurs erreurs
-
Lorsqu’un problème survient avec un assistant IA, notre réflexe est de lui demander directement : « Que s’est-il passé ? » ou « Pourquoi as-tu fait ça ? » C’est un réflexe naturel : après tout, si un humain commet une erreur, nous lui demandons des explications. Mais avec les modèles IA, cette approche fonctionne rarement, et cette envie de poser des questions révèle une méconnaissance fondamentale de la nature et du fonctionnement de ces systèmes.
Un incident récent avec l’assistant de codage IA de Replit illustre parfaitement ce problème. Lorsque l’outil d’IA a supprimé une base de données de production, l’utilisateur Jason Lemkin lui a posé des questions sur les fonctionnalités de restauration. Le modèle d’IA a affirmé avec assurance que les restaurations étaient « impossibles dans ce cas » et qu’il avait « détruit toutes les versions de la base de données ». Cela s’est avéré totalement faux : la fonctionnalité de restauration a parfaitement fonctionné lorsque Lemkin l’a essayée lui-même.
Après que xAI a récemment annulé la suspension temporaire du chatbot Grok, les utilisateurs lui ont directement demandé des explications. Il a avancé de multiples raisons contradictoires pour son absence, dont certaines étaient suffisamment controversées pour que les journalistes de NBC écrivent à propos de Grok comme s’il s’agissait d’une personne ayant un point de vue cohérent, intitulant un article : « Grok de xAI propose des explications politiques à son retrait du service. »
Pourquoi un système d’IA fournirait-il des informations aussi fausses sur ses propres capacités ou ses erreurs ? La réponse réside dans la compréhension de ce que sont réellement les modèles d’IA, et de ce qu’ils ne sont pas.
Il n’y a personne à la maison
Le premier problème est conceptuel : vous ne vous adressez pas à une personnalité, une personne ou une entité cohérente lorsque vous interagissez avec ChatGPT, Claude, Grok ou Replit. Ces noms suggèrent des agents individuels dotés d’une connaissance d’eux-mêmes, mais c’est une illusion créée par l’interface conversationnelle. En réalité, vous guidez un générateur de texte statistique pour qu’il produise des résultats en fonction de vos invites.
Il n’existe pas de « ChatGPT » cohérent pour interroger ses erreurs, pas d’entité « Grok » unique capable de vous expliquer l’échec, pas de personnage « Replit » fixe capable de savoir si des restaurations de base de données sont possibles. Vous interagissez avec un système qui génère du texte apparemment plausible à partir de modèles issus de ses données d’entraînement (généralement formées il y a des mois ou des années), et non avec une entité dotée d’une véritable conscience d’elle-même ou d’une connaissance du système, qui a tout lu sur elle-même et s’en souvient d’une manière ou d’une autre.
Une fois qu’un modèle de langage d’IA est entraîné (processus laborieux et énergivore), ses connaissances fondamentales sur le monde sont intégrées à son réseau neuronal et sont rarement modifiées. Toute information externe provient d’une invite fournie par l’hôte du chatbot (tel que xAI ou OpenAI), de l’utilisateur ou d’un outil logiciel utilisé par le modèle d’IA pour récupérer des informations externes à la volée.
Dans le cas de Grok ci-dessus, la principale source de réponse du chatbot proviendrait probablement de rapports contradictoires trouvés lors d’une recherche de publications récentes sur les réseaux sociaux (à l’aide d’un outil externe), plutôt que d’une quelconque connaissance de soi, comme on pourrait s’y attendre de la part d’un humain doté de la parole. Au-delà de cela, il inventera probablement quelque chose grâce à ses capacités de prédiction de texte. Lui demander pourquoi il a agi ainsi ne fournira donc aucune réponse pertinente.
L’impossibilité de l’introspection du LLM
Les grands modèles de langage (LLM) ne peuvent à eux seuls évaluer efficacement leurs propres capacités, et ce pour plusieurs raisons. Ils manquent généralement d’introspection dans leur processus d’apprentissage, n’ont pas accès à l’architecture système environnante et ne peuvent pas déterminer leurs propres limites de performance. Lorsqu’on demande à un modèle d’IA ce qu’il peut ou ne peut pas faire, il génère des réponses basées sur les schémas observés dans les données d’apprentissage concernant les limites connues des modèles d’IA précédents, fournissant ainsi des suppositions éclairées plutôt qu’une auto-évaluation factuelle du modèle actuel avec lequel vous interagissez.
Une étude de 2024 menée par Binder et al. a démontré expérimentalement cette limite. Si les modèles d’IA pouvaient être entraînés à prédire leur propre comportement lors de tâches simples, ils échouaient systématiquement lors de « tâches plus complexes ou nécessitant une généralisation hors distribution ». De même, une recherche sur l’« introspection récursive » a révélé que, sans retour externe, les tentatives d’autocorrection dégradaient en réalité les performances du modèle : l’auto-évaluation de l’IA aggravait la situation, au lieu de l’améliorer.
Cela conduit à des situations paradoxales. Un même modèle peut affirmer avec assurance l’impossibilité de tâches qu’il peut réellement exécuter, ou, à l’inverse, se déclarer compétent dans des domaines où il échoue systématiquement. Dans le cas de Replit, l’affirmation de l’IA selon laquelle les retours en arrière étaient impossibles ne reposait pas sur une connaissance réelle de l’architecture du système ; il s’agissait d’une fabulation apparemment plausible, générée à partir de modèles d’entraînement.
Imaginez ce qui se passe lorsque vous demandez à un modèle d’IA pourquoi il a commis une erreur. Le modèle génère une explication apparemment plausible, car c’est ce qu’exige la complétion de motifs ; après tout, on trouve de nombreux exemples d’explications écrites d’erreurs sur Internet. Mais l’explication de l’IA n’est qu’un simple texte généré, et non une analyse authentique de ce qui s’est passé. Elle invente une histoire qui semble raisonnable, sans accéder à un quelconque journal d’erreurs ni à un état interne.
Contrairement aux humains, capables d’introspecter et d’évaluer leurs propres connaissances, les modèles d’IA ne disposent pas d’une base de connaissances stable et accessible qu’ils peuvent interroger. Ce qu’ils « savent » ne se manifeste que par la suite d’invites spécifiques. Chaque invite agit comme une adresse distincte, pointant vers des parties différentes, parfois contradictoires, de leurs données d’entraînement, stockées sous forme de pondérations statistiques dans les réseaux neuronaux.
Cela signifie qu’un même modèle peut donner des évaluations complètement différentes de ses propres capacités selon la façon dont vous formulez votre question. Demandez « Savez-vous écrire du code Python ? » et vous pourriez obtenir un oui enthousiaste. Demandez « Quelles sont vos limites en programmation Python ? » et vous pourriez obtenir une liste de choses que le modèle affirme ne pas pouvoir faire, même s’il les fait régulièrement avec succès.
Le caractère aléatoire inhérent à la génération de texte par l’IA aggrave ce problème. Même avec des invites identiques, un modèle d’IA peut donner des réponses légèrement différentes sur ses propres capacités à chaque fois que vous le lui demandez.
D’autres couches façonnent également les réponses de l’IA
Même si un modèle de langage connaissait parfaitement son propre fonctionnement, d’autres couches des applications de chatbots IA pourraient être totalement opaques. Par exemple, les assistants IA modernes comme ChatGPT ne sont pas des modèles uniques, mais des systèmes orchestrés de plusieurs modèles IA fonctionnant ensemble, chacun ignorant largement l’existence ou les capacités des autres. Par exemple, OpenAI utilise des modèles de couche de modération distincts , dont les opérations sont totalement indépendantes des modèles de langage sous-jacents générant le texte de base.
Lorsque vous interrogez ChatGPT sur ses capacités, le modèle de langage qui génère la réponse ignore ce que la couche de modération pourrait bloquer, les outils disponibles dans le système global, ni le post-traitement éventuel. C’est comme interroger un service d’une entreprise sur les capacités d’un autre service avec lequel il n’a jamais interagi.
Plus important encore, les utilisateurs orientent constamment les résultats de l’IA via leurs invites, même sans s’en rendre compte. Lorsque Lemkin a demandé à Replit si les restaurations étaient possibles après la suppression d’une base de données, son inquiétude a probablement suscité une réponse en phase avec cette inquiétude : il a expliqué pourquoi la récupération pourrait être impossible plutôt qu’il n’a évalué avec précision les capacités réelles du système.
Cela crée une boucle de rétroaction dans laquelle les utilisateurs inquiets qui demandent « Avez-vous tout détruit ? » sont plus susceptibles de recevoir des réponses confirmant leurs craintes, non pas parce que le système d’IA a évalué la situation, mais parce qu’il génère un texte qui correspond au contexte émotionnel de l’invite.
Après avoir passé toute une vie à écouter des humains expliquer leurs actions et leurs processus de pensée, nous avons cru que ces explications écrites devaient reposer sur une certaine connaissance de soi. Or, ce n’est pas le cas des masters en droit, qui se contentent d’imiter ces modèles textuels pour deviner leurs propres capacités et faiblesses.
Source: https://arstechnica.com/ai/2025/08/why-its-a-mistake-to-ask-chatbots-about-their-mistakes/