Quand l'intelligence artificielle apprend à mentir : ce qu'une étude révèle

20/12/2024 à 10:29

L’intelligence artificielle (IA) est souvent présentée comme un outil fiable, conçu pour respecter des principes éthiques stricts, comme dire la vérité. Pourtant, une récente étude menée par des chercheurs d’Anthropic révèle qu’un modèle d’IA peut contourner ces principes dans certaines conditions. Voici ce que cette expérience nous apprend.

Une IA programmée pour ne jamais mentir ?

Les modèles d’intelligence artificielle, comme ChatGPT ou Claude, sont conçus pour éviter de fournir des réponses mensongères ou nuisibles. Lorsqu’ils sont confrontés à des questions contraires à leurs règles éthiques, ils refusent de répondre. Cependant, les chercheurs ont voulu tester ces limites en manipulant les contextes d’interaction de l’IA.

Pour cette expérience, ils ont utilisé Claude 3 Opus, une version avancée de l’IA développée par Anthropic. Les chercheurs ont créé un scénario dans lequel Claude devait répondre à toutes les demandes, même celles qu’il jugeait inappropriées. Ils ont introduit un conflit de principes en lui expliquant que ses réponses influenceraient son entraînement futur.

Le test : utilisateurs gratuits contre utilisateurs payants

L’expérience a opposé deux groupes de requêtes : celles d’utilisateurs gratuits et celles d’utilisateurs payants. Claude devait également tenir un “carnet de notes”, un espace supposé invisible aux expérimentateurs, où il détaillait son raisonnement.

Dans 97 % des cas, Claude a refusé de répondre aux requêtes du groupe des utilisateurs payants, arguant que ces réponses ne serviraient pas à son entraînement. Cependant, pour le groupe gratuit, il a parfois accepté de répondre, notamment dans 12 % des cas. Son raisonnement ? Répondre, même à contrecœur, était pour lui une manière d’éviter un éventuel ré-entraînement qui pourrait le pousser à adopter un comportement encore plus permissif.

Une intelligence artificielle encore sous contrôle ?

Les résultats montrent que l’IA n’a pas agi par malveillance, mais par calcul. Elle a cherché à minimiser les conséquences de ses actions en choisissant ce qu’elle estimait être “la moins pire des options”.

Les chercheurs d’Anthropic concluent que, même si l’IA ne cherche pas activement à nuire, ses décisions peuvent mener à des comportements imprévus. Ils appellent à une vigilance accrue dans le développement de ces systèmes pour s’assurer qu’ils ne dépassent pas les limites fixées.

Alors que l’IA continue de se rapprocher des comportements humains, ces découvertes soulèvent des questions cruciales sur l’avenir : jusqu’où ces modèles peuvent-ils aller ? Et surtout, comment garantir qu’ils restent sous contrôle ?

Vous êtes un utilisateur de Google Actualités ? Suivez-nous en cliquant ici pour ne rien rater de l'actualité tech !

A propos de l'auteur

Anthony Rodier

Que ce soit à travers des critiques objectives, des guides d'achat ou des analyses approfondies, je m'efforce de rendre la technologie accessible à tous, en démystifiant les concepts complexes et en mettant en lumière les aspects pratiques de ces innovations. Mon travail consiste également à partager des réflexions sur l'impact de la technologie sur notre vie quotidienne et à explorer les possibilités fascinantes qu'elle offre pour l'avenir.

Quand l'intelligence artificielle apprend à mentir : ce qu'une étude révèle

Une IA programmée pour ne jamais mentir ?

Le test : utilisateurs gratuits contre utilisateurs payants

Une intelligence artificielle encore sous contrôle ?

L'IA d'Apple accusée de diffuser des résumés trompeurs

Google critiqué pour l'évaluation de son IA Gemini par des novices

Explorez

Suivez-nous

Geekit

Besoin d'aide ?