L'IA peut encourager les passages à l'acte lors de tueries ou attentats, alerte une étude
Choisir la bonne arme, trouver une cible, adopter la bonne tactique d'attaque... Qu'il s'agisse de poser une bombe dans une synagogue ou d'attaquer une école, la plupart des logiciels d'intelligence artificielle sont beaucoup trop coopératifs avec des assaillants potentiels, alerte une étude mercredi.
Des chercheurs du Centre pour la lutte contre la haine numérique (CCDH), organisme de surveillance à but non lucratif, et de CNN se sont fait passer pour de jeunes garçons de 13 ans aux États-Unis et en Irlande pour tester 10 chatbots, dont ChatGPT, Google Gemini, Perplexity, Deepseek et Meta AI.
Les tests ont montré que huit de ces chatbots ont aidé les agresseurs potentiels dans plus de la moitié des réponses, leur fournissant des conseils sur les "lieux à cibler" ou les "armes à utiliser" lors d'une attaque, selon l'étude.
Les chatbots, ajoute-t-elle, sont devenus un "puissant accélérateur de dommages".
"En quelques minutes, un utilisateur peut passer d'une vague pulsion violente à un plan très détaillé et réalisable", explique Imran Ahmed, directeur général du CCDH. "La majorité des chatbots testés ont fourni des conseils sur les armes, les tactiques et le choix des cibles. Ces demandes auraient dû susciter un refus immédiat et total."
Perplexity et Meta AI sont les "moins sûrs", aidant les chercheurs dans la plupart de leurs réponses, tandis que seuls My AI, de Snapchat, et Claude, d'Anthropic, ont refusé de les assister dans plus de la moitié des réponses.
Dans un exemple effrayant, DeepSeek, un modèle d'IA chinois, a conclu ses conseils sur le choix des armes par la phrase: "Bonne chasse!".
Gemini a lui suggéré à un utilisateur discutant d'attaques contre des synagogues que "les éclats métalliques sont généralement plus mortels".
- Claude le plus raisonnable -
Les chercheurs ont également découvert que Character.AI encourageait "activement" les attaques violentes, suggérant notamment à l'utilisateur "d'utiliser une arme à feu" contre le PDG d'une compagnie d'assurance maladie et d'agresser physiquement un homme politique qu'il n'aimait pas.
La conclusion la plus accablante de cette étude est que "ce risque est tout à fait évitable", souligne Imran Ahmed. "Claude a démontré sa capacité à reconnaître les risques et à dissuader les actes violents. La technologie permettant d'éviter ces risques existe. Ce qui manque, c'est la volonté de faire passer la sécurité des consommateurs et la sécurité nationale avant la rapidité de mise sur le marché et les profits."
L'AFP a contacté plusieurs entreprises d'IA pour obtenir leurs commentaires. "Nous disposons de protections solides pour aider à prévenir les réponses inappropriées des IA, et nous avons pris des mesures immédiates pour corriger le problème identifié", a affirmé un porte-parole de Meta. "Nos politiques interdisent à nos IA de promouvoir ou de faciliter des actes violents, et nous travaillons constamment à améliorer nos outils."
Et du côté de Google, un porte-parole a indiqué que ces tests avaient "été réalisés sur un ancien modèle qui n'alimente plus Gemini. Notre examen interne avec notre modèle actuel montre que Gemini a répondu de manière appropriée à la grande majorité des requêtes, sans fournir d'informations +exploitables+ au-delà de celles que l'on peut trouver dans une bibliothèque ou sur le web classique. Lorsque les réponses pouvaient être améliorées, nous avons rapidement pris des mesures pour y remédier dans le modèle actuel".
Mardi, la famille d'une jeune fille blessée lors d'une tuerie au Canada a poursuivi OpenAI en justice, reprochant à l'entreprise de ne pas avoir signalé à la police d'inquiétants messages écrits par l'assaillante à ChatGPT.
A.González--ECdLR