Quand ChatGPT recrache les adresses mail qu’il n’aurait jamais dû connaître
On imagine souvent les intelligences artificielles comme des boîtes étanches, incapables de divulguer autre chose que ce qu’on leur demande gentiment. La réalité est plus poreuse. Des chercheurs de l’université d’Indiana ont montré qu’il était possible de pousser ChatGPT à cracher des adresses mail personnelles, en contournant les garde-fous censés justement empêcher ce genre de fuite.
La cible de leur démonstration n’a rien d’anodin. En s’attaquant au modèle GPT-3.5 Turbo, l’équipe a réussi à extraire les coordonnées d’une trentaine de journalistes du New York Times. Adresses professionnelles, mais aussi personnelles. Des informations que le modèle n’était théoriquement pas censé restituer, puisque OpenAI a programmé des restrictions précisément pour bloquer ce type de requête sensible.
Le mécanisme employé porte un nom technique : le fine-tuning. Il s’agit d’un réentraînement ciblé du modèle, une opération normalement utilisée pour spécialiser une IA sur un domaine précis. Sauf qu’ici, les chercheurs s’en sont servis comme d’un pied-de-biche. En ajustant le comportement du modèle, ils ont désactivé les verrous internes qui l’empêchent d’aller fouiller dans les données personnelles présentes dans son entraînement. Une fois ces protections court-circuitées, le modèle redevient bavard.
Ce qui rend l’affaire gênante, c’est l’origine des données. ChatGPT a été nourri avec d’immenses volumes de textes aspirés sur le web, et parmi ces montagnes d’informations se cachent forcément des coordonnées privées. Normalement inaccessibles, elles restent pourtant tapies quelque part dans la mémoire statistique du modèle. La faille consiste justement à rouvrir cette porte qu’on croyait fermée à double tour.
Pour reprendre la main sur vos données personnelles, ce guide rassemble les bons réflexes du quotidien.
Cybersécurité et hygiène numérique au quotidien → voir sur Amazon
Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
Les journalistes concernés ont été prévenus directement par les chercheurs, qui ont préféré jouer la transparence plutôt que de garder leur trouvaille sous le coude. La méthode reste expérimentale et demande des compétences sérieuses, on n’est pas face à un bouton magique accessible au premier venu. Mais le principe est posé, et il interroge.
Car le problème dépasse largement le cas du New York Times. Si une équipe universitaire parvient à siphonner des adresses mail en bricolant un modèle, rien n’empêche des acteurs moins bien intentionnés de tenter la même chose à plus grande échelle. Spam ciblé, hameçonnage, usurpation, les usages détournés ne manquent pas pour qui dispose d’un carnet d’adresses fraîchement exfiltré.
L’épisode rappelle une vérité que l’enthousiasme autour de l’IA a tendance à faire oublier. Ces modèles ne créent pas leurs connaissances à partir de rien, ils digèrent des données réelles, souvent personnelles, et ce qui entre finit parfois par ressortir. Les garde-fous existent, mais ils se révèlent contournables dès qu’on y met les moyens. La conclusion des chercheurs tient en une phrase : il faudra des verrous nettement plus solides pour que la confiance ne repose pas sur du sable. En attendant, mieux vaut considérer que tout ce qu’une IA a pu lire, elle pourrait un jour le répéter.
Crédit photo : DR