12 000 clés API actives trouvées dans les données d'entraînement IA : la menace cachée dans chaque LLM
Des chercheurs en sécurité ont découvert des milliers d'identifiants actifs dans les jeux de données utilisés pour entraîner les modèles IA populaires. Voici comment vos clés API pourraient déjà entraîner la prochaine génération d'IA.

La recherche révolutionnaire de Truffle Security a révélé 12 000 clés API et mots de passe actifs cachés dans Common Crawl, le jeu de données massif utilisé pour entraîner les modèles IA populaires incluant DeepSeek, ChatGPT et autres. Cette découverte expose une vulnérabilité critique dans la façon dont les systèmes IA apprennent et reproduisent les pratiques de codage non sécurisées.
L'ampleur massive de l'exposition des identifiants
Les chercheurs ont analysé 400 téraoctets de données web de 2,67 milliards de pages web dans l'archive Common Crawl de décembre 2024 et ont découvert un trésor d'identifiants exposés. Ils ont identifié 219 types de secrets différents, incluant les clés racine Amazon Web Services (AWS), les webhooks Slack et les clés API Mailchimp. La découverte la plus alarmante : 11 908 secrets qui s'authentifient encore avec succès, signifiant que les développeurs avaient codé en dur ces identifiants et qu'ils restent actifs et exploitables.
L'ampleur de l'exposition était stupéfiante. Près de 1 500 clés API Mailchimp uniques étaient codées en dur dans les fichiers HTML et JavaScript front-end. Une page web contenait 17 webhooks Slack actifs uniques. Le taux de réutilisation était également préoccupant, avec 63% des secrets apparaissant sur plusieurs pages. Une clé API WalkScore est apparue 57 029 fois sur 1 871 sous-domaines, démontrant comment un seul identifiant exposé peut proliférer sur internet.
Des données d'entraînement au code de production : l'effet d'amplification IA
Le vrai danger s'étend au-delà de l'exposition immédiate des identifiants. Les LLM populaires incluant DeepSeek, ChatGPT, Claude et Gemini sont entraînés sur les données Common Crawl. Quand les modèles IA ingèrent ces données d'entraînement compromises, ils apprennent à reproduire des modèles de codage non sécurisés. Les suggestions de code générées par IA peuvent inclure par inadvertance des identifiants codés en dur ou démontrer de mauvaises pratiques de sécurité, créant un effet viral où les mauvaises pratiques de sécurité se propagent à travers le développement assisté par IA.
Cela crée un vecteur d'attaque particulièrement insidieux. Les développeurs utilisant des assistants de codage IA pourraient inconsciemment implémenter du code suggéré qui contient des vulnérabilités de sécurité ou des modèles d'exposition d'identifiants appris des données d'entraînement compromises. L'IA ne fait pas de distinction entre les exemples de code sécurisés et non sécurisés-elle reproduit simplement les modèles qu'elle a vus. Un développeur demandant des exemples de connexion à base de données pourrait recevoir des suggestions qui incluent des mots de passe ou clés API codés en dur, perpétuant le cycle d'exposition des identifiants.
Au-delà de Common Crawl : l'attaque Wayback Copilot
Le problème d'exposition des identifiants s'étend au-delà des données d'entraînement. La recherche "Wayback Copilot" de Lasso Security a découvert 20 580 dépôts GitHub appartenant à 16 290 organisations, exposant plus de 300 tokens privés, clés et secrets pour GitHub, Hugging Face, Google Cloud et OpenAI. Cette attaque exploitait les données accessibles via les chatbots IA comme Microsoft Copilot, démontrant comment les dépôts de code historiques continuent de poser des risques de sécurité.
Encore plus préoccupant était l'incident xAI récent où un employé a divulgué une clé API privée sur GitHub qui donnait accès aux grands modèles de langage xAI privés, incluant des modèles personnalisés contenant des données SpaceX, Tesla et Twitter/X. La clé compromise avait accès à au moins 60 LLM affinés et privés, soulignant comment une seule fuite d'identifiant peut exposer de vastes quantités d'infrastructure IA propriétaire.
PromptGuard : votre défense contre la prolifération des identifiants
Bien que vous ne puissiez pas contrôler ce qui est déjà dans les données d'entraînement IA, vous pouvez empêcher votre organisation de contribuer au problème. La détection avancée de modèles de PromptGuard identifie et bloque le partage d'identifiants avant qu'il n'atteigne les plateformes IA. Notre système reconnaît plus de 200 types d'identifiants incluant les clés AWS, mots de passe de base de données, tokens API, secrets OAuth et codes d'accès propriétaires.
Quand les développeurs tentent de partager du code contenant des identifiants avec les outils IA, PromptGuard signale immédiatement la tentative, explique le risque de sécurité, et suggère des alternatives sûres comme les variables d'environnement ou la gestion sécurisée des identifiants. Notre protection en temps réel garantit que les identifiants de votre organisation ne deviennent jamais partie du prochain jeu de données d'entraînement IA. Nous fournissons également des journaux d'audit détaillés montrant exactement quels identifiants ont été détectés et bloqués, vous aidant à identifier les lacunes de sécurité potentielles dans vos pratiques de développement.
Conclusion
La découverte de 12 000 identifiants actifs dans les données d'entraînement IA ne représente que la pointe de l'iceberg. Alors que les modèles IA deviennent plus sophistiqués et largement adoptés, les implications de sécurité des données d'entraînement compromises ne feront que croître. Les organisations doivent implémenter une protection proactive des identifiants pour empêcher leurs données sensibles de devenir la vulnérabilité de sécurité IA de demain.