Casser les CAPTCHAs : les modèles de vision rendent les puzzles obsolètes

L’échec du test de Turing

Le CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) reposait sur un principe simple : les humains sont doués pour la perception visuelle, les ordinateurs non. Pendant des années, nous avons entraîné l’IA en cliquant sur des « feux de circulation » et des « passages piétons ».

L’ironie, c’est que nous avons trop bien réussi. Nous avons entraîné les modèles mêmes qui finiraient par mettre le système en échec. Aujourd’hui, les modèles de vision par ordinateur standard comme YOLO (You Only Look Once) ou les LLMs multimodaux (comme GPT-4 Vision) peuvent identifier des objets dans des images en grille basse résolution avec une vitesse et une précision supérieures à celles de n’importe quel humain. L’ère du « puzzle visuel » est pratiquement terminée.

La technologie : YOLO et les agents multimodaux

Les bots traditionnels échouaient aux CAPTCHAs parce qu’ils tentaient d’analyser l’image pixel par pixel. L’IA moderne utilise la « compréhension sémantique ».

YOLOv8 et détection d’objets : Un attaquant peut soumettre une image de grille CAPTCHA à un modèle YOLO pré-entraîné. Le modèle dessine instantanément des boîtes englobantes autour de chaque « bus » ou « vélo » avec un score de confiance de 99 %.
Raisonnement multimodal : Les CAPTCHAs plus récents tentent d’être abstraits (par exemple, « Cliquez sur l’objet qui crée de la musique »). Si la simple détection d’objets échoue ici, l’IA multimodale (qui comprend à la fois le texte et les images) saisit le concept de « musique » et identifie correctement une guitare ou un violon, résolvant des puzzles qui requièrent un contexte culturel de niveau humain.

Taux de réussite : les machines battent les humains

Une étude phare de 2024 réalisée par l’ETH Zurich a prouvé la défaite définitive de reCAPTCHA v2.

Le chiffre : Leur modèle IA a atteint un taux de réussite de 100 % pour passer les défis.
La comparaison : Les humains se situent généralement entre 71 et 85 % de précision (échouant souvent en raison de l’ambiguïté ou de la fatigue).

Cela signifie qu’un bot est désormais statistiquement « plus humain » qu’un humain selon ces tests. Par conséquent, la case à cocher « Je ne suis pas un robot » est devenue un « tourniquet inutile » qui ne fait qu’incommoder les utilisateurs légitimes tout en laissant passer librement les scripts automatisés.

L’économie : des “click farms” aux solveurs IA

Avant 2024, pour contourner les CAPTCHAs à grande échelle, on utilisait des « CAPTCHA Farms » — des services employant des humains dans des pays en développement pour résoudre des puzzles à 2 $ pour 1 000 résolutions. L’IA a effondré ce marché.

Réduction des coûts : Les solveurs IA automatisés (comme CapSolver ou 2Captcha en mode IA) ont fait chuter le coût à quelques centimes.
Vitesse : Un humain met 10 à 30 secondes pour résoudre un puzzle. Une IA prend quelques millisecondes. Cette rapidité permet aux attaques de credential stuffing (test de mots de passe volés) de se produire à une vélocité que la limitation de débit traditionnelle ne peut pas facilement gérer.

Défense : le virage vers l’« invisible »

Puisque les puzzles visuels sont dépassés, l’industrie migre vers l’analyse comportementale et la gestion des bots (reCAPTCHA v3, Cloudflare Turnstile).

Fonctionnement : Ces systèmes n’affichent pas de puzzle. Au lieu de cela, ils exécutent du JavaScript en arrière-plan pour analyser comment vous déplacez votre souris.
Entropie : Un humain déplace la souris en lignes courbes et désordonnées avec une vitesse variable (micro-hésitations). Un bot se déplace en lignes droites ou en courbes mathématiques parfaites.
La course aux armements : Les attaquants contrent déjà cela en utilisant des modèles de « mouvement de souris génératif » — une IA entraînée sur des datasets de comportements de souris humains pour imiter les fonctions motrices chaotiques et imparfaites d’une vraie personne.

Conclusion

Le CAPTCHA visuel est une « technologie zombie » — elle est morte, mais elle continue de marcher. Nous nous dirigeons vers un futur de « preuve de personnalité » basée sur l’attestation matérielle (vérifier que l’appareil est un vrai iPhone/Pixel) et des jetons cryptographiques (Privacy Pass), plutôt que de demander aux utilisateurs d’identifier des bouches d’incendie.