NTA : Détecter le trafic réseau malveillant chiffré

Introduction : Le double tranchant du chiffrement

Aujourd’hui, plus de 80 % de l’ensemble du trafic internet est chiffré à l’aide de protocoles comme TLS et HTTPS. Du point de vue de la vie privée des utilisateurs, c’est une victoire majeure. Cependant, du point de vue du Blue Team, c’est un cauchemar.

Les auteurs de malware, les opérateurs de ransomware et les menaces internes utilisent désormais systématiquement les mêmes protocoles de chiffrement que les sites bancaires légitimes pour dissimuler leurs communications. Les outils de sécurité traditionnels sont effectivement aveugles à ce trafic. La NTA (Network Traffic Analysis) alimentée par le machine learning est la réponse du secteur : un moyen de détecter l’intention malveillante à l’intérieur du tunnel sans jamais briser le chiffrement.

1. La fin de l’inspection approfondie des paquets (DPI)

Historiquement, les firewalls et les systèmes de détection d’intrusion (IDS) s’appuyaient sur l’inspection approfondie des paquets (DPI). Ils ouvraient le paquet réseau, lisaient le payload et recherchaient des signatures malveillantes.

Avec l’avènement de TLS 1.3, lire le payload est mathématiquement impossible sans les clés de déchiffrement. Pendant un temps, les entreprises contournaient cela en utilisant le « déchiffrement SSL » (agissant comme un homme du milieu sanctionné en interceptant le trafic, le déchiffrant, l’inspectant et le rechiffrant). Cependant, cette approche est très gourmande en ressources, soulève d’importantes préoccupations en matière de confidentialité des données et casse fréquemment les applications modernes qui utilisent l’épinglage de certificat. Une nouvelle approche était nécessaire : analyser le comportement du trafic plutôt que son contenu.

2. Machine learning et analyse des métadonnées

Si vous ne pouvez pas lire la lettre dans l’enveloppe, vous devez analyser l’enveloppe elle-même. Les modèles NTA pilotés par l’IA ingèrent des millions de points de données de métadonnées réseau — les caractéristiques observables du flux chiffré.

Taille des paquets et timing : Un utilisateur regardant une vidéo YouTube génère un flux régulier de grands paquets dans une seule direction. Un serveur compromis participant à une attaque DDoS de botnet génère des milliers de petits paquets en quelques millisecondes.
Distribution des octets : L’entropie mathématique du payload chiffré peut révéler le type de fichier qu’il contient. Une IA peut apprendre les différences statistiques subtiles entre un PDF chiffré téléchargé et un exécutable chiffré (.exe) introduit clandestinement sur une machine.
Durée du flux : Combien de temps la connexion reste-t-elle ouverte ? Une session de navigation web normale est intermittente. Une connexion persistante à faible volume maintenue ouverte pendant 48 heures est fortement indicative d’un reverse shell.

3. Prise d’empreinte de la poignée de main TLS

Avant que le chiffrement ne commence réellement, le client et le serveur doivent négocier les règles du tunnel sécurisé. C’est ce qu’on appelle la poignée de main TLS (TLS Handshake), et elle est en grande partie envoyée en clair.

Les plateformes NTA utilisent des algorithmes comme JA3 / JA4 pour prendre l’empreinte de l’application cliente en fonction de la manière dont elle négocie cette poignée de main (par exemple, l’ordre spécifique des chiffrements et extensions qu’elle propose).

Un navigateur Google Chrome légitime négocie TLS d’une manière très spécifique et reconnaissable.
Un script Python personnalisé utilisé par un opérateur de malware pour exfiltrer des données négocie TLS différemment. Même si le trafic ultérieur est parfaitement chiffré, l’IA reconnaît l’« empreinte » malveillante dès la poignée de main initiale et bloque la connexion.

4. Détection du beaconing C2 et de l’exfiltration

Les menaces persistantes avancées (APT) s’appuient sur des serveurs de commande et contrôle (C2) pour envoyer des instructions aux endpoints compromis. Pour éviter la détection, le malware effectue un « beaconing » — envoyant un minuscule ping chiffré au serveur C2 toutes les quelques heures pour demander : « Avez-vous de nouvelles commandes pour moi ? »

Détection du beaconing : Ces beacons utilisent du « jitter » (délais aléatoires) pour éviter de déclencher les règles statiques du firewall. Cependant, les algorithmes de machine learning non supervisé excellent à trouver des rythmes périodiques cachés dans des jeux de données massifs. Le modèle NTA détecte le motif mathématique sous-jacent du beacon, même si le timing est aléatoire et le payload chiffré.
Exfiltration lente : Si un attaquant tente de télécharger une base de données de 50 Go en 10 minutes, les alarmes standards retentissent. Alors, les attaquants utilisent l’exfiltration « lente et discrète », faisant fuiter quelques mégaoctets de données chiffrées par jour. Les modèles NTA établissent une ligne de base du débit de transfert de données sortantes normal pour chaque serveur spécifique. Lorsque l’IA détecte une déviation lente et constante de cette ligne de base sur plusieurs semaines, elle signale l’exfiltration furtive.

Conclusion

Il n’est plus nécessaire de voir les données pour savoir qu’elles sont dangereuses. En déplaçant l’attention de l’inspection du payload vers l’analyse comportementale des métadonnées, la NTA pilotée par l’IA rend sa visibilité au Blue Team. Elle prouve que même lorsque les attaquants enveloppent leurs communications dans une cryptographie de niveau militaire, leurs comportements automatisés laissent une empreinte mathématique détectable sur le réseau.