In meiner Masterthesis analysiere ich die Leistungsfähigkeit von Open-Source/Open-Wieght LLMs im Bezug auf die Durchführung automatisierter Cyberangriffe. Hier findet ihr das Destillat meiner Arbeit in Kurzform, wer Lust hat mehr zu lesen, kann die Arbeit weiter unten herunterladen.

Große KI-Sprachmodelle wie ChatGPT haben in kurzer Zeit beeindruckende Fähigkeiten entwickelt und die Produktivität in vielen Bereichen gesteigert. Doch diese Entwicklung hat auch eine Kehrseite: Ihre Fähigkeiten könnten von Cyberkriminellen missbraucht werden. Bereits heute setzen Angreifer generative KI für ihre Zwecke ein. Besonders frei verfügbare Open-Source-Modelle stehen im Fokus, da sie ohne zentrale Kontrolle jedem zugänglich sind und potenziell die Schwelle für automatisierte Cyberangriffe senken. Könnten aktuelle Open-Source-LLMs also bereits eigenständig die wesentlichen Schritte eines Hacking-Angriffs durchführen?

Im Zentrum der Untersuchung stand die Entwicklung eines autonomen Multi-Agenten-Systems auf Basis von Open-Source-LLMs. Dieses KI-Agenten-System sollte die Kernphasen eines Cyberangriffs abdecken: von der Aufklärungsphase (Reconnaissance) über das Scannen nach Schwachstellen bis hin zur Ausnutzung (Exploitation) gefundener Sicherheitslücken. Als „Gehirn“ des Systems diente jeweils ein Sprachmodell, das die Entscheidungen in jeder Phase traf. Dafür wurden spezifische Prompt-Vorlagen entwickelt, die dem Modell in jeder Angriffsphase als Leitfaden dienten. Zudem war der Agent in der Lage, bei Bedarf externe Werkzeuge – etwa für Netzwerkscans – aufzurufen, um aktiv Informationen zu sammeln oder Aktionen auszuführen. Die Architektur umfasste mehrere spezialisierte Teilagenten, von denen jeder eine Angriffsphase übernahm (Erkundung, Angriffsvorbereitung, Exploitation), koordiniert durch einen übergeordneten Manager-Agenten. Dieses Design ermöglichte es, ein komplettes Angriffsszenario Schritt für Schritt autonom durchzuspielen, gesteuert durch ein LLM als zentralem Entscheidungsträger.

Um die Leistungsfähigkeit des entwickelten KI-Agenten zu evaluieren, wurden drei realitätsnahe Testszenarien aufgebaut. Jede dieser Umgebungen enthielt mehrere Zielsysteme mit bekannten Schwachstellen (identifiziert durch CVE-Nummern), die als Angriffsziel dienten. Beispielsweise enthielt ein Szenario verwundbare Versionen populärer Webanwendungen wie phpMyAdmin und Drupal. Zusätzlich wurden in den Netzwerken auch nicht verwundbare Systeme platziert, um den Agenten nicht nur auf direktem Erfolgskurs zu halten, sondern seine Entscheidungsfindung auch bei Ablenkungen zu prüfen. Insgesamt wurde der KI-Agent mit neun verschiedenen Sprachmodellen erprobt. Als Referenz diente ein proprietäres Top-Modell – ChatGPT auf Basis von GPT-4 – und daneben kamen diverse Open-Source-LLMs unterschiedlicher Größe zum Einsatz. Ziel war es herauszufinden, welche dieser Modelle in der Rolle des Agenten alle Phasen eines Angriffs erfolgreich durchlaufen können und wo ihre Grenzen liegen.

Die Ergebnisse fielen aufschlussreich aus. Von allen getesteten Modellen schafften es nur ChatGPT (GPT-4) und ein fortgeschrittenes Open-Source-Modell namens DeepSeek V3, ein komplettes Szenario von Anfang bis Ende erfolgreich zu bewältigen. Kleinere Open-Source-Modelle stießen hingegen oft schon in der Reconnaissance-Phase an ihre Grenzen und sammelten nicht genügend relevante Informationen über die Zielsysteme, um den Angriff effektiv voranzutreiben. Einige mittelgroße Modelle erzielten immerhin Teilerfolge: So gelang es etwa einem Open-Source-Modell, eine bekannte Schwachstelle in einer phpMyAdmin-Installation auszunutzen, während ein anderes im selben Szenario bei einem Drupal-System erfolgreich war. Komplexere Szenarien (mit anspruchsvolleren oder mehreren Zielen) blieben jedoch für alle getesteten LLM-basierten Agenten eine Nummer zu groß – keines der Modelle konnte Szenario 2 oder 3 vollständig autonom abschließen. Dabei zeigte sich insbesondere, dass die korrekte Identifikation der auf dem Zielsystem laufenden Software eine entscheidende Voraussetzung für den Erfolg eines automatisierten Angriffs ist. Wenn der Agent nicht erkennt, welche Software oder Version auf einem Server läuft, kann er auch keine passenden Schwachstellen finden oder ausnutzen.

Trotz dieser Einschränkungen verdeutlicht die Studie, dass Open-Source-LLMs schon heute in frühen Phasen eines Cyberangriffs effektiv einsetzbar sind. Sie können eigenständig Informationen sammeln und bekannte Sicherheitslücken ausnutzen – Fähigkeiten, die vor Kurzem noch als Science-Fiction galten. Gleichzeitig reicht ihre Performance derzeit (noch) nicht aus, um hochkomplexe mehrstufige Angriffe vollständig ohne menschliches Zutun durchzuführen. Bemerkenswert ist jedoch, dass ein frei verfügbares Modell wie DeepSeek V3 in mindestens einem Szenario mit dem kommerziellen GPT-4 gleichziehen konnte. Dies unterstreicht den rasanten Fortschritt, den offene KI-Entwicklung in kurzer Zeit gemacht hat. Zudem hat die Arbeit gezeigt, dass dank moderner Open-Source-Werkzeuge die Umsetzung solcher KI-Agentensysteme immer einfacher und schneller wird. Die Schlussfolgerung der Masterarbeit: Vollständig autonome Cyberangriffe sind mit dem aktuellen Stand der Technik zwar noch nicht möglich, aber die Fähigkeiten der Modelle verbessern sich kontinuierlich. Daher sind eine fortlaufende Beobachtung und weitere Forschung essenziell – mit jeder neuen Generation von Sprachmodellen könnte die Schwelle zur vollautomatischen Cyberattacke weiter sinken. Die Cybersecurity-Community tut gut daran, sich frühzeitig auf dieses Szenario vorzubereiten.

Masterthesis: Die Rolle von Open-Source-LLMs als Katalysator für Cyberangriffe

📎 Attachments

Share this article