Jenseits von Vibe Coding

Warum das beste LLM allein den Durchbruch nicht bringt

Erinnert ihr euch noch an die Goldgräberstimmung vor 18 Monaten? Wir haben uns Nächte um die Ohren geschlagen, um den „perfekten Prompt“ zu finden. Wir haben Prompt Engineering betrieben, als wäre es Alchemie – ein bisschen „Step-by-step“, eine Prise „Du bist ein Senior-Experte“, und hoffen, dass das Gold unten rauskommt.

Dann kam das Vibe Coding: Einfach mal locker in den Editor quatschen, die KI machen lassen und schauen, ob der „Vibe“ stimmt. Andrej Karpathy, Mitbegründer von OpenAI, hatte diesen Begriff im Februar 2025 geprägt und damit eine Entwicklung auf den Punkt gebracht, die längst im Gange war: Der Entwickler gibt die Vision vor, die KI übernimmt die Implementierung. Das war spaßig, es war befreiend, aber seien wir ehrlich: Es war die handwerkliche Phase der KI-Revolution. Es war das digitale Äquivalent zum Malen nach Zahlen.

Die Ära der isolierten Werkzeuge ist vorbei

Wir müssen diese Werkzeuge – vom perfekten Prompt bis zum PDD – als das sehen, was sie waren: Lernphasen. Wir haben gelernt, mit der Maschine zu korrespondieren. Aber wer glaubt, dass die Reise damit endet, dass wir immer schlauere Prompts in immer größere Chatfenster tippen, der hat den Kern der Entwicklung noch nicht erfasst.

Die Zukunft der Softwareentwicklung entscheidet sich nicht an der Frage, ob du GPT-5, Claude 4 oder Llama nutzt. Das LLM ist austauschbar geworden – es ist der Motor, aber nicht das Auto.

Es zählt nicht das LLM allein, sondern das Gesamtsystem

Der entscheidende Punkt ist: Nicht das beste Modell entscheidet über den Erfolg, sondern das beste Gesamtsystem.

Das ist keine bloße Behauptung, sondern eine der am härtesten belegten Erkenntnisse der jüngeren KI-Forschung. Andrew Ng, einer der einflussreichsten Köpfe auf diesem Gebiet, hat in mehreren viel beachteten Vorträgen gezeigt, dass die Einbettung eines Modells in einen agentischen Workflow dessen Leistung weit stärker verbessert als der Wechsel auf ein nominell leistungsfähigeres Modell. In seinem HumanEval-Benchmark erreichte GPT-3.5 ohne agentische Unterstützung eine Korrektheit von 48,1%. GPT-4 kam im Zero-Shot-Verfahren auf 67,0%. Doch GPT-3.5, eingebettet in einen iterativen Agenten-Workflow, erzielte 95,1% – und übertraf damit das wesentlich modernere Modell um Längen. Ng selbst brachte es auf die Formel: Der Sprung von GPT-3.5 zu GPT-4 wird durch die Integration eines iterativen Agenten-Workflows in den Schatten gestellt.

Die Landschaft liefert die Bestätigung im großen Maßstab: Frameworks wie LangGraph, CrewAI und AutoGPT etablieren genau diese Architektur – Systeme, die Aufgaben autonom planen, iterieren, reflektieren und korrigieren. Es ist ein technologischer Shift, der den Fokus endgültig vom Modell auf das System verschiebt.

Wir bewegen uns weg von der isolierten Intelligenz hin zu einer symbiotischen Mensch-Maschine-Vereinigung. Es geht um ein hocheffizientes Trio:

Das Denken (Mensch): Wir liefern die Intention, die Architektur und das ethische sowie wirtschaftliche Framework. Wir sind die Strategen.

Das Ausführen (KI-Agenten): Die Maschine übernimmt die fehleranfällige Kleinarbeit, das Refactoring und die Boilerplate-Schlachten.

Das Toolset (Infrastruktur): Die nahtlose Integration in unsere IDEs, CI/CD-Pipelines und Monitoring-Tools.

Wenn diese drei Rädchen nicht perfekt ineinandergreifen, nützt dir auch das schlauste Modell der Welt nichts. Ein brillanter Motor in einem Auto ohne Räder bringt dich nicht von Bremen nach Hamburg.

Die schleichende Standardisierung der Modelle

Die Austauschbarkeit des Motors ist längst kein theoretisches Szenario mehr. In der LMSYS Chatbot Arena, dem derzeit wohl aussagekräftigsten Benchmark für Sprachmodelle, liegen die führenden Systeme dicht beieinander: Claude 3.5 Sonnet führt mit einem Elo-Wert von 1308, dicht gefolgt von GPT-4o (1302) und Gemini 1.5 Pro (1290). Die Abstände sind so gering, dass sie für die praktische Entwicklungsarbeit kaum noch eine Rolle spielen. Das Modell wird zur austauschbaren Ware – zur „Commodity“. Der Wert entsteht nicht mehr durch die Wahl des richtigen Anbieters, sondern durch die Intelligenz der Integration: durch Retrieval Augmented Generation, durch kontextsensitive Tool-Nutzung, durch durchdachte Systemarchitektur.

Die stille Weichenstellung: Wer baut dein System?

Genau dieses Gesamtsystem wird jetzt gebaut – die Frage ist nur: von wem?

Die großen KI-Anbieter arbeiten mit Hochdruck an einer Zukunft, in der Agenten, Skills und Deep Reasoning nahtlos miteinander verzahnt sind. GitHub Copilot Workspace etwa ist der Prototyp eines geschlossenen Ökosystems, in dem die KI die gesamte Pipeline kontrolliert – von der Idee über den Code bis zum Pull Request, alles in natürlicher Sprache. Code wird automatisch mit Tests versehen, durchläuft Iterationen und Validierungsschleifen, bevor ein Entwickler überhaupt einen Blick darauf wirft. Die IDE denkt mit, die Pipeline korrigiert, der Agent antizipiert. Das sind keine isolierten LLM-Features mehr – das ist ein durchdesigntes Ökosystem, das uns schrittweise an die Hand nimmt. Bequem, effizient, produktiv.

Und genau hier liegt die Gefahr: der schleichende Vendor Lock-in. Wir gewöhnen uns an eine nahtlose Erfahrung und geben dafür Stück für Stück die Kontrolle über unseren Stack ab. Aus der Symbiose wird Abhängigkeit. Die Frage, die sich jede und jeder stellen muss, lautet: Will ich Anwender in einem fremden System sein? Oder schaffe ich mein eigenes?

Die gute Nachricht: Noch sind nicht alle Wege verbaut. Die Entwicklung lokaler Modelle hat in den letzten Monaten eine Dynamik entfaltet, die selbst Optimisten überrascht hat. Modelle wie Llama 3 oder Mistral lassen sich mit Tools wie Ollama oder LM Studio auf handelsüblichen Laptops ausführen – und liefern Ergebnisse, die für viele professionelle Coding-Aufgaben völlig ausreichen. Ja, ein lokaler Tech-Stack verlangt heute noch ein Quäntchen mehr Geduld. Aber wer hätte vor zwei Jahren gedacht, dass leistungsfähige LLMs flüssig auf unseren Notebooks laufen? Ich gebe zu, ich war mir sicher, dass das kommt. Und wer heute beobachtet, wie schnell sich lokale Modelle, offene Orchestrierungs-Frameworks und community-getriebene Toolchains entwickeln, der spürt: Die Möglichkeiten sind nicht nur absehbar – sie sind zum Greifen nah.

Mein Denkanstoß für die kommende Zeit

Hör auf, dem nächsten „Wunder-Prompt“ hinterherzujagen. Fang an zu überlegen: Wie sieht mein persönlicher Tech-Stack der Symbiose aus? Wie integriere ich das Denken und das Ausführen so, dass ein stabiler Workflow entsteht, der auch dann noch steht, wenn das nächste Modell um die Ecke kommt? Und vor allem: Wem vertraue ich die Architektur meines Systems an – einem Anbieter oder mir selbst?

Butter bei die Fische: Die Technik der Vergangenheit war das „Was“. Die Zukunft ist das „Wie“ im großen Systemzusammenhang. Und die entscheidende Weiche für dieses „Wie“ stellen wir jetzt.

Quellen

Andrej Karpathy – Prägung und Popularisierung des Begriffs „Vibe Coding“ (2025, u. a. in Vorträgen und Social Media Beiträgen)
Andrew Ng – Vorträge und Veröffentlichungen zu „Agentic Workflows“ und der These, dass Systemdesign (Workflows, Iteration, Tooling) wichtiger ist als das einzelne Modell
LMSYS – Chatbot Arena Benchmark (Elo-Ranking von LLMs)
LangGraph – Framework zur Orchestrierung von zustandsbasierten Agenten-Workflows
CrewAI – Framework für kollaborierende KI-Agenten
AutoGPT – Frühes Open-Source-Projekt für autonome KI-Agenten
GitHub Copilot Workspace – Konzept eines integrierten, KI-gestützten Entwicklungs-Workflows
Llama 3 – Open-Source-Sprachmodell von Meta
Mistral – Europäische KI-Modelle, optimiert für lokale Ausführung
Ollama – Tool zum lokalen Ausführen von Sprachmodellen
LM Studio – Desktop-Anwendung für lokale LLMs
Eigener Artikel: „Prompt Driven Development (PDD) – Ein Manifest gegen das bequeme Raten“ – Blog von Benjamin Lam