KIRAGAgentenB2BLLM

Von RAG zu Agenten: Der KI-Stack, den jedes B2B-Unternehmen 2026 braucht

RAG hat KI intelligenter gemacht. Agenten haben sie autonom gemacht. Wie sich der moderne KI-Stack entwickelt hat und was das für B2B-Unternehmen bedeutet, die heute darauf aufbauen.

Workbox22. April 20265 Min. Lesezeit

Vor einem Jahr begann jede KI-Präsentation mit dem Satz „wir verwenden RAG." Heute erntet dieser Satz kaum noch ein Nicken. Das Feld hat sich weiterentwickelt — und Unternehmen, die nicht mitgezogen sind, zahlen bereits den Preis in Form verpasster Automatisierung und Wettbewerbsnachteilen.

Dieser Beitrag erklärt den aktuellen KI-Stack, beschreibt, wie jede Schicht funktioniert, und zeigt, was man 2026 tatsächlich bauen sollte — als B2B-Softwareunternehmen oder Enterprise-IT-Team.

Was RAG gelöst hat — und was nicht

Retrieval-Augmented Generation (RAG) war ein Wendepunkt. Es löste das größte praktische Problem großer Sprachmodelle: Sie kennen Ihre Daten nicht.

Das Muster ist einfach: Vor der Antwort werden relevante Textabschnitte aus einer Vektordatenbank abgerufen, in den Prompt eingefügt, und das Modell antwortet mit echtem Kontext. Unternehmen, die RAG 2024–2025 eingeführt haben, sahen sofortige Verbesserungen — Support-Bots, die das Produkt tatsächlich kannten, interne Suche mit nützlichen Ergebnissen, Dokumenten-Q&A, das funktionierte.

RAG hat aber eine Obergrenze. Es beantwortet Fragen. Es führt keine Aktionen aus. Es liest, aber schreibt nicht. Es reagiert in einem Schritt, kann aber nicht über mehrere Schritte planen.

Genau hier kommen Agenten ins Spiel.

Der dreischichtige KI-Stack im Jahr 2026

Moderne KI-Systeme in der Produktion sind typischerweise auf drei Schichten aufgebaut:

Schicht 1: Basismodelle

Der Markt hat sich um eine kleine Anzahl hochleistungsfähiger Modelle konsolidiert:

Reasoning-Modelle (OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude — Opus 4/Sonnet 4) für komplexe mehrstufige Probleme, Code-Generierung und Analyse
Schnelle Modelle (GPT-4o mini, Gemini Flash, Claude Haiku 4) für hochvolumige, latenzempfindliche Aufgaben wie Klassifizierung, Extraktion und Routing
Spezialisierte Modelle für Bild-Analyse, Audio-Transkription und Embeddings

Die größte Verschiebung seit 2025: Reasoning-Modelle sind keine Kuriosität mehr. Sie sind produktionsreif und übertreffen Standardmodelle bei Aufgaben mit Logik, Planung und Mehrfachbedingungen erheblich. Die Preise sind ebenfalls gesunken — o3 kostet heute einen Bruchteil dessen, was GPT-4 Turbo vor 18 Monaten kostete.

Schicht 2: RAG + Gedächtnis

Diese Schicht hat sich deutlich weiterentwickelt. Wichtige Entwicklungen:

Hybride Suche hat die reine Vektorsuche abgelöst. Die Kombination aus dichten Embeddings und BM25-Keyword-Matching liefert bessere Ergebnisse, insbesondere bei Anfragen mit spezifischen Begriffen (Produktcodes, Namen, technische Strings), die semantische Suche allein schlecht handhabt.

Reranking ist zum Standard geworden. Ein kleines Cross-Encoder-Modell (oder ein Reranking-API-Aufruf) bewertet abgerufene Abschnitte neu, bevor sie in den Prompt gelangen, und filtert Rauschen heraus, das das nachgelagerte Modell verwirren würde.

Strukturierte Metadaten-Filterung ermöglicht die Einschränkung der Suche nach Datum, Quelle, Abteilung oder beliebigem Feld. In Unternehmensumgebungen ist das enorm wichtig — dieselbe Frage hat für verschiedene Teams unterschiedliche korrekte Antworten.

Multimodale Suche setzt sich durch. Abschnitte sind nicht mehr nur Text — sie umfassen Bildbeschreibungen, Tabellenextrakte und Diagrammbeschriftungen, was Q&A über PDFs, Präsentationen und Grafiken ermöglicht.

Schicht 3: Agenten und Orchestrierung

Hier finden die größten architektonischen Veränderungen statt. Das Muster ist heute gut verstanden:

Ein Planer (in der Regel ein Reasoning-Modell) erhält ein Ziel und zerlegt es in Schritte
Tool-Aufrufe führen jeden Schritt aus — Datenbankabfragen, API-Aufrufe, Dateien lesen, Nachrichten senden
Ein Beobachter liest das Ergebnis und entscheidet, was als nächstes zu tun ist
Eine Gedächtnisschicht hält den Zustand über einzelne Aufrufe (kurzfristig) und über Sitzungen hinweg (langfristig) fest

Was sich 2026 geändert hat, ist die Zuverlässigkeit. Die frühen Agenten-Demos schlugen oft fehl — Modelle liefen in Schleifen, halluzinierten Tool-Argumente oder verloren das Ziel aus den Augen. Das Feld hat mit besseren Praktiken reagiert:

Strukturierte Tool-Schemas mit strikter Validierung statt Freitext-Argumenten
Explizite Zustandsautomaten, die einschränken, welche Tools ein Agent in welchem Zustand aufrufen kann
Menschliche Kontrollpunkte bei folgenreichen Entscheidungen
Observability-First-Design — jeder Tool-Aufruf protokolliert, jeder Denkschritt nachverfolgbar

Wo B2B-Unternehmen den größten Mehrwert erzielen

Nicht jeder Anwendungsfall erfordert alle drei Schichten. Hier sehen wir den besten ROI:

Wissensintensiver Kundensupport

Stack: RAG + schnelles Modell + optionale Eskalation zum Reasoning-Modell
Ergebnis: 60–80 % Ablenkung von Tier-1-Tickets, wobei menschliche Agenten nur wirklich neuartige Fälle bearbeiten. Der Schlüssel ist gute Suche — mittelmäßiges RAG produziert selbstsichere Falschantworten, die schlimmer sind als gar keine KI.

Automatisierte Dokumenten-Workflows

Stack: Multimodales RAG + Reasoning-Modell + Agent mit Schreibzugriff
Ergebnis: Verträge werden eingelesen, Schlüsselklauseln extrahiert, Risiken markiert, CRM-Datensätze aktualisiert — alles in Minuten statt Tagen. Rechts- und Einkaufsteams sind die schnellsten Anwender.

Agenten für interne Operationen

Stack: Vollständiger Agent mit Tool-Zugriff auf ERP/CRM/Ticketing + Guardrails
Ergebnis: Beschaffungsgenehmigungen, Onboarding-Prozesse, IT-Provisionierung — Aufgaben, die 5–10 menschliche Schritte erforderten, auf 1 oder 0 reduziert. Die größte Hürde ist nicht die Technologie, sondern die Definition, was der Agent tun darf.

Datenanalyse und Reporting

Stack: Reasoning-Modell + Code-Ausführung + strukturierte Datenquellen
Ergebnis: Analysten beschreiben in natürlicher Sprache, was sie brauchen; der Agent schreibt die Abfrage, führt sie aus, interpretiert das Ergebnis und generiert einen narrativen Bericht. Finanz- und Betriebsteams verkürzen Reporting-Zyklen von Tagen auf Stunden.

Was aufzubauen ist (und was zu vermeiden)

Aufbauen:

Eine solide Abrufschicht mit hybrider Suche und Reranking, bevor Sie Agenten anfassen
Observability-Infrastruktur — Logging, Tracing und Evals — vor dem Produktivgang
Ein klares Autorisierungsmodell, das definiert, was Ihre Agenten dürfen und nicht dürfen

Vermeiden:

Vollständig autonome Agenten für hochriskante Aktionen ohne menschlichen Kontrollpunkt
RAG über unstrukturierte, inkonsistent formatierte Daten (Garbage in, Garbage out)
Den Aufbau eines eigenen Orchestrierungs-Frameworks, wenn LangGraph, CrewAI oder das Anthropic Agent SDK das Problem bereits lösen

Das Zeitfenster schließt sich

Unternehmen, die KI als Kostenstelle behandeln, stellen fest, dass ihre Wettbewerber sie in einen Umsatzhebel verwandelt haben. Die Technologie ist nicht mehr experimentell — die Muster sind bekannt, die Modelle sind zuverlässig, und die Wirtschaftlichkeit funktioniert.

Die Frage für 2026 ist nicht, ob man auf diesem Stack aufbauen soll, sondern ob man schnell genug baut.

Wenn Sie einschätzen möchten, wo Ihr Team steht und was zu priorisieren ist, sprechen wir miteinander. Wir helfen B2B-Softwareteams, KI-Systeme zu entwerfen und zu liefern, die in der Produktion tatsächlich funktionieren.