Vor einem Jahr begann jede KI-Präsentation mit dem Satz „wir verwenden RAG." Heute erntet dieser Satz kaum noch ein Nicken. Das Feld hat sich weiterentwickelt — und Unternehmen, die nicht mitgezogen sind, zahlen bereits den Preis in Form verpasster Automatisierung und Wettbewerbsnachteilen.
Dieser Beitrag erklärt den aktuellen KI-Stack, beschreibt, wie jede Schicht funktioniert, und zeigt, was man 2026 tatsächlich bauen sollte — als B2B-Softwareunternehmen oder Enterprise-IT-Team.
Was RAG gelöst hat — und was nicht
Retrieval-Augmented Generation (RAG) war ein Wendepunkt. Es löste das größte praktische Problem großer Sprachmodelle: Sie kennen Ihre Daten nicht.
Das Muster ist einfach: Vor der Antwort werden relevante Textabschnitte aus einer Vektordatenbank abgerufen, in den Prompt eingefügt, und das Modell antwortet mit echtem Kontext. Unternehmen, die RAG 2024–2025 eingeführt haben, sahen sofortige Verbesserungen — Support-Bots, die das Produkt tatsächlich kannten, interne Suche mit nützlichen Ergebnissen, Dokumenten-Q&A, das funktionierte.
RAG hat aber eine Obergrenze. Es beantwortet Fragen. Es führt keine Aktionen aus. Es liest, aber schreibt nicht. Es reagiert in einem Schritt, kann aber nicht über mehrere Schritte planen.
Genau hier kommen Agenten ins Spiel.
Der dreischichtige KI-Stack im Jahr 2026
Moderne KI-Systeme in der Produktion sind typischerweise auf drei Schichten aufgebaut:
Schicht 1: Basismodelle
Der Markt hat sich um eine kleine Anzahl hochleistungsfähiger Modelle konsolidiert:
- Reasoning-Modelle (OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude — Opus 4/Sonnet 4) für komplexe mehrstufige Probleme, Code-Generierung und Analyse
- Schnelle Modelle (GPT-4o mini, Gemini Flash, Claude Haiku 4) für hochvolumige, latenzempfindliche Aufgaben wie Klassifizierung, Extraktion und Routing
- Spezialisierte Modelle für Bild-Analyse, Audio-Transkription und Embeddings
Die größte Verschiebung seit 2025: Reasoning-Modelle sind keine Kuriosität mehr. Sie sind produktionsreif und übertreffen Standardmodelle bei Aufgaben mit Logik, Planung und Mehrfachbedingungen erheblich. Die Preise sind ebenfalls gesunken — o3 kostet heute einen Bruchteil dessen, was GPT-4 Turbo vor 18 Monaten kostete.
Schicht 2: RAG + Gedächtnis
Diese Schicht hat sich deutlich weiterentwickelt. Wichtige Entwicklungen:
Hybride Suche hat die reine Vektorsuche abgelöst. Die Kombination aus dichten Embeddings und BM25-Keyword-Matching liefert bessere Ergebnisse, insbesondere bei Anfragen mit spezifischen Begriffen (Produktcodes, Namen, technische Strings), die semantische Suche allein schlecht handhabt.
Reranking ist zum Standard geworden. Ein kleines Cross-Encoder-Modell (oder ein Reranking-API-Aufruf) bewertet abgerufene Abschnitte neu, bevor sie in den Prompt gelangen, und filtert Rauschen heraus, das das nachgelagerte Modell verwirren würde.
Strukturierte Metadaten-Filterung ermöglicht die Einschränkung der Suche nach Datum, Quelle, Abteilung oder beliebigem Feld. In Unternehmensumgebungen ist das enorm wichtig — dieselbe Frage hat für verschiedene Teams unterschiedliche korrekte Antworten.
Multimodale Suche setzt sich durch. Abschnitte sind nicht mehr nur Text — sie umfassen Bildbeschreibungen, Tabellenextrakte und Diagrammbeschriftungen, was Q&A über PDFs, Präsentationen und Grafiken ermöglicht.
Schicht 3: Agenten und Orchestrierung
Hier finden die größten architektonischen Veränderungen statt. Das Muster ist heute gut verstanden:
- Ein Planer (in der Regel ein Reasoning-Modell) erhält ein Ziel und zerlegt es in Schritte
- Tool-Aufrufe führen jeden Schritt aus — Datenbankabfragen, API-Aufrufe, Dateien lesen, Nachrichten senden
- Ein Beobachter liest das Ergebnis und entscheidet, was als nächstes zu tun ist
- Eine Gedächtnisschicht hält den Zustand über einzelne Aufrufe (kurzfristig) und über Sitzungen hinweg (langfristig) fest
Was sich 2026 geändert hat, ist die Zuverlässigkeit. Die frühen Agenten-Demos schlugen oft fehl — Modelle liefen in Schleifen, halluzinierten Tool-Argumente oder verloren das Ziel aus den Augen. Das Feld hat mit besseren Praktiken reagiert:
- Strukturierte Tool-Schemas mit strikter Validierung statt Freitext-Argumenten
- Explizite Zustandsautomaten, die einschränken, welche Tools ein Agent in welchem Zustand aufrufen kann
- Menschliche Kontrollpunkte bei folgenreichen Entscheidungen
- Observability-First-Design — jeder Tool-Aufruf protokolliert, jeder Denkschritt nachverfolgbar
Wo B2B-Unternehmen den größten Mehrwert erzielen
Nicht jeder Anwendungsfall erfordert alle drei Schichten. Hier sehen wir den besten ROI:
Wissensintensiver Kundensupport
Stack: RAG + schnelles Modell + optionale Eskalation zum Reasoning-Modell
Ergebnis: 60–80 % Ablenkung von Tier-1-Tickets, wobei menschliche Agenten nur wirklich neuartige Fälle bearbeiten. Der Schlüssel ist gute Suche — mittelmäßiges RAG produziert selbstsichere Falschantworten, die schlimmer sind als gar keine KI.
Automatisierte Dokumenten-Workflows
Stack: Multimodales RAG + Reasoning-Modell + Agent mit Schreibzugriff
Ergebnis: Verträge werden eingelesen, Schlüsselklauseln extrahiert, Risiken markiert, CRM-Datensätze aktualisiert — alles in Minuten statt Tagen. Rechts- und Einkaufsteams sind die schnellsten Anwender.
Agenten für interne Operationen
Stack: Vollständiger Agent mit Tool-Zugriff auf ERP/CRM/Ticketing + Guardrails
Ergebnis: Beschaffungsgenehmigungen, Onboarding-Prozesse, IT-Provisionierung — Aufgaben, die 5–10 menschliche Schritte erforderten, auf 1 oder 0 reduziert. Die größte Hürde ist nicht die Technologie, sondern die Definition, was der Agent tun darf.
Datenanalyse und Reporting
Stack: Reasoning-Modell + Code-Ausführung + strukturierte Datenquellen
Ergebnis: Analysten beschreiben in natürlicher Sprache, was sie brauchen; der Agent schreibt die Abfrage, führt sie aus, interpretiert das Ergebnis und generiert einen narrativen Bericht. Finanz- und Betriebsteams verkürzen Reporting-Zyklen von Tagen auf Stunden.
Was aufzubauen ist (und was zu vermeiden)
Aufbauen:
- Eine solide Abrufschicht mit hybrider Suche und Reranking, bevor Sie Agenten anfassen
- Observability-Infrastruktur — Logging, Tracing und Evals — vor dem Produktivgang
- Ein klares Autorisierungsmodell, das definiert, was Ihre Agenten dürfen und nicht dürfen
Vermeiden:
- Vollständig autonome Agenten für hochriskante Aktionen ohne menschlichen Kontrollpunkt
- RAG über unstrukturierte, inkonsistent formatierte Daten (Garbage in, Garbage out)
- Den Aufbau eines eigenen Orchestrierungs-Frameworks, wenn LangGraph, CrewAI oder das Anthropic Agent SDK das Problem bereits lösen
Das Zeitfenster schließt sich
Unternehmen, die KI als Kostenstelle behandeln, stellen fest, dass ihre Wettbewerber sie in einen Umsatzhebel verwandelt haben. Die Technologie ist nicht mehr experimentell — die Muster sind bekannt, die Modelle sind zuverlässig, und die Wirtschaftlichkeit funktioniert.
Die Frage für 2026 ist nicht, ob man auf diesem Stack aufbauen soll, sondern ob man schnell genug baut.
Wenn Sie einschätzen möchten, wo Ihr Team steht und was zu priorisieren ist, sprechen wir miteinander. Wir helfen B2B-Softwareteams, KI-Systeme zu entwerfen und zu liefern, die in der Produktion tatsächlich funktionieren.