AIRAGAgentiB2BLLM

Od RAG k agentům: AI stack, který každá B2B firma potřebuje v roce 2026

RAG udělal AI chytřejší. Agenti ji udělali autonomní. Jak se moderní AI stack vyvíjel a co to znamená pro B2B firmy, které na něm dnes staví.

Workbox22. dubna 20265 min čtení

Před rokem každá AI prezentace začínala větou „používáme RAG." Dnes tahle věta sotva vzbudí zájem. Obor se posunul — a firmy, které se neposunuly s ním, za to platí zmeškanými příležitostmi v automatizaci i ztrátou konkurenční výhody.

Tento článek rozebírá současný AI stack, vysvětluje, jak každá vrstva funguje, a říká vám, co vlastně v roce 2026 stavět, pokud jste B2B softwarová firma nebo podnikový IT tým.

Co RAG vyřešil — a co ne

Retrieval-Augmented Generation (RAG) byl přelomový moment. Vyřešil největší praktický problém velkých jazykových modelů: neznají vaše data.

Princip je jednoduchý: před odpovědí se z vektorové databáze načtou relevantní části textu, vloží se do promptu a model odpovídá s reálným kontextem. Firmy, které RAG přijaly v letech 2024–2025, zaznamenaly okamžité zisky — boty zákaznické podpory, které produkt skutečně znaly, interní vyhledávání s užitečnými výsledky, Q&A nad dokumenty, které fungovalo.

RAG má ale svůj strop. Odpovídá na otázky. Neprovádí akce. Čte, ale nepíše. Reaguje na jeden pokyn, ale nedokáže plánovat přes více kroků.

Právě tam nastupují agenti.

Třívrstvý AI stack v roce 2026

Moderní AI systémy v produkci jsou obvykle postaveny na třech vrstvách:

Vrstva 1: Základní modely

Trh se konsolidoval kolem malého počtu velmi schopných modelů:

Reasoning modely (OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude — Opus 4/Sonnet 4) pro složité víceúrovňové problémy, generování kódu a analýzu
Rychlé modely (GPT-4o mini, Gemini Flash, Claude Haiku 4) pro objemové, latency-senzitivní úlohy jako klasifikace, extrakce a routing
Specializované modely pro práci s obrazem, přepis zvuku a embeddingy

Největší posun od roku 2025: reasoning modely už nejsou kuriozitou. Jsou připraveny pro produkci a výrazně překonávají standardní modely u úloh zahrnujících logiku, plánování a řešení problémů s více omezeními. Cena také klesla — o3 dnes stojí zlomek toho, co GPT-4 Turbo před 18 měsíci.

Vrstva 2: RAG + paměť

Tato vrstva výrazně dozrála. Klíčové posuny:

Hybridní vyhledávání nahradilo čisté vektorové vyhledávání. Kombinace hustých embeddingů s BM25 keyword matchingem přináší lepší výsledky, zejména u dotazů se specifickými výrazy (kódy produktů, jména, technické řetězce), které samo sémantické vyhledávání zvládá špatně.

Reranking se stal standardem. Malý cross-encoder model (nebo API volání pro reranking) přehodnotí načtené části před vložením do promptu a odfiltruje šum, který by mátl následný model.

Filtrování podle strukturovaných metadat umožňuje omezit vyhledávání podle data, zdroje, oddělení nebo libovolného pole. V podnikovém prostředí je to zásadní — na stejnou otázku může mít různý tým různou správnou odpověď.

Multimodální vyhledávání se prosazuje. Bloky už nejsou jen text — obsahují popisky obrázků, extrakty tabulek a popisky diagramů, což umožňuje Q&A přes PDF, prezentace a grafy.

Vrstva 3: Agenti a orchestrace

Zde dochází k největším architektonickým změnám. Princip je dnes dobře znám:

Plánovač (obvykle reasoning model) dostane cíl a rozdělí ho na kroky
Volání nástrojů každý krok provede — dotazuje databáze, volá API, čte soubory, odesílá zprávy
Pozorovatel přečte výsledek a rozhodne, co dělat dál
Vrstva paměti uchovává stav přes jednotlivá volání (krátkodobě) i napříč sezeními (dlouhodobě)

Co se v roce 2026 změnilo, je spolehlivost. Rané demonstrace agentů selhávaly — modely se zacyklily, halucinovaly argumenty nástrojů nebo ztrácely přehled o cílech. Obor reagoval lepšími postupy:

Strukturovaná schémata nástrojů s přísnou validací místo argumentů ve volném textu
Explicitní stavové automaty omezující, které nástroje může agent v jakém stavu volat
Kontrolní body s lidským dohledem v klíčových rozhodovacích momentech
Observabilita jako základ — každé volání nástroje logováno, každý krok uvažování dohledatelný

Kde B2B firmy dosahují největší hodnoty

Ne každý případ použití vyžaduje všechny tři vrstvy. Zde vidíme nejlepší ROI:

Zákaznická podpora náročná na znalosti

Stack: RAG + rychlý model + volitelná eskalace na reasoning model
Výsledek: 60–80 % odbavení Tier-1 tiketů, přičemž lidé řeší jen skutečně nové případy. Klíčem je dobré vyhledávání — špatný RAG produkuje sebevědomě chybné odpovědi, které jsou horší než žádná AI.

Automatizované dokumentové workflow

Stack: Multimodální RAG + reasoning model + agent se zápisovým přístupem
Výsledek: Smlouvy zpracovány, klíčové klauzule extrahovány, rizika vyznačena, záznamy v CRM aktualizovány — vše za minuty, ne dny. Nejrychlejšími adoptery jsou právní a nákupní týmy.

Agenti pro interní operace

Stack: Plný agent s přístupem k nástrojům ERP/CRM/ticketing + guardrails
Výsledek: Schvalování nákupů, onboarding procesy, IT provisionování — úlohy vyžadující 5–10 lidských kroků redukovány na 1 nebo 0. Největší bariérou zde není technologie, ale definice toho, co je agent oprávněn dělat.

Analýza dat a reporting

Stack: Reasoning model + spouštění kódu + strukturované datové zdroje
Výsledek: Analytici popíší, co potřebují, v přirozené řeči; agent napíše dotaz, spustí ho, interpretuje výsledek a vygeneruje narativní zprávu. Finanční a provozní týmy zkracují reportovací cykly ze dnů na hodiny.

Co stavět (a čemu se vyhnout)

Stavte:

Solidní vrstvu vyhledávání s hybridním searchem a rerankingem dříve, než se pustíte do agentů
Infrastrukturu pro observabilitu — logování, tracing a evaly — před nasazením do produkce
Jasný autorizační model definující, co vaši agenti mohou a nemohou dělat

Vyhněte se:

Plně autonomním agentům pro vysoce rizikové akce bez lidského kontrolního bodu
RAG nad nestrukturovanými, nekonzistentně formátovanými daty (garbage in, garbage out)
Budování vlastního orchestračního frameworku, když LangGraph, CrewAI nebo Anthropic Agent SDK problém už řeší

Okno příležitosti se zavírá

Firmy, které k AI přistupují jako ke nákladové položce, zjišťují, že jejich konkurenti ji proměnili v páku pro příjmy. Technologie už není experimentální — vzory jsou známé, modely jsou spolehlivé a ekonomika funguje.

Otázkou pro rok 2026 není, zda na tomto stacku stavět, ale zda stavíte dost rychle.

Pokud chcete posoudit, kde váš tým stojí a co prioritizovat, pojďme si promluvit. Pomáháme B2B softwarovým týmům navrhovat a dodávat AI systémy, které v produkci skutečně fungují.