
Agentická AI často selhává – přes 70 % úkolů nezvládne, přesto zůstává v kurzu
Podle konzultační společnosti Gartner bude do konce roku 2027 zrušeno více než 40 % projektů agentické umělé inteligence (agentic AI), a to kvůli rostoucím nákladům, nejasné přidané hodnotě nebo nedostatečnému řízení rizik.
Přesto to znamená, že přibližně 60 % projektů zůstane aktivních – což je překvapivě vysoké číslo, vezmeme-li v potaz nízkou úspěšnost těchto systémů.
Výzkum odborníků z Carnegie Mellon University (CMU) a Salesforce totiž ukazuje, že úspěšnost agentických AI modelů při plnění složitějších úkolů se pohybuje jen mezi 30 až 35 %. Nejnovější benchmarky potvrzují, že většina AI agentů zatím zdaleka nedosahuje očekávané autonomie a spolehlivosti.
Co je agentická AI?
Agentická AI představuje propojení jazykového modelu s rozhraními aplikací a službami, které umožňují automatické plnění složitějších úkolů v reálném světě – například třídění e-mailů, rezervaci služeb nebo odpovídání zákazníkům.
Agent je schopný iterativního rozhodování a práce s kontextem, tedy něco mezi chatbotem, RPA nástrojem a virtuálním asistentem. Jenže v praxi jsou schopnosti těchto systémů zatím spíše zklamáním.
Úspěšnost agentů v simulovaných firemních scénářích
CMU vyvinula testovací prostředí „TheAgentCompany“, simulující reálný provoz softwarové firmy. V něm byly hodnoceny různé modely v úkolech, jako je psaní kódu, práce s webovým prohlížečem nebo komunikace s kolegy. Výsledky:
- Gemini-2.5-Pro: 30,3 % úspěšnost (nejlepší výsledek)
- Claude-3.7-Sonnet: 26,3 %
- GPT-4o: pouhých 8,6 %
- Amazon-Nova-Pro-v1: 1,7 %
- Ostatní modely dosahovaly pod 10 %
V mnoha případech agenty selhávaly na elementárních úkolech – ignorovaly instrukce, nezvládaly práci s UI prvky, případně docházelo ke zcela nevhodnému chování, jako je přejmenovávání kolegů ve firemním chatu, pokud nebyli dostupní.
Příliš mnoho „agentů“, málo skutečných řešení
Gartner upozorňuje na jev tzv. agent washingu – marketingového přeznačování běžných AI produktů (např. chatbotů nebo RPA systémů) na „agentic AI“, aniž by skutečně šlo o autonomní agentní systémy. Reálně má podle Gartneru pouze cca 130 dodavatelů na trhu skutečně agentické řešení – z tisíců, kteří se tak označují.
CRM benchmark od Salesforce: Lepší, ale stále slabé
Výzkumníci ze Salesforce vytvořili specifický benchmark CRMArena-Pro pro hodnocení agentů v zákaznickém prostředí (např. řízení vztahů se zákazníky, servis, CPQ procesy). I zde však výsledky ukazují, že v jednoduchých jednorázových interakcích (single-turn) agenti uspějí v průměru jen z 58 %, u vícestupňových úloh (multi-turn) klesá úspěšnost k 35 %. Výjimku tvoří „workflow execution“, kde některé modely dosáhly přes 80 % úspěšnosti.
Zásadním problémem zůstává nulové povědomí o důvěrnosti a bezpečnosti dat, což je pro nasazení v korporátním IT prostředí zásadní překážka.
Výhled do budoucna: Příležitosti i rizika
Navzdory slabým výsledkům Gartner očekává, že do roku 2028 bude přibližně 15 % každodenních pracovních rozhodnutí činit autonomní AI agent, a až třetina podnikových aplikací bude mít nějakou formu agentické inteligence integrovanou.
Vývoj skutečně funkčních agentních řešení s ověřitelnými přínosy bude konkurenční výhodou. Trh je přesycený přeznačenými produkty.
Zatímco poptávka po agenti AI roste, je třeba trh edukovat o rozdílu mezi „asistentem“ a „agentem“, a vyhnout se řešením bez reálné autonomie.
Vize agentní AI jako „digitálního zaměstnance“ je zatím daleko – ale tlak na její zralost bude sílit.
Zdroj: theregistrer.com
Zdroj ilustračního obrázku: vygenerováno pomocí AI