Trendy

Agentická AI často selhává – přes 70 % úkolů nezvládne, přesto zůstává v kurzu

Tagy:

redakce2.7.2025

Podle konzultační společnosti Gartner bude do konce roku 2027 zrušeno více než 40 % projektů agentické umělé inteligence (agentic AI), a to kvůli rostoucím nákladům, nejasné přidané hodnotě nebo nedostatečnému řízení rizik.

Přesto to znamená, že přibližně 60 % projektů zůstane aktivních – což je překvapivě vysoké číslo, vezmeme-li v potaz nízkou úspěšnost těchto systémů.

Výzkum odborníků z Carnegie Mellon University (CMU) a Salesforce totiž ukazuje, že úspěšnost agentických AI modelů při plnění složitějších úkolů se pohybuje jen mezi 30 až 35 %. Nejnovější benchmarky potvrzují, že většina AI agentů zatím zdaleka nedosahuje očekávané autonomie a spolehlivosti.

Co je agentická AI?

Agentická AI představuje propojení jazykového modelu s rozhraními aplikací a službami, které umožňují automatické plnění složitějších úkolů v reálném světě – například třídění e-mailů, rezervaci služeb nebo odpovídání zákazníkům.

Agent je schopný iterativního rozhodování a práce s kontextem, tedy něco mezi chatbotem, RPA nástrojem a virtuálním asistentem. Jenže v praxi jsou schopnosti těchto systémů zatím spíše zklamáním.

Úspěšnost agentů v simulovaných firemních scénářích

CMU vyvinula testovací prostředí „TheAgentCompany“, simulující reálný provoz softwarové firmy. V něm byly hodnoceny různé modely v úkolech, jako je psaní kódu, práce s webovým prohlížečem nebo komunikace s kolegy. Výsledky:

Gemini-2.5-Pro: 30,3 % úspěšnost (nejlepší výsledek)
Claude-3.7-Sonnet: 26,3 %
GPT-4o: pouhých 8,6 %
Amazon-Nova-Pro-v1: 1,7 %
Ostatní modely dosahovaly pod 10 %

V mnoha případech agenty selhávaly na elementárních úkolech – ignorovaly instrukce, nezvládaly práci s UI prvky, případně docházelo ke zcela nevhodnému chování, jako je přejmenovávání kolegů ve firemním chatu, pokud nebyli dostupní.

Příliš mnoho „agentů“, málo skutečných řešení

Gartner upozorňuje na jev tzv. agent washingu – marketingového přeznačování běžných AI produktů (např. chatbotů nebo RPA systémů) na „agentic AI“, aniž by skutečně šlo o autonomní agentní systémy. Reálně má podle Gartneru pouze cca 130 dodavatelů na trhu skutečně agentické řešení – z tisíců, kteří se tak označují.

CRM benchmark od Salesforce: Lepší, ale stále slabé

Výzkumníci ze Salesforce vytvořili specifický benchmark CRMArena-Pro pro hodnocení agentů v zákaznickém prostředí (např. řízení vztahů se zákazníky, servis, CPQ procesy). I zde však výsledky ukazují, že v jednoduchých jednorázových interakcích (single-turn) agenti uspějí v průměru jen z 58 %, u vícestupňových úloh (multi-turn) klesá úspěšnost k 35 %. Výjimku tvoří „workflow execution“, kde některé modely dosáhly přes 80 % úspěšnosti.

Zásadním problémem zůstává nulové povědomí o důvěrnosti a bezpečnosti dat, což je pro nasazení v korporátním IT prostředí zásadní překážka.

Výhled do budoucna: Příležitosti i rizika

Navzdory slabým výsledkům Gartner očekává, že do roku 2028 bude přibližně 15 % každodenních pracovních rozhodnutí činit autonomní AI agent, a až třetina podnikových aplikací bude mít nějakou formu agentické inteligence integrovanou.

Vývoj skutečně funkčních agentních řešení s ověřitelnými přínosy bude konkurenční výhodou. Trh je přesycený přeznačenými produkty.

Zatímco poptávka po agenti AI roste, je třeba trh edukovat o rozdílu mezi „asistentem“ a „agentem“, a vyhnout se řešením bez reálné autonomie.

Vize agentní AI jako „digitálního zaměstnance“ je zatím daleko – ale tlak na její zralost bude sílit.

Zdroj: theregistrer.com

Zdroj ilustračního obrázku: vygenerováno pomocí AI