
Výzkumníci varují: Výsledky testů u jazykových modelů klamou
Nový výzkum z MIT, Harvardu a University of Chicago upozorňuje na zásadní problém v hodnocení schopností velkých jazykových modelů (LLM). Akademici zavádějí pojem „potěmkinovské porozumění“ (Potemkin understanding), které označuje situaci, kdy model úspěšně zvládne test zaměřený na konceptuální znalosti, aniž by těmto konceptům skutečně rozuměl.
Pochybné porozumění
Termín vychází z historických Potěmkinových vesnic – falešných kulis vystavěných pro „dobrý“ dojem. Podobně dnes modely dokážou „vypadat chytře“, ale jejich odpovědi postrádají vnitřní soudržnost a schopnost praktické aplikace. Autoři výzkumu tvrdí, že stejně jako „halucinace“ falšují fakta, „potěmkiny“ falšují porozumění konceptům.
Příkladem je model GPT-4o, který správně vysvětlil básnické schéma ABAB (rýmují se 1. a 3., 2. a 4. verš), ale následně vytvořil báseň, která toto schéma ignorovala. Model tak zvládl „slovní definici“, nikoliv praktické uplatnění konceptu.
Dopad na benchmarky a validitu testování
Výzkumníci upozorňují, že současné benchmarky hodnotí schopnost modelů předvést správnou odpověď, nikoliv skutečné porozumění nebo schopnost koncept aplikovat mimo známý kontext. To může vést k mylným závěrům o kompetenci modelů.
Při vlastním testování různých modelů (včetně GPT-4o, Gemini 2.0, Claude 3.5 a Llama 3.3) tým zjistil:
- 94,2 % modelů správně identifikuje koncepty (např. literární techniky, herní teorie, kognitivní zkreslení);
- v 55 % selhávají při klasifikaci konkrétních případů;
- ve 40 % nezvládají vygenerovat vlastní příklady;
- ve 40 % chybují při úpravách textů podle konceptu.
Jinými slovy: modely dokážou správně popsat, co je sonet, ale často selhávají při jeho rozpoznání, vytvoření nebo editaci.
Důsledky pro IT trh a využití v praxi
- Benchmarky nemusejí odrážet reálnou použitelnost modelů v podnikovém nasazení.
- Modely, které působí jako kompetentní, mohou selhávat při praktickém použití v reálných systémech.
- Zákazníci by měli být informováni, že „správné odpovědi“ nemusí znamenat spolehlivý výkon.
Autoři výzkumu doporučují vývoj nových metod testování, které by zohlednily nejen znalost definice, ale i kontextové uvažování, aplikaci pravidel a generalizaci znalostí.
Z pohledu trhu to znamená, že dodavatelé AI by měli:
- přesně vysvětlovat limity jazykových modelů;
- vyhýbat se marketingovému přehánění („AI chápe jako člověk“);
- upřednostňovat scénáře, kde není kritické hluboké porozumění (např. sumarizace, generování variant, návrhy kódu).
Závěr? LLM zatím neumějí skutečně „rozumět“, jen velmi přesvědčivě imitují porozumění. V prostředí podnikových aplikací a kritické infrastruktury je proto třeba stále uplatňovat důsledné ověřování, sandboxing a kontrolu výstupů.
Zdroj: theregister.com
Zdroj ilustračního obrázku: vygenerováno pomocí AI