AI překonala všechny dosavadní benchmarky autonomních kybernetických schopností
AI překonala všechny dosavadní benchmarky autonomních kybernetických schopností. Co to znamená pro vaši firmu?
Dva z nejpokročilejších dostupných jazykových modelů – Claude Mythos Preview od Anthropicu a GPT-5.5 od OpenAI – výrazně překonaly dosavadní tempo růstu autonomních kybernetických schopností AI systémů. Vyplývá to ze samostatných zjištění britského Institutu pro bezpečnost AI (AISI) a společnosti Palo Alto Networks.
AISI, který provádí pre-deployment evaluace špičkových AI modelů jménem britské vlády, sleduje od konce roku 2024 klíčový ukazatel: tzv. „80% reliability cyber time horizon“. Jde o délku kybernetického úkolu, který je AI schopna dokončit autonomně s 80% spolehlivostí, přičemž obtížnost úkolu je vyjádřena časem, který by stejný úkol zabral zkušenému lidskému expertovi.
V listopadu 2025 AISI odhadoval, že se tato schopnost zdvojuje přibližně každých osm měsíců. Začátkem letošního roku se tempo zrychlilo na zdvojení přibližně každých pět měsíců. Claude Mythos Preview a GPT-5.5 nyní překonaly i tuto akcelerující křivku – jejich výsledky leží mimo jakékoli dosud naměřené trendové linie.
Autonomní kybernetické a softwarové schopnosti nejpokročilejších AI modelů se rozvíjejí rychle: délka kybernetických úkolů, které jsou modely schopny dokončit autonomně, se zdvojila v řádu měsíců, nikoli let, konstatuje AISI ve svém blogovém příspěvku.
Nezávislou validaci přinesla i nezisková organizace METR, která sleduje, jak rychle AI zvládá softwarové úkoly. Její výzkum dospěl k téměř totožnému číslu – zdvojení schopností přibližně každé čtyři měsíce od konce roku 2024.
Nejkonkrétnější důkazy o kvalitativním skoku přinesly tzv. cyber ranges – strukturované simulace vícefázových útoků na malé, nezabezpečené podnikové sítě, které AISI provozuje jako testovací prostředí. Claude Mythos Preview se stal prvním modelem, který dokázal úspěšně dokončit obě simulace AISI:
- The Last Ones – 32krokový simulovaný útok na firemní síť – zvládl v 6 z 10 pokusů.
- Cooling Tower – scénář, který dosud nevyřešil žádný jiný model – dokončil ve 3 z 10 pokusů.
GPT-5.5 dokončil scénář The Last Ones ve 3 z 10 pokusů. Jde o zásadní posun: schopnost AI autonomně procházet vícekrokové útočné sekvence typické pro reálné prostředí středních podnikových sítí přímo koresponduje s riziky, jimž čelí většina českých firem.
Podobné závěry přinesl vlastní výzkum Palo Alto Networks. Společnost začala testovat Claude Mythos v dubnu jako partnerská firma pro Anthropic v rámci projektu Project Glasswing, zaměřeného na odhalování zranitelností v open-source softwaru. Následně otestovala také model Claude Opus 4.7 a OpenAI’s GPT-5.5-Cyber v rámci programu OpenAI Trusted Access for Cyber.
Nejnovější modely jsou mimořádně schopné v odhalování zranitelností a jejich okamžité přeměně v kritické útočné vektory, téměř v reálném čase, uvedl Palo Alto Networks ve svém reportu. Praktickým výsledkem bylo vydání bezpečnostních doporučení pokrývajících 26 CVE identifikátorů, které reprezentují 75 konkrétních bezpečnostních problémů nalezených skenováním přes více než 130 produktů. Pro srovnání: typický měsíční objem ze standardního bezpečnostního procesu Palo Alto Networks nepřesahuje pět CVE. Všechny závažné zranitelnosti v SaaS produktech firmy byly opraveny; záplaty jsou dostupné i pro produkty provozované zákazníky.
AISI zdůrazňuje limity svých dat. Odhady vycházejí z relativně malého počtu modelů a pro nejobtížnější testovací scénáře existuje jen omezené množství srovnávacích dat od lidských expertů. Přesto institutu vychází, že celkový trend je robustní: pokud je z analýzy vyřazen jakýkoli jednotlivý model, odhadovaný čas zdvojení se posune o méně než jeden měsíc na každou stranu.
AISI pracuje na přísnějších testovacích scénářích, včetně nových cyber ranges a zapojení aktivních kybernetických obran, aby hodnocení lépe odráželo reálné podmínky produkčního prostředí. Otevřenou otázkou zůstává, zda výsledky Claude Mythos Preview a GPT-5.5 představují izolovaný schopnostní skok, nebo počátek nové, ještě rychlejší vývojové trajektorie.
Zdroj: cyberscoop.com
Zdroj ilustračního obrázku: Photo by Solen Feyissa on Unsplash






