Weby ve velkém čelí AI botům, jejich nápor může mít parametry i kybernetického útoku
Uživatelé čím dál více vyhledávají informace pomocí AI, která je pro ně automaticky získává, třídí a využívá z veřejně dostupných webových stránek. Toto takzvané scrapování však na weby vytváří velký nápor, který může mít i parametry kybernetického útoku. Umělá inteligence zároveň často přebírá obsah bez povolení ze strany webu. Jejich provozovatelé se proto scrapování snaží zakázat, některé AI platformy je ale i přesto obcházejí. Odborníci doporučují pořízení ochranných nástrojů, zároveň vyhlížejí i legislativní novinku – AI Act. Ten by měl pomoci větší regulaci i transparentnosti získávání dat.
Zvýšení komfortu, otevírání nových možností či suplování základních činností. V souvislosti s umělou inteligencí se skloňují zejména výhody, o něco méně jsou však zmiňovány potenciální problematické aspekty. Jedním z nich je takzvané scrapování pomocí AI botů, tedy automatické získávání dat z webů, typicky v případě, kdy uživatel vyhledává pomocí AI modelu konkrétní informace v otevřených zdrojích.
Pro poskytovatele webů to znamená v řadě případů extrémní zátěž. „V praxi jsme se u jednoho z našich klientů setkali s tím, že se jeho web musel během několik dní vypořádat se 120 tisíci dotazů od jediného AI bota,“ řekl Martin Michálekze společnosti Pagespeed.ONE, která se zaměřuje na měření a optimalizaci rychlosti webů.
„Když se například uživatel zeptá ChatGPT na něco, co vyžaduje procházení internetu, model si obsah z webů stáhne v reálném čase. Běžně na jeden dotaz projde třeba deset stránek i více, z toho několik může být na jednom webu. Na běžném sdíleném webhostingu to může způsobit krátké zpomalení nebo zpoždění odpovědí pro ostatní návštěvníky,“ vysvětlil princip Ivan Sárközi z obchodního oddělení poskytovatele hostingu WEDOS.
To je přitom zásadní rozdíl oproti vyhledávačům, které stránku načtou pouze jednou. „Pak ji zařadí do indexu a dál pracují s uloženými daty. Jazykové modely jako ChatGPT žádný index nemají, naopak při každém dotazu stahují obsah znovu a znovu. To může být problém i u menších webů,“ doplnil. Některé konkrétní příklady přitom ukazují, že chování AI botů může často nést podobné znaky jako kybernetický útok. „Setkali jsme se s tím, že přístup z infrastruktury AI modelu Claude byl natolik intenzivní, že začal zpomalovat nebo i krátkodobě odstavovat několik webů na sdíleném hostingu. Technicky to odpovídalo menšímu DDoS útoku, tak k tomu při řešení přistupovali i technici,“ řekl Sárközi.
Obcházení zákazů některými platformami
Problémem scrapování bývá to, že k němu často dochází bez jakéhokoliv povolení ze strany provozovatelů webů. „Z právního hlediska může scraping zasahovat do autorských a souvisejících práv, případně do práv k databázím. Zejména v případě takzvaného dolování z textu a dat. U obecnějších forem scrapingu může za určitých okolností dojít také k porušení smluvních podmínek, například pokud je přístup ke službě vázán na souhlas s nimi. Docházet může i k nekalé soutěži, jako je porušení obchodního tajemství, nebo neoprávněnému zpracování osobních údajů,“ řekl Jiří Čermák z advokátní kanceláře Jansa, Mokrý, Otevřel & partneři.
Některé weby a sociální sítě se proto snaží scrapování zakázat, podle odborníků jim však tento přístup může paradoxně uškodit, jak už ukázaly příklady v minulosti. „V dávných dobách podobně někteří zakazovali přístup botům od Googlu. Až pozdě zjistili, že je konkurence předběhla, protože Google jim přinášel cennou návštěvnost. Podobně je to teď s novou vlnou AI botů na webu. Rozhodně nedoporučuji paušálně přístupy zakazovat a dělat to jen v opodstatněných případech,“ řekl Martin Michálek.
Navíc je podle něj na zákazy již pozdě. „Všechno, co šlo, tak už AI boty scrapováno bylo, případně se tak stane na jiných podobných webech. Nehledě na to, že někteří AI boti – například velmi známý AI nástroj Perplexity – poměrně vychytrale obcházejí všechny zákazy,“ řekl Michálek.
Klíčová je tak podle něj ochrana jednotlivých webů, která by měla zahrnovat rozeznání AI botů a jejich případné zablokování či zpomalení. Kromě toho mohou být důležitými prvky také skrytí e-mailových adres či ochrana proti načítání obrázků z jiných stránek. Podobně se na problém dívá i marketingový specialista poskytovatele hostingu FORPSI Roman Pech, podle kterého zákazy samy o sobě problém nevyřeší. „Důležitější je kombinace technických opatření a právních kroků,“ doplnil.
AI Act pomůže, klíčový však bude tlak uživatelů
Jedním z právních zásahů by měla být připravovaná evropská legislativa pod označením AI Act. „Ta scraping sám o sobě nezakazuje, ale vyžaduje transparentnost ohledně dat použitých pro trénink velkých jazykových modelů a obecných modelů umělé inteligence, která jsou často získávána prostřednictvím vytěžování textu a dat,“ upřesnil advokát Jiří Čermák. Začátek platnosti AI Actu vyhlíží i poskytovatelé hostingu. „Dá se očekávat, že scrapování bude legální jen v určitých mezích – například pro výzkum nebo s výslovným souhlasem. Pro firmy to znamená potřebu více hlídat, odkud data pocházejí a jak jsou využívána,“ nastínil Roman Pech.
Sám přitom vidí budoucnost v regulovaném, transparentním a férovém scrapování. AI podle něj bude stále více potřebovat kvalitní data a scrapování je jedním ze způsobů, jak je získat. „Pokud se podaří nastavit jasná pravidla – technická i právní – může scrapování přinášet hodnotu bez toho, aby poškozovalo původní autory obsahu,“ uvedl. Podobný pohled přináší i advokát Jiří Čermák, podle něj zůstane scrapování běžnou a rozšířenou praxí, byť ve více regulované a technicky kontrolované podobě.
Odborníci zaměřující se na rychlost a výkon webu vnímají scrapování pomocí AI botů jako nový standard. „Je to fenomén, se kterým se musíme smířit. Neodejde sám od sebe pryč. AI boti a agenti budou stále schopnější a kromě pasivní konzumace textu a multimédií budou schopní plnit úkoly jako objednání letenek nebo nákup na eshopu,“ řekl Martin Michálek. Zásadní v tomto směru proto bude zejména tlak uživatelů AI nástrojů, kteří budou pokročilé funkce zvyšující komfort vyžadovat. „V takových případech už nebude možné provoz jednoduše blokovat, protože zákazníci tyto interakce budou chtít,“ uzavřel Sárközi.
Zdroj ilustračního obrázku: Photo by Glenn Carstens-Peters on Unsplash






