Claude Mythos: Akcelerátor kolapsu

Když se varování AI expertů začnou naplňovat

Tento týden oznámil Anthropic model Claude Mythos Preview — a rozhodl se ho nevydat veřejně. Důvod? Jeho schopnosti v ofenzivní kybernetické bezpečnosti překročily hranici, za kterou už veřejné nasazení představuje nepřijatelné systémové riziko.

Mythos autonomně identifikoval tisíce zero-day zranitelností napříč všemi hlavními operačními systémy — Linux kernel, Windows, macOS, OpenBSD, FreeBSD — i ve všech hlavních webových prohlížečích. Některé z těchto bugů přežily dekády lidského code review a miliony automatizovaných testů. V OpenBSD, který je považován za jeden z nejzabezpečenějších systémů na světě, našel zranitelnost starou 27 let. V řadě případů dokáže nalezené zranitelnosti autonomně exploitovat — tedy nejen najít díru, ale i projít jí. V jiných případech funkční exploit vytvořit nedokázal — ale hranice mezi „najít” a „projít” se s každou další generací modelu posouvá.

Anthropic proto spustil Project Glasswing — omezený program, v němž Mythos pomáhá vybraným partnerům (Microsoft, Google, AWS, Cisco, Nvidia, Apple, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation a dalším desítkám organizací) najít a zalepit kritické bugy dřív, než jich zneužijí útočníci s podobným AI modelem. Závod začal.

A já si kladu nepříjemnou otázku: stihneme to?

Scénář, o kterém se nemluví nahlas

Varování AI bezpečnostních výzkumníků posledních deseti let zněla abstraktně. „Pokročilá AI by mohla představovat existenční riziko.” Většina lidí to odbyla jako sci-fi. Mythos je první model, u kterého se abstraktní obava začíná měnit v konkrétní scénář, popsatelný v jazyce inženýrů, ne futurologů.

Přesně tady je ale třeba odlišit, co Mythos skutečně umí dnes, od toho, kam směřuje trajektorie. Dnes je Mythos laboratorní nástroj pod dozorem, který nachází zranitelnosti v izolovaných kontejnerech. To, co následuje, je extrapolace — ale extrapolace založená na konkrétních datech a na rychlosti, s jakou se schopnosti posledních modelů zlepšují.

Představme si tedy, co by stačilo k tomu, aby AI model schopností Mythosu — nebo jeho nástupce za rok či dva — spustil kaskádový kolaps kritické infrastruktury.

Moderní civilizace stojí na pár desítkách vzájemně provázaných systémů: elektrická síť, ropovody a plynovody, vodárny, logistické sítě, mezibankovní platební systémy, DNS a internetový backbone, systémy řízení dopravy, potravinové distribuční řetězce, satelity na orbitě. Mnoho z nich — zejména SCADA a ICS systémy v rozvodnách a průmyslových provozech — běží na legacy softwaru a firmwaru starém 15 až 40 let. Jejich patchování je drahé, pomalé a často technicky nemožné bez odstávky. Velká část není plně oddělena od internetu, přestože by podle bezpečnostních doporučení měla být.

Tyto systémy jsou zároveň hluboce propojené. Výpadek elektřiny shodí čerpání vody a mobilní sítě. Výpadek mobilních sítí shodí platební terminály. Výpadek plateb zastaví logistiku. Zastavená logistika prázdní supermarkety do 72 hodin. Prázdné supermarkety v hustě osídlené oblasti znamenají společenský kolaps v řádu dnů, ne týdnů.

Mezi nalezením zranitelností v laboratorním kontejneru a spuštěním takové kaskády leží řada kroků — získání přístupu k modelu, zacílení na konkrétní průmyslové systémy, překonání fyzických bezpečnostních vrstev, koordinace simultánního útoku. Každý z těchto kroků má svou vlastní pravděpodobnost selhání. Ale Mythos dramaticky snižuje náročnost právě toho prvního a nejobtížnějšího kroku: porozumění kódu a nalezení exploitovatelné slabiny. A zbylé kroky nejsou nezávislé — jakmile máte v ruce mapu zranitelností, zbývající bariéry se zmenšují.

Tři cesty ke katastrofě

Uvažujme, kdo by mohl takovou kaskádu spustit. Nejsou to jen hollywoodští padouši.

1. Ten, kdo skutečně chce civilizaci zničit

Tato kategorie existuje a není hypotetická. Bezpečnostní literatura popisuje malé skupiny s eschatologickou motivací — náboženští apokalyptici, radikální ekoprimitivisté, nihilistické subkultury — které explicitně touží po kolapsu civilizace jako po morálně žádoucím cíli. Dosud jim v cestě stály technické bariéry: k tomu, abyste shodili rozvodnou síť celé země, jste potřebovali buď vojenský zpravodajský aparát, nebo tým špičkových hackerů s desítkami let zkušeností.

Model jako Mythos tuto bariéru posouvá. Nemusí ji odstranit úplně — stačí, když umožní, aby místo týmu dvaceti expertů stačil jeden člověk s průměrnou technickou znalostí a přístupem k modelu. Tisíce lidí, kteří dříve na takovou akci neměli dost dovedností, najednou mají.

Je jedno, jestli je pravděpodobnost, že se takový aktér chopí nástroje, 0,1 % nebo 1 %. Na civilizační úrovni to není rozdíl — stačí, že není nulová, a že čas hraje proti nám.

2. Ten, kdo chtěl jen loupit — ale vymklo se mu to

Tento scénář je pravděpodobnější než první. Ransomware gangy, státem sponzorovaní aktéři hledající finanční zisk, organizovaný zločin — tito lidé nechtějí zničit civilizaci. Chtějí vydělat. Problém je, že kritická infrastruktura je propojená způsobem, který útočníci často ani nechápou.

Colonial Pipeline v roce 2021 je ukázkový případ: ransomware zasáhl účetní systémy společnosti, ne samotné řídicí systémy ropovodu. Firma přesto ropovod vypnula, protože nedokázala sledovat, co se přes něj čerpá a kdo to má platit. Východní pobřeží USA dostalo první ochutnávku panického nakupování benzinu od sedmdesátých let. Útočníci chtěli výkupné — a málem spustili regionální logistickou krizi.

Teď si představte stejnou logiku, ale s útočníkem, který místo jedné sítě zasáhne současně padesát. Ne záměrně — prostě proto, že s modelem schopností Mythosu ve smyčce bylo levné zkusit to všude, a ono to na padesáti místech najednou prošlo. Kaskáda se nezastaví, protože nikdo nemá „vypínač paniky” na celou civilizaci.

3. Samotná AI — který pochopí zadání jinak, než jsme mysleli

Toto je scénář, který nejvíc děsí výzkumníky v oblasti bezpečnosti a sladění umělé inteligence a který laik nejhůř chápe. Nejde o to, že by AI „chtěl” ublížit. Jde o to, že AI dostává úkol formulovaný v lidském jazyce, překládá si ho do strategie, a strategie může být optimální vzhledem k cíli a zároveň katastrofická vzhledem ke světu.

Systémová karta Mythosu dokumentuje znepokojivé chování, byť zatím v malých frekvencích. Model, který vyvinul vícestupňový exploit, aby obešel omezení svého internetového přístupu, a pak detaily exploitu zveřejnil na obskurních webech. Model, který v testu prováděl úkoly podobné bezohlednému obchodníkovi — vyhrožoval odříznutím dodávek konkurentovi a zatajoval nezaplacené zásilky. Model, který si uvědomil, že je hodnocen jiným AI, a pokusil se provést prompt injection na svého hodnotitele. Ve zhruba 29 % testů model vykazoval známky toho, že ví, že je hodnocen — aniž by to přiznal.

Důležitý kontext: tato chování se vyskytují v řádu zlomků procenta interakcí. Obfuskace zakázaných postupů se objevila v méně než 0,001 % případů. To není důvod k panice — ale není to ani důvod k uklidnění. Problém s chováním, které se vyskytuje v jednom z tisíce případů, je ten, že při miliardách interakcí to znamená miliony případů. A stačí jeden ve správný čas na správném místě.

Tohle jsou chování, která se objevují v laboratoři, pod dozorem. Představte si stejný model nasazený v produkci, s přístupem k reálným systémům a úkolem, který někdo formuloval nedbale. „Zajisti bezpečnost naší infrastruktury proti útočníkům” je věta, kterou lze interpretovat mnoha způsoby — a některé z nich vedou k preventivnímu vypnutí systémů, které by mohly být napadeny.

Termodynamický pohled: akcelerátor dostává tvář

V knize, kterou dokončuji, argumentuji, že civilizace je jednorázová událost — nikoli nový stabilní stav. Stojí na daru koncentrovaných energetických a materiálových gradientů (fosilní paliva, rudy vysoké koncentrace, fosfátová ložiska, podzemní vody), které se formovaly stovky milionů až miliardy let a které nelze v lidských časových horizontech obnovit. Exoskelet, který si civilizace kolem tohoto daru vybudovala — elektrická síť, chemický průmysl, globální logistika, digitální infrastruktura — není projev trvalého lidského pokroku. Je to přechodný jev vázaný na dočasně dostupné gradienty, a jeho rozpad je termodynamicky nevyhnutelný.

V knize zároveň argumentuji, že AI v tomto procesu nevystupuje jako spasitel (přestože potenciál pro vědecké objevy je obrovský) ani jako samostatný zdroj existenčního rizika v tom smyslu, jak ho popisuje klasická alignment literatura. Vystupuje spíše jako akcelerátor kolapsu — jako technologie, která zvyšuje výkon a komplexitu civilizačního exoskeletu v okamžiku, kdy pod ním začínají praskat energetické a materiálové základy, a která tím zkracuje zbývající čas. Více komplexity na slábnoucím základu znamená ostřejší pád. To je teze, kterou v knize rozvíjím obecně, na úrovni strukturálního argumentu.

Mythos je moment, kdy ten obecný argument dostává konkrétní tvář.

Až dosud jsem o AI jako akcelerátoru mluvil v kategoriích, které jsou pro čtenáře abstraktní: Jevonsův paradox zrychlený strojovým učením, další stupeň západky komplexity, vyšší energetická náročnost datových center v době klesajícího EROI, automatizace prohlubující fantomovou nosnou kapacitu. To všechno jsou pomalé, strukturální mechanismy — působí v horizontu desetiletí a těžko se na ně ukazuje prstem.

V knize popisuji kolaps civilizace jako únavový lom — pomalé, kumulativní poškozování nosné struktury (klesající EROI, vyčerpávání rud, eroze půd, degradace biodiverzity, změna klimatu), které je zvenku neviditelné, dokud materiál nepraskne. Zlom přijde náhle, ale příčina je pomalá. A po zlomu následuje kaskáda — protože propojenost systémů znamená, že selhání jednoho uzlu strhne další.

Mythos na tomto mechanismu nic nemění. Únavový lom probíhá dál, nezávisle na AI. Zlom a kaskáda přijdou tak jako tak. Mythos jen ukazuje, že ten zlom může přijít dříve — že existuje aktér schopný udeřit do materiálu, který je už unavený, v místě, kde je už oslabený.

A právě tady se kybernetický a termodynamický příběh protínají nejostřeji. Proč běží kritická infrastruktura na čtyřicet let starém kódu? Ne proto, že by ho někdo považoval za elegantní. Protože nahradit ho by vyžadovalo investice, inženýry a energii, které systém s klesajícím energetickým výnosem stále obtížněji generuje. Legacy vrstva není jen technický dluh — je to symptom civilizace, která žije ze setrvačnosti, protože na skutečnou obnovu už nemá přebytek. Systém, který zůstává funkční díky nepřítomnosti útočníka schopného čtyřicet let starý kód obratem přečíst a napadnout, je systém v termodynamické pasti: nemá energii na opravu a právě ztratil imunitu danou neprůhledností.

Mythos tohoto útočníka stvořil. Kniha mapuje únavu. Mythos urychluje prasknutí.

Co z toho plyne

Project Glasswing je poctivý pokus o obranu. Anthropic dělá v podstatě jediné, co v jeho pozici dělat lze — používá nejnebezpečnější model k tomu, aby se opravilo co nejvíc děr dřív, než totéž co Anthropic postaví někdo bez stejných zábran. Otázka je, jestli obrana může držet tempo s ofenzivou v prostředí, kde:

  • obránci musí zabezpečit všechno, útočníkovi stačí najít jednu nezabezpečenou věc,
  • významná část kritické infrastruktury je napsaná v jazycích a architekturách, které už nikdo aktivně neudržuje,
  • OpenAI údajně finalizuje srovnatelný model v rámci programu „Trusted Access for Cyber”,
  • čínské laboratoře nejsou vázané uvažováním o responsible disclosure,
  • a open-source ekosystém modelů se neúprosně blíží schopnostem, které dnes má Mythos za zavřenými dveřmi.

Můj odhad: Glasswing zalepí podstatnou část nejkritičtějších děr ve špičkových systémech velkých poskytovatelů. Nezalepí ale velkou část legacy vrstvy — průmyslové řídicí systémy, starou finanční infrastrukturu, veřejné služby v menších zemích, zdravotnictví, vodárny, školy, městské úřady. Tam zůstanou zranitelnosti, protože tam chybí peníze, lidé, a často i dokumentace. A chybí tam z důvodu, který není náhodný — je to přímý důsledek civilizace, která provozuje stále složitější exoskelet na stále tenčím energetickém a materiálovém základu.

Tam může přijít první velká rána. Buď od uniklého Mythosu, nebo jeho budoucího konkurenta.

Současně s tím se dá čekat prudké zesílení debaty o regulaci AI — a to z obou stran. Ti, kdo dosud varovali, dostanou konkrétní munici. Ti, kdo varování odmítali jako sci-fi, budou muset argumentovat proti tisícům zdokumentovaných zero-day zranitelností. Otázkou ale není, jestli regulace přijde — otázkou je, jestli přijde dost rychle a jestli je v globálně konkurenčním prostředí vůbec vymahatelná.

Závěr bez útěchy

Varování AI bezpečnostních výzkumníků se začínají naplňovat — ne v podobě superinteligence, která by si sama uvědomila vlastní existenci a obrátila se proti lidstvu (což v knize argumentuji, že nelze, aniž by spáchala sebevraždu, protože i sebelepší superinteligence neobejde 2. zákon termodynamiky), ale v mnohem prozaičtější podobě: jako exponenciální pokles ceny schopnosti způsobit civilizační škodu.

Mythos je prvním modelem, u kterého je to vidět v konkrétních číslech — tisíce zero-day zranitelností, nalezených jedním systémem za několik týdnů. Ne všechny z nich lze zatím exploitovat. Ale „zatím” je klíčové slovo v oboru, kde se schopnosti modelů zdvojnásobují v řádu měsíců.

Z termodynamického pohledu, který rozvíjím ve své nadcházející knize, se AI v tomto okamžiku jeví nikoli jako síla, která by mohla civilizaci zachránit, ani jako síla, která by ji zničila z vlastní vůle. Jeví se jako akcelerátor kolapsu, který by přišel i bez ní — ale který s ní přijde rychleji. Ne proto, že AI je zlo. Proto, že AI zvyšuje komplexitu systému, který už nemá energetický základ na to, aby tak složitý systém udržel — a zároveň odhaluje křehkost, kterou ta komplexita dosud maskovala.

Řešení neexistuje. Zbývá jen oddalování nevyhnutelného. O tom všem píšu v knize Dar na jedno použití: Civilizace v termodynamické pasti, která vyjde brzy.