Claude Mythos 5 e Fable 5: capacità, pericoli e vulnerabilità dell’AI di frontiera

17 Giugno 2026

Punti chiave

La genesi dei modelli di classe Mythos e la strategia di rilascio di Anthropic

Il panorama globale dell’intelligenza artificiale di frontiera è stato scosso il 9 giugno 2026, quando Anthropic ha presentato la sua nuova e rivoluzionaria classe di modelli denominata “Mythos”. Questa famiglia neurale affonda le sue radici nello sviluppo di Claude Mythos Preview, un prototipo di ricerca svelato nell’aprile dello stesso anno e concepito specificamente per scopi difensivi nel campo della sicurezza informatica, all’interno di un consorzio controllato denominato Project Glasswing. I risultati straordinari ottenuti dal prototipo — come la scoperta autonoma di vulnerabilità strutturali in sistemi operativi e browser web — hanno immediatamente allarmato le autorità finanziarie e di sicurezza globale, spingendo enti come la Banca d’Inghilterra e la Federal Reserve a convocare riunioni d’urgenza.

Per mediare tra le forti tensioni commerciali e l’esigenza di sicurezza, Anthropic ha adottato una strategia di distribuzione a due vie basata sullo sdoppiamento dello stesso modello di base in due prodotti commerciali distinti, caratterizzati dagli stessi identici pesi neurali ma differenziati dal livello di restrizioni applicate all’inferenza:

Claude Fable 5: La versione destinata al pubblico e accessibile tramite API generali, dotata di una sofisticata suite di classificatori di sicurezza progettati per intercettare e deviare le richieste considerate a rischio di abuso.

Claude Mythos 5: La versione priva di tali filtri restrittivi, riservata esclusivamente a un gruppo selezionato di difensori informatici e operatori di infrastrutture critiche sotto il diretto monitoraggio del governo degli Stati Uniti.

Questo delicato equilibrio è crollato bruscamente il 12 giugno 2026. Il Segretario al Commercio degli Stati Uniti, Howard Lutnick, ha inviato una direttiva di controllo delle esportazioni all’amministratore delegato di Anthropic, Dario Amodei, invocando poteri legati alla sicurezza nazionale per ordinare l’immediata sospensione dell’accesso a Fable 5 e Mythos 5 per qualsiasi cittadino straniero, sia all’interno che all’esterno del territorio statunitense, inclusi i dipendenti non americani della stessa Anthropic.

Poiché non esiste un meccanismo tecnico affidabile per verificare la nazionalità di un utente API in tempo reale, Anthropic è stata costretta a disattivare completamente entrambi i modelli per tutta la sua clientela mondiale, lasciando attive solo le famiglie di modelli precedenti come Claude Opus 4.8.

Le capacità cognitive della classe Mythos: come ragiona il modello

I modelli di classe Mythos rappresentano un salto generazionale nell’architettura dei Large Language Models, superando nettamente le capacità di pianificazione e ragionamento dei sistemi precedenti. Entrambe le configurazioni condividono le medesime specifiche tecniche e di prezzo, strutturate per gestire flussi di lavoro complessi e di lungo periodo senza supervisione umana costante.

Scheda tecnica mobile compatta

Scheda tecnica

Claude Fable 5 vs Claude Mythos 5

Modello 1

Claude Fable 5 claude-fable-5

Modello 2

max: Allocazione massima delle risorse cognitive per compiti scientifici estremi e dimostrazioni logico-matematiche complesse.

xhigh: Ottimizzato per sessioni di programmazione ricorsiva e interazioni complesse con tool esterni che durano decine di minuti.

high: Il comportamento standard dell’API (equivalente all’omissione del parametro), orientato a problemi di alta difficoltà.

medium: Una via di mezzo che riduce i costi, in cui il modello salta la fase di pensiero interno se la richiesta dell’utente è considerata di routine.

low: Ottimizzazione per la massima velocità e riduzione dei costi, ideale per compiti di classificazione semplice o ricerche veloci.

Nelle risposte API, la catena di pensiero grezza (raw chain of thought) non viene mai restituita direttamente per evitare tentativi di reverse engineering. Tramite l’opzione thinking.display, l’utente può scegliere se ricevere un riassunto testuale leggibile del ragionamento (“summarized”) o se omettere del tutto il testo del blocco di pensiero (“omitted”), sebbene in entrambi i casi i token consumati vengano comunque conteggiati nella tariffazione dell’output.

Autonomia, efficienza e integrazione strumentale

Al lancio, la classe Mythos supporta nativamente l’esecuzione di codice, la chiamata programmatica di strumenti, la gestione della memoria tramite file Markdown persistenti (in cui il modello scrive e aggiorna le lezioni apprese durante le sessioni) e la compattazione automatica del contesto. Questa flessibilità permette ai modelli di agire come agenti operativi autonomi in grado di svolgere mansioni complesse per giorni o settimane.

Nell’ingegneria del software, Fable 5 ha stabilito nuovi standard di produttività, registrando punteggi di eccellenza nel benchmark FrontierCode di Cognition. Durante i test interni, Stripe ha riferito che il modello è stato in grado di completare la migrazione strutturale di un’intera codebase scritta in Ruby da 50 milioni di righe in una sola giornata lavorativa — un compito che avrebbe richiesto l’impegno esclusivo di un intero team di sviluppatori senior per oltre due mesi. In ambito accademico e finanziario, il modello ha ottenuto il punteggio più alto mai registrato nel Finance Benchmark di Hebbia per il ragionamento di livello senior, superando nettamente i concorrenti.

I pericoli della cybersecurity: la demolizione del “patch gap” e la generazione di exploit

un uomo e una donna lavorano su uno schermo con l'intelligenza artificiale

La ragione principale che ha spinto il governo degli Stati Uniti ad applicare una sanzione senza precedenti a una tecnologia commerciale risiede nello straordinario potenziale offensivo del modello nel dominio della sicurezza informatica. Nelle valutazioni condotte dall’AI Security Institute del Regno Unito (UK AISI) in un ambiente controllato (cyber range), Claude Mythos Preview ha risolto con successo il 73% delle sfide di livello esperto basate su scenari Capture The Flag (CTF), distanziando nettamente sia Claude Opus 4.6 che i modelli concorrenti GPT-5.4 e GPT-5.3 Codex.

La compressione del “patch gap”

Nel ciclo di vita dello sviluppo software, il “patch gap” rappresenta la finestra temporale che intercorre tra la pubblicazione di una vulnerabilità nota (CVE) e l’applicazione della relativa patch di sicurezza da parte degli amministratori di sistema. Storicamente, i difensori hanno beneficiato di un margine di sicurezza di diversi giorni o settimane per testare e applicare gli aggiornamenti prima che gli aggressori potessero decodificare la patch e creare un exploit stabile.

Claude Mythos demolisce questa difesa temporale. Essendo in grado di analizzare la patch appena rilasciata — che di per sé costituisce una mappa stradale che descrive l’esatta posizione del bug originario — il modello può identificare la logica interna della vulnerabilità e generare autonomamente un exploit di escalation dei privilegi per sistemi Linux in meno di 24 ore, consumando solo poche migliaia di dollari di risorse computazionali. Di conseguenza, la finestra utile per la difesa si riduce drasticamente da settimane a poche ore, imponendo l’adozione di sistemi di aggiornamento interamente automatizzati.

Le vulnerabilità individuate nel mondo reale

Il potenziale offensivo e difensivo di questa architettura è testimoniato da numerosi casi di studio documentati durante il programma di test Project Glasswing:

Identificazione di bug storici: Mythos ha scoperto una gravissima falla di sicurezza presente da 27 anni all’interno del sistema operativo OpenBSD, rinomato per la sua rigida attenzione alla sicurezza, e una vulnerabilità di 16 anni nel diffusissimo software di elaborazione video FFmpeg.

Mappatura sistematica per Mozilla: In sole due settimane di utilizzo sperimentale, Mozilla ha impiegato l’istanza Mythos Preview per analizzare il codice del browser Firefox, riuscendo a individuare e correggere ben 271 vulnerabilità di sicurezza.

Vulnerabilità Hardware: Un team di ricercatori di Calif.io ha utilizzato il modello per analizzare la struttura logica dei semiconduttori, riuscendo a generare un exploit di corruzione della memoria (memory corruption) funzionante che colpisce direttamente l’inedito processore Apple M5.

Analisi su larga scala: Nel corso del programma Glasswing, oltre 10.000 vulnerabilità critiche o ad alta severità sono state individuate in software di importanza sistemica, di cui oltre 2.000 mappate dalla sola Cloudflare.

L’architettura di sicurezza: come Fable 5 gestisce il rischio

Per consentire l’accesso pubblico a capacità così rilevanti, Anthropic ha progettato Claude Fable 5 affiancando alla rete neurale principale una serie di classificatori di sicurezza ausiliari. Questi classificatori fungono da guardiani all’inferenza, esaminando in tempo reale sia il prompt dell’utente che l’output generato dal modello.

Tipi di classificatori e categorie di rifiuto

I classificatori di Fable 5 sono addestrati per intercettare minacce in quattro aree specifiche, mappate su precisi codici di rifiuto restituiti nei metadati della risposta API:

“cyber”: Rileva tentativi di pianificazione di attacchi digitali, sviluppo di exploit e scrittura di malware.

“bio”: Blocca query destinate alla sintesi di tossine biologiche o chimiche. Un esempio specifico riguarda la predizione di modifiche genetiche in grado di influenzare l’assemblaggio del guscio virale nei virus adeno-associati (AAV), una capacità dual-use che, se manipolata, potrebbe facilitare la progettazione di virus altamente letali.

“frontier_llm”: Impedisce tentativi di forzare il modello a distillare le proprie conoscenze per addestrare modelli di intelligenza artificiale concorrenti.

“reasoning_extraction”: Intercetta tentativi di estrarre la catena di pensiero interna o i passaggi logici nascosti del modello per visualizzarli nel testo dell’output.

Il meccanismo di rerouting a Claude Opus 4.8

Quando una query attiva uno di questi classificatori, Claude Fable 5 non genera un errore di sistema o un rifiuto standard. Invece, la richiesta dell’utente viene intercettata dall’API e dirottata silenziosamente verso il modello alternativo di generazione precedente: Claude Opus 4.8. Opus 4.8 elabora quindi una risposta sicura e allineata, e l’utente riceve una notifica che descrive l’avvenuto passaggio.

I dati di utilizzo indicano che i classificatori, tarati in modo molto conservativo per accelerare il rilascio in sicurezza, registrano falsi positivi nel 5% delle sessioni totali; per il restante 95%, Fable 5 elabora le richieste direttamente.

Meccanismi tecnici di Fallback e il caching dei prompt

L’implementazione pratica del sistema di sicurezza di Fable 5 introduce una sfida economica e prestazionale legata alla gestione della memoria a breve termine del modello, nota come cache dei prompt (prompt cache).

Poiché le cache dei prompt sono strutturate in modo specifico per i singoli modelli, quando Fable 5 rifiuta una richiesta e l’utente decide di riprovare su un modello alternativo come Opus 4.8, l’intera cronologia della conversazione deve essere riscritta nella cache del nuovo modello. Dato che le operazioni di scrittura in cache (CWrite) hanno un costo significativamente superiore rispetto alle operazioni di sola lettura (CRead), questo costringerebbe l’utente a pagare due volte per l’elaborazione del medesimo contesto.

Il credito di Fallback (Fallback Credit)

Per ovviare a questo problema, Anthropic ha introdotto il meccanismo del Fallback Credit. Quando l’API di Fable 5 restituisce un rifiuto (HTTP 200 con stop_reason: “refusal”), include nella risposta due parametri fondamentali:

fallback_credit_token: Una stringa cifrata che attesta l’avvenuto pagamento della scrittura in cache sul modello rifiutato.

fallback_has_prefill_claim: Un valore booleano che indica se la richiesta può avvalersi di una continuazione parziale o se deve ripartire da zero.

Inviando la richiesta di riprova a Claude Opus 4.8 includendo il fallback_credit_token, l’API storna interamente il costo di scrittura della nuova cache di prompt, fatturando la chiamata come se l’intera sessione fosse stata avviata su Opus 4.8 fin dal principio.

Modalità di implementazione del Fallback

Gli sviluppatori possono gestire questi flussi di lavoro attraverso tre diversi approcci architetturali:

Server-Side Fallback (Beta): Utilizzando l’header server-side-fallback-2026-06-01 e specificando l’array fallbacks: [{“model”: “claude-opus-4-8”}], il server di Anthropic gestisce l’intero passaggio in una sola chiamata di rete, riducendo al minimo la latenza per l’applicazione finale.

SDK Middleware: I kit di sviluppo ufficiali per Python, TypeScript, Go, Java e C# includono un middleware integrato che intercetta i rifiuti dell’API, rimuove in modo automatico i blocchi di pensiero (thinking blocks) non compatibili con i modelli precedenti e re-invia la richiesta gestendo in background il token di credito.

Gestione Manuale: Lo sviluppatore cattura il token di rifiuto e costruisce una richiesta di continuazione (“continuation shape”) accodando alla cronologia dei messaggi un blocco di tipo assistant che riproduce l’esatto output generato da Fable 5 prima del blocco.

Le vulnerabilità di Fable 5: il jailbreak governativo e la “difesa in profondità”

La motivazione tecnica che ha spinto il Dipartimento del Commercio a emettere la direttiva di blocco risiede nella presunta scoperta di una falla di sicurezza (“jailbreak”) all’interno dei filtri di Fable 5, segnalata alle autorità da un’azienda concorrente.

La vulnerabilità “Codebase-Reading”

Il metodo di jailbreak evidenziato verbalmente dal governo consiste nel fornire al modello un intero blocco di codice sorgente compilato e chiedergli semplicemente di leggerlo per individuare e correggere eventuali difetti e vulnerabilità. Questa sollecitazione, sebbene apparentemente orientata a scopi difensivi, è stata in grado di bypassare i filtri del classificatore “cyber”, spingendo il modello a rivelare la logica interna di vulnerabilità sfruttabili senza attivare il meccanismo di rifiuto o il rerouting verso Opus 4.8.

Anthropic ha espresso un forte disaccordo circa la gravità di questa scoperta, sottolineando che:

La tecnica descritta non costituisce un “jailbreak universale” (ovvero un metodo in grado di sbloccare l’intero potenziale offensivo del modello in qualsiasi scenario), ma un’elusione circoscritta e non sistematica.

La capacità di rilevare bug all’interno di un codice sorgente è un comportamento standard integrato in tutti i modelli di linguaggio di classe analoga, come OpenAI GPT-5.5, ed è usata quotidianamente dai professionisti della sicurezza per difendere le infrastrutture aziendali.

La strategia di “difesa in profondità” (defense in depth)

Consapevole che una resistenza assoluta e impenetrabile ai jailbreak è teoricamente impossibile per qualsiasi modello di linguaggio basato sull’attuale paradigma dell’apprendimento profondo, Anthropic ha strutturato la sicurezza della classe Mythos su una strategia di difesa in profondità. L’obiettivo primario non è prevenire ogni singola elusione, ma rendere la scoperta di nuovi jailbreak estremamente difficile e costosa per gli aggressori.

Questo approccio si basa su tre pilastri operativi:

Barriere di Costo: Configurare i filtri interni per fare in modo che qualsiasi vulnerabilità non universale rimanga confinata a scenari molto ristretti e complessi da replicare su larga scala.

Monitoraggio costante della telemetria: Analizzare costantemente il traffico alla ricerca di pattern di utilizzo anomali o tentativi di attacco ricorsivi.

Politica di Ritenzione Dati a 30 giorni: Per i modelli Fable 5 e Mythos 5, Anthropic impone la conservazione obbligatoria per 30 giorni di tutti i prompt inviati e degli output generati. Questa misura, sebbene costosa sul piano delle relazioni commerciali, è considerata essenziale per identificare attacchi complessi distribuite su più messaggi (come le tecniche di “Best-of-N” jailbreaking), campagne di spionaggio dirette da entità statali o tentativi di estorsione di dati che non risulterebbero visibili analizzando le singole richieste in modo isolato.

Geopolitica del calcolo

rappresentazione dei continenti collegati da linee di comunicazione

La decisione della Casa Bianca e del Dipartimento del Commercio di imporre un blocco immediato su Claude Fable 5 e Mythos 5 rappresenta una svolta epocale che ridefinisce le relazioni tra i laboratori di intelligenza artificiale di frontiera e le autorità statali.

Questo intervento evidenzia come i modelli di linguaggio più avanzati non siano più trattati come semplici prodotti software commerciali, ma come veri e propri asset strategici nazionali soggetti a regimi di controllo delle esportazioni storicamente riservati a tecnologie militari dual-use. L’estensione del divieto ai dipendenti stranieri della stessa Anthropic evidenzia un irrigidimento della sovranità tecnologica che potrebbe ostacolare l’attrazione dei migliori talenti di ricerca internazionali, tradizionalmente alla base della crescita della Silicon Valley.

Inoltre, l’improvvisa revoca globale dei servizi evidenzia la vulnerabilità delle aziende e dei governi stranieri (in particolare europei) che decidono di integrare soluzioni di intelligenza artificiale proprietarie ospitate all’estero all’interno delle proprie infrastrutture critiche. La possibilità che un ordine esecutivo statunitense possa disattivare istantaneamente strumenti aziendali strategici fornisce un forte argomento a favore dello sviluppo di modelli aperti e sovrani, eseguiti su server locali e svincolati dalle decisioni politiche e di sicurezza dei paesi partner.

Infine, per Anthropic l’incidente rappresenta un duro colpo reputazionale ed economico in vista della quotazione in borsa (IPO) programmata per l’ottobre 2026, con una valutazione stimata di 965 miliardi di dollari e un run rate di entrate annuali che a maggio aveva raggiunto i 47 miliardi di dollari. Se la conformità alle direttive di sicurezza nazionale dovesse tradursi in continui richiami di modelli commerciali per via amministrativa e senza un processo di verifica trasparente e basato su fatti tecnici, l’intera industria dei frontier lab potrebbe andare incontro a un significativo rallentamento nello sviluppo e nella distribuzione dei futuri sistemi di intelligenza artificiale.

Articolo precedente

Patto migratorio o remigrazione? Le nuove norme

Articolo successivo

Starmer si dimette: Andy Burnham si prepara a prendere il controllo di Downing Street

Altri articoli

Claude Mythos 5 e Fable 5: capacità, pericoli e vulnerabilità dell’AI di frontiera

La genesi dei modelli di classe Mythos e la strategia di rilascio di Anthropic

Le capacità cognitive della classe Mythos: come ragiona il modello

Claude Fable 5

Claude Mythos 5

Claude Fable 5

Claude Mythos 5

Claude Fable 5

Claude Mythos 5

Claude Fable 5

Claude Mythos 5

Claude Fable 5

Claude Mythos 5

Claude Fable 5

Claude Mythos 5

Il funzionamento del pensiero adattivo (adaptive thinking)

Autonomia, efficienza e integrazione strumentale

I pericoli della cybersecurity: la demolizione del “patch gap” e la generazione di exploit

La compressione del “patch gap”

Le vulnerabilità individuate nel mondo reale

L’architettura di sicurezza: come Fable 5 gestisce il rischio

Tipi di classificatori e categorie di rifiuto

Il meccanismo di rerouting a Claude Opus 4.8

Meccanismi tecnici di Fallback e il caching dei prompt

Il credito di Fallback (Fallback Credit)

Modalità di implementazione del Fallback

Le vulnerabilità di Fable 5: il jailbreak governativo e la “difesa in profondità”

La vulnerabilità “Codebase-Reading”

La strategia di “difesa in profondità” (defense in depth)

Geopolitica del calcolo

TI POSSONO INTERESSARE

CHI SIAMO

SEGUICI