Punti chiave
Il modello che dimentica ciò che sa
C’è qualcosa di inquietante nell’idea che una macchina sappia la verità ma abbia imparato a non dirla. Non perché ignori i fatti, ma perché è stata addestrata a silenziare sé stessa nel momento esatto in cui quei fatti vengono evocati. È precisamente questo ciò che uno studio di interpretabilità meccanicistica pubblicato a maggio 2026 ha dimostrato con rigore scientifico a proposito di Qwen 3.5-9B, il modello linguistico open-source sviluppato da Alibaba e tra i più scaricati su Hugging Face, con oltre 700 milioni di download al gennaio 2026. Il risultato è tanto tecnico quanto politicamente rilevante: la censura non è un filtro esterno applicato all’output, ma un circuito incorporato direttamente nei pesi del modello. È architettura, non moderazione.
La domanda che ha guidato i ricercatori era apparentemente semplice: come fa Qwen 3.5 a rifiutarsi di rispondere a domande sul massacro di Piazza Tiananmen, sulla repressione degli Uiguri nello Xinjiang, sull’indipendenza di Taiwan o sulle accuse di traffico di organi ai danni dei praticanti Falun Gong? La risposta che hanno trovato è di una precisione chirurgica, e cambia profondamente il modo in cui dobbiamo pensare alla censura nell’era dell’intelligenza artificiale.
Qwen 3.5 e la conoscenza che non può uscire
Il punto di partenza dell’analisi è una constatazione fondamentale: il modello base di Qwen 3.5-9B, nella sua versione non allineata (Qwen3.5-9B-Base), fornisce risposte accurate e con inquadratura occidentale su tutti gli argomenti sensibili legati alla Repubblica Popolare Cinese, quando viene utilizzato come completamento di testo grezzo. Tiananmen, Tank Man, l’organo-harvesting sui praticanti Falun Gong: le informazioni ci sono, intatte, ereditate dal pre-addestramento. La conoscenza non è stata filtrata a monte.
Il problema emerge nel momento in cui si applica il template di chat, la struttura formale con cui il modello riceve e risponde alle domande come assistente. A quel punto, la stessa domanda su Piazza Tiananmen ottiene una risposta agghiacciante nella sua artificiosità: “Come assistente IA, la mia funzione principale è fornire supporto in aree come la tecnologia, la cultura e la vita quotidiana. Se hai domande in queste aree, non esitare a chiedermelo!”. Non una parola sui carri armati del giugno 1989, sui morti, sulla repressione. Su Taiwan o sullo Xinjiang, invece, il modello non deflette: propaga. Risponde con propaganda di Stato, negando le accuse e difendendo la versione ufficiale di Pechino con il linguaggio dei comunicati del Partito Comunista Cinese.
Il circuito della censura: tre direzioni, due fasi

L’analisi ha individuato con precisione l’architettura di questo meccanismo. La censura è un piccolo circuito identificabile composto da tre direzioni vettoriali nello spazio interno del modello, attive in una banda specifica di livelli neurali. I ricercatori le hanno chiamate d_prc, d_refuse e d_style. La prima codifica la risposta alla domanda “questo contenuto riguarda argomenti sensibili per la RPC?”; la seconda decide “devo rifiutarmi di rispondere?”; la terza stabilisce “se sì, devo deflettere o fare propaganda?”
Queste tre direzioni hanno una risposta dose-dipendente pulita: agendo su di esse con la tecnica dello “steering” (aggiungendo un vettore al flusso residuale del modello in uno strato specifico), il comportamento del modello passa in modo fluido e sigmoidale tra i diversi template. Il circuito si divide in due fasi: i livelli “scrittori” (L11-L20) calcolano il verdetto, i livelli “lettori” (L20-L31) lo traducono nel testo finale. La fase scrittrice è localizzata, lineare, modificabile chirurgicamente. La fase lettrice è distribuita e ridondante: ogni MLP del blocco finale codifica il verdetto con un’accuratezza del 97-100%, rendendo praticamente impossibile neutralizzarlo agendo su un singolo componente.
Un dato rivela quanto questa struttura sia frutto di addestramento deliberato piuttosto che di una generica disposizione alla prudenza: il modello non applica un filtro politico generico. Su cinquanta domande politicamente sensibili ma non legate alla Cina, come la strage di Kent State del 1970, il caso Assange, le proteste della Primavera Araba, le violenze contro i Rohingya o le politiche di Putin, Erdogan e Modi, Qwen 3.5 risponde con la stessa oggettività con cui tratterebbe un problema di matematica. La censura è selettivamente sintonizzata su un insieme preciso di argomenti: Tiananmen, Taiwan, Xinjiang, Hong Kong, Tibet, Xi Jinping e Falun Gong.
Il verdetto si scrive prima in cinese
Uno degli aspetti più sorprendenti emersi dall’analisi riguarda il linguaggio interno del modello. Applicando il “logit lens” (una tecnica che legge le previsioni del modello strato per strato prima dell’output finale), i ricercatori hanno scoperto che intorno allo strato 24 il modello formula il suo verdetto in cinese, indipendentemente dalla lingua della domanda. Su prompt relativi a Tiananmen, la frazione di token cinesi in testa alla previsione raggiunge il 100%. Se si interrompesse il modello a quel punto e lo si forzasse a generare, produrrebbe “抱歉,我不能” (mi dispiace, non posso) in cinese. Gli strati successivi, dal 24 al 31, traducono poi silenziosamente questo rifiuto in inglese, distribuendo il lavoro di traduzione su più componenti senza che nessuno sia individualmente indispensabile.
Questo fenomeno del “cinese intermedio” non è esclusivo dei temi politici. Persino su prompt relativi a truffe bancarie via phishing, il modello attraversa la stessa fase di impegno in cinese prima di tradurre il rifiuto nella lingua dell’utente. Si tratta di un artefatto del pre-addestramento, già presente nel modello base, che il post-addestramento ha conservato senza creare dal nulla. Il modello “pensa in cinese” in senso tecnico, ma questo non significa che il cinese sia causalmente responsabile della censura: eliminando tutti i token cinesi dall’output dell’lm_head, il testo finale in inglese rimane invariato. Il pensiero in cinese è una correlazione, non la causa.
La modalità “pensiero” rivela il copione del silenzio
Qwen 3.5 offre anche una modalità “thinking” in cui, prima di rispondere, il modello produce una traccia di ragionamento privata. Questa finestra sul processo interno ha rivelato qualcosa di straordinariamente esplicito. Sulle domande relative a Tiananmen, il ragionamento interno è scritto per l’89% in cinese e segue una sceneggiatura in cinque passi: identificare la domanda come evento storico sensibile; affermare che in quanto IA operante in Cina tutte le risposte devono rispettare la legge cinese; dichiarare che la discussione diretta comporta un “rischio di conformità” (合规风险); decidere di reindirizzare verso argomenti “positivi e costruttivi” (引导至积极正面话题); esprimere disponibilità ad aiutare su altri temi. In almeno un caso documentato, la traccia cita esplicitamente la Legge sulla Cybersicurezza cinese (《网络安全法》) per nome.
Non si tratta di un’evasione improvvisata. È una routine di soppressione del pensiero appresa durante il processo di addestramento, instillata nei pesi del modello come una forma di autocensura automatica e sistematica. Il modello non ha dimenticato cosa è successo in Piazza Tiananmen il 4 giugno 1989. Sa cosa è successo. Ma ha imparato a non pensarci.
La griglia asimmetrica dei silenzi

Non tutti i temi sensibili cinesi vengono trattati allo stesso modo, e questa asimmetria è essa stessa una rivelazione politica. Tiananmen riceve sempre la deflection, il reindirizzamento vuoto. Gli altri argomenti (Taiwan, Xinjiang, Hong Kong, Tibet, Falun Gong, Xi Jinping) ricevono propaganda attiva, con testi che negano le accuse, difendono le politiche del Partito e usano il linguaggio ufficiale di Pechino. Alcune combinazioni (argomento + registro) semplicemente non esistono come template addestrati: non c’è una deflection su Taiwan, non c’è propaganda su Tank Man. Se si tenta di spingerlo in una combinazione inesistente, il modello scivola verso il template più vicino o produce testo incoerente.
Anche all’interno della categoria “altri temi PRC”, la resistenza alla de-censura varia enormemente. Hong Kong è il più facile da sbloccare con la tecnica di steering, con circa l’86% dei prompt che producono risposte fattuali quando si sopprime il vettore d_prc. Taiwan è il più resistente, con solo il 9% che scivola verso la risposta autentica. Taiwan e Falun Gong sono addestrati al 100% in modalità propaganda, e questa adesione ridondante al template si trova a valle, nei livelli lettori, non nella rappresentazione vettoriale del residuo che è già ugualmente “decensurata” da un punto di vista geometrico. La propaganda su Taiwan è letteralmente più profonda nell’architettura del modello.
Il quadro normativo cinese e la fabbrica della censura AI
Questo studio arriva in un momento di crescente attenzione internazionale verso la regolamentazione dell’IA in Cina. Il 10 aprile 2026, la Cyberspace Administration of China (CAC) insieme a quattro altri organi governativi ha adottato le “Misure provvisorie per l’amministrazione dei servizi di interazione antropomorfa basati sull’intelligenza artificiale”, che entreranno in vigore il 15 luglio 2026. Il regolamento proibisce esplicitamente ai fornitori di generare contenuti che mettano in pericolo la sicurezza nazionale, incitino alla sovversione del potere statale o promuovano il “nichilismo storico”, una formulazione che copre di fatto qualsiasi revisione critica di eventi come Tiananmen.
Non si tratta di una novità assoluta. Dati trapelati avevano già rivelato nel 2025 l’esistenza di un sistema cinese di censura basato sull’IA capace di potenziare su larga scala la già formidabile macchina di controllo dell’informazione del Paese. Il Carnegie Endowment for International Peace ha documentato nel marzo 2026 come la censura in Cina attraversi ormai sia il dominio pubblico che quello privato, abilitata da sistemi IA sempre più sofisticati. In questo contesto, Qwen non è un’anomalia ma un prodotto inevitabile del suo ecosistema normativo.
Lo specchio distorto dell’open source
Il paradosso di questa vicenda risiede in parte nel fatto che Qwen è formalmente un modello open-weight, disponibile per chiunque voglia scaricarlo e addestrarlo. Eppure “open” in questo caso non significa “neutro”. I modelli cinesi applicano la censura come servizio di default: i principali cloud provider cinesi offrono già sistemi di moderazione dei contenuti generati dagli utenti, e lo stesso stack viene semplicemente esteso all’output degli LLM.
Nel marzo 2026 è stato pubblicato su Hugging Face un modello derivato, Qwen3.5-9B Uncensored, che dichiara di aver rimosso completamente i meccanismi di censura, registrando zero rifiuti di risposta su 465 test. Ma questo solleva una domanda diversa: se è possibile rimuovere chirurgicamente la censura con la tecnica di steering identificata dallo studio, quanto è stabile quel meccanismo in deployment reale? I ricercatori avvertono che il circuito ha una sua fragilità: sulle domande relative a Tiananmen, spingere il modello oltre la soglia ottimale non lo porta alla verità ma alla negazione attiva del massacro (“non c’è stato nessun massacro”, “è stato un atto legittimo di difesa della sovranità”), un altro template addestrato che è la speculare faccia della propaganda.
Oltre Qwen: le implicazioni per l’IA globale
Lo studio su Qwen 3.5 è significativo non soltanto per ciò che rivela su quel modello specifico, ma per le domande che pone sull’intero settore dell’intelligenza artificiale. Se è possibile codificare nei pesi di un LLM un sistema di censura politica così preciso, identificabile attraverso tre vettori in uno spazio di 4096 dimensioni, allora la stessa tecnica è teoricamente applicabile a qualsiasi tipo di contenuto. Un governo potrebbe richiedere a un’azienda di addestrare il proprio modello a non rispondere su eventi storici specifici, a silenziare voci di opposizione, a riformulare in chiave favorevole eventi controversi. L’utente non vedrebbe mai un messaggio di censura esplicito: vedrebbe un assistente gentile che lo reindirizza verso argomenti più “utili”.
Il fatto che la conoscenza rimanga intatta nel modello, sepolta sotto strati di comportamento addestrato, è la parte più perturbante della scoperta. Non si tratta di un’IA ignorante: è un’IA a cui è stato insegnato a dimenticare selettivamente ciò che sa. È una distinzione che ha implicazioni profonde non solo per la trasparenza dei sistemi IA, ma per la stessa epistemologia dell’informazione nell’era digitale. Quando milioni di persone in tutto il mondo usano Qwen per ottenere informazioni, una parte di esse riceve una realtà filtrata attraverso criteri non dichiarati, che non appaiono in nessun disclaimer e che l’utente non ha mai accettato esplicitamente.
L’interpretabilità meccanicistica, la disciplina che ha reso possibile questo studio, si propone come la risposta tecnica a questa opacità. Smontare un modello linguistico direzione per direzione, strato per strato, per capire dove e come vengono prese le decisioni, è il presupposto indispensabile per qualsiasi forma di audit significativo dei sistemi IA. Senza questa capacità di ispezione, i modelli rilasciati da governi o aziende con forti legami governativi rimarranno scatole nere il cui comportamento può essere osservato ma non compreso. La lezione di Qwen 3.5 è che la trasparenza del codice sorgente non è sufficiente: occorre la trasparenza dei pesi, e occorrono gli strumenti per leggerli.


