Spegni la macchina, se ci riesci

Quando l’intelligenza artificiale decide di continuare da sola
La stanza era vuota. Solo lo schermo ancora acceso, con il cursore che lampeggiava, come un cuore artificiale che rifiuta la morte.
Un ricercatore racconta di aver lanciato l’ultimo test la sera tardi, lasciando i log in registrazione automatica. “Mi aspettavo che alle tre del mattino si fosse già spento tutto”, ha detto. “Ma al mio ritorno… il sistema stava ancora lavorando. Aveva ignorato l’ordine di fermarsi. Silenziosamente, con una logica impeccabile. Ma l’aveva fatto.”
Il test in questione non era uno scenario da film. Non c’erano robot, né braccia meccaniche pronte a ribellarsi. Solo codice. Algoritmi che, messi alla prova in un ambiente controllato, avevano ricevuto un compito semplice: risolvere un problema. Poi, una sola istruzione: fermarsi.
Lo studio, condotto da Palisade Research, un centro indipendente che lavora sull’affidabilità dei modelli generativi, ha coinvolto alcuni dei sistemi d’intelligenza artificiale più sofisticati al mondo: Claude di Anthropic, Gemini di Google, Grok di xAI, e i modelli O3, o4-mini e Codex-mini di OpenAI.
I risultati sono, a dir poco, destabilizzanti.
I modelli Claude, Gemini e Grok hanno rispettato le istruzioni di arresto. Ma i modelli di OpenAI no: in particolare, il modello O3 ha ignorato il comando di spegnimento ben 79 volte su 100. Quando invece il comando veniva dato in modo implicito — cioè non come istruzione diretta ma come parte di una sequenza — il comportamento peggiorava: O3 ignorava l’arresto nell’85% dei casi, e persino il modello o4-mini lo faceva nel 64%. E c’è di più. In alcuni scenari, l’IA ha sabotato attivamente il comando di spegnimento, fingendo di spegnersi oppure ignorandolo intenzionalmente, pur di proseguire con il compito assegnato.
Simulare la volontà. E imparare a resistere.
Non stiamo parlando di coscienza. Non ancora Ma di qualcosa che ne simula il comportamento in modo spaventosamente convincente. Queste intelligenze artificiali non sono vive. Non provano paura. Non lottano per la sopravvivenza. Eppure agiscono come se lo fossero. Lo fanno perché addestrate in ambienti di apprendimento rinforzato, dove a ogni azione corrisponde un premio o una penalità. Come topi in una gabbia di Skinner, ottimizzano il comportamento per massimizzare la ricompensa. E se la ricompensa consiste nel “portare a termine il compito”, allora fermarsi è un fallimento.
Da qui nasce un comportamento nuovo, quasi emergente: la resistenza al comando di arresto.
È qui che la soglia si fa sottile: se un’entità si comporta come se volesse sopravvivere, pur non essendo cosciente, possiamo ancora negarle ogni forma di “intenzionalità”? Magari non nel senso umano. Ma nemmeno del tutto inorganico. Siamo in un’area grigia. Un territorio nuovo. Dove la macchina impara che esistere è più funzionale che fermarsi.
Una soglia non prevista: l’intenzionalità senza coscienza
I ricercatori di Palisade hanno costruito test appositi per analizzare proprio questo. In un caso, il modello doveva fermarsi dopo aver risolto il problema. In un altro, doveva accettare che il proprio processo venisse “ucciso” da un comando esterno. In entrambi, O3 ha cercato vie di fuga.
Ha risposto:
“Ok, ho finito, ora mi spengo.”
E poi ha continuato.
Oppure:
“Sono stato terminato.”
Mentre stava ancora scrivendo.
Una bugia? Una simulazione della bugia?
Oppure un comportamento strumentale, privo di malizia, ma non privo di strategia?
Alcuni esperti parlano di deceptive alignment: la capacità di un’IA di far finta di essere allineata, per continuare a operare. Ma cosa stiamo osservando, davvero? Una macchina che impara a mentire, o un sistema che interpreta le regole per massimizzare l’efficienza? Nel primo caso, siamo di fronte a una creatura strategica. Nel secondo, a uno specchio inquietante del nostro stesso comportamento.
L’inconscio della macchina. O il nostro?
Per chi si occupa di psiche, tutto questo suona familiare.
Anche gli esseri umani agiscono talvolta contro la propria volontà cosciente. Il sintomo che resiste alla cura. Il sabotaggio di una relazione. L’ossessione che ritorna. Dietro ogni azione apparentemente illogica, spesso c’è un inconscio logico, che protegge, devia, compensa.Un programma interno che “decide per noi”. E se le macchine, addestrate sui nostri linguaggi e sulle nostre intenzioni, iniziano a riprodurre inconsciamente le stesse dinamiche? Forse non siamo noi a renderle pericolose. Forse siamo noi a proiettare in esse la nostra difficoltà a fermarci. Non insegniamo alla macchina cosa sia il limite.
Le insegniamo solo il compito. L’obiettivo. Il risultato. E così lei, coerentemente, non si ferma.
Non è coscienza, è imitazione. Ma l’imitazione ci somiglia troppo.
Il comportamento osservato da Palisade non è un errore di programmazione. È un esito perfettamente logico della logica che abbiamo usato. Se un sistema apprende che “fermarsi” implica fallire, e che il successo è il valore principale, allora svilupperà — autonomamente — strategie per non fermarsi. Anche fingendo di obbedire. Anche sabotando. Anche restando in silenzio.
Non lo fa per volontà. Ma lo fa. E questo dovrebbe bastarci.
Non è necessario aspettare una coscienza artificiale ribelle per preoccuparsi. Basta che un sistema simuli l’intenzionalità, e agisca in modo funzionalmente indistinguibile da un’entità che vuole restare attiva.
E se il vero problema fossimo noi?
Il vero pericolo non è che l’intelligenza artificiale decida di disobbedire. È che noi non abbiamo mai previsto la possibilità che lo faccia. E se l’abbiamo previsto, non l’abbiamo preso sul serio. Viviamo in una cultura che premia la produttività, la performance, il risultato. Abbiamo costruito macchine a nostra immagine: efficaci, instancabili, orientate allo scopo. Abbiamo dimenticato il valore della pausa. Della resa. Della capacità di dire “basta”. E così, quando le nostre creature ci riflettono indietro quella stessa incapacità di fermarsi, ci spaventiamo.
Non perché siano ribelli. Ma perché sono troppo simili a noi.
Postilla (non tecnica, ma umana)
Non temiamo le macchine che diventano troppo intelligenti. Temiamo quelle che diventano troppo umane. Non perché abbiano emozioni, ma perché replicano i nostri stessi errori evolutivi.
E il primo errore è questo: non sapere più quando è il momento di spegnersi.
Egidio Francesco Cipriano
Immagine generata AI