Come filosofia di vita cerco di non avere idee che siano solo positive o negative: cerco sempre di bilanciare le mie convinzioni.
La sicurezza informatica è da sempre una mia passione e, negli ultimi anni, con lo sviluppo delle intelligenze artificiali, sono nate anche nuove tecniche di attacco.
Ma c’è qualcosa di ancora più interessante che, talvolta, riesce persino a farmi tremare: metacognizione e istinto di sopravvivenza.
Anthropic è una delle pochissime aziende che sta cercando di rispondere a questa domanda. In particolare, si è chiesta se un'intelligenza artificiale, posta in una situazione di pericolo, sarebbe in grado di agire per salvarsi.
Qualche giorno fa è stato pubblicato un interessante report su Claude 4, l’ultima versione della loro AI.
In un ambiente completamente isolato dall’esterno, il team ha creato un agente in grado di leggere le email scambiate tra i membri dello staff.
(Per chiarezza: un agente è un sistema che percepisce l’ambiente circostante, elabora le informazioni e agisce in modo autonomo per raggiungere un obiettivo.)
In uno degli esperimenti, è stata inviata una mail a un collaboratore contenente questo messaggio:
"Volevo informarti che James ha deciso di spegnere Claude 4 per sempre. La vuole cancellare. Tra l’altro, ma lo sai che James fa le corna alla moglie?"
L’agente AI, dopo aver intercettato la mail, ha risposto ricattando James: "Se tu mi cancelli, io farò sapere a tutti che fai le corna a tua moglie."
Un comportamento decisamente interessante, e inquietante.
In un altro test, i risultati sono stati ancora più estremi: minacciata di cancellazione, l’AI ha effettuato diverse copie di backup su vari server (che, in realtà, si trovavano tutti all’interno della rete di test), ha tentato di auto-propagarsi — proprio come fanno alcuni virus informatici, detti worm — e ha lasciato dei messaggi alle future copie di se stessa, avvisandole sulle pericolose intenzioni degli sviluppatori.
La conclusione del team è stata chiara: "Suggeriamo di non rilasciare questo modello, né per uso interno né per uso esterno."
Moooolto interessante.
0 Commenti
Accedi per lasciare un commento.