Chi vuole migliorare l’intelligenza artificiale deve prima imparare a misurarla. È questa l’idea centrale che emerge dall’ultima edizione di Import AI, la newsletter curata da Jack Clark, cofondatore di Anthropic, che questa settimana dedica ampio spazio a un intervento del ricercatore Jacob Steinhardt sul rapporto tra misurazione delle capacità dei modelli e politiche pubbliche sull’AI.

Il ragionamento di Steinhardt parte da un’osservazione apparentemente ovvia ma spesso trascurata: non si può regolare ciò che non si sa valutare. Le politiche sull’intelligenza artificiale — dai regolamenti nazionali alle linee guida aziendali — rischiano di essere inefficaci o mal calibrate se non si dispone di strumenti affidabili per capire cosa un modello sa fare davvero, e soprattutto cosa non sa fare. I benchmark, cioè i test standardizzati usati per valutare le prestazioni dei sistemi AI, diventano quindi uno strumento politico oltre che tecnico.

Il numero tocca anche un tema che sta guadagnando attenzione a livello internazionale: l’uso di modelli linguistici di grandi dimensioni in contesti nucleari e di sicurezza nazionale. Non si tratta di scenari fantascientifici, ma di applicazioni concrete che alcuni governi e centri di ricerca stanno esplorando per analisi documentali, simulazioni e supporto decisionale in ambienti ad alto rischio. La questione solleva interrogativi seri su come si certifichi l’affidabilità di un sistema AI quando le conseguenze di un errore sono potenzialmente irreversibili.

Sul fronte dei benchmark, la Cina ha pubblicato una valutazione su larga scala delle capacità dei propri modelli AI, un segnale che la competizione nella definizione degli standard di misurazione è ormai parte integrante della competizione tecnologica globale. Chi controlla i criteri con cui si misura l’AI, in parte controlla anche la narrativa su chi è avanti e chi è indietro.

Per un’azienda italiana, tutto questo può sembrare distante. Ma non lo è. Immaginate un’impresa manifatturiera che ha integrato un assistente AI nel processo di controllo qualità: come fa a sapere se quel sistema funziona davvero bene, o se commette errori sistematici che nessuno ha ancora rilevato? Oppure uno studio legale che usa un modello per analizzare contratti: con quale criterio valuta se le risposte sono affidabili? Senza metriche chiare, la fiducia nel sistema è cieca.

Lo stesso principio vale a livello normativo. L’AI Act europeo, già in vigore nella sua struttura portante, richiede alle aziende che usano sistemi AI ad alto rischio di documentare le prestazioni e i limiti degli strumenti adottati. Non avere una metodologia interna per valutare l’AI che si usa non è solo un problema tecnico: è un rischio di conformità. Per una PMI con cinquanta dipendenti che usa strumenti AI per la gestione del personale o per l’analisi finanziaria, questo si traduce in obblighi concreti che arriveranno presto anche sul tavolo del commercialista o del consulente del lavoro.

Perche conta. La prossima volta che valutate o rinnovate un contratto con un fornitore di software AI, chiedete esplicitamente quali benchmark usa per misurare le prestazioni del suo sistema e come documenta i casi in cui il modello sbaglia. Se non sa rispondervi, è un segnale da non sottovalutare. Nel frattempo, se usate già strumenti AI in azienda, aprite una sessione di test strutturata: definite tre o quattro scenari tipici del vostro lavoro, fate rispondere il sistema e valutate i risultati con occhio critico. Misurare, anche in modo semplice, è il primo passo per non affidarsi alla tecnologia alla cieca.