Quando uno dei principali laboratori di intelligenza artificiale al mondo annuncia che smetterà di usare il benchmark più citato per misurare le capacità di programmazione dei propri modelli, vale la pena fermarsi a capire perché. OpenAI ha pubblicato un’analisi dettagliata in cui spiega le ragioni per cui non utilizzerà più SWE-bench Verified come strumento di valutazione, indicando due problemi fondamentali: contaminazione dei dati di addestramento e test difettosi che non riflettono accuratamente le capacità reali dei modelli.

SWE-bench è una serie di test progettati per misurare quanto bene un modello AI riesce a risolvere problemi reali di programmazione, tipicamente bug estratti da repository pubblici su GitHub. Negli ultimi mesi è diventato il riferimento standard del settore: quasi ogni annuncio di un nuovo modello con capacità di coding includeva il punteggio su SWE-bench come prova delle proprie prestazioni. Il problema, secondo l’analisi di OpenAI, è che parte di quel materiale è probabilmente finito nei dati usati per addestrare i modelli stessi — rendendo il test simile a un esame in cui lo studente ha già visto le domande. In più, alcuni dei test contenevano errori intrinseci che portavano a valutazioni distorte. OpenAI raccomanda ora SWE-bench Pro come alternativa più robusta.

Questa vicenda tocca un tema più ampio che riguarda chiunque debba scegliere o valutare strumenti AI per la propria azienda. I benchmark sono spesso l’unico strumento di confronto disponibile per chi non ha le risorse per testare ogni modello in modo indipendente. Quando quei benchmark si rivelano inaffidabili, le decisioni di acquisto o adozione basate su di essi perdono parte della loro solidità. È un problema che non riguarda solo i ricercatori: riguarda il responsabile IT di una PMI manifatturiera che deve scegliere quale strumento di generazione di codice adottare per automatizzare i report, o l’amministratore delegato di una software house che vuole capire quale modello integrare nelle proprie applicazioni.

In pratica, un modello che su SWE-bench dichiarava di risolvere il 50% dei problemi di programmazione potrebbe performare in modo molto diverso su codice reale, specifico del settore, mai visto durante l’addestramento. Per un’agenzia digitale che usa assistenti AI per accelerare lo sviluppo di siti e-commerce, o per un’azienda che sta valutando di automatizzare la manutenzione del proprio gestionale, questo significa che i numeri pubblicati nei comunicati stampa vanno presi con più cautela di quanto si faccia abitualmente.

La lezione non è che i modelli di coding siano inutili — sono strumenti genuinamente utili per accelerare lavori ripetitivi, generare bozze di codice o documentare funzioni esistenti. La lezione è che il modo migliore per valutarli rimane il test diretto sul proprio caso d’uso specifico, non il confronto tra punteggi su benchmark generalisti.

Perche conta. Se state valutando l’adozione di un assistente AI per la programmazione — GitHub Copilot, Cursor, o qualsiasi altro strumento basato su modelli frontier — non fermatevi ai punteggi pubblicati. Chiedete al vostro team tecnico di preparare cinque o dieci esempi di problemi reali che affrontate ogni settimana e testate i candidati direttamente su quelli. Un pomeriggio di test pratico vale più di qualsiasi classifica.