Escludere un dato non significa eliminarne l’influenza
Uno degli assunti più diffusi tra chi sviluppa o acquista sistemi di intelligenza artificiale è che rimuovere dall’addestramento le variabili sensibili — età, reddito, genere, origine etnica — sia sufficiente a produrre modelli equi. Una ricerca pubblicata su arXiv il 23 febbraio 2026 dimostra che questo assunto è sbagliato.
Gli autori hanno sviluppato SOMtime, un metodo di rappresentazione non supervisionata basato su Self-Organizing Maps ad alta capacità, e lo hanno applicato a dataset da cui le variabili sensibili erano state deliberatamente escluse. Il risultato: attributi come età e reddito emergono comunque come assi dominanti nelle rappresentazioni latenti del modello, ricostruiti implicitamente a partire da altre variabili correlate.
Come funziona il meccanismo
I dati che usiamo per addestrare i modelli non sono mai isolati. Età, reddito e altre caratteristiche sensibili lasciano tracce in decine di variabili apparentemente innocue: i prodotti acquistati, gli orari di accesso a un servizio, il tipo di dispositivo usato, il vocabolario impiegato in un testo. Un modello sufficientemente potente impara a ricostruire le variabili escluse partendo da queste correlazioni indirette.
Questo fenomeno non richiede alcuna intenzione da parte degli sviluppatori. Accade automaticamente, come effetto collaterale della capacità del modello di trovare pattern nei dati.
Le implicazioni per le aziende italiane ed europee
Il tema non è solo tecnico. L’AI Act europeo, che ha iniziato ad applicarsi progressivamente dal 2024, impone requisiti espliciti di non discriminazione per i sistemi AI classificati ad alto rischio — tra cui quelli usati in ambito creditizio, assicurativo, delle risorse umane e dei servizi pubblici. La conformità normativa non si dimostra semplicemente mostrando che certe variabili non compaiono nel dataset di addestramento.
Le autorità di vigilanza europee stanno sviluppando metodologie di audit sempre più sofisticate, e la ricerca accademica come questa tende a influenzare nel tempo le linee guida tecniche. Chi si limita a una conformità formale — “abbiamo tolto i dati sensibili” — potrebbe trovarsi esposto a contestazioni future.
Cosa fare in pratica
Le organizzazioni che usano modelli predittivi in contesti regolamentati dovrebbero iniziare a testare i propri sistemi non solo sulle variabili escluse, ma sulle correlazioni indirette. Esistono tecniche di auditing — tra cui i test di disparate impact e le analisi di fairness attraverso le distribuzioni di output — che permettono di rilevare discriminazioni anche quando le variabili protette non sono state incluse esplicitamente.
La ricerca è un promemoria utile: la neutralità algoritmica non si ottiene per sottrazione. Richiede un lavoro attivo di verifica che va ben oltre la pulizia del dataset iniziale.
Lo studio completo è disponibile su arXiv.