OpenAI apre il suo Safety Hub: più trasparenza su allucinazioni e contenuti dannosi

epa11872454 OpenAI CEO Sam Altman attends a talk session with SoftBank Group Corp. chairman and CEO during the event 'Transforming Business through AI' in Tokyo, Japan, 03 February 2025. SoftBank Group CEO Masayoshi Son announced that he had reached an agreement with OpenAI CEO Sam Altman to establish a joint venture in Japan aimed at providing artificial intelligence services to businesses. EPA/FRANCK ROBICHON

OpenAI ha lanciato il Safety Evaluations Hub, una piattaforma pensata per condividere pubblicamente i risultati delle valutazioni di sicurezza relative ai propri modelli linguistici. All’interno del portale sono raccolti dati aggiornati su contenuti potenzialmente dannosi, tentativi di elusione dei filtri (jailbreak) e allucinazioni, ovvero le risposte errate o inventate dai sistemi di intelligenza artificiale.
L’obiettivo dichiarato è promuovere una maggiore comprensione pubblica delle prestazioni di sicurezza e stimolare la nascita di standard condivisi nel settore, in un contesto in cui la trasparenza è spesso affidata alla discrezionalità delle singole aziende. OpenAI ha specificato che il portale sarà aggiornato periodicamente in occasione degli aggiornamenti più rilevanti dei modelli, come GPT-4.1 o le successive versioni.
Uno sguardo oltre le “system cards”
Il nuovo hub si affianca – e in parte supera – le tradizionali system cards, finora usate per descrivere le misure di sicurezza attive sui modelli al momento del rilascio. Tra i criteri valutati nell’hub figurano:
- la propensione a generare contenuti offensivi o pericolosi;
- la frequenza delle allucinazioni;
- la resistenza ai prompt malevoli, capaci di aggirare i filtri di sicurezza.
I dati sono disponibili per ogni versione dei modelli principali, in modo da consentire una valutazione comparata e progressiva. Tuttavia, OpenAI chiarisce che i risultati devono essere letti insieme ad altri strumenti, come la documentazione tecnica e le system cards ufficiali.
Le critiche e il contesto
L’iniziativa sembra rispondere alle recenti critiche rivolte all’azienda, accusata da alcuni esperti e insider di aver accelerato in modo eccessivo la messa in produzione di modelli chiave senza fornire una documentazione completa. Secondo diverse fonti, anche Sam Altman sarebbe stato al centro di discussioni interne per presunte comunicazioni fuorvianti sulle valutazioni di sicurezza, poco prima della sua temporanea rimozione nel 2023.
Nel contesto attuale, il Safety Hub rappresenta quindi una prima mossa di apertura, ma solleva anche interrogativi legittimi sull’autonomia e sulla completezza delle informazioni condivise.
Serve una supervisione indipendente
Nonostante i dati pubblicati siano un passo avanti nella direzione della trasparenza, il fatto che le valutazioni siano condotte interamente da OpenAI lascia spazio a perplessità. La selezione di cosa mostrare o meno resta nelle mani dell’azienda, rendendo difficile considerare questo strumento come uno standard oggettivo.
Per rendere realmente efficace un monitoraggio sulla sicurezza dei modelli IA, servirebbero criteri condivisi a livello internazionale e soprattutto enti indipendenti in grado di svolgere verifiche imparziali.
OpenAI, però, potrebbe aver tracciato una strada utile anche per gli altri player del settore, offrendo un riferimento concreto da cui partire per ridefinire le regole del gioco. In un mercato dove la fiducia è un asset fondamentale, aprire i dati – anche parzialmente – potrebbe trasformarsi in una leva competitiva quanto l’innovazione tecnologica.