OpenAI presenta GPT-5.4: tre versioni e maggiore precisione nelle risposte

OpenAI ha presentato GPT-5.4 come un nuovo passo nella propria linea di modelli linguistici, con un obiettivo preciso: offrire risposte più affidabili e ridurre il peso operativo per chi usa questi strumenti in ambito professionale.

Il lancio ruota attorno a tre elementi centrali, cioè le tre versioni del modello, una finestra di contesto da un milione di token e una serie di dati che descrivono un calo degli errori rispetto alla generazione precedente. Sullo sfondo resta il mercato dell’intelligenza artificiale applicata al lavoro, dove contano velocità, costi e capacità di gestire compiti complessi senza disperdere risorse.

Tre versioni per spingere il modello in ambiti diversi

Il nuovo modello arriva in tre configurazioni: standard, Thinking e Pro. La prima rappresenta la variante più generale, pensata per un impiego ampio e trasversale. La seconda punta sul ragionamento strutturato, quindi su richieste che richiedono passaggi logici più ordinati. La terza, invece, è orientata alle prestazioni più alte, con un posizionamento che guarda agli impieghi professionali più esigenti.

Accanto alla divisione in tre versioni, OpenAI mette al centro la dimensione della memoria contestuale. GPT-5.4 può infatti contare su una finestra da 1.000.000 di token, un valore molto elevato che permette di lavorare su quantità di testo decisamente ampie. Per chi sviluppa prodotti, servizi o flussi di lavoro basati sull’AI, significa avere più spazio per documenti lunghi, istruzioni articolate e materiali complessi raccolti nella stessa sessione.

Il messaggio, da parte dell’azienda, appare piuttosto chiaro: il modello non viene descritto come una semplice revisione tecnica, ma come una piattaforma più adatta al lavoro professionale. È qui che si gioca la partita più importante. Quando un sistema di questo tipo entra in attività operative reali, infatti, la differenza non la fa soltanto la qualità della risposta, ma anche la sua costanza nel tempo.

I benchmark alzano il profilo

OpenAI accompagna il lancio con diversi risultati nei benchmark. GPT-5.4 ha ottenuto record in OSWorld-Verified e WebArena Verified, due test legati all’uso del computer, mentre nel test GDPval ha raggiunto l’83% nei compiti di lavoro intellettuale. A questo si aggiunge il primo posto nel benchmark APEX-Agents di Mercor, costruito per valutare competenze professionali in contesti come quello legale e finanziario.

Secondo quanto riportato, il modello si è mostrato molto forte nella produzione di materiali complessi, come presentazioni, modelli finanziari e analisi giuridiche. Il punto che pesa di più, in ogni caso, riguarda la gestione degli errori. OpenAI sostiene che GPT-5.4 registri un 33% in meno di probabilità di errore nelle singole affermazioni rispetto a GPT-5.2. Guardando invece la risposta nel suo insieme, la probabilità che contenga errori scenderebbe del 18%.

Sono numeri che danno una direzione precisa, anche se restano dati diffusi dalla stessa azienda che produce il modello. Il tema delle allucinazioni è sempre centrale nel settore dell’IA e ogni riduzione, per chi lavora con queste tecnologie, ha un valore concreto. Quando un sistema taglia anche una parte limitata delle imprecisioni, il vantaggio si misura in tempo risparmiato, verifiche più rapide e minore attrito nella catena operativa.

Meno token usati e più attenzione ai controlli interni

C’è poi un aspetto meno vistoso, ma forse più rilevante per gli sviluppatori: GPT-5.4 riesce a risolvere gli stessi problemi del predecessore usando meno token. Questo si traduce in risposte più rapide e in costi inferiori per chi integra il modello via API. In una fase in cui molte aziende cercano strumenti potenti ma sostenibili sul piano economico, il tema dell’efficienza pesa quasi quanto quello della qualità.

Per rafforzare questo aspetto, OpenAI introduce Tool Search, un sistema pensato per la gestione degli strumenti nell’API. In passato i prompt di sistema dovevano contenere la definizione di tutti gli strumenti disponibili, con un consumo di token che cresceva insieme al numero delle integrazioni. Con il nuovo approccio, il modello richiama queste definizioni solo quando servono davvero. Il vantaggio è immediato: meno spreco di risorse e tempi di risposta più contenuti nei sistemi complessi.

Sul fronte sicurezza entra poi in gioco il controllo della catena di pensiero, cioè del percorso logico che accompagna l’elaborazione della risposta. Da tempo esiste il timore che i modelli possano mostrare spiegazioni convincenti senza riflettere davvero il processo che li ha portati al risultato finale. Nei test interni diffusi da OpenAI, la versione Thinking avrebbe mostrato una minore tendenza a comportamenti ingannevoli.

Il quadro che emerge è quello di un aggiornamento costruito attorno a tre parole chiave: affidabilità, efficienza e controllo. Il salto reale, come spesso accade, si misurerà con l’uso quotidiano. Per ora GPT-5.4 arriva con numeri solidi sulla carta e con un messaggio preciso: l’AI vuole occupare uno spazio sempre più stabile nei flussi di lavoro ad alto valore.

Tre versioni per spingere il modello in ambiti diversi

I benchmark alzano il profilo

Meno token usati e più attenzione ai controlli interni

NON PERDERE QUESTE NEWS

Avatar AI su YouTube Shorts, al via la nuova funzione per i creator

Meta compra Moltbook e rafforza la sua strategia sull’intelligenza artificiale

ChatGPT punta sulla matematica con nuove spiegazioni dinamiche

Google NotebookLM ora trasforma appunti e ricerche in video animati