Ieri mattina presto, OpenAI ha rilasciato GPT-5.1. Ho trascorso un'intera giornata sottoponendolo a test approfonditi e pratici, e i risultati potrebbero non essere quelli che vi aspettate.
Se desideri provare subito GPT-5.1, GlobalGPT ha già integrato questo modello potentissimo.

Conclusione
Sì, GPT‑5.1 mostra progressi reali rispetto a GPT‑5 da tre mesi fa. Ma se speravi in un salto dominante e rivoluzionario, potresti rimanere deluso. Per dirla senza mezzi termini: in molti compiti del mondo reale, è ancora in ritardo. Claude Sonetto 4.5.
Non si tratta di critiche, ma dei risultati di alcuni test. Ho effettuato valutazioni comparative in diversi scenari: scrittura di testi lunghi, composizione letteraria, sviluppo front-end e altro ancora. Alcuni risultati sono stati davvero sorprendenti.
Cosa è cambiato in GPT‑5.1
OpenAI ha preso una pragmatico approccio con questo aggiornamento. Quando GPT-5 è stato lanciato tre mesi fa, le cose sono andate male: gli utenti hanno segnalato prestazioni peggiori rispetto alle versioni precedenti, da errori matematici a codice instabile. OpenAI ha attribuito la colpa a un problema del “sistema di routing”, in cui l'IA non selezionava il modello interno corretto per le risposte.
In GPT‑5.1, le modifiche si concentrano su tre aree principali:
- Doppia modalità.
Modalità istantanea per la velocità nelle chat informali; Modalità di pensiero per problemi complessi, regolando dinamicamente il tempo di ragionamento. Sembra promettente e, dai miei test, risulta effettivamente più flessibile rispetto a GPT‑5. - Meno allucinazioni.
Le statistiche ufficiali dicono che il tasso di allucinazioni è sceso da 4,8% a 2,1%. In pratica, si è più disposti ad ammettere “Non lo so” piuttosto che inventarsi delle cose. - Stili personalizzati.
Otto stili di conversazione selezionabili, da formale a giocoso. Si tratta di una funzione davvero utile, che consente di adattare lo stile alla situazione.
Risultati dei test: scrittura estesa — Chiara sconfitta
Il mio primo benchmark consisteva nel far produrre a entrambi i modelli un rapporto di studio di 10.000 parole, utilizzando come materiale di partenza lo stesso repository di progetti open source.
Risultati:
- GPT‑5.1: ~31.000 caratteri
- Claude Sonnet 4.5: ~51.000 caratteri
Claude ha scritto quasi il doppio. Non si è trattato di un caso isolato: in diversi test, GPT-5.1 ha mostrato la tendenza a più moderato. Se avete bisogno di relazioni lunghe e dettagliate, Claude è la scelta migliore.
In un secondo test, ho chiesto un articolo di circa 1.000 parole che presentasse il progetto.
- GPT‑5.1: Oltre 1.600 parole, ricche di dettagli tecnici, ma più adatte agli sviluppatori.
- Claude: Oltre 1.400 parole, più vicine alla lunghezza richiesta, facili da comprendere per i principianti.
Gemini 2.5 Pro ha valutato GPT-5.1 come documentazione tecnica e Claude come divulgazione scientifica. Entrambi avevano dei meriti, ma Claude ha centrato il numero di parole e il target di riferimento.
Composizione letteraria: divario evidente
Questo test mi ha davvero sorpreso. Ho chiesto loro di scrivere una poesia “ci” della dinastia Song nel Wanghaichao formato, dal tema “L'autunno sfuma nell'inverno; un lamento sul passare del tempo”, seguendo rigorosamente le regole tonali.
- Claude Sonetto 4.5: Realizzato in 50 secondi, immagini classiche (gelo, oche selvatiche, stagni di loto), emozioni appropriate, regole tonali per lo più corrette, solo un piccolo errore tematico.
- GPT-5.1: Ci è voluto più tempo, le regole tonali erano rispettate, ma le immagini erano ripetitive, l'uso di “nuovi germogli di bambù” (un'immagine primaverile) era inappropriato e il risultato era rigido.
Nella poesia classica, dove l'immaginario e l'eleganza sono fondamentali, GPT-5.1 è rimasto indietro rispetto a Claude.
Sviluppo front-end: risultati contrastanti
Compiti testati:
- Animazione SVG: Gatto e cane che camminano sull'erba, nuvole e uccelli nel cielo.
- Gli animali di GPT‑5.1 sono troppo astratti per essere distinti;
- I volatili di Claude, chiaramente felini/canini, sono migliori.
- Progettazione dell'interfaccia utente: Un pannello di controllo per la gestione degli alveari.
- Claude's era raffinato nel colore/layout/tipografia;
- GPT‑5.1 ha optato per toni neri pesanti, meno accattivanti.
- Ricreazione della pagina dallo screenshot:
- Entrambi accurati;
- I colori di Claude erano più uniformi, mentre il colore di sfondo di GPT-5.1 era leggermente diverso.
- Sviluppo 3D (gioco Three.js Rubik's Cube):
- Entrambi hanno fallito. Claude ha mostrato un cubo, ma il pulsante “mescola” non funzionava; GPT‑5.1 non ha visualizzato affatto il cubo.
Le app 3D complesse sono ancora fuori dalla portata di entrambi.
Animazione Python: Partita in parità
Compito divertente: visualizza l'ordinamento a bolle con 12 anatroccoli di varie dimensioni e una mamma anatra che li ordina dal più piccolo al più grande.
- Claude: Anatre troppo grandi/dense, che oscurano i dettagli, ma logica corretta.
- GPT‑5.1: Anatre più semplici, meno distinzione di dimensioni, logica anche corretta.
Aggiornamento delle conoscenze: Claude Leads
Date limite per l'acquisizione delle conoscenze:
- GPT‑5.1: Giugno 2024
- Claude Sonnet 4.5: Gennaio 2025
Si tratta di una differenza di sette mesi, rilevante per le tecnologie all'avanguardia e gli eventi di attualità.
Automazione del browser: miglioramento GPT‑5.1
Testato nel browser Atlas di OpenAI: visita un blog, estrai il primo articolo, riscrivilo e preparalo per la pubblicazione su X.
GPT‑5.1 ha completato l'operazione in 1 minuto e 5 secondi, più velocemente di GPT‑5, e ha gestito il flusso in modo fluido, fermandosi solo prima della pubblicazione (richiesta la revisione umana). Uno dei suoi vantaggi più evidenti rispetto al suo predecessore.
Verdetto finale: progressi, ma non aspettatevi troppo
Punti di forza:
- Miglioramento reale rispetto a GPT‑5, soprattutto nella riduzione delle allucinazioni e nell'automazione del browser.
- Funzionalità di personalizzazione pratiche.
- Probabilmente più forte in matematica/programmazione (secondo quanto dichiarato ufficialmente).
Punti deboli:
- La scrittura di testi lunghi è ancora un punto debole per Claude.
- Opera letteraria (poesia, prosa) meno elegante.
- Estetica del design dell'interfaccia utente meno accattivante.
- Non è in grado di gestire applicazioni 3D complesse.
- La conoscenza è in ritardo rispetto a Claude.
Raccomandazioni:
- Rapporti lunghi → Claude
- Scrivere con stile/immagini → Claude
- Progettazione dell'interfaccia utente → Claude per primo
- Matematica, programmazione, logica → Prova GPT‑5.1
- Automazione del browser → GPT‑5.1 è buono
- Chat informale/ricerca rapida → Entrambi funzionano
OpenAI ha giocato sul sicuro, correggendo i bug e migliorando l'esperienza utente, ma non è riuscita a distanziarsi dalla concorrenza. In alcuni settori è ancora indietro.
La concorrenza nel campo dell'intelligenza artificiale è ormai molto accesa; ogni modello presenta punti di forza e punti deboli. La mossa più intelligente è scegliere in base al compito da svolgere, senza attenersi ciecamente a un unico modello.
Il mio consiglio: Se hai Plus, abbonati sia a ChatGPT che a Claude. Passa da uno all'altro a seconda delle necessità. Per i professionisti, provali entrambi per trovare quello più adatto al tuo flusso di lavoro.
Tre mesi dopo il passo falso del GPT-5, la versione 5.1 è stabile, ma non entusiasmante.
Hai provato GPT‑5.1? Condividi la tua esperienza nei commenti.
Ambiente di prova:
- Data: 14 novembre 2025
- GPT‑5.1: Modalità di pensiero
- Claude Sonnet 4.5: Modalità di pensiero
- Compiti: scrittura di testi lunghi, composizione letteraria, sviluppo front-end, animazione Python, automazione del browser
