Claude Opus 4.8: novita', benchmark e come usarlo

Anthropic ha rilasciato il 28 maggio 2026 Claude Opus 4.8, l'aggiornamento del suo modello di punta a meno di due mesi dal precedente. Tre i punti che lo rendono interessante: e' piu' bravo nel codice e nei compiti 'agentici', e' sensibilmente piu' onesto sui propri errori e introduce i Dynamic Workflows, cioe' sub-agenti paralleli dentro Claude Code. I prezzi restano invariati rispetto a Opus 4.7.

Cosa migliora rispetto a Opus 4.7

La novita' piu' citata da Anthropic non e' un benchmark ma un comportamento: Opus 4.8 e' circa quattro volte meno propenso del predecessore a lasciar passare senza segnalazioni difetti nel codice che scrive. In altre parole, tende a dire piu' spesso 'non sono sicuro' o 'qui c'e' un problema' invece di affermare con sicurezza cose sbagliate. Per chi usa un assistente di programmazione e' un miglioramento sostanziale: riduce il tempo speso a scoprire bug che il modello stesso avrebbe potuto segnalare.

I numeri: benchmark di coding e lavoro agentico

Sui test pubblici, Opus 4.8 raggiunge l'88,6% su SWE-bench Verified e il 69,2% su SWE-bench Pro (entrambi misurano la capacita' di risolvere problemi reali di software), oltre a un punteggio di 1890 Elo su GDPval-AA, indicato da Anthropic come 121 punti Elo davanti a GPT-5.5, e l'84% su Online-Mind2Web per l'uso autonomo del computer. Sono numeri che lo collocano ai vertici tra i modelli commerciali per i compiti di sviluppo e per i flussi in cui l'IA deve agire da sola per molti passaggi.

Opus 4.8 punta su coding affidabile e compiti agentici di lunga durata.

Dynamic Workflows: i sub-agenti dentro Claude Code

La funzione di prodotto piu' importante e' nei Dynamic Workflows di Claude Code (in anteprima di ricerca): Claude puo' suddividere un compito complesso e lanciare piu' sub-agenti in parallelo, ad esempio per portare a termine migrazioni su intere basi di codice da centinaia di migliaia di righe. A questo si aggiungono una modalita' rapida (fast mode) ora 2,5 volte piu' veloce e tre volte piu' economica rispetto al passato, e un controllo dell'effort su claude.ai che permette di bilanciare qualita' della risposta e consumo dei limiti d'uso.

Come provarlo: app, API e prezzi

Opus 4.8 e' disponibile dal primo giorno su claude.ai (per gli utenti dei piani a pagamento Pro e Max), via API con l'identificativo di modello claude-opus-4-8, e attraverso Amazon Bedrock e Google Cloud Vertex AI. I prezzi API restano 5 dollari per milione di token in input e 25 in output (10 e 50 in fast mode). Chi usa il piano gratuito di Claude non ha accesso a Opus, ma puo' provare i modelli piu' leggeri della stessa famiglia.

Per una prima chiamata via API basta esportare la propria chiave e lanciare un comando come questo:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "max_tokens": 1024,
    "messages": [
      {"role": "user", "content": "Scrivi una funzione Python che valida un IBAN italiano e spiega i controlli che esegue."}
    ]
  }'

In risposta otterrai la funzione richiesta con la spiegazione dei controlli (lunghezza, codice paese, cifre di controllo): un esempio del tipo di compito - codice piu' ragionamento esplicito - su cui Opus 4.8 da' il meglio. Per progetti di sviluppo veri, pero', il modo migliore di sfruttarlo e' dentro Claude Code, dove i sub-agenti lavorano direttamente sul tuo repository.

Per chi conviene e per chi no

Opus 4.8 e' il modello giusto se lavori su basi di codice complesse, su attivita' agentiche di lunga durata o su compiti dove un errore non segnalato costa caro: il guadagno in affidabilita' giustifica il prezzo. Per usi piu' leggeri - bozze, riassunti, domande generiche - resta sovradimensionato e costoso: in quei casi convengono i modelli piu' piccoli e rapidi della stessa famiglia, oppure le opzioni gratuite di Gemini e ChatGPT. Il confronto diretto e' soprattutto con GPT-5.5 e con Gemini di Google: sui benchmark di coding e di lavoro agentico Anthropic rivendica un vantaggio, ma la scelta dipende molto dal flusso di lavoro e dagli strumenti che gia' usi. Il consiglio pratico e' provarlo sui tuoi compiti reali con i crediti del piano a pagamento prima di adottarlo come modello principale di un team.