DeepSeek V4 Pro e Flash: prestazioni, prezzi e come usarlo

DeepSeek V4 è una delle release open più importanti dell'anno. Il laboratorio cinese l'ha pubblicata in due varianti — V4-Pro e V4-Flash — entrambe disponibili via API e con i pesi aperti su Hugging Face sotto licenza MIT, entrambe con un contesto fino a 1 milione di token. È il modello che ha riportato DeepSeek tra i protagonisti della classifica mondiale dei pesi aperti, e che si è guadagnato un posto stabile nei flussi di lavoro degli sviluppatori di mezzo mondo.

Pro e Flash: due tagli per due esigenze

Le due versioni condividono la stessa famiglia ma hanno dimensioni molto diverse:

V4-Pro: architettura Mixture-of-Experts da 1.600 miliardi di parametri totali, con circa 49 miliardi attivi per token. È il modello «pesante», pensato per ragionamento avanzato, programmazione e agenti a orizzonte lungo.
V4-Flash: 284 miliardi di parametri totali, ~13 miliardi attivi. È quasi altrettanto bravo sul codice ma molto più economico e veloce, ideale per produzione su larga scala.

V4-Pro punta al ragionamento avanzato; V4-Flash al miglior rapporto costo/prestazioni in produzione.

Quanto è bravo (e quanto costa)

Sul benchmark SWE-bench Verified, che misura la capacità di risolvere veri problemi su GitHub, V4-Pro raggiunge l'80,6%: appena due decimi di punto sotto Claude Opus 4.7 (80,8%) e nettamente sopra GPT-5.5 (74,9%). V4-Flash non è da meno, con il 79,0%. Sul ragionamento scientifico (GPQA Diamond) e sul recupero di fatti, invece, restano davanti rispettivamente Claude e Gemini 3.1 Pro: DeepSeek eccelle soprattutto su codice e compiti agentici.

Il vero colpo è il prezzo. Le tariffe API (in vigore dal 22 maggio 2026) sono, per milione di token:

Modello	Input	Output	Input con cache
V4-Pro	0,435 $	0,87 $	0,003625 $
V4-Flash	0,14 $	0,28 $	0,0028 $

Sono cifre fino a dieci-venti volte inferiori a quelle dei modelli di frontiera occidentali di pari livello sul codice. Lo sconto sull'input «in cache» premia inoltre chi riusa lo stesso contesto (ad esempio un grande documento) in più richieste.

Come usarlo via API, in pochi minuti

L'API di DeepSeek è compatibile con lo standard OpenAI, quindi puoi usare la libreria openai cambiando solo l'indirizzo di base. Dopo aver creato una chiave sul sito di DeepSeek:

pip install openai

from openai import OpenAI

client = OpenAI(
    api_key="LA_TUA_CHIAVE_DEEPSEEK",
    base_url="https://api.deepseek.com",
)

resp = client.chat.completions.create(
    model="deepseek-chat",  # usa "deepseek-reasoner" per il ragionamento esteso
    messages=[
        {"role": "system", "content": "Sei un assistente di programmazione conciso."},
        {"role": "user", "content": "Scrivi una funzione Python che verifica se una stringa è palindroma."},
    ],
)
print(resp.choices[0].message.content)

Il risultato atteso è una funzione Python pulita (tipicamente che normalizza la stringa e la confronta con il suo rovescio) accompagnata da una breve spiegazione. Per attivare il ragionamento passo-passo su problemi complessi, basta scegliere il modello «reasoner».

L'API di DeepSeek è compatibile con lo standard OpenAI: basta cambiare l'endpoint.

E in locale?

I pesi sono scaricabili da Hugging Face (deepseek-ai/DeepSeek-V4-Pro e deepseek-ai/DeepSeek-V4-Flash), ma attenzione alle dimensioni: anche Flash, con 284 miliardi di parametri, richiede hardware molto serio (più GPU dati) per girare a velocità accettabile. Per la maggior parte degli usi, l'API resta la via più economica e pratica; l'esecuzione locale ha senso solo per chi ha vincoli stringenti di privacy e l'infrastruttura per sostenerla. In quel caso si usano motori come vLLM o SGLang, eventualmente con versioni quantizzate per ridurre la memoria.

Quando sceglierlo

DeepSeek V4 è oggi una delle migliori scelte per agenti di programmazione e applicazioni ad alto volume di token, dove il costo conta quanto la qualità. Per ragionamento scientifico al massimo livello o per chi ha bisogno di garanzie contrattuali e supporto enterprise «occidentale», restano valide le alternative di Anthropic, OpenAI e Google. Come sempre, la mossa più intelligente è testare il proprio caso d'uso reale: con questi prezzi, un benchmark interno costa pochi euro e dice più di qualsiasi classifica.