DeepSeek V4: specifiche, prezzi e come provarlo

DeepSeek V4 e' uno dei modelli che meglio raccontano la pressione dei laboratori cinesi sulla frontiera dell'IA: pesi aperti, 1 milione di token di contesto e prezzi per token tra i piu' bassi del mercato. La famiglia, presentata nella documentazione ufficiale, si articola in due varianti pensate per usi diversi, e a meta' 2026 resta uno dei riferimenti tra i modelli a pesi aperti per chi cerca potenza a basso costo.

Due modelli: V4-Pro e V4-Flash

La famiglia DeepSeek V4 si divide in due profili:

DeepSeek V4-Pro: architettura Mixture-of-Experts con circa 1,6 mila miliardi di parametri totali ma solo 49 miliardi attivi per token, pensata per i compiti piu' impegnativi di ragionamento e programmazione.
DeepSeek V4-Flash: versione piu' leggera, circa 284 miliardi di parametri con 13 miliardi attivi, ottimizzata per velocita' e costi ridotti.

Entrambi offrono una finestra di contesto da 1 milione di token: significa poter dare in pasto al modello interi libri, basi di codice o grandi archivi di documenti in una sola richiesta. Sul piano delle prestazioni, al lancio DeepSeek ha riportato per la variante di punta un punteggio dell'80,6% su SWE-bench Verified, uno dei benchmark piu' duri per la programmazione, tra i migliori risultati per un modello a pesi aperti.

V4-Pro usa solo 49 miliardi di parametri attivi su 1,6 mila miliardi totali grazie all'architettura MoE.

Quanto costa: i prezzi via API

Il vero argomento di DeepSeek e' il prezzo. Secondo il listino ufficiale, V4-Pro costa circa 0,435 dollari per milione di token in ingresso (cache miss) e 0,87 dollari per milione in uscita; V4-Flash scende a circa 0,14 dollari in ingresso e 0,28 in uscita per milione di token. Sono cifre che, a parita' di compito, possono risultare decine di volte piu' basse rispetto ai modelli proprietari di fascia alta: e' questa aggressivita' sui prezzi a spingere molte aziende a valutare i modelli cinesi per i carichi ad alto volume.

Come usarlo via API

L'API di DeepSeek e' compatibile con lo stile di OpenAI, quindi si puo' usare la libreria openai cambiando solo base URL e chiave. Un esempio in Python:

from openai import OpenAI

client = OpenAI(
    api_key="LA_TUA_CHIAVE_DEEPSEEK",
    base_url="https://api.deepseek.com"
)

resp = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "Sei un assistente conciso."},
        {"role": "user", "content": "Spiega in 3 punti cos'e' un'architettura Mixture-of-Experts."}
    ]
)
print(resp.choices[0].message.content)

Il risultato atteso e' una risposta in tre punti che spiega come un modello MoE attivi solo una parte dei suoi "esperti" per ciascun token, riducendo il costo di calcolo a parita' di dimensione complessiva.

Scaricarlo in locale da Hugging Face

Trattandosi di pesi aperti, i modelli sono pubblicati su Hugging Face (per esempio il repository deepseek-ai/DeepSeek-V4-Pro). Per scaricarli serve la utility ufficiale:

pip install -U huggingface_hub
huggingface-cli download deepseek-ai/DeepSeek-V4-Pro --local-dir ./deepseek-v4-pro

Attenzione pero' ai requisiti hardware: un modello con 1,6 mila miliardi di parametri totali non gira su un PC normale, nemmeno in versione quantizzata, e richiede infrastrutture con piu' GPU di fascia data center. Per la maggior parte degli utenti la via realistica resta l'API, mentre il download locale ha senso per chi dispone di hardware adeguato o vuole studiare l'architettura. Per i propri esperimenti in locale con modelli piu' piccoli abbiamo gia' pubblicato guide dedicate a Ollama e LM Studio.

Per chi ha senso scegliere DeepSeek V4

DeepSeek V4 e' una scelta forte per chi gestisce grandi volumi e vuole contenere i costi, per chi ha bisogno di contesti enormi (analisi di interi archivi o basi di codice) e per chi preferisce un modello a pesi aperti per ragioni di controllo e indipendenza. I limiti riguardano la qualita' sui compiti piu' difficili, dove i migliori modelli proprietari mantengono un margine, e le valutazioni che ogni organizzazione deve fare su dove vengono elaborati i dati. Ma il messaggio del 2026 e' chiaro: la frontiera dell'IA non e' piu' appannaggio esclusivo di pochi laboratori occidentali, e la concorrenza sui prezzi sta cambiando le regole del gioco.