Tutorial DeepSeek V4: chat gratis, API e installazione locale

DeepSeek e' diventato in meno di due anni uno dei tre modelli aperti piu' usati al mondo. La versione V4 (rilasciata a fine aprile 2026 in due varianti, Flash e Pro) gareggia con GPT-5 e Claude Sonnet 4.6 su benchmark di ragionamento, matematica e coding, a un costo che oscilla fra il decimo e il quarto di quello dei concorrenti americani. In questa guida vediamo le tre strade per usarlo: dal browser senza registrazione, via API con codice funzionante, in locale sul proprio PC.

A chi serve questa guida

E' utile a tre profili: 1) chi vuole un'alternativa gratuita o piu' economica a ChatGPT per ragionamento e scrittura; 2) chi sviluppa applicazioni o agenti e cerca un'API con buon rapporto qualita'/prezzo; 3) chi ha esigenze di privacy e vuole un LLM forte da far girare offline sul proprio computer.

Cosa otterrai alla fine: saprai scegliere la modalita' giusta, configurare l'accesso API in 5 minuti, scrivere una prima chiamata Python e installare DeepSeek in locale con Ollama. Prerequisiti reali: per la chat web basta un browser; per l'API serve una carta di credito (anche se sono inclusi 5 milioni di token gratuiti); per il locale serve un PC con almeno 16 GB di RAM (versione 7B) o una GPU con 24 GB di VRAM (versione 32B). Conoscenze: zero per la chat web, basi di Python per le API.

Le varianti di DeepSeek V4

Il modello esiste in due famiglie principali. DeepSeek V4 Flash e' la versione economica: 0,14 dollari per milione di token in input (cache miss) e 0,28 in output, contesto 1 milione di token, ottima per task ripetitivi (estrazione dati, classificazione, riassunto). DeepSeek V4 Pro e' la versione di punta: durante la promo di lancio costa 0,435 dollari in input e 0,87 in output (sconto del 75 per cento fino al 31 maggio 2026), a regime sale a 1,74 e 3,48. Per fare un confronto: GPT-5 e' a 5 e 15 dollari, Claude Opus 4.7 a 15 e 75. La differenza pesa.

C'e' anche DeepSeek R1, il modello "reasoning" che mostra il ragionamento passo passo come o1 di OpenAI. La versione attuale (R1-Lite-V4) e' particolarmente forte su matematica e logica. Le risposte sono piu' lente (10-20 secondi per query complessa) perche' il modello "pensa" prima di rispondere.

Strada 1: usare DeepSeek dal browser, gratis

E' la via piu' rapida. Apri chat.deepseek.com, registrati con email, Google o numero di telefono. La registrazione non e' obbligatoria con tutti i frontend: il portale alternativo deep-seek.ai, ad esempio, da' accesso a V4 senza login (ma non e' ufficiale, attento ai dati che inserisci). L'interfaccia ufficiale ha una chat standard, supporta upload di PDF e immagini, esegue codice in sandbox, accede al web. La modalita' "Reasoning (R1)" si attiva con un toggle.

Limite del piano gratuito su chat.deepseek.com: nessuno dichiarato pubblicamente, ma in periodi di alta domanda l'utilizzo viene rallentato o sospeso temporaneamente. La conversazione e' multilingua e l'italiano e' supportato senza problemi (50+ lingue).

DeepSeek V4 e' compatibile con le SDK di OpenAI e Anthropic: serve solo cambiare endpoint e API key

Strada 2: integrare DeepSeek via API

Per chi sviluppa applicazioni, la via piu' produttiva e' l'API. DeepSeek e' compatibile con il formato OpenAI: significa che, se hai gia' codice che usa openai in Python, ti basta cambiare base_url e API key.

Vai su platform.deepseek.com e crea l'account. Ti vengono accreditati 5 milioni di token gratuiti per la prova.
Sezione "API Keys", clicca "Create new key", copia la chiave (la vedi solo una volta).
Carica i crediti: minimo 5 dollari via carta o stablecoin. Con la promo Pro, 5 dollari valgono circa 11 milioni di token in input.
Installa il client Python (compatibile OpenAI):
```
pip install openai
```

Una prima chiamata di prova:

from openai import OpenAI

client = OpenAI(
    api_key="sk-...",
    base_url="https://api.deepseek.com"
)

resp = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role":"system","content":"Sei un assistente che risponde in italiano."},
        {"role":"user","content":"Riassumi in 5 punti il principio di funzionamento dei transformer."}
    ],
    temperature=0.3
)
print(resp.choices[0].message.content)

Per usare la modalita' reasoning (R1):

resp = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=[{"role":"user","content":"Una scala ha 100 gradini. Salgo 3 alla volta e ricomincio. Quanti ne salgo in totale prima di arrivare in cima?"}]
)
print(resp.choices[0].message.reasoning_content)  # il ragionamento
print(resp.choices[0].message.content)  # la risposta finale

Per ridurre i costi su input ripetitivi, abilita la cache: il prezzo cache hit scende a 1/10 del prezzo input. Si attiva mettendo il system prompt e le istruzioni a inizio della richiesta, ed e' automatica per richieste consecutive con lo stesso prefisso.

Strada 2bis: passare da OpenRouter

Se non vuoi creare un account in Cina (DeepSeek e' una societa' cinese e i pagamenti passano per UnionPay), un'alternativa e' OpenRouter. Vai su openrouter.ai, registrati, ricarica con carta o PayPal, e usa l'endpoint https://openrouter.ai/api/v1 con il model id deepseek/deepseek-v4-pro. Costa il 5-10 per cento in piu' (margine OpenRouter), ma elimina la necessita' di un account diretto.

Strada 3: installare DeepSeek in locale con Ollama

Se hai esigenze di privacy o vuoi sperimentare offline, DeepSeek si scarica gratuitamente. Il modello completo V4 ha 671B parametri attivi e non gira su un singolo PC, ma esistono versioni distillate piu' piccole.

Installa Ollama da ollama.com: su macOS e Windows e' un installer .dmg o .exe; su Linux curl -fsSL https://ollama.com/install.sh | sh.
Scarica il modello. Il piu' equilibrato per un laptop e' la variante 7B (circa 4 GB):
```
ollama pull deepseek-v3:7b
```
Per chi ha 16 GB di VRAM, conviene la 14B:
```
ollama pull deepseek-v3:14b
```
Per chi ha workstation NVIDIA con 48 GB di VRAM (RTX 6000 Ada, A6000), la 32B:
```
ollama pull deepseek-v3:32b
```

Avvia una chat:

ollama run deepseek-v3:7b
>>> Spiega in 3 righe la differenza fra REST e GraphQL.

Per usarla da codice (Ollama espone un endpoint compatibile OpenAI sulla porta 11434):

from openai import OpenAI

client = OpenAI(
    api_key="ollama",
    base_url="http://localhost:11434/v1"
)
resp = client.chat.completions.create(
    model="deepseek-v3:7b",
    messages=[{"role":"user","content":"Ciao"}]
)
print(resp.choices[0].message.content)

Per un'interfaccia web stile ChatGPT, installa Open WebUI:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui ghcr.io/open-webui/open-webui:main

Vai poi su http://localhost:3000, registrati come admin, e seleziona DeepSeek dal menu modelli.

Quando DeepSeek conviene davvero

Conviene per: classificazione e estrazione massiva di dati (V4 Flash costa un decimo di GPT-5); generazione di codice e debug (su HumanEval V4 Pro supera Claude Sonnet 4.6); ragionamento matematico e logico (R1 e' competitivo con o3-mini); supporto multilingua, compreso l'italiano.

Non conviene per: scrittura creativa di alto livello (Claude Opus 4.7 resta superiore); compiti che richiedono tool calling complesso e plug-in (OpenAI ha l'ecosistema piu' maturo); compiti che richiedono visione avanzata (V4 e' limitato sulla parte multimodale rispetto a GPT-4o e Gemini 3.1).

Errori comuni

"401 Unauthorized": la chiave non e' valida o non hai caricato crediti. "429 Rate limit": hai superato i limiti di richieste/minuto del piano free; aspetta o passa a un tier superiore. Ollama "out of memory": il modello che vuoi caricare e' troppo grande per la tua VRAM; scegli una variante piu' piccola o aumenta lo swap. Risposte tagliate: aumenta max_tokens nella chiamata (default e' 4096).

Privacy: la nota dolente

DeepSeek e' una societa' cinese e i dati delle chiamate API sono archiviati in Cina, soggetti alla giurisdizione locale. Se lavori con dati personali soggetti a GDPR (clienti europei, dipendenti, dati sanitari) la via piu' sicura e' usare DeepSeek in locale via Ollama, oppure attraverso OpenRouter con la clausola "do not log" attiva. Per uso personale e non sensibile la chat web e' tranquillamente utilizzabile, ma evita di incollare dati riservati. La pubblica amministrazione italiana, ricordiamolo, ha vietato l'uso di DeepSeek su dispositivi di lavoro a febbraio 2025.

Come proseguire

Una volta familiarizzato con la chat, conviene provare a integrare DeepSeek dentro un piccolo agente. Un buon esercizio: collegarlo a un workflow n8n e usarlo come motore di classificazione per le proprie email; oppure usarlo come backend di un'app RAG sui propri PDF (con Chroma e PyMuPDF). Le SDK compatibili OpenAI rendono lo switch banale: una sola riga di base_url e si cambia provider.

DeepSeek V4 in pratica: come usarlo gratis nel browser, via API e in locale

A chi serve questa guida

Le varianti di DeepSeek V4

Strada 1: usare DeepSeek dal browser, gratis

Strada 2: integrare DeepSeek via API

Strada 2bis: passare da OpenRouter

Strada 3: installare DeepSeek in locale con Ollama

Quando DeepSeek conviene davvero

Errori comuni

Privacy: la nota dolente

Come proseguire

Fonti

Andrea Bertolotti

📬 Newsletter di AI Notizie

Continua a leggere

Costruire un server MCP per Claude in Python: tutorial completo

Generare musica con l'IA gratis: guida pratica a Suno e Udio nel 2026

NotebookLM, la guida pratica per studiare e fare ricerca con l'IA

Trascrivere audio e video gratis con Whisper in locale: guida completa