VibeThinker-3B: il modello open da 3B che ragiona

L'idea dominante degli ultimi anni e' che per ragionare bene un'IA debba essere enorme. VibeThinker-3B, rilasciato dal laboratorio cinese WeiboAI (il team di ricerca legato a Weibo) il 15 giugno 2026 con licenza MIT, prova il contrario: con appena 3 miliardi di parametri raggiunge, su compiti verificabili come matematica e programmazione, prestazioni vicine a modelli enormemente piu' grandi. E' interamente open: pesi scaricabili, technical report pubblico e nessun vincolo commerciale. Una notizia importante per chi vuole far girare un modello capace di ragionare senza data center.

Cosa rende speciale VibeThinker-3B

Il modello e' costruito sulla base Qwen2.5-Coder-3B e affinato con un metodo che WeiboAI chiama "Spectrum-to-Signal": una fase di addestramento che prima genera un ampio ventaglio di soluzioni diverse, poi rinforza con apprendimento per rinforzo quelle corrette. Il risultato, secondo il report tecnico (arXiv 2606.16140), sono numeri di rilievo: 94,3 su AIME26 (il test delle olimpiadi di matematica americane, che sale a 97,1 con una tecnica di scaling al momento dell'inferenza), 80,2 di Pass@1 su LiveCodeBench v6 e un tasso di accettazione del 96,1% su problemi LeetCode mai visti prima. Punteggi che, sui compiti verificabili, lo collocano nella fascia di sistemi molto piu' grandi come DeepSeek V3.2 o GLM-5.

VibeThinker-3B dimostra che un modello da 3B puo' competere sui compiti di ragionamento.

Attenzione pero' al perimetro: i punti di forza sono i domini a risposta verificabile (matematica, logica, codice). VibeThinker non e' un assistente generalista enciclopedico: il suo valore e' altrove, nel mostrare che il ragionamento "comprimibile" puo' stare in pochi parametri, mentre la conoscenza generale richiede modelli piu' grandi.

Perche' un modello piccolo conta

Un modello da 3 miliardi di parametri ha vantaggi pratici enormi. Gira su una singola GPU di fascia consumer e, in versione quantizzata, persino su un buon portatile; e' economico da eseguire, riduce la latenza e abbatte i costi di chi vuole integrare ragionamento avanzato in un prodotto. Per startup, ricercatori e scuole significa poter sperimentare con un modello capace senza dipendere da API a pagamento o da hardware costoso. E' la stessa filosofia che ha reso popolari modelli come la serie Qwen o i piccoli Gemma: democratizzare l'accesso all'IA che ragiona.

Come provarlo passo passo

VibeThinker-3B si scarica gratis da Hugging Face. Il modo piu' diretto e' la libreria Transformers di Python. Servono Python 3.10+, una GPU con almeno 8-10 GB di VRAM (o tanta RAM se si accetta lentezza su CPU) e le librerie transformers, torch e accelerate.

Installazione e download del modello:

pip install -U transformers accelerate torch

Caricamento e generazione, con i parametri di campionamento consigliati dal team (temperatura 1.0, top_p 0.95):

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "WeiboAI/VibeThinker-3B"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, torch_dtype="bfloat16", device_map="auto")

messages = [{"role": "user",
  "content": "Quante coppie ordinate (a,b) di interi positivi soddisfano a*b = 2026? Spiega."}]
prompt = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(prompt, return_tensors="pt").to(model.device)

out = model.generate(**inputs, max_new_tokens=8192,
    temperature=1.0, top_p=0.95)
print(tok.decode(out[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))

Il modello produce una catena di ragionamento esplicita prima della risposta finale: per problemi complessi conviene lasciare un max_new_tokens generoso (il team arriva a oltre 100.000 token per il ragionamento esteso). Su una domanda come quella dell'esempio, ci si aspetta che elenchi i divisori di 2026 e arrivi al conteggio corretto motivando ogni passaggio.

In versione quantizzata, un modello da 3B puo' girare anche su un buon portatile.

Alternative e quando non usarlo

Se cercate un assistente generalista per scrivere email, rispondere a domande di cultura generale o gestire conversazioni libere, VibeThinker non e' la scelta giusta: meglio modelli piu' grandi o servizi commerciali. Tra gli open, per il ragionamento restano validi i piccoli Qwen e i modelli della famiglia DeepSeek; per chi vuole solo provarlo senza installare nulla, conviene cercarlo su piattaforme di inferenza che lo ospitano gia' pronto. Ma se l'obiettivo e' matematica, logica o problemi di programmazione su hardware modesto, VibeThinker-3B e' oggi una delle dimostrazioni piu' convincenti che "piccolo" non significa piu' "poco capace".