VibeThinker-3B: come usare il piccolo modello di Weibo

Un modello da 3 miliardi di parametri — abbastanza piccolo da girare su un portatile — che su AIME 2026, una delle gare di matematica più difficili, segna 94,3, a ridosso di sistemi cento volte più grandi. È il risultato che ha riacceso a giugno 2026 il dibattito sui benchmark dell'IA, e porta la firma di un nome inatteso: WeiboAI, il laboratorio della piattaforma social cinese Weibo. Il modello si chiama VibeThinker-3B.

Cosa rende speciale un modello così piccolo

VibeThinker-3B è un modello denso (non a esperti) costruito a partire da Qwen2.5-Coder-3B di Alibaba, con una pipeline di post-addestramento che gli autori chiamano Spectrum-to-Signal: in sintesi, prima si spinge il modello a generare un ampio ventaglio di soluzioni diverse, poi si rinforzano i percorsi di ragionamento che portano alla risposta corretta. Il risultato, descritto nel paper su arXiv, è una capacità di ragionamento su compiti verificabili sproporzionata rispetto alla taglia.

Oltre al 94,3 su AIME 2026, il modello raggiunge 76,4 su IMO-AnswerBench (80,6 con una tecnica di scaling a tempo di inferenza) e accetta il 96,1% delle sottomissioni in contest di programmazione su LeetCode (123 su 128). Numeri che, su quei domini specifici, lo collocano nella fascia dei modelli di frontiera.

Su AIME 2026 e sui contest di programmazione VibeThinker-3B si avvicina ai modelli di frontiera.

Perché è scoppiata la polemica sui benchmark

Risultati così sorprendenti hanno generato scetticismo. Come ha raccontato VentureBeat, una parte della comunità si chiede quanto pesino la contaminazione dei dati di test e la specializzazione estrema su pochi benchmark. La risposta degli autori è onesta e va riportata: la tesi non è che un modello da 3B abbia rimpiazzato i grandi modelli generalisti, ma che un modello «piccolo» possa raggiungere il primo livello su molti compiti di ragionamento verificabili. Su un test di conoscenza scientifica di livello universitario come GPQA Diamond, infatti, VibeThinker-3B si ferma a 70,2, ben dietro al 91,9 di Gemini 3 Pro. È bravissimo a ragionare su problemi chiusi, molto meno a «sapere» nozioni.

Dove si trova e a che condizioni

Il modello è pubblicato su Hugging Face con licenza MIT — tra le più permissive, utilizzabile anche commercialmente — nel repository WeiboAI/VibeThinker-3B. Gestisce un contesto fino a 64K token. Gli stessi autori avvertono di non usarlo per il tool-calling o per compiti agentici: è progettato per matematica, programmazione e materie STEM con verifica chiara della risposta.

Come scaricarlo e farlo ragionare

Essendo da 3 miliardi di parametri, in precisione bfloat16 occupa circa 6-7 GB di memoria: gira su una GPU di fascia media o, quantizzato, anche su CPU. Con transformers:

pip install -U transformers torch accelerate

from transformers import AutoModelForCausalLM, AutoTokenizer

mid = "WeiboAI/VibeThinker-3B"
tok = AutoTokenizer.from_pretrained(mid)
model = AutoModelForCausalLM.from_pretrained(mid, torch_dtype="bfloat16", device_map="auto")

prompt = "Quanti numeri interi tra 1 e 1000 sono divisibili per 7 ma non per 3? Ragiona passo passo."
msg = [{"role": "user", "content": prompt}]
ids = tok.apply_chat_template(msg, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(ids, max_new_tokens=4096, temperature=1.0, top_p=0.95)
print(tok.decode(out[0][ids.shape[1]:], skip_special_tokens=True))

Parametri consigliati dagli autori: temperatura 1.0, top-p 0.95, e un tetto generoso di token in uscita, perché il modello «pensa» a lungo prima di rispondere. Risultato atteso: una catena di ragionamento esplicita che conta i multipli di 7 (143), sottrae i multipli di 21 (47) e conclude con 96.

Il modello è disponibile con licenza MIT e si avvia anche via vLLM con un solo comando.

Servirlo come API con vLLM

Se vuoi interrogarlo come un servizio compatibile con l'API OpenAI, vLLM lo rende immediato:

pip install vllm
vllm serve "WeiboAI/VibeThinker-3B"

A quel punto puoi inviare richieste all'endpoint locale http://localhost:8000/v1 come faresti con qualsiasi modello. Quando ha senso usarlo: per chi lavora su matematica, gare di programmazione, generazione e verifica di codice o tutoraggio STEM, e vuole un modello gratuito, eseguibile in locale e privo di costi per token. Per assistenti generalisti, ricerca di informazioni o automazioni con strumenti, restano più adatti i grandi modelli o sistemi pensati per l'uso di tool.