Tencent ha rilanciato la sua famiglia di modelli Hunyuan con HY3 Preview, il primo grande modello uscito dopo la ricostruzione della sua infrastruttura di IA. È un modello «mixture of experts» da circa 295 miliardi di parametri totali, con ~21 miliardi attivi per token e finestra di contesto da 256 mila token. Reso disponibile a fine aprile 2026 con pesi aperti su Hugging Face e GitHub, nelle settimane successive ha visto crescere rapidamente l'uso e l'integrazione nei prodotti del gruppo.

Cosa promette HY3 Preview

Tencent lo descrive come il modello più capace della serie Hunyuan finora, con un'architettura di ragionamento «fusa» che integra pensiero veloce e pensiero lento: in pratica decide quanto «ragionare» a seconda del compito. I punti su cui l'azienda insiste sono tre:

  • Ragionamento complesso: buoni risultati su benchmark STEM impegnativi e su prove di tipo olimpiadico (matematica, biologia).
  • Capacità agentiche e prestazioni in produzione: la capacità di portare avanti flussi di lavoro agentici lunghi — nell'ordine delle centinaia di passi — con elaborazione di documenti, analisi dati, recupero di conoscenza e orchestrazione di strumenti via protocollo MCP. Tencent rivendica miglioramenti sensibili su tempo al primo token e tempo di risposta end-to-end e una percentuale di successo molto alta nelle sue misurazioni interne.
  • Integrazione nei prodotti: HY3 Preview è già finito dentro applicazioni Tencent come l'assistente Yuanbao, gli strumenti per sviluppatori CodeBuddy e WorkBuddy, ima e Tencent Docs.

Il messaggio — tipico di questa fase del mercato — è che a contare non sono solo i punteggi dei benchmark ma il comportamento in scenari reali, soprattutto agentici.

Skyline notturno di una metropoli cinese, simbolo della competizione tra laboratori IA
Con HY3 Preview Tencent rientra in pieno nella competizione tra i grandi modelli open cinesi.

Come usarlo

Anche qui vale l'avvertenza di sempre: un modello da 295B non è per il PC di casa: servono più GPU di fascia data center per servirlo a una velocità accettabile. Per chi ha l'infrastruttura, i pesi sono su Hugging Face (tencent/Hy3-preview) e il codice di esempio su GitHub (Tencent-Hunyuan/Hy3-preview); il deployment si fa con i soliti motori di inferenza (vLLM e simili). Per scaricarlo:

pip install -U "huggingface_hub[cli]"
huggingface-cli download tencent/Hy3-preview --local-dir ./hy3-preview

La via comoda per quasi tutti è di nuovo l'API: HY3 Preview è offerto da diversi provider di inferenza con prezzi indicativi nell'ordine di pochi centesimi di dollaro per milione di token in input e qualche decina di centesimi in output (verificare i listini al momento, perché cambiano spesso), oltre a essere accessibile dentro i prodotti consumer di Tencent. Esempio di chiamata via endpoint compatibile OpenAI:

from openai import OpenAI
client = OpenAI(base_url="https://API-DEL-PROVIDER/v1", api_key="LA_TUA_CHIAVE")
r = client.chat.completions.create(
    model="hunyuan-hy3-preview",
    messages=[{"role":"user","content":"Hai a disposizione gli strumenti 'cerca_web' e 'leggi_file'. Pianifica i passi per riassumere un PDF di 50 pagine e poi confrontarlo con due fonti online."}]
)
print(r.choices[0].message.content)

Risultato atteso: un piano numerato — lettura ed estrazione del PDF a blocchi, sintesi parziali, ricerca delle fonti, confronto, sintesi finale — con indicazione di quando invocare ciascuno strumento. È il tipo di compito su cui Tencent ha tarato il modello.

Per chi ha senso

HY3 Preview interessa chi costruisce agenti e pipeline complesse e cerca un modello aperto, con contesto ampio e buone capacità di orchestrazione, da auto-ospitare o da usare via provider a costo contenuto. È un'alternativa diretta a Kimi K2.6, GLM-5.1, DeepSeek V4 e MiMo-V2.5: la scelta dipenderà da benchmark sul proprio caso d'uso, costi del provider e considerazioni su filtro dei contenuti e conformità. Per l'uso personale in locale restano invece più adatti i modelli da 7-14 miliardi di parametri con strumenti come Ollama.