Qwen 3.6 Max Preview: il flagship cinese che vuole vincere sul coding

Alibaba ha rilasciato in queste settimane Qwen3.6-Max-Preview, il nuovo modello di punta della serie Qwen che rivendica la leadership cinese nella nicchia piu' redditizia: la programmazione. I numeri dichiarati dal team sono ambiziosi: primo posto in sei benchmark di coding, vittorie su GPT-5.5 e Claude Opus 4.7 su SWE-Bench Verified e LiveCodeBench, capacita' di mantenere un contesto di un milione di token con costi di inferenza tagliati del 40% rispetto al predecessore.

Cosa cambia rispetto a Qwen 3.5

Tre miglioramenti tecnici principali. Primo, la conoscenza enciclopedica: Qwen3.6-Max-Preview e' stato addestrato su un dataset ampliato del 2,3x rispetto a Qwen3.5 con un focus su letteratura tecnica, documentazione ufficiale di framework software, e dati piu' freschi (cutoff a marzo 2026). Secondo, l'aderenza alle istruzioni: i test su IFEval mostrano un miglioramento del 18% sulle istruzioni complesse multi-step. Terzo, l'agentic loop: il modello e' stato fine-tunato per chiamate a strumenti, esecuzione di codice e auto-correzione.

Il punto piu' rivendicato e' il coding. Su SWE-Bench Verified - il benchmark di riferimento per la capacita' di un modello di chiudere issue reali di GitHub - Qwen3.6-Max-Preview tocca 82,3%, leggermente sopra il 81,1% di Claude Opus 4.7 e il 79,8% di GPT-5.5. Su LiveCodeBench, raggiunge 71,2%. Sono numeri che, se confermati da test indipendenti, posizionerebbero Qwen tra i tre migliori modelli al mondo per il lavoro su codice.

Architettura e contesto: un milione di token

Il modello e' un Mixture-of-Experts ad alta sparsita': il totale dei parametri (non comunicato pubblicamente, ma stimato sopra i 600 miliardi) e' molto maggiore di quanto viene attivato per token (stimato attorno ai 40-50 miliardi). Questa architettura permette costi di inferenza relativamente contenuti pur mantenendo grande capacita' di rappresentazione.

Il contesto e' di un milione di token, paragonabile a Gemini 2.0 Flash e a DeepSeek V4. La differenza tecnica rispetto a DeepSeek e' l'attenzione: Qwen usa una variante della Group Query Attention con compressione adattiva, che permette di mantenere prestazioni stabili anche oltre i 500k token in input. Per i casi d'uso "intero codebase nel contesto", e' un vantaggio operativo.

Qwen 3.6 Max Preview e' disponibile gratuitamente sul portale qwen.ai. Foto: Matheus Bertelli / Pexels.

Come provarlo subito

Tre strade per accedere al modello, due gratuite.

1. Browser: gratis con limiti generosi

Andate su qwen.ai e create un account con email o profilo Google. Il piano gratuito offre 50 messaggi al giorno con Qwen3.6-Max-Preview, senza limiti sul context window. Per provarlo basta selezionare "Qwen3.6-Max-Preview" nel menu in alto a sinistra.

2. ModelScope: i pesi e i notebook

Su modelscope.cn (l'equivalente cinese di Hugging Face, gestito da Alibaba) e' disponibile la modalita' "playground" con notebook Jupyter pre-configurati. Anche qui niente carta di credito.

3. API Alibaba Cloud: a consumo

L'API e' compatibile OpenAI a livello di interfaccia. La chiamata in Python:

from openai import OpenAI

client = OpenAI(
    api_key="sk-xxx",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

resp = client.chat.completions.create(
    model="qwen3.6-max-preview",
    messages=[
        {"role": "user", "content": "Scrivi un endpoint FastAPI che gestisce upload di immagini con validazione del MIME type e dimensione massima 5MB."}
    ]
)
print(resp.choices[0].message.content)

I prezzi annunciati al momento del preview: 0,22 dollari per milione di token in input, 1,88 dollari per milione in output. Costi nettamente inferiori a GPT-5.5 e Claude Opus, leggermente superiori a DeepSeek V4-Pro.

Prompt di test che svelano la differenza

Tre prompt che mettono alla prova le novita' di Qwen3.6-Max-Preview rispetto a Qwen3.5:

Refactor this entire Django app to use async views and SQLAlchemy 2.0. Maintain backward compatibility for any module marked @stable. Generate migration scripts.

Il risultato atteso: il modello legge l'intero codebase (anche su 200k+ token), identifica i punti critici, genera codice e migrazioni rispettando i vincoli. Test fatti da MarkTechPost mostrano risultati paragonabili a Claude Opus su task del genere.

Analyze this SEC 10-K filing and produce a structured JSON with: financial highlights, risk factors ranked by severity, executive compensation summary, segment revenue trends.

Risultato: estrazione strutturata accurata, con un tasso di allucinazione su numeri specifici inferiore al 2% nei test interni.

Limiti e considerazioni

Tre limiti reali da conoscere. Primo: il modello e' addestrato con un forte bias verso la lingua cinese e l'inglese; in italiano e francese le prestazioni restano un gradino sotto Mistral Medium 3.5 e Claude Sonnet. Secondo: trattandosi di "preview", i pesi non sono pubblicamente scaricabili - per ora gli sviluppatori dipendono dall'API Alibaba o da qwen.ai. Terzo: la giurisdizione cinese impone certi tipi di censura nelle risposte (temi politici sensibili, alcune ricerche su personaggi pubblici cinesi). Per uso enterprise occidentale, e' un fattore da valutare.

La versione open weights di Qwen3.6-Max, prevista "entro l'estate 2026" secondo le dichiarazioni del team, sara' il vero banco di prova: i numeri promessi su SWE-Bench valgono solo se replicabili in self-hosting senza la coda di sicurezza di qwen.ai.