Alibaba ha aggiornato nelle ultime settimane la famiglia Qwen, i suoi modelli linguistici, con la generazione Qwen 3.6. La variante piu' chiacchierata e' Qwen 3.6 Max-Preview, che secondo i dati comunicati dall'azienda guida contemporaneamente piu' classifiche su programmazione e compiti agentici — tra cui SWE-bench Pro, Terminal-Bench 2.0 e diversi benchmark interni dedicati a coding, navigazione web e ragionamento scientifico. Accanto al modello "Max", chiuso e disponibile via API, c'e' la linea aperta: il Qwen3.6-72B in versione "dense", rilasciato con licenza Apache 2.0, con un contesto da 256.000 token e ottimi punteggi su HumanEval, SWE-bench Verified e LiveCodeBench.

Due modelli, due usi diversi

Conviene tenere separate le due cose. Qwen Max e' il modello di punta, pensato per chi vuole il massimo delle prestazioni senza preoccuparsi dell'hardware: si usa via cloud, come si farebbe con GPT-5.5 o Gemini. La linea open (il 72B dense, ma anche modelli piu' piccoli e versioni MoE della stessa famiglia) e' invece per chi vuole scaricare i pesi, eseguirli sui propri server, metterli a punto su dati aziendali o evitare di mandare i prompt a un fornitore esterno. Apache 2.0 consente l'uso commerciale. Qwen e' da tempo una delle famiglie open piu' usate al mondo, anche perche' supporta bene molte lingue, inclusa una resa solida in italiano, e si integra con i principali strumenti di inferenza come vLLM, llama.cpp, Ollama e LM Studio.

La linea open di Qwen e' tra le piu' scaricate al mondo: il 72B dense esce con licenza Apache 2.0 e 256K di contesto.

Come provarlo: chat, API e download

  • Chat ufficiale: su chat.qwen.ai si prova gratis la famiglia Qwen (incluso il modello di punta), con i limiti tipici dei piani free. Utile per un primo giro.
  • API: i modelli Qwen, incluso Max, sono disponibili tramite Alibaba Cloud Model Studio (servizio Model Studio/DashScope) e, in molti casi, anche tramite aggregatori come OpenRouter. Le API Qwen sono in genere compatibili con il formato OpenAI; i prezzi del modello Max sono competitivi rispetto ai concorrenti di pari fascia, mentre i modelli piccoli costano pochissimo.
  • Pesi aperti: si scaricano da Hugging Face sotto l'organizzazione Qwen (per esempio con huggingface-cli download Qwen/Qwen3.6-72B-Instruct). Il 72B in piena precisione richiede hardware da server; quantizzato a 4 bit gira su una o due GPU da 24-48 GB. Per il PC di casa convengono i modelli piu' piccoli della stessa famiglia: cercate la voce qwen3.6 nella libreria di Ollama ed eseguite, ad esempio, ollama run qwen3.6 nella taglia adatta alla vostra memoria (le versioni da 7-8 miliardi di parametri girano comodamente con 16 GB di RAM).

Un esempio: estrarre dati strutturati

Via API, in Python:

from openai import OpenAI
client = OpenAI(api_key="LA_TUA_CHIAVE",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1")
r = client.chat.completions.create(
  model="qwen-max",
  messages=[{"role":"user","content":"Da questo testo estrai nome, citta e importo in JSON: Il signor Rossi di Bologna ha versato 1250 euro il 3 maggio."}],
)
print(r.choices[0].message.content)

Il risultato atteso e' un oggetto JSON pulito con i campi nome, citta e importo valorizzati correttamente. Per compiti di codice o agenti, Qwen 3.6 si comporta particolarmente bene quando gli si chiede di lavorare passo dopo passo e di usare strumenti esterni (esecuzione di comandi, lettura di file).

Quando sceglierlo

Qwen 3.6 e' una scelta forte se vi serve un modello multilingue solido, se cercate prestazioni alte sul codice o sugli agenti, o se volete una base open da personalizzare. Come per gli altri modelli cinesi, per dati sensibili valutate con attenzione dove vengono elaborati: l'opzione piu' prudente per usi regolati e' il self-hosting dei pesi aperti o un provider che li offra su infrastruttura europea. Per sperimentare, prototipare e costruire applicazioni a basso costo, la famiglia Qwen e' oggi tra le piu' versatili in circolazione.