LFM2.5-8B-A1B: l'IA on-device di Liquid AI

Il 28 maggio 2026 Liquid AI, lo spin-off nato dal MIT, ha rilasciato LFM2.5-8B-A1B, un modello linguistico open progettato per girare sui dispositivi, non nei data center. La sigla riassume l'idea: 8,3 miliardi di parametri totali ma una architettura a "mixture of experts" che ne attiva solo circa 1,5 miliardi per ogni token. Tradotto: la qualita' di un modello piu' grande, la velocita' e i consumi di uno molto piu' piccolo. E' uno dei pochi modelli pensati davvero per il telefono e il portatile, ed e' gia' scaricabile da Hugging Face.

Architettura e numeri: 8,3 miliardi di parametri, 1,5 attivi

LFM2.5-8B-A1B ha una finestra di contesto da 131.072 token e copre nove lingue. L'architettura, descritta nel report tecnico di Liquid, alterna blocchi convoluzionali "LIV" a doppio gate e pochi strati di attenzione, una scelta che riduce il costo di calcolo rispetto ai Transformer classici. A differenza del predecessore, questa versione e' un modello "reasoning-only": produce sempre una catena di ragionamento esplicita prima della risposta finale. Ha senso proprio nei modelli MoE, dove ogni token di ragionamento costa poco perche' i parametri attivi sono pochi.

LFM2.5-8B-A1B e' progettato per girare su hardware consumer.

I benchmark: IFEval, MATH500 e la corsa anti-allucinazioni

Rispetto al modello precedente, Liquid dichiara miglioramenti netti su piu' fronti: il tasso di "non allucinazione" sul benchmark AA-Omniscience sale da 7,46 a 63,47, l'indice IFEval (capacita' di seguire le istruzioni) passa da 79,44 a 91,84 e MATH500 cresce da 74,80 a 88,76. Sul fronte velocita', l'azienda riporta circa 253 token al secondo in decodifica su un chip Apple M5 Max. Sono numeri dichiarati dal produttore, da verificare con test indipendenti, ma indicano un salto di qualita' importante per un modello di questa categoria.

Come scaricarlo e usarlo con llama.cpp e Ollama

Il modello arriva con supporto "day one" per i principali strumenti di inferenza locale: llama.cpp, MLX (per i Mac Apple Silicon), vLLM e SGLang. Per la maggior parte degli utenti la via piu' semplice e' la versione quantizzata in formato GGUF. Con llama.cpp e gli strumenti di Hugging Face puoi scaricare ed eseguire il modello cosi':

pip install -U huggingface_hub
huggingface-cli download LiquidAI/LFM2.5-8B-A1B-GGUF --include "*Q4_K_M*" --local-dir lfm25

# avvia un server locale compatibile OpenAI con llama.cpp
llama-server -m lfm25/LFM2.5-8B-A1B-Q4_K_M.gguf -c 8192 --port 8080

In alternativa, su Mac con Apple Silicon, MLX offre prestazioni ottime; su Windows e Linux con GPU, vLLM e' la scelta per servire piu' richieste in parallelo. Chi preferisce un'interfaccia pronta puo' provare le demo ufficiali pubblicate come Space su Hugging Face prima ancora di installare nulla.

Requisiti hardware e un prompt di prova

Il vantaggio del design MoE e' proprio qui: pur avendo 8,3 miliardi di parametri totali, la quantizzazione a 4 bit porta l'ingombro a pochi gigabyte, rendendo il modello eseguibile su un portatile recente con 16 GB di RAM o su uno smartphone di fascia alta. Una volta avviato il server, puoi interrogarlo come faresti con l'API di OpenAI:

curl http://localhost:8080/v1/chat/completions   -H "Content-Type: application/json"   -d '{
    "messages": [
      {"role": "user", "content": "Spiega in 3 punti perche un modello MoE consuma meno di un modello denso equivalente."}
    ]
  }'

Il risultato atteso e' una risposta in italiano, preceduta da una breve catena di ragionamento, che spiega come il MoE attivi solo una parte dei parametri per ogni token riducendo i calcoli. E' la dimostrazione pratica che un modello capace di ragionare puo' girare interamente sul tuo dispositivo, senza inviare nulla a un server esterno.

Quando conviene (e quando no)

LFM2.5-8B-A1B brilla nei casi in cui contano privacy, costi e assenza di connessione: assistenti che girano sul dispositivo, app mobili che non devono mandare i dati in cloud, automazioni locali con chiamata di strumenti. Non sostituisce i modelli di frontiera come GPT-5, Claude o Gemini per i compiti piu' complessi di ragionamento o per la programmazione avanzata, dove la differenza di scala resta evidente. La regola pratica e': se il compito e' ripetitivo, ben definito e va eseguito tante volte e in modo riservato, un modello on-device come questo e' spesso la scelta migliore; se serve la massima qualita' su problemi aperti, conviene ancora un grande modello in cloud.

Con i formati GGUF il modello gira anche su un portatile con 16 GB di RAM.

Vale la pena inquadrare LFM2.5-8B-A1B in un contesto piu' ampio. Il 2026 e' l'anno in cui i modelli piccoli ed efficienti sono diventati un campo di battaglia: accanto a Liquid AI spingono Google con la famiglia Gemma, Alibaba con i Qwen compatti, Microsoft con i Phi e diversi laboratori cinesi con modelli on-device. La direzione e' chiara: non tutto deve girare in un data center. Per gli sviluppatori europei, attenti alla privacy e ai costi, avere modelli capaci che girano localmente e' anche una forma di indipendenza tecnologica, perche' riduce la dipendenza dalle API a pagamento dei grandi fornitori. La forza dell'open, in ogni caso, e' poter scegliere: con i pesi disponibili su Hugging Face, chiunque puo' scaricarlo, provarlo, modificarlo e integrarlo nei propri progetti senza chiedere il permesso a nessuno.