Google ha annunciato la disponibilità generale di Gemini 3.1 Flash-Lite, la versione più piccola e veloce della famiglia Gemini 3.1. È disponibile su Google AI Studio e su Vertex AI da questa settimana, dopo un periodo di anteprima riservato agli sviluppatori. Il posizionamento è chiaro: latenza estremamente bassa, costo per token molto contenuto, finestra di contesto da 1 milione di token. Pensato per chi processa volumi enormi di chiamate, fa classificazione, estrazione strutturata, primo livello di routing per agenti più grandi.
I numeri che contano
Sul fronte performance, Flash-Lite mantiene la stessa architettura mixture-of-experts della famiglia 3.1 ma con un numero di parametri attivi ridotto. Google dichiara una latenza di prima emissione di token (TTFT) intorno ai 200 millisecondi e una velocità in streaming superiore ai 250 token al secondo nei test interni. La finestra di contesto resta da 1 milione di token, sufficiente a leggere interi codici sorgente o documenti molto lunghi. Sul fronte costi, è la versione più economica della serie 3: la pagina Vertex AI indica una tariffazione per milione di token sensibilmente inferiore a Flash standard, con la promessa di essere competitiva contro Gemini 2.5 Flash-Lite, GPT-5.5 Nano e Claude Haiku 4.5.
Cosa cambia rispetto a Flash standard
Flash-Lite non è pensata per ragionamento complesso multi-step, ma per operazioni mirate ad alta frequenza. Tre casi tipici: classificazione di intent in un chatbot enterprise, estrazione di entità da documenti, prima passata di analisi prima di passare a un modello più potente. In agentic workflow, Flash-Lite può essere il "router" che decide a quale strumento delegare il compito; Gemini 3.1 Pro resta il modello di ragionamento profondo, mentre 3.1 Flash sta nel mezzo.
Come provarlo gratis
Il modo più rapido è Google AI Studio, l'interfaccia web gratuita di Google. Bastano i passaggi seguenti:
- Andare su aistudio.google.com e accedere con un account Google.
- Nel menu "Get API key", generare una chiave gratuita (il tier gratuito include un quota giornaliera generosa, sufficiente per i test).
- Nella tendina dei modelli scegliere
gemini-3.1-flash-lite. - Scrivere un prompt nella chat e osservare la latenza nel pannello laterale.
Per chi preferisce la riga di comando, l'API è raggiungibile con qualsiasi client HTTP. Esempio in Python con la libreria ufficiale google-genai:
pip install google-genai
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
resp = client.models.generate_content(
model="gemini-3.1-flash-lite",
contents="Estrai nome, partita IVA e indirizzo da: 'Mario Rossi, P.IVA 12345678901, Via Roma 1 Milano'."
)
print(resp.text)Il risultato atteso, per il prompt sopra, è un oggetto JSON con i tre campi popolati, restituito in meno di mezzo secondo. Per estrazione strutturata sistematica conviene impostare il parametro response_mime_type="application/json" e fornire uno schema.
Quando preferire Flash-Lite
Tre scenari tipici. Il primo è la classificazione di ticket in un help desk con 10mila richieste al giorno: con un prezzo a milione di token sostanzialmente più basso, su scala mensile il risparmio è significativo. Il secondo è la moderazione di commenti in piattaforme di contenuti, dove ogni millisecondo di latenza moltiplicato per milioni di chiamate diventa visibile. Il terzo è il routing in workflow agentici: il modello leggero decide se la domanda richiede ricerca web, codice, ragionamento profondo o risposta semplice.
Quando non usarlo
Flash-Lite non è la scelta giusta per compiti che richiedono catene di ragionamento lunghe, scrittura creativa lunga, generazione di codice complesso o analisi tecnica. In quei casi conviene salire a Gemini 3.1 Flash o, per i task più impegnativi, a Gemini 3.1 Pro che — sempre questa settimana — ha raggiunto un punteggio verificato del 77,1% su ARC-AGI-2, fra i più alti mai misurati. Per uso interattivo nelle app consumer, Google sta integrando 3.1 Pro direttamente nell'app Gemini e in NotebookLM per gli abbonati AI Pro e Ultra.




