OpenRouter, la piattaforma che permette di accedere a centinaia di modelli linguistici con un'unica integrazione, ha rilasciato il 12 giugno 2026 le API di Fusion, uno strumento che invece di scegliere un solo modello li fa lavorare insieme. L'idea, presentata sul blog ufficiale, è semplice da spiegare e sorprendentemente efficace: fondere le risposte di più modelli produce un risultato migliore di quello del singolo modello più bravo.

Il dato che ha fatto discutere è uno: un «panel» economico, composto da Gemini 3 Flash, Kimi K2.6 e DeepSeek V4 Pro, ha superato modelli di punta ben più costosi, raggiungendo prestazioni paragonabili ai migliori a circa metà del costo. Vediamo come funziona e quando conviene davvero.

Come funziona la fusione tra modelli

Con Fusion si compone un panel di modelli partecipanti e si sceglie un modello «giudice» incaricato di fondere i risultati. La richiesta dell'utente viene inviata contemporaneamente a tutti i modelli del panel; ciascuno ha accesso anche a ricerca e recupero web. Il giudice legge poi ogni risposta e segnala dove i modelli concordano, dove si contraddicono e cosa un singolo modello ha tralasciato, producendo una risposta sintetica.

Un risultato spiega bene da dove arriva il guadagno: nei test di OpenRouter, far lavorare in coppia due istanze dello stesso modello — Opus 4.8 con se stesso — ha prodotto un salto di 6,7 punti rispetto al modello da solo (65,5% contro 58,8% sul benchmark DRACO). Significa che una parte importante del miglioramento non viene dal mescolare architetture diverse, ma dal passaggio di sintesi in sé: confrontare più risposte e ricavarne una più solida riduce gli errori. La combinazione di modelli diversi, come Fable 5 con GPT-5.5, ha toccato il 69%, superando ogni modello preso singolarmente.

Fusion invia la richiesta a un panel di modelli e ne fonde le risposte con un giudice. Foto: Pexels

Come usarlo via API

Il punto di forza pratico è che Fusion si usa come una normale chiamata a un modello: chi già integra OpenRouter non deve riscrivere la propria applicazione. Si seleziona il panel di modelli e il giudice, e si invia il prompt all'endpoint compatibile con lo standard OpenAI. Ecco un esempio illustrativo in Python:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="LA_TUA_OPENROUTER_KEY",
)

resp = client.chat.completions.create(
    model="openrouter/fusion",
    messages=[{"role": "user",
        "content": "Riassumi i pro e i contro di tre database vettoriali open source."}],
)
print(resp.choices[0].message.content)

Il risultato atteso è una risposta che integra il contributo dei vari modelli del panel, tipicamente più completa e meno soggetta agli errori di un singolo modello. La configurazione esatta del panel e del giudice si imposta dalla dashboard di OpenRouter Fusion.

Quando conviene e quando no

Fusion ha un costo: interrogare più modelli e poi farli giudicare da un altro consuma più token di una singola chiamata. Il vantaggio è che un panel di modelli economici può eguagliare un modello di punta spendendo meno, e con maggiore affidabilità. Conviene quindi nei compiti dove la qualità e la correttezza contano molto — analisi, ricerca, generazione di codice complesso — e dove un errore costa più dei token risparmiati.

Non conviene, invece, per le richieste semplici e ad alto volume, dove la latenza e il costo aggiuntivo non sono giustificati da un guadagno di qualità. Per le aziende italiane che costruiscono prodotti basati su LLM, Fusion è uno strumento interessante per alzare l'affidabilità nei punti critici senza legarsi a un unico fornitore: una forma di «seconda opinione» automatica che, nei test, paga in precisione più di quanto costi in calcolo.