Perplexity vuole che parte del lavoro dell'intelligenza artificiale lo faccia il tuo computer, non solo i server nel cloud. Al Computex 2026 l'azienda ha presentato quello che definisce il primo «orchestratore di inferenza ibrido locale-cloud»: un software che decide automaticamente, in tempo reale e anche a metà di un compito, quali elaborazioni far girare sul dispositivo dell'utente e quali inviare ai modelli di frontiera nel cloud.

Come funziona l'inferenza ibrida

Il sistema è stato mostrato dal CEO Aravind Srinivas sul palco, durante il keynote di Intel, accanto all'amministratore delegato Lip-Bu Tan. Nella dimostrazione, modelli «piccoli» in esecuzione su un processore Intel Core Ultra di nuova generazione stabilivano quali informazioni dovessero restare sul dispositivo e quali potessero essere inviate ai modelli più potenti nel cloud. L'esempio scelto era significativo: l'elaborazione di documenti riservati relativi a una trattativa, un caso in cui mantenere i dati sensibili in locale è un vantaggio enorme.

Secondo VentureBeat, l'orchestrazione è agnostica rispetto al modello e all'hardware: è stata confermata su processori Intel Core Ultra e su hardware NVIDIA. L'obiettivo dichiarato è duplice: ridurre i costi di calcolo nel cloud e migliorare la privacy, tenendo i dati più sensibili sul computer dell'utente.

L'orchestratore divide il lavoro tra il dispositivo locale e il cloud.

Perché l'ibrido locale-cloud è il prossimo terreno di gioco

Finora l'IA generativa ha vissuto quasi interamente nel cloud: tutto ciò che chiedi a un assistente viene elaborato in data center remoti. Questo modello ha due limiti crescenti: costa molto (ogni richiesta consuma capacità di calcolo costosa) e solleva preoccupazioni sulla privacy, perché i dati lasciano il dispositivo. Con PC e laptop sempre più potenti, dotati di unità dedicate all'IA, diventa sensato far girare in locale i compiti più semplici o più delicati, lasciando al cloud solo ciò che richiede davvero un grande modello.

È una visione condivisa da più attori del settore: anche i nuovi chip per PC presentati da NVIDIA e i modelli «on-device» di Apple e Google vanno in questa direzione. Perplexity prova a fare un passo in più, automatizzando la decisione su cosa eseguire dove, senza che sia l'utente a doverla prendere.

Come e quando provarlo

Al momento la funzione di inferenza ibrida non è ancora disponibile al pubblico: l'azienda l'ha annunciata come in arrivo nelle settimane successive, all'interno del suo agente «Perplexity Computer» e inizialmente su Windows. Chi vuole prepararsi può intanto familiarizzare con l'ecosistema Perplexity:

  1. Crea un account gratuito su Perplexity, che offre ricerche illimitate con modelli base e un numero limitato di ricerche «Pro» al giorno.
  2. Prova l'assistente agentico (disponibile su Windows e in espansione) per attività come la ricerca approfondita e l'analisi di documenti.
  3. Verifica i requisiti hardware: per sfruttare l'inferenza locale serviranno PC con processori e acceleratori IA recenti.

Il piano gratuito è sufficiente per testare le funzioni di ricerca; per un uso intensivo e per le funzioni più avanzate è previsto l'abbonamento Pro a pagamento.

Cosa aspettarsi dall'uso reale

Se l'inferenza ibrida manterrà le promesse, il beneficio più tangibile per l'utente sarà doppio: risposte più rapide per i compiti semplici (che non devono fare il viaggio fino al cloud) e maggiore riservatezza per documenti e dati sensibili. Resta da verificare quanto bene il sistema saprà decidere «al volo» cosa tenere in locale, e quanto i PC di fascia media riusciranno effettivamente a eseguire modelli utili senza rallentare. Sarà questo, alla prova dei fatti, a dire se l'IA ibrida è una svolta o solo una funzione di nicchia per macchine di fascia alta.