L'intelligenza artificiale ha un nuovo problema: la pazienza. La nostra. Chiunque abbia usato un'AI generativa conosce quella breve, ma a volte frustrante, attesa. Poni una domanda e guardi il cursore lampeggiare mentre il modello "pensa", generando la risposta una parola alla volta. Un processo che, per quanto veloce, non è mai istantaneo. Ora, una nuova famiglia di modelli linguistici chiamata Mercury, sviluppata da Inception Labs, promette di cambiare radicalmente le regole del gioco. La notizia, annunciata ufficialmente sul blog di AWS Machine Learning, è che questi modelli sono ora disponibili per gli sviluppatori attraverso Amazon Bedrock Marketplace. Ma non è solo una questione di accessibilità. La vera rivoluzione sta nel come funzionano e, soprattutto, nella loro velocità sbalorditiva. Il segreto? Non scrivere, ma "scolpire" il testo La maggior parte dei modelli AI che conosciamo, come quelli della famiglia GPT, sono "autoregressivi". Immagina di scrivere una frase: componi una parola, poi la successiva, e così via, in una sequenza ordinata. È un metodo logico, ma intrinsecamente sequenziale e, quindi, limitato in velocità. I modelli Mercury, invece, utilizzano un approccio basato sulla "diffusione". Invece di generare un token alla volta, creano una sorta di "bozza" grezza dell'intera risposta e poi la rifiniscono in passaggi successivi, aggiungendo dettagli e coerenza. È come uno scultore che parte da un blocco di marmo informe e, scalpellata dopo scalpellata, fa emergere la forma finale. Questo approccio parallelo permette di raggiungere velocità di generazione impressionanti. Quanto impressionanti? Inception Labs dichiara fino a 1.100 token al secondo su hardware moderno (GPU NVIDIA H100), una velocità fino a 10 volte superiore a quella di modelli comparabili. Questo non è un semplice miglioramento incrementale; è un salto quantico che potrebbe sbloccare nuove applicazioni. Dal codice ai chatbot: l'impatto della velocità Cosa significa, in pratica, una tale velocità? Per gli sviluppatori, vuol dire assistenti di codifica che completano intere funzioni in un batter d'occhio, senza interrompere il flusso di lavoro. La versione specializzata, Mercury Coder, eccelle proprio in questo, supportando linguaggi come Python, Java, JavaScript e molti altri. Nel loro annuncio, AWS mostra un esempio concreto: la richiesta di creare un gioco del Tris (tic-tac-toe) completo di interfaccia e logica AI imbattibile. Il modello Mercury Coder ha generato il codice HTML, CSS e JavaScript funzionante a una velocità di oltre 500 token al secondo. Il risultato non è solo veloce, è un'applicazione completa e funzionante generata in pochi istanti. Questa reattività trasforma l'interazione con l'AI. I chatbot diventano più fluidi e naturali, gli strumenti di riassunto forniscono risultati quasi istantanei e le applicazioni che richiedono risposte in tempo reale diventano finalmente praticabili. L'era della latenza nell'AI potrebbe essere agli sgoccioli. Non solo parole: l'AI che "agisce" Un'altra caratteristica chiave dei modelli Mercury è la loro capacità di "usare strumenti" (tool use). Questo significa che l'AI non si limita a generare testo, ma può capire quando è necessario interagire con sistemi esterni per rispondere a una domanda. Può chiamare un'API per controllare il meteo, eseguire un calcolo o recuperare informazioni da un database. L'esempio fornito è quello di un assistente di viaggio. Alla domanda "Che tempo fa a Tokyo e a quanti Yen corrispondono 1000 dollari?", il modello non inventa una risposta. Invece, capisce che deve eseguire due azioni distinte: chiamare una funzione per il meteo e un'altra per il calcolo. Una volta ottenuti i risultati, li integra in una risposta coerente e naturale per l'utente. Questo trasforma l'AI da un semplice oracolo di testo a un vero e proprio agente operativo. Considerazioni finali: una nuova era per le applicazioni AI? La disponibilità dei modelli Mercury su una piattaforma diffusa come AWS Bedrock è significativa. Rende questa tecnologia all'avanguardia accessibile a una vasta comunità di sviluppatori, che ora possono sperimentare e costruire applicazioni senza dover gestire infrastrutture complesse. È la democratizzazione di una potenza di calcolo che, fino a poco tempo fa, era confinata nei laboratori di ricerca. Se la promessa di velocità e reattività sarà mantenuta su larga scala, potremmo assistere a una nuova ondata di innovazione. Le applicazioni che oggi sembrano lente o macchinose potrebbero diventare incredibilmente fluide. L'interazione con l'intelligenza artificiale potrebbe finalmente perdere quella patina di artificialità per diventare un dialogo davvero istantaneo e produttivo. Stiamo assistendo non solo a un'AI più intelligente, ma a un'AI finalmente più veloce.