Il 4 giugno 2026 xAI ha rilasciato Grok Imagine Video 1.5, la nuova versione del suo generatore di video. La novità che lo distingue dalla concorrenza è l'audio sincronizzato nativo: dialoghi, effetti sonori e musica vengono prodotti insieme alle immagini in un unico passaggio, con il labiale dei personaggi allineato alla voce. Elon Musk ha presentato il modello mostrando un finto trailer ispirato all'Iliade. E non si tratta solo di marketing: il modello ha debuttato al primo posto nella classifica image-to-video di Artificial Analysis.

Cosa fa Grok Imagine Video 1.5

Il modello genera clip da 1 a 15 secondi a partire da un testo, da un'immagine o da più immagini, e include anche funzioni di editing video. La generazione è rapida: secondo i dati diffusi, servono circa 20-30 secondi per produrre una clip di 5 secondi a 720p, da due a tre volte più veloce di diversi modelli rivali. xAI rivendica inoltre una simulazione fisica più convincente — tessuti, acqua, capelli, interazione tra oggetti — uno dei punti deboli storici dei video generati dall'IA. L'output è in formato MP4 (codec H.264) a 24 fotogrammi al secondo, con risoluzione massima 720p e sette formati di inquadratura.

Grok Imagine 1.5 genera clip da 1 a 15 secondi con audio gia' sincronizzato.

I numeri: primo posto nell'arena image-to-video

Grok Imagine Video 1.5 ha esordito in testa alla classifica image-to-video del Video Arena di Artificial Analysis, con un punteggio Elo di 1404, in miglioramento di 52 punti rispetto alla versione 1.0. È un benchmark basato sui confronti alla cieca tra le preferenze degli utenti, quindi un buon indicatore della qualità percepita. Sotto il cofano c'è un'architettura chiamata Aurora, addestrata su Colossus 2, il supercomputer di xAI che secondo l'azienda conta circa 555.000 GPU NVIDIA.

Dove provarlo: app, API e Vercel

Ci sono tre strade per usarlo. La prima è l'app Grok: il rollout verso gli abbonati di X Premium è in corso, quindi la disponibilità dipende dal piano e dalla regione. La seconda è l'API per sviluppatori, su api.x.ai, dove il modello è identificato dall'alias grok-imagine-video-1.5-2026-05-30. La terza è l'integrazione su Vercel per chi costruisce applicazioni web. Al momento xAI non ha comunicato i prezzi pubblici del modello video, un dato da verificare prima di pianificare un uso intensivo.

Un prompt di esempio e cosa aspettarsi

Per capire come funziona, ecco un esempio di richiesta image-to-video: si parte da una foto e si descrive il movimento desiderato.

Parti da questa immagine di un faro sulla scogliera al tramonto. Anima onde che si infrangono sugli scogli, gabbiani che volano sullo sfondo e la luce del faro che inizia a ruotare. Aggiungi il suono delle onde e un sottofondo musicale malinconico. Durata 6 secondi, inquadratura cinematografica.

Il risultato atteso è una clip di 6 secondi in cui la foto statica prende vita con movimento coerente e una traccia audio già integrata, senza bisogno di montare il suono a parte. Per i creator significa saltare un intero passaggio di post-produzione; per chi fa prototipi di spot o storyboard, vuol dire ottenere una bozza animata in meno di un minuto.

Generare audio e video insieme elimina un passaggio di post-produzione.

Limiti attuali e confronto con Sora, Veo e Kling

Il tetto a 720p e 24 fps colloca Grok Imagine 1.5 sotto modelli che offrono risoluzioni più alte, ma il vero punto di forza è il pacchetto completo audio-video in un solo passaggio, dove rivali come Sora di OpenAI, Veo di Google e Kling spesso richiedono passaggi separati o non generano dialoghi sincronizzati con la stessa naturalezza. La velocità e l'integrazione con l'ecosistema X lo rendono interessante soprattutto per i contenuti social brevi. Resta il nodo della disponibilità: finché il rollout su X Premium non sarà completo, molti utenti dovranno passare dall'API. Per chi vuole sperimentare la generazione video con audio integrato, però, è oggi una delle opzioni più immediate e convincenti sul mercato. Come per tutti i contenuti sintetici, vale la regola di indicarne sempre la natura quando si pubblicano.