Si chiamava semplicemente «Anonymous Submission 7» quando, ai primi di aprile, ha cominciato a salire in cima all'Artificial Analysis Video Arena, il banco di prova indipendente che mette in competizione i modelli di generazione video. In una manciata di giorni ha steso Veo 3 di Google, Kling 2.5 di Kuaishou e Sora di OpenAI, prendendosi la prima posizione sia nella categoria text-to-video sia in quella image-to-video. Il 10 aprile Bloomberg ha rotto la storia: dietro al modello c'era Alibaba. Il nome ufficiale, abbastanza spiazzante, e' HappyHorse 1.0.

Da allora il modello e' approdato come API commerciale su fal.ai e Atlas Cloud, e Alibaba ha confermato che i pesi saranno aperti sotto licenza Apache 2.0, anche se la pubblicazione su GitHub e Hugging Face e' marcata come «coming soon».

Cosa sa fare HappyHorse 1.0

Il modello supporta quattro modalita': testo-a-video con e senza audio nativo, immagine-a-video con e senza audio nativo. Genera in 1080p con un frame rate variabile fino a 24 fps, con clip di lunghezza tipica fra i 5 e i 10 secondi. Le caratteristiche per cui la community lo sta valutando come stato dell'arte:

  • Audio generato in sincrono: una pista audio (parlato, foley, ambiente, musica) coerente con il video, prodotta dal medesimo modello. Pochi altri strumenti aperti lo fanno: solo Veo 3 ci era arrivato fra i grandi.
  • Lip sync multilingue: si genera un dialogo in italiano o in inglese e i personaggi muovono le labbra in modo credibile.
  • Coerenza multi-shot: lo stesso personaggio e ambiente possono attraversare piu' inquadrature in una scena senza saltare.
  • Controllo prompt fine: prompt strutturato con telecamera, lente, illuminazione, stile - gestiti con campi dedicati nelle API.

L'architettura: un Transformer da 15 miliardi che unifica testo e pixel

Sotto al cofano c'e' un Transformer unificato da 15 miliardi di parametri che usa l'architettura Transfusion (gia' presentata in un paper di Meta del 2024): si combinano in un'unica rete la previsione autoregressiva del testo e la diffusione sui segnali visivi continui. Il risultato e' che lo stesso modello scrive la sceneggiatura interna (il prompt riformulato), pianifica le inquadrature e poi le rende.

Il team che lo ha costruito sta dentro il Future Life Lab del gruppo Taotian, il braccio e-commerce di Alibaba. Lo guida Zhang Di, l'ex Vice President di Kuaishou responsabile della famiglia Kling AI: una storia di transferimento di competenze da un colosso cinese all'altro che dice qualcosa sulla rapidita' con cui si muove il talento nel video AI in Cina.

HappyHorse 1.0 ha debuttato al primo posto nell'Artificial Analysis Video Arena.

Come provarlo subito

Per ora HappyHorse 1.0 si prova in tre modi.

1. Online gratuito

Sul sito ufficiale Alibaba ha messo una demo «free tier» con un limite di alcune generazioni al giorno. La qualita' e' identica a quella delle API. Basta un account.

2. API via fal.ai

Il modello e' disponibile come servizio API su fal.ai. I prezzi sono attorno a 0,30-0,40 dollari per 5 secondi di video 1080p (text-to-video) e leggermente piu' alti per image-to-video con audio. Una chiamata di esempio in Python (con la libreria fal-client):

import fal_client

result = fal_client.run(
    "fal-ai/happy-horse/v1",
    arguments={
        "prompt": "Un robot cuoco prepara la pasta in una cucina italiana, primo piano, luce calda",
        "aspect_ratio": "16:9",
        "duration": 5,
        "audio": True
    },
)
print(result["video"]["url"])

3. Pesi open (in arrivo)

Per chi vuole far girare il modello in casa, Alibaba ha annunciato il rilascio dei pesi e del codice su GitHub e Hugging Face sotto licenza Apache 2.0. Le repository non sono ancora pubbliche al momento; ci si aspetta che la VRAM richiesta per l'inferenza completa sia paragonabile a quella di Wan 2.2 e dei modelli di Kling - quindi servono GPU di fascia alta (idealmente 48 GB+) o quantizzazioni 8 bit per scendere sulle 24 GB.

Esempio di prompt e risultato

Ecco un prompt strutturato che mostra le possibilita' del modello:

Prompt: «Una signora anziana fa pace con un gatto persiano grigio in una cucina italiana anni '70, controluce dalla finestra, il gatto miagola e lei sussurra in italiano ‘ma chi te l'ha detto di stare li''. Camera handheld, lente 35mm, stile cinematografico, audio sincronizzato.»

L'output (5 secondi, 1080p, 24 fps) restituisce due inquadrature coerenti, lip sync sull'italiano accettabile e una traccia audio con miagolio e voce a basso volume. Non e' Sora-livello cinematografico, ma e' competitivo con Kling 3.0 e nettamente superiore a qualunque modello open accessibile oggi.

Cosa significa per il mercato

Un modello video di livello arena con pesi destinati ad Apache 2.0 e' un punto di svolta. Finora gli unici modelli aperti competitivi erano i Wan di Alibaba stessa e i modelli mLM di Stability, generalmente uno o due gradini sotto i closed source. Se Alibaba mantiene la promessa di rilasciare i pesi, l'effetto sull'ecosistema sara' simile a quello che DeepSeek ha avuto sui modelli linguistici: una compressione brusca dei costi commerciali e una proliferazione di derivati, fine-tuning e specializzazioni.

Il punto sulla cinese-izzazione del video

Il dettaglio politico non e' di poco conto: i quattro modelli oggi piu' forti di video generativo - Kling, Sora, Veo e ora HappyHorse - sono per il 75% di origine cinese. Le startup occidentali (Runway, Luma, Pika) hanno raccolto cifre enormi ma sul piano della qualita' pura nei benchmark indipendenti restano oggi nelle retrovie. La differenza, secondo gli analisti citati da CNBC, sta nel dato di training: i giganti cinesi hanno accesso a basi dati video di scala industriale legate ai loro ecosistemi e-commerce e short video (Taobao, TikTok), che addestrano modelli con varieta' di stili visivi difficili da replicare nel mercato occidentale.

Per i creator europei e italiani, intanto, la disponibilita' di HappyHorse 1.0 a meno di 50 centesimi a clip cambia in concreto cosa si puo' fare con un budget ridotto. Non sostituisce ancora un set vero, ma rende possibile cose - come animare un personaggio coerente in tre inquadrature con dialogo in italiano - che solo sei mesi fa erano realisticamente fuori portata.