Stable Audio 3.0: musica IA open weight gratis

Stability AI ha presentato il 20 maggio 2026 Stable Audio 3.0, una famiglia di modelli per la generazione di audio e musica a partire da una semplice descrizione testuale. La novita' piu' importante per chi crea contenuti e' duplice: i modelli piu' piccoli hanno i pesi aperti e scaricabili da Hugging Face, e l'intero addestramento e' stato fatto su dati interamente concessi in licenza, un punto delicato vista la quantita' di cause in corso nel settore audio sull'uso di materiale protetto.

Quattro modelli per usi diversi

La famiglia comprende quattro modelli pensati per scenari differenti:

Small SFX (459 milioni di parametri): pensato per effetti sonori.
Small (459 milioni): genera tracce fino a circa due minuti, con tempi di inferenza molto rapidi (l'azienda parla di 0,44 secondi su una GPU H200).
Medium (1,4 miliardi): puo' creare composizioni complete fino a 6 minuti e 20 secondi, mantenendo struttura musicale e coerenza melodica.
Large (2,7 miliardi): la versione piu' potente, disponibile pero' tramite l'API di Stability e per il self-hosting in ambito enterprise.

I modelli Small SFX, Small e Medium sono distribuiti con pesi aperti: chiunque puo' scaricarli, usarli e modificarli. Tra le funzioni piu' utili ci sono l'addestramento con LoRA (per personalizzare lo stile), l'inpainting audio (rigenerare una porzione di brano) e l'editing multi-segmento.

I modelli Medium e Large generano brani completi fino a oltre sei minuti.

Come scaricarlo e generare il primo brano

La via piu' diretta passa dalla libreria ufficiale stable-audio-tools e dai pesi su Hugging Face. Serve una GPU con alcuni GB di VRAM per i modelli piccoli; per Medium conviene una scheda piu' capiente. I passaggi base:

# 1. accetta le condizioni sulla pagina del modello, poi autenticati
pip install stable-audio-tools huggingface_hub
hf auth login

# 2. scarica i pesi del modello Medium
hf download stabilityai/stable-audio-3-medium --local-dir ./sa3-medium

Dopo aver caricato il modello con gli strumenti forniti, puoi generare audio passando un prompt testuale e una durata. Un esempio di prompt:

"Lo-fi hip hop strumentale, 90 BPM, pianoforte morbido, vinile crepitante, atmosfera notturna e rilassata, 60 secondi"

Il risultato atteso e' un file audio coerente con la descrizione: tempo, strumenti e atmosfera indicati nel prompt. Piu' la descrizione e' precisa (genere, BPM, strumenti, mood), piu' l'output rispetta le tue intenzioni.

Alternative e quando non usarlo

Per chi non vuole installare nulla, esistono servizi pronti all'uso come Suno o Udio, che generano canzoni complete (anche con voce) direttamente dal browser, spesso con un piano gratuito limitato in crediti giornalieri. Stable Audio 3.0 ha senso quando vuoi controllo totale, esecuzione locale, possibilita' di personalizzare il modello con LoRA e tranquillita' sui diritti dei dati di addestramento. Resta invece meno adatto se cerchi voci cantate elaborate o la massima semplicita': in quel caso i servizi commerciali restano piu' immediati.

A cosa serve davvero

Le applicazioni concrete vanno dalle musiche di sottofondo per video e podcast agli effetti sonori per videogiochi e app, fino alla creazione di basi per musicisti. Il fatto che i pesi siano aperti e i dati con licenza rende Stable Audio 3.0 particolarmente interessante per studi, sviluppatori e creatori che hanno bisogno di usare l'audio generato anche a fini commerciali, con meno incognite legali rispetto al passato.

Perche' i dati con licenza fanno la differenza

Il punto sui dati di addestramento merita un approfondimento, perche' e' diventato il vero terreno di scontro nel settore audio. Diverse cause legali, negli Stati Uniti e in Europa, contestano ai generatori musicali l'uso di brani protetti senza autorizzazione. Scegliere un modello addestrato esclusivamente su materiale concesso in licenza riduce in modo significativo il rischio per chi pubblica contenuti, soprattutto a fini commerciali, ed e' una delle ragioni per cui Stability AI ha insistito su questo aspetto nella presentazione.

Va comunque ricordato che "pesi aperti" non significa automaticamente "uso libero per qualsiasi scopo": occorre leggere la licenza specifica di ciascun modello sulla pagina di Hugging Face, perche' possono esserci condizioni diverse per l'uso personale, di ricerca o commerciale. Prima di basare un progetto professionale su questi strumenti, conviene verificare i termini e, in caso di dubbi, valutare la versione tramite API o l'edizione enterprise, che spesso includono garanzie aggiuntive.