A fine maggio 2026 Stability AI, la società dietro Stable Diffusion, ha rilasciato Stable Audio 3.0, una famiglia di modelli per generare musica ed effetti sonori da una semplice descrizione testuale. La notizia rilevante per chi vuole sperimentare è che una parte dei modelli ha i pesi aperti ed è scaricabile da Hugging Face: si possono far girare sul proprio computer, gratuitamente, senza inviare nulla a un server.

Cosa c'è dentro Stable Audio 3.0

La famiglia comprende quattro modelli, dai più leggeri per gli effetti sonori (Small SFX) e la musica (Small), fino alle versioni Medium e Large. I modelli Small e Medium hanno pesi aperti pubblicati su Hugging Face; il modello Small per la musica è abbastanza compatto (circa 459 milioni di parametri) da girare anche su un portatile senza scheda grafica dedicata. Le caratteristiche principali:

  • Brani fino a 6 minuti e 20 secondi, una durata superiore a molti generatori concorrenti.
  • Generazione con granularità al secondo e inpainting, cioè la possibilità di rigenerare solo una sezione del brano lasciando intatto il resto.
  • Supporto al fine-tuning con LoRA, per adattare il modello a uno stile o a un set di suoni proprio.

Stability sottolinea di aver addestrato i modelli su dati con licenza e di aver siglato accordi con Universal Music Group e Warner Music Group, un punto non secondario in un settore in cui il diritto d'autore sui dati di addestramento è terreno di scontro legale.

Stable Audio 3.0 genera musica ed effetti con inpainting al secondo.

Come provarlo senza installare nulla

Il modo più rapido per farsi un'idea è la demo online ospitata su Hugging Face Spaces: si apre lo Space ufficiale stabilityai/stable-audio-3, si scrive una descrizione e si ascolta il risultato nel browser. Nessuna installazione, ideale per capire se il modello fa al caso vostro.

Come scaricarlo e farlo girare in locale

Per usarlo sul proprio computer servono Python 3.10 o superiore e un account Hugging Face (alcuni modelli sono "gated", cioè richiedono di accettare la licenza prima del download). I passaggi:

# 1) Installa gli strumenti di Stability
pip install stable-audio-tools torch torchaudio

# 2) Accetta la licenza sulla pagina del modello, poi autenticati
huggingface-cli login

# 3) Scarica il modello "small" per la musica (gira anche su CPU)
huggingface-cli download stabilityai/stable-audio-3-small-music --local-dir ./sa3-small

Una volta scaricato, un breve script Python genera un brano da un prompt testuale:

import torch, torchaudio
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

model, cfg = get_pretrained_model("./sa3-small")
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

cond = [{"prompt": "Lo-fi hip hop, 85 BPM, piano caldo, vinile, rilassante", "seconds_total": 60}]
audio = generate_diffusion_cond(model, conditioning=cond, sample_size=cfg["sample_size"], device=device)
torchaudio.save("brano.wav", audio.squeeze(0).cpu(), cfg["sample_rate"])
print("Salvato brano.wav")

Risultato atteso: un file brano.wav di circa 60 secondi con un beat lo-fi pronto da usare. Sul modello Small e su CPU la generazione richiede qualche minuto; con una GPU è molto più rapida e si possono usare i modelli Medium per una qualità superiore.

Suno, ElevenLabs e la questione licenza

Stable Audio 3.0 entra in un mercato dominato da Suno (valutata circa 2,45 miliardi di dollari, con un'ampia base di utenti) e animato anche da ElevenLabs, che a fine maggio ha presentato Music v2 con il cambio di genere a metà brano. La differenza di Stable Audio è la filosofia aperta: poter scaricare i pesi e generare in locale è prezioso per chi vuole privacy, controllo e personalizzazione via LoRA.

Attenzione però alla licenza: i modelli aperti di Stability sono distribuiti sotto la licenza "community", che consente l'uso gratuito per ricerca e per realtà sotto una certa soglia di fatturato, mentre per usi commerciali più ampi serve una licenza dedicata. Prima di pubblicare o monetizzare la musica generata, conviene quindi leggere con attenzione i termini sulla pagina ufficiale del modello. Per sperimentare, creare basi e prototipi, invece, oggi bastano un portatile e qualche minuto.