Generare una canzone con l'intelligenza artificiale, oggi, non è più un trucco da demo: è un workflow che agenzie creative, podcaster, videomaker, sviluppatori di videogiochi e persino enti pubblici usano in produzione. Nel 2026 il mercato è condensato attorno a tre piattaforme che meritano davvero tempo: Suno v5, ElevenLabs Music e Udio. Questa guida ti porta dalla scelta dello strumento giusto fino a una pipeline Python che genera un brano completo (con voce, strumenti e mastering) chiamando le API.

A chi serve, cosa otterrai, cosa NON otterrai

Ti serve se devi produrre jingle pubblicitari, colonne sonore di social-video, podcast intro/outro, sottofondi per app e videogiochi, o se vuoi sperimentare con la composizione personale. Otterrai brani 2-4 minuti masterizzati pronti per la distribuzione. Non otterrai (ancora) controllo nota per nota sulla composizione: per quello servono ancora una DAW e un musicista.

Prerequisiti

  • Un browser aggiornato (per Suno, Udio, ElevenLabs c'è anche app desktop).
  • Per le API: account a pagamento — piani gratuiti delle tre piattaforme limitano fortemente o disabilitano l'API.
  • Per la parte Python: Python 3.10+, librerie requests, pydub, elevenlabs.
  • Una buona scheda audio è raccomandata: gli output AI sono mixati per ascolto critico.

Quale strumento per quale lavoro

ServizioPunti di forzaLimitiCosto
Suno v5Canzoni con voce in italiano molto convincenti, oltre 200 generi, brani fino a 8 minuti.API ancora in beta, licenza commerciale solo dal piano Pro in su.Free: 50 crediti/giorno. Pro: 8€/mese. Premier: 24€/mese.
ElevenLabs MusicQualità di mixing top, API stabile, integrazione con i voice clone (puoi cantare con la tua voce). Licenza commerciale inclusa dal piano Creator.Generi più pop/orchestrali, meno hip-hop estremo.Free: 30 minuti audio/mese. Creator: 22€/mese. Pro: 99€/mese.
UdioMigliore per estensioni di brani esistenti, controllo melodico e armonico fine.Voci ancora rigide rispetto a Suno; meno generi non-occidentali.Free: 600 crediti/mese. Standard: 10$/mese. Pro: 30$/mese.

Prima scelta se devi solo «buttare giù» canzoni rapide: Suno v5. Prima scelta se ti serve qualità commerciale, voce clonata e API: ElevenLabs Music. Prima scelta per estendere e remixare materiale esistente: Udio.

Passo 1 — Il prompt che fa la differenza

Una canzone AI viene fuori bene se il prompt segue tre regole: stile più generi più mood più strumenti più tempo più testo. Esempio per un jingle:

Stile: indie pop italiano anni 2000, mood allegro e leggero, BPM 120, strumenti: chitarra acustica, ukulele, batteria leggera, basso elettrico, voce femminile fresca. Tempo: 30 secondi. Testo: «Caffè Bellini, il sapore che ti sveglia — nuove cialde compostabili, ora in offerta».

Su Suno incolla questo nel campo Style (per i tag) e il testo nel campo Lyrics. Spunta Instrumental solo se vuoi un brano senza voce. Disattiva Cover Art per evitare crediti sprecati. Tre take in genere bastano per trovare quello buono.

Per stili più cinematografici scrivi orchestral score, hybrid electronic, 80 BPM, slow build, strings più brass. Per cose ritmate: UK garage, 130 BPM, female vocal chops, sub bass, claps. Più sei specifico, più il modello esegue.

Passo 2 — Generare con Suno dall'interfaccia web

  1. Vai su suno.com e fai login.
  2. Clicca Create. Scegli Custom Mode.
  3. Incolla il prompt di stile e il testo come sopra.
  4. Imposta la durata (per la v5 fino a 8 minuti).
  5. Clicca Generate. In 30-60 secondi ricevi due varianti.
  6. Premi Extend per allungare, Get Stems per scaricare voce/strumenti separati (Premier).

Le canzoni in italiano funzionano sorprendentemente bene su Suno v5: gli accenti vengono rispettati, le rime suonano naturali, e si possono usare strofa-ritornello-bridge usando i tag [Verse], [Chorus], [Bridge] dentro il testo.

Passo 3 — ElevenLabs Music via API

Procurati una API key dal pannello ElevenLabs API keys. Installa la libreria:

pip install elevenlabs requests pydub

Script minimo:

from elevenlabs.client import ElevenLabs
import os

client = ElevenLabs(api_key=os.environ["ELEVENLABS_API_KEY"])

brano = client.music.compose(
    prompt=(
        "Cinematic indie folk in italian, female lead voice warm and intimate, "
        "BPM 92, acoustic guitar, soft piano, light strings, dynamic build at 1:30. "
        "Lyrics in italian about coming home after a long journey."
    ),
    duration_ms=180000,   # 3 minuti
    model_id="music_v2"
)

with open("home.mp3", "wb") as f:
    for chunk in brano:
        f.write(chunk)
print("Salvato in home.mp3")

La compose ti restituisce uno stream MP3. Per generare con la tua voce clone, prima crea una voice su ElevenLabs (servono 1-3 minuti di audio pulito), poi passa voice_id="..." alla compose.

Passo 4 — Pipeline completa con stems, mastering, export

Per un workflow professionale conviene: 1) generare con Suno o ElevenLabs; 2) scaricare gli stem (voce, batteria, basso, strumenti); 3) mixare in una DAW (Reaper è gratis); 4) masterizzare con un plugin AI (LANDR, eMastered, oppure il Music Mastering di ElevenLabs). Lo script seguente concatena, normalizza il volume e applica un fade-out:

from pydub import AudioSegment

voce = AudioSegment.from_mp3("voce.mp3")
strum = AudioSegment.from_mp3("strumenti.mp3")

# allineamento
mix = voce.overlay(strum)

# normalizzazione e fade
mix = mix.normalize().fade_out(3000)

mix.export("finale.wav", format="wav")
Anche con l'AI un passaggio in DAW migliora sensibilmente il risultato. Foto Pexels.

Diritti, licenze, watermark: cosa si può davvero usare

È il pezzo che molti saltano e diventa un problema dopo. Suno consente uso commerciale dal piano Pro: i brani sono di tua proprietà e puoi monetizzarli su Spotify, YouTube e ads. Suno applica però un watermark audio (impercettibile ma identificabile) per esigenze di tracciabilità. ElevenLabs Music regola la licenza commerciale dal piano Creator in su, e il watermark è opzionale. Udio richiede il piano Standard per commerciale, con restrizioni sull'estensione di brani protetti. Per la SIAE in Italia, attenzione: i lavori puramente generati AI non sono depositabili come opera in capo a persona fisica autore, ma puoi gestirli come fonogrammi di tua titolarità e tutelare la produzione.

Errori comuni e soluzioni

  • Voce robotica o accento sbagliato: il modello sceglie l'intonazione dalla lingua del prompt. Per testi italiani, scrivi il prompt di stile in italiano oppure aggiungi esplicitamente «Italian native singer».
  • Cambio di chiave o BPM nel ritornello: usa i tag di struttura [Chorus] ed evita prompt che dicono «build up dramatico» senza specificare in che misura.
  • Output stagionato (suono «da AI»): rigenera con seed diversi e applica mastering AI; per Suno aiuta passare ai modelli «v4.5+» e «v5».
  • API limite raggiunto: ElevenLabs e Suno hanno quote per minuto. Implementa retry con backoff esponenziale e fai cache dei brani già generati con hash del prompt.

Quando NON usare AI music

Se il brano deve essere registrato dal vivo, se devi sincronizzare al frame su un film o una serie (l'AI non è ancora affidabile sul timing nota-per-nota), se il committente vuole l'esclusiva sui diritti (le licenze Suno/ElevenLabs sono non-esclusive). In tutti gli altri casi, soprattutto per podcast, social media, app, demo prodotto, contenuti corsi online — l'AI music di terza generazione è già arrivata al livello in cui difficilmente l'orecchio medio coglierà differenze. Da qui i prossimi mesi: API più aperte (annunciate da Suno per metà anno), prezzi più bassi grazie all'ingresso di ElevenLabs con NVIDIA come investitore, e probabilmente il primo grande contenzioso giudiziario che chiarirà i confini sull'uso di dataset musicali coperti da diritto d'autore. Conviene sperimentare adesso, mentre è ancora economico e i limiti sono pochi.