Mentre l'attenzione resta puntata sui grandi modelli linguistici, la generazione di voce sintetica fa passi avanti silenziosi ma importanti. Il 4 giugno 2026 il laboratorio Boson AI ha pubblicato su Hugging Face Higgs Audio v3, un modello text-to-speech da circa 4 miliardi di parametri, completamente scaricabile, capace di leggere testo con voci espressive in oltre cento lingue — italiano compreso — e di clonare una voce a partire da un breve campione. È una delle alternative aperte più interessanti ai servizi commerciali come ElevenLabs, con il vantaggio di poter girare sul proprio computer senza inviare nulla al cloud.
Cosa sa fare Higgs Audio v3
Il modello, basato su un'architettura multimodale che integra un backbone Qwen3, è pensato per tre scenari principali. Il primo è la sintesi vocale espressiva: non solo legge un testo, ma ne controlla tono, ritmo ed emozione, restituendo un parlato molto più naturale delle vecchie voci «robotiche». Il secondo è il supporto multilingue: con oltre cento lingue coperte, lo stesso modello può doppiare contenuti per pubblici diversi senza cambiare strumento. Il terzo è la clonazione vocale: fornendo un campione audio di riferimento, è possibile generare nuovo parlato che imita timbro e cadenza di quella voce — una capacità potente e delicata, da usare solo con il consenso di chi viene clonato.
Come provarlo senza installare nulla
Il modo più rapido per farsi un'idea è la demo online. Sul sito di Hugging Face sono attivi diversi «Space» pubblici (per esempio quello curato da multimodalart) che permettono di incollare un testo, scegliere la lingua e ascoltare il risultato direttamente dal browser, gratis e senza configurazione. È la strada consigliata a chi vuole valutare la qualità della voce prima di scaricare alcunché.
Come scaricarlo ed eseguirlo in locale
Per chi vuole il controllo completo e l'uso offline, il modello si installa sul proprio sistema. Servono Python e una scheda grafica con qualche gigabyte di memoria (un modello da 4 miliardi di parametri, in precisione ridotta, può girare anche su GPU consumer; su CPU funziona ma molto più lentamente). I passaggi essenziali:
# 1. Installa le librerie necessarie
pip install transformers torch soundfile huggingface_hub
# 2. Scarica i pesi del modello dalla repository ufficiale
huggingface-cli download bosonai/higgs-audio-v3-tts-4b --local-dir higgs-audio-v3
Una volta scaricati i pesi, si carica il modello in Python e si genera l'audio. La sintassi esatta è indicata nella «model card» della repository, che è sempre il riferimento da seguire; lo schema generale è questo:
from transformers import AutoProcessor, AutoModelForSeq2SeqLM
import soundfile as sf
processor = AutoProcessor.from_pretrained("higgs-audio-v3")
model = AutoModelForSeq2SeqLM.from_pretrained("higgs-audio-v3")
testo = "Ciao, questo audio e' stato generato da un modello open in italiano."
inputs = processor(text=testo, language="it", return_tensors="pt")
audio = model.generate(**inputs)
sf.write("output.wav", audio.numpy().squeeze(), samplerate=24000)
Il risultato atteso è un file output.wav con la frase letta a voce in italiano, con intonazione naturale. Per la clonazione si aggiunge un file audio di riferimento tra gli input, secondo le istruzioni della model card.
A chi serve e cosa tenere a mente
Higgs Audio v3 è particolarmente utile a chi produce podcast, audiolibri, contenuti didattici o assistenti vocali e vuole evitare i costi a consumo dei servizi proprietari, mantenendo i dati in casa. La licenza del modello non è una delle classiche permissive: prima di un uso commerciale conviene leggerne con attenzione i termini sulla pagina del progetto. E vale un'avvertenza etica e legale: la clonazione di una voce senza il consenso della persona interessata può violare la normativa e, in Europa, ricade tra i contenuti sintetici che con l'AI Act andranno dichiarati. Usato con criterio, però, è uno degli strumenti open più versatili oggi disponibili per dare voce ai propri progetti.




