Per due anni la parola d'ordine dell'intelligenza artificiale generativa e' stata "di piu'": piu' token, piu' contesto, modelli piu' grandi e piu' costosi da interrogare. A fine giugno 2026 quel paradigma ha iniziato a incrinarsi. Secondo un'analisi di CNBC, i clienti aziendali di OpenAI e Anthropic stanno passando dal cosiddetto "tokenmaxxing" — massimizzare il consumo di token nella convinzione che equivalga a piu' valore — a una logica opposta, fatta di efficienza e controllo della spesa.
Che cosa significa 'tokenmaxxing' e perche' finisce ora
Ogni volta che un modello legge o scrive testo, conta in "token", le unita' minime su cui si basa la fatturazione delle API. Un token equivale grosso modo a tre quarti di una parola in inglese, un po' meno in italiano. Nel periodo dell'entusiasmo, molte aziende hanno costruito applicazioni che infilavano nel contesto interi documenti, cronologie infinite e prompt ridondanti, senza badare al conto: tanto la magia funzionava e i budget erano generosi.
Con il passaggio dei modelli agentici in produzione — cioe' sistemi che lavorano in autonomia per minuti o ore, chiamando strumenti e macinando token a ogni passo — quel conto e' diventato la voce di costo che i responsabili finanziari hanno iniziato a guardare con attenzione. Un singolo agente che analizza un repository di codice o gestisce una pratica puo' consumare centinaia di migliaia di token per compito. Moltiplicato per migliaia di dipendenti, il numero diventa serio.
Il segnale di Amazon: basta IA 'tanto per'
Il caso piu' citato e' quello di Amazon. Alcuni dirigenti senior avrebbero chiesto ai dipendenti di smettere di usare l'IA "solo per il gusto di usarla", invitando a valutare caso per caso se un modello serva davvero o se stia solo aggiungendo costo e complessita' a un processo che funzionava benissimo senza. E' un rovesciamento significativo rispetto al 2025, quando la parola d'ordine interna di quasi tutte le big tech era spingere l'adozione dell'IA in ogni flusso di lavoro, spesso come metrica da esibire piu' che come soluzione a un problema reale.
Il segnale non e' isolato. Diversi studi pubblicati nella prima meta' del 2026 hanno mostrato che una quota rilevante dei progetti IA aziendali non genera il ritorno atteso, e che una parte delle riduzioni di personale motivate con l'automazione non si e' tradotta in guadagni di produttivita'. La domanda "quanto ci costa e quanto ci rende" e' tornata al centro delle riunioni.
Perche' i modelli piu' economici stanno vincendo
Non e' un caso che, proprio in questa fase, Anthropic abbia lanciato il 30 giugno Claude Sonnet 5 a un prezzo molto inferiore rispetto al modello di punta Opus, posizionandolo come lo strumento per far girare agenti "a costo sostenibile". Come sottolinea VentureBeat, il messaggio commerciale e' esplicito: prestazioni vicine al top di gamma, spesa molto piu' bassa. La stessa logica alimenta la crescita dei modelli aperti cinesi ed europei, scelti quando "abbastanza buono" costa una frazione del "migliore in assoluto".
C'e' pero' un dettaglio tecnico che complica il quadro: alcuni nuovi modelli adottano tokenizzatori che, a parita' di testo, contano piu' token. Cosi' un cartellino piu' basso al milione di token puo' non tradursi in un risparmio reale se ogni operazione consuma piu' unita'. La lezione per chi compra IA e' che il prezzo di listino non basta: conta il costo effettivo per compito.
Cosa cambia per aziende e sviluppatori
Per chi costruisce prodotti con l'IA, la conseguenza pratica e' un ritorno all'ingegneria: scegliere il modello giusto per ogni compito (spesso piu' piccolo), tagliare i prompt inutili, usare la cache dei contesti per non ripagare gli stessi token, misurare il costo per operazione e non solo la qualita' della risposta. Sono pratiche note a chi fa ottimizzazione da anni, tornate improvvisamente di moda.
Per il mercato, significa che la competizione si sposta dal puro benchmark al rapporto qualita'/prezzo, un terreno dove i laboratori piu' piccoli e i modelli aperti possono insidiare i giganti. La lezione di questo trimestre e' semplice: l'intelligenza artificiale sta uscendo dalla fase in cui bastava "usarla" per fare notizia, ed entra in quella in cui deve dimostrare, numeri alla mano, di valere quello che costa.




