Mistral OCR 4: estrarre testo dai documenti, guida

Mistral ha rilasciato il 23 giugno 2026 OCR 4, la nuova versione del suo motore di riconoscimento ottico dei caratteri pensato per l'era dell'IA. Non si tratta del solito OCR che restituisce testo grezzo: il modello ricostruisce la struttura del documento, riconosce blocchi e tabelle, fornisce le bounding box (le coordinate di ogni elemento sulla pagina), classifica i blocchi e assegna a ciascun riconoscimento un punteggio di affidabilita'. Il supporto linguistico arriva a 170 lingue, italiano compreso.

E' uno strumento pensato soprattutto per chi costruisce applicazioni: digitalizzare fatture, contratti, moduli, referti, libri scansionati e trasformarli in dati strutturati pronti per essere indicizzati o dati in pasto a un altro modello, ad esempio in una pipeline di RAG (retrieval-augmented generation).

Quanto costa

I prezzi annunciati sono trasparenti e a consumo:

4 dollari ogni 1.000 pagine tramite API standard.
2 dollari ogni 1.000 pagine con l'API Batch, lo sconto per elaborazioni non in tempo reale.
5 dollari ogni 1.000 pagine per Document AI, il livello con funzioni aggiuntive.

OCR 4 e' disponibile via API attraverso Mistral Studio, oltre che su Amazon SageMaker e Microsoft Foundry; per i clienti enterprise e' previsto anche il self-hosting, utile a chi non puo' far uscire i documenti dai propri server per ragioni di riservatezza.

OCR 4 trasforma documenti scansionati in dati strutturati, con coordinate e punteggi di affidabilita'.

Come provarlo passo per passo

Crea un account su Mistral Studio (console.mistral.ai) e genera una chiave API dalla sezione API Keys.
Imposta la chiave come variabile d'ambiente nel terminale, per non scriverla nel codice:

export MISTRAL_API_KEY="la-tua-chiave"

3. Installa il client ufficiale in Python:

pip install mistralai

4. Invia un documento (PDF o immagine) al modello OCR. Un esempio minimo in Python:

import os
from mistralai import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

resp = client.ocr.process(
    model="mistral-ocr-4",
    document={
        "type": "document_url",
        "document_url": "https://esempio.it/fattura.pdf"
    }
)

for page in resp.pages:
    print(page.markdown)

Risultato atteso: per ogni pagina il modello restituisce il testo gia' impaginato in Markdown, con titoli, elenchi e tabelle ricostruiti, piu' i metadati su blocchi e coordinate. Da li' puoi salvare il testo, indicizzarlo o passarlo a un modello linguistico per estrarre campi specifici (numero fattura, importo, scadenza).

Un caso d'uso concreto: dalle fatture ai dati

Supponiamo di dover estrarre da centinaia di fatture il fornitore, l'imponibile e la data. Il flusso tipico e' in due passi: prima OCR 4 converte ogni PDF in testo strutturato; poi un modello come Mistral Medium 3.5 riceve quel testo con un prompt del tipo:

Dal seguente testo di una fattura, restituisci un JSON con i campi: fornitore, partita_iva, numero_fattura, data, imponibile, iva, totale. Se un campo non e' presente, usa null.

Il risultato e' un JSON pulito per ogni documento, pronto per essere caricato in un gestionale. I punteggi di affidabilita' di OCR 4 aiutano a segnalare le pagine da rivedere a mano, dove il riconoscimento e' incerto.

Pro, contro e alternative

I punti di forza di OCR 4 sono la struttura ricca dell'output (non solo testo, ma layout e coordinate) e il prezzo competitivo a volume. Tra le alternative ci sono i servizi OCR di Google Document AI e Amazon Textract, piu' integrati nei rispettivi cloud ma spesso piu' costosi, e le soluzioni open come Tesseract, gratuite ma molto meno capaci sui documenti complessi e sulle tabelle.

Quando non conviene: per pochi documenti occasionali, un OCR gratuito o la funzione integrata in molti lettori PDF e' piu' che sufficiente. OCR 4 da' il meglio quando i volumi sono alti, i documenti sono eterogenei e serve un output strutturato da inserire in un'applicazione o in una pipeline automatizzata.