Mistral OCR 4 reconnaît 170 langues, mais le tarif a été multiplié par quatre en un an
Mistral a mis en ligne OCR 4 le 23 juin, la dernière version de son outil de reconnaissance de documents. Le principe d’un OCR, c’est de transformer un fichier image ou PDF en texte exploitable, plutôt qu’en une simple photo de page que la machine ne sait pas relire.
OCR 4 va plus loin que ça. À partir d’un PDF, d’un Word, d’un PowerPoint ou d’un fichier OpenDocument, il ressort la structure du document : les titres, les tableaux, les équations, parfois même les signatures.
Pour chaque zone repérée, le modèle ajoute un cadre de position et un score de confiance. De quoi réinjecter ensuite le contenu dans un moteur de recherche d’entreprise ou un système d’assistant IA, avec des citations propres qui pointent vers la bonne page.
Le gros argument de cette version, c’est le multilingue. Mistral revendique 170 langues réparties en dix groupes, avec un effort particulier sur les langues rares et peu documentées, là où la plupart des outils calent encore.
Pour comprendre ce que recouvrent vraiment ces modèles d’IA, un ouvrage d’initiation accessible :
L’Intelligence artificielle Pour les Nuls → voir sur Amazon
Lien affilié Amazon. En tant que Partenaire Amazon, je réalise un bénéfice sur les achats remplissant les conditions requises.
Côté résultats, l’entreprise française met en avant un test à l’aveugle : plus de 600 documents réels dans une douzaine de langues, soumis à des évaluateurs indépendants. OCR 4 ressort devant chaque concurrent comparé, avec un taux de préférence moyen de 72 %. Les scores techniques suivent, autour de 85 sur le benchmark OlmOCRBench et 93 sur OmniDocBench.
Le modèle s’utilise via l’interface de programmation de Mistral, sa plateforme Studio, mais aussi Amazon SageMaker et Microsoft Foundry. Une version installable sur ses propres serveurs existe pour les entreprises qui ne veulent pas que leurs documents quittent leurs murs, un point sensible pour les contrats, les factures ou les dossiers médicaux.
Reste le prix, et c’est là que ça se complique. OCR 4 facture 4 dollars les 1 000 pages en standard, 2 dollars en traitement par lots, 5 dollars pour la formule Document AI. La première version, sortie en mars 2025, demandait 1 dollar les 1 000 pages. La version de décembre était à 2 dollars.
Le tarif a donc quadruplé en un peu plus d’un an, pendant que le taux de préférence affiché passait de 74 % à 72 %. On reste sur des montants faibles dans l’absolu, et le gain de temps est réel pour qui doit avaler des piles de documents. Mais la trajectoire des prix, elle, ne laisse guère de place au doute sur la direction prise.
Crédit photo : Mistral AI