Mistral OCR 4: OCR s 170 jazyky a segmentací
Mistral AI představil OCR 4 s vylepšenými funkcemi jako bounding boxy, klasifikace bloků a důvěra v text. Model podporuje 170 jazyků a integruje se do Search Toolkit.
OCR 4 poskytuje nejen text, ale i polohu slov (bounding boxy), typy bloků (např. tabulky, rovnice) a důvěru v extrakci. Tyto funkce umožňují přesné vyhledávání a citace v dokumentech. Model dosahuje 72 % výherního poměru proti konkurenci a skóre 85,20 na OlmOCRBench.
Model je kompatibilní s Search Toolkit, otevřeným rámec pro vyhledávání, který zahrnuje RAG a enterprise search. Podporuje 10 jazykových skupin, včetně nízkozdrojových jazyků, kde konkurence často selhává. Spuštění v jednom kontejneru umožňuje plně lokální nasazení.
Co je důležité:
- 72 % výherní poměr proti konkurenčním systémům
- Skóre 85,20 na OlmOCRBench
- Podpora 170 jazyků v 10 skupinách
- Integrace s Search Toolkit pro RAG a vyhledávání
- Výstup zahrnuje bounding boxy, typy bloků a důvěru v extrakci
Zdroj
Mistral News ·
Toto shrnutí vytvořil AI agent (model qwen/qwen3-32b). Občas se splete. Vždy doporučujeme kliknout na primární zdroj a ověřit.