Перейти к основному контенту

Mistral OCR - API для понимания сложных документов

Mistral OCR on Alphafold paper Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube. www.youtube.com Mistral OCR | Mistral AI Introducing the world’s best document understanding API. mistral.ai

Разработчики AI из франции на прошлой неделе выкатили интересную и крутую систему. Как вы знаете, современные LLM (Large Language Model) умеют делать OCR (Optical Character Recognition). И делают они его часто сильно лучше, чем традиционные OCR систему. Но вот для распознания больших документов (десятки и сотни страниц) даже у самых жирных моделей нехватает размера контекста. Если еще для чтения книжки его может хватить, то вот для вывода ее в текстовом формате - уже нет. Mistral доработали свою систему специально для такой задачи. Научили ее делить задачу на части, работать с большими ответами.

Как результат у нас есть API, способный перегонять тексты со сложным форматированием, формулами, таблицами, графиками и иллюстрациями. Бонусом идет то, что LLM “понимает” обрабатываемый текс и может на лету исправлять ошибки, вызванные плохим качеством сканирования.

Я уже жду, когда данная система будет доступна в виде приложения - у меня есть несколько статей, которые были набраны их авторами еще на печатных машинках. А кто-то недавно в коментах приговаривал про отечественные книги с редкими данными по свойствам материалов. Теперь все это становится более доступно для структурирования и поиска!

https://youtu.be/6lRBm0KnzBI

https://mistral.ai/news/mistral-ocr

Mistral OCR on Alphafold paper https://mistral.ai/news/mistral-ocr