Перейти к основному контенту

Mistral OCR - API для понимания сложных документов

- YouTube Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube. youtu.be Mistral OCR | Mistral AI Introducing the world’s best document understanding API. mistral.ai

Mistral OCR - API для понимания сложных документов

Разработчики AI из франции на прошлой неделе выкатили интересную и крутую систему. Как вы знаете, современные LLM (Large Language Model) умеют делать OCR (Optical Character Recognition). И делают они его часто сильно лучше, чем традиционные OCR систему. Но вот для распознания больших документов (десятки и сотни страниц) даже у самых жирных моделей нехватает размера контекста. Если еще для чтения книжки его может хватить, то вот для вывода ее в текстовом формате - уже нет. Mistral доработали свою систему специально для такой задачи. Научили ее делить задачу на части, работать с большими ответами.

Как результат у нас есть API, способный перегонять тексты со сложным форматированием, формулами, таблицами, графиками и иллюстрациями. Бонусом идет то, что LLM “понимает” обрабатываемый текс и может на лету исправлять ошибки, вызванные плохим качеством сканирования.

Я уже жду, когда данная система будет доступна в виде приложения - у меня есть несколько статей, которые были набраны их авторами еще на печатных машинках. А кто-то недавно в коментах приговаривал про отечественные книги с редкими данными по свойствам материалов. Теперь все это становится более доступно для структурирования и поиска!

https://youtu.be/6lRBm0KnzBI

https://mistral.ai/news/mistral-ocr

Mistral OCR on Alphafold paper https://mistral.ai/news/mistral-ocr