NuMind AI представляет NuMarkdown-8B-Thinking: Прорыв в OCR и конвертации документов в Markdown
NuMind AI официально анонсировала NuMarkdown-8B-Thinking — открытый (MIT License) модель обработки текста, которая меняет подход к цифровизации и структурированию сложных документов. В отличие от традиционных систем OCR, NuMarkdown-8B-Thinking не просто извлекает текст, но и всесторонне анализирует макет, структуру и форматирование документа перед тем, как создать точный, готовый к использованию файл Markdown.
Ключевые особенности NuMarkdown-8B-Thinking
Эта модель — первая в своем роде, специально разработанная для конвертации PDF, отсканированных документов и таблиц в чистый, структурированный Markdown. Она особенно полезна для рабочих процессов, основанных на Retrieval-Augmented Generation (RAG), AI-управляемых баз знаний и архивирования документов в больших масштабах.
Чем NuMarkdown-8B-Thinking отличается от других
NuMarkdown-8B-Thinking вводит подход, основанный на рассуждениях, в OCR. Она генерирует «токены размышлений», которые представляют собой внутренние шаги рассуждений, позволяющие модели понимать макеты документов перед созданием окончательного вывода. Эта способность позволяет ей справляться с форматами и структурами, которые ставят в тупик большинство традиционных и даже AI-ориентированных систем OCR, включая:
- Многостолбцовые макеты с сложными порядками чтения
- Таблицы с объединенными, вложенными или неправильными ячейками
- Смешанные визуальные элементы (изображения, декоративные заголовки, водяные знаки)
- Исторические или поврежденные сканы, где важна интерпретация макета
Количество токенов размышлений варьируется в зависимости от сложности — от 20% до 500% от финальной длины Markdown, что демонстрирует глубину рассуждений модели.
Обучение и архитектура
NuMarkdown-8B-Thinking — это дообученная версия Qwen 2.5-VL-7B от Alibaba, ведущей открытой многомодальной модели. Обучение проходило в два ключевых этапа:
- Супервизированное дообучение (SFT) на синтетических образцах документов, включая необработанный ввод документа, промежуточные шаги рассуждений (анализ макета, интерпретация структуры) и финальное представление в Markdown.
- Обучение с подкреплением с использованием GRPO, применяя вознаграждение, ориентированное на макет, что способствовало точному восстановлению форматирования документа и пространственных отношений.
Этот двухступенчатый процесс обучения наделяет NuMarkdown-8B-Thinking способностью поддерживать высокую точность даже на сложных макетах, которые обычно требуют человеческого уровня суждений.
Результаты тестирования: Превосходство над конкурентами
В независимых оценках и пользовательских тестах NuMarkdown-8B-Thinking демонстрирует передовые результаты в задачах OCR-to-Markdown, превосходя:
- Общие модели, такие как GPT-4o
- Специализированные модели, ориентированные на OCR, такие как OCRFlux
Она конкурентоспособна с крупными закрытыми моделями рассуждений, такими как Gemini 2.5, и занимает второе место после элитных моделей, таких как Gemini Flash Reasoning, в слепых многомодельных пользовательских рейтингах.
Пример в действии
Представьте себе страницу отсканированного годового отчета с многоуровневыми заголовками, боковыми панелями, несколькими колонками, финансовой таблицей с объединенными ячейками и нижним колонтитулом с юридическими оговорками. NuMarkdown-8B-Thinking сначала создает токены размышлений, описывающие структуру, а затем выводит Markdown, который точно отражает как содержание, так и макет. Этот прозрачный слой рассуждений повышает аудируемость модели, что критически важно в корпоративных, юридических и архивных контекстах.
Варианты развертывания
Будь вы исследователем, разработчиком или инженером AI в компании, NuMarkdown-8B-Thinking готова к интеграции:
- Доступна для прямого тестирования и интеграции на Hugging Face.
- Локальное выполнение с весами модели и квантованными версиями GGUF для развертывания, совместимого с CPU/GPU.
- Совместима с API, аналогичными OpenAI, и Hugging Face Transformers для быстрой интеграции в рабочие процессы.
Лицензия MIT обеспечивает полную свободу для коммерческих, академических или личных проектов, устраняя зависимость от поставщиков и дорогие API.
Почему это важно
Для отраслей, которые зависят от точной цифровизации документов — таких как финансы, юриспруденция, здравоохранение и государственные архивы — сохранение макета так же критично, как и текстовая точность. NuMarkdown-8B-Thinking рассматривает макет как задачу рассуждения, предлагая прозрачную, проверяемую и высокопроизводительную альтернативу проприетарным решениям AI для документов.
Ознакомьтесь с моделью на Hugging Face и посетите нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч участников на ML SubReddit. Не забудьте подписаться на нашу рассылку новостей.