Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

NuMind AI запускает NuMarkdown-8B-Thinking: Прорыв в OCR и конвертации документов в Markdown

Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

NuMind AI представляет NuMarkdown-8B-Thinking: Прорыв в OCR и конвертации документов в Markdown

NuMind AI официально анонсировала NuMarkdown-8B-Thinking — открытый (MIT License) модель обработки текста, которая меняет подход к цифровизации и структурированию сложных документов. В отличие от традиционных систем OCR, NuMarkdown-8B-Thinking не просто извлекает текст, но и всесторонне анализирует макет, структуру и форматирование документа перед тем, как создать точный, готовый к использованию файл Markdown.

Ключевые особенности NuMarkdown-8B-Thinking

Эта модель — первая в своем роде, специально разработанная для конвертации PDF, отсканированных документов и таблиц в чистый, структурированный Markdown. Она особенно полезна для рабочих процессов, основанных на Retrieval-Augmented Generation (RAG), AI-управляемых баз знаний и архивирования документов в больших масштабах.

Чем NuMarkdown-8B-Thinking отличается от других

NuMarkdown-8B-Thinking вводит подход, основанный на рассуждениях, в OCR. Она генерирует «токены размышлений», которые представляют собой внутренние шаги рассуждений, позволяющие модели понимать макеты документов перед созданием окончательного вывода. Эта способность позволяет ей справляться с форматами и структурами, которые ставят в тупик большинство традиционных и даже AI-ориентированных систем OCR, включая:

  • Многостолбцовые макеты с сложными порядками чтения
  • Таблицы с объединенными, вложенными или неправильными ячейками
  • Смешанные визуальные элементы (изображения, декоративные заголовки, водяные знаки)
  • Исторические или поврежденные сканы, где важна интерпретация макета

Количество токенов размышлений варьируется в зависимости от сложности — от 20% до 500% от финальной длины Markdown, что демонстрирует глубину рассуждений модели.

Обучение и архитектура

NuMarkdown-8B-Thinking — это дообученная версия Qwen 2.5-VL-7B от Alibaba, ведущей открытой многомодальной модели. Обучение проходило в два ключевых этапа:

  • Супервизированное дообучение (SFT) на синтетических образцах документов, включая необработанный ввод документа, промежуточные шаги рассуждений (анализ макета, интерпретация структуры) и финальное представление в Markdown.
  • Обучение с подкреплением с использованием GRPO, применяя вознаграждение, ориентированное на макет, что способствовало точному восстановлению форматирования документа и пространственных отношений.

Этот двухступенчатый процесс обучения наделяет NuMarkdown-8B-Thinking способностью поддерживать высокую точность даже на сложных макетах, которые обычно требуют человеческого уровня суждений.

Результаты тестирования: Превосходство над конкурентами

В независимых оценках и пользовательских тестах NuMarkdown-8B-Thinking демонстрирует передовые результаты в задачах OCR-to-Markdown, превосходя:

  • Общие модели, такие как GPT-4o
  • Специализированные модели, ориентированные на OCR, такие как OCRFlux

Она конкурентоспособна с крупными закрытыми моделями рассуждений, такими как Gemini 2.5, и занимает второе место после элитных моделей, таких как Gemini Flash Reasoning, в слепых многомодельных пользовательских рейтингах.

Пример в действии

Представьте себе страницу отсканированного годового отчета с многоуровневыми заголовками, боковыми панелями, несколькими колонками, финансовой таблицей с объединенными ячейками и нижним колонтитулом с юридическими оговорками. NuMarkdown-8B-Thinking сначала создает токены размышлений, описывающие структуру, а затем выводит Markdown, который точно отражает как содержание, так и макет. Этот прозрачный слой рассуждений повышает аудируемость модели, что критически важно в корпоративных, юридических и архивных контекстах.

Варианты развертывания

Будь вы исследователем, разработчиком или инженером AI в компании, NuMarkdown-8B-Thinking готова к интеграции:

  • Доступна для прямого тестирования и интеграции на Hugging Face.
  • Локальное выполнение с весами модели и квантованными версиями GGUF для развертывания, совместимого с CPU/GPU.
  • Совместима с API, аналогичными OpenAI, и Hugging Face Transformers для быстрой интеграции в рабочие процессы.

Лицензия MIT обеспечивает полную свободу для коммерческих, академических или личных проектов, устраняя зависимость от поставщиков и дорогие API.

Почему это важно

Для отраслей, которые зависят от точной цифровизации документов — таких как финансы, юриспруденция, здравоохранение и государственные архивы — сохранение макета так же критично, как и текстовая точность. NuMarkdown-8B-Thinking рассматривает макет как задачу рассуждения, предлагая прозрачную, проверяемую и высокопроизводительную альтернативу проприетарным решениям AI для документов.

Ознакомьтесь с моделью на Hugging Face и посетите нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч участников на ML SubReddit. Не забудьте подписаться на нашу рассылку новостей.

Новости в сфере искусственного интеллекта