T
traeai
登录
返回首页
量子位

百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

8.7Score
百度文心发布 PaddleOCR-VL-1.6:准确率突破 96.33%,刷新文档解析 SOTA

TL;DR · AI 摘要

百度文心发布 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 上准确率突破 96.33%,刷新文档解析 SOTA,综合性能全球第一,显著提升复杂场景下的文本、公式、表格识别能力。

核心要点

  • PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率达 96.33%,超越 Gemini-3-Pro、GPT-5.2 等主流模型。
  • 在 Real5-OmniDocBench 中总指标达 93.19%,较 Gemini-3-Pro 提升近 4 个百分点。
  • 支持超 100 种语言识别,模型结构与前代一致,可平滑迁移,代码及权重已开源至 GitHub 和 Hugging Face。

结构提纲

按章节快速跳转。

  1. 百度发布 PaddleOCR-VL-1.6,作为文心大模型的衍生模型,其在权威评测中刷新文档解析 SOTA。

  2. PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率突破 96.33%,综合性能全球第一。

  3. 在 Real5-OmniDocBench 中,PaddleOCR-VL-1.6 总指标达 93.19%,五大真实场景均领先。

  4. 在文本、公式、表格、古籍、生僻字等复杂场景识别能力全面领先,增强印章、图表识别等关键功能。

  5. 基于文心大模型训练,保持 0.9B 轻量化架构,支持网页端和 API 调用,无需适配即可迁移。

  6. 模型代码及权重已开源至 GitHub 和 Hugging Face,面向全球开发者开放使用。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • PaddleOCR-VL-1.6 发布
    • 性能突破
      • OmniDocBench v1.6: 96.33%
      • Real5-OmniDocBench: 93.19%
    • 技术优势
      • 轻量化架构 (0.9B)
      • 异形框定位支持
    • 应用场景
      • 文本识别
      • 公式识别
      • 表格识别
    • 开源生态
      • GitHub 开源
      • HuggingFace 分发

金句 / Highlights

值得收藏与分享的关键句。

  • PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上准确率突破 96.33%,超越 Gemini-3-Pro、GPT-5.2 等闭源模型。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 在 Real5-OmniDocBench 中,PaddleOCR-VL-1.6 总指标达 93.19%,较 Gemini-3-Pro 提升近 4 个百分点。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • PaddleOCR-VL-1.6 支持超 100 种语言识别,且模型结构与前代一致,开发者可平滑迁移。

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#PaddleOCR#OCR#文心大模型#文档理解#多模态
打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-06-02 15:47:30 来源:量子位

已上线 PaddleOCR 官网,支持网页端和API调用

近日,百度正式发布 PaddleOCR-VL-1.6。作为文心衍生模型,PaddleOCR-VL-1.6 在 OmniDocBench v1.6 权威评测中准确率突破 96.3%,在 Real5-OmniDocBench、OmniDocBench v1.5上也取得了最领先的分数,综合性能全球第一,刷新业界SOTA,在复杂文档理解和真实场景解析能力方面进一步突破。

Image 1

△在OmniDocBench v1.6上,PaddleOCR-VL-1.6在多项能力中实现SOTA

在权威评测集 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 总指标达到 96.33%,超越Gemini-3-ProGPT-5.2、MinerU-2.5-Pro、GLM-OCR等,综合性能全球第一,领跑全球通用大模型和专用OCR模型;在面向真实复杂场景构建的 Real5-OmniDocBench 评测中,PaddleOCR-VL-1.6 总指标达到 93.19%,较 Gemini-3-Pro 提升近4个百分点,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大真实场景下均保持领先表现。

测试结果显示,PaddleOCR-VL-1.6 在文本、公式、表格等核心识别能力上全面领先当前主流开源及闭源方案,在表格、古籍、生僻字识别等复杂场景能力显著提升,在印章、Spotting、图表识别等多项关键能力同步增强,可更好满足文档数字化的需求。

Image 2

据了解,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。此次发布的 PaddleOCR-VL-1.6 在 PaddleOCR-VL-1.5 基础上进一步升级,通过模型驱动的数据构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。由于两代模型模型结构一致,开发者和企业用户无需进行额外适配,即可平滑迁移。

近年来,PaddleOCR 持续推进文档理解能力升级,先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5 等多款模型。其中,PaddleOCR-VL-1.5 创新支持异形框定位,在真实文档场景中展现出较强解析能力。此前,PaddleOCR GitHub Star 数已突破79.2K,超过谷歌开源OCR项目 Tesseract OCR,成为全球最受开发者欢迎的开源OCR项目之一。

目前,PaddleOCR-VL-1.6 已上线 PaddleOCR 官网,支持网页端和API调用。同时,模型代码及权重已同步开源至 GitHub 和 Hugging Face,面向全球开发者开放使用。

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

AI 可能会生成不准确的信息,请核实重要内容