站长之家用户 - 传媒 2025-09-19 16:08

性能超越GPT-4o及Qwen2.5-VL,百度超轻量小模型PP-OCRv5 Blog持续登顶Hugging Face热度

近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。

Blog指出,在OCR场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于VLM,PP-OCRv5采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。

Benchmark数据显示,PP-OCRv5在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在Handwritten Chinese、Chinese Pinyin等复杂场景中,仍稳居前列,表现出强泛化能力。

作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5是业界首个单模型支持5种文字类型的超轻量级(自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。

相关话题

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,相关信息仅供参考。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

推荐关键词

24小时热搜

查看更多内容

大家正在看