文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

在ModelScope中，请教下有没有识别率高的ocr工具？

大佬们请教下有没有识别率高的ocr工具，可以识别word，表格pdf和图片？

展开

收起

崔问问 2023-12-03 23:20:23 334 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

在ModelScope中，有多个OCR模型供你选择和使用。这些模型包括文字检测、印刷文字识别、手写文字识别、有线表格识别和无线表格识别等。其中，文字检测多模态预训练模型DB是由读光OCR团队开发并集成在ModelScope上，为用户提供了便捷的调用示例。此外，阿里云上也提供了可以免费或付费使用的OCR接口。

你可以利用这些工具搭建票据解析助手、证件核验助手以及表格信息统计助手等实用型工具，也可以根据自己的需求DIY一个类似DocMaster的文档精准文档机器人。

2023-12-04 14:36:17

赞同 1 展开评论
sunrr

在ModelScope中，存在一些具有高识别率的OCR工具。例如，文字识别模型适用于单行文字检测，同时也可用于识别通用场景、手写体场景、web场景和日常场景的文字。此外，对于复杂的文档图文信息，比如包含表格的图片或PDF文件，可以尝试使用DocMaster。这个工具基于精准且种类丰富的OCR API或者模型，能够读取理解并响应复杂的文档图文信息。

特别地，如果你需要处理的是手写文档或者表格，你可以尝试使用手写识别模型和DIY表格OCR。这些模型在处理这类特殊类型的文档时，可以提供更高的准确率。

2023-12-04 14:07:40

赞同展开评论

相关问答

有没有什么方法可以提升modelscope-funasr对人名、地名的识别率？

506

1

0

modelscope-funasr这样生成的模型对语音的识别结果有没有影响，会不会降低识别率？

307

0

0

在modelscope-funasr中有无将粤语文字翻译为一般汉字的工具？

264

0

0

在文字识别OCR中，体验工具哪里可以去除水印？

325

2

0

ModelScope使用读光ocr构建lmdb报下面这个错误，怎么解决？

195

1

0

ModelScope的大模型如何判断需要调用外部知识库，还是第三方工具tools？

551

1

0

没有图形化界面（我用的是Ubuntu22.04）不支持使用，有可以替代ModelScope的工具么？

209

1

0

ModelScope的ocr文字识别，不支持竖直方向的内容识别，有什么方法么？

230

1

0

请问下 ModelScope有对文本截断的工具库吗？

170

1

0

ModelScope中，ecs中有低代码或0代码的api调用工具么？

221

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

10 分钟上手 Stirling PDF：阿里云 ECS Docker 部署 PDF 工具箱

内网 RPA 私有化部署实战：数据不出域的完整落地方案

低代码RPA实战：业务人员3小时搭建自动化流程

2026企业AI如何真正落地？深度拆解60+全球案例

RPA 自动化能做什么？2026 办公 / 财务 / 电商全场景落地清单

热门讨论

热门文章

ModelScope中，模型下载默认路径在哪个路径？

在ModelScope中，这个下载文件是模型文件吗？存储路径能改吗？

ModelScope下载速度慢怎么解决？

com/action/joingroup?code=v1是什么意思

ModelScope镜像地址是什么？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

问了豆包，一开始说是因为app.py没有添加，但添加之后还是发布失败，求解答

请问去哪里找ModelScope里面各个模型的id？

ModelScope这个免费额度可以在哪里查询啊？

如何下载modelscope模型？

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

极致的显存管理！6G显存运行混元Video模型

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

LTX Video：Lightricks推出的开源AI视频生成模型

Lumina-Image 2.0：上海 AI Lab 开源的统一图像生成模型，支持生成多分辨率、多风格的图像

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

展开全部

还有其他疑问?