PAI AI行业插件OCR识别Quick Start

简介: 机器学习平台PAI(Platform of Artificial Intelligence)上AI行业插件提供视觉模型训练插件和通用模型训练插件,支持在线标注、自动模型训练、超参优化及模型评估。只需要准备少量标注数据,并设置训练时长,就可以得到深度优化的模型。同时,插件平台与PAI-EAS高效对接,可以一键完成模型部署。本文介绍使用视觉模型训练插件进行OCR(Optical Character Recognition)识别的详细流程,以供参考。

Step By Step

  • 1.创建oss bucket,上传测试数据文件:下载OCR Demo数据。
  • 2.创建实例,新建数据集:用于数据标注
  • 3.创建任务
  • 4.查看训练详情
  • 5.服务端部署模型
  • 6.控制台在线调试

一.创建oss bucket,上传测试数据

  • 为了便于测试,可以新建一个Bucket,之后将文本demo上传至新建Bucket中
  • :(1)数据集可以采用纯图片式的,需要手动标注。也可以采用符合数据集规范的带有标注结果的XML文件。本文采用纯图片式的数据集用于测试
      (2)OCR识别的图像需要满足数据集要求和规范,详见使用限制

lQLPJxadVGoeMJbNArPNBZGwTniPhu7h824DAtXaTYAnAA_1425_691.png


二.创建实例,新建数据集:用于数据标注

  • 1.创建实例

lQLPJxadU7504OPNAr3NB2ywcBCdvW59r6QDAtTA_0BCAA_1900_701.png


  • 2.新建数据集

lQLPJxadTv-2wEfNAsXNBqOwP2GN_BZzruEDAsz6jkAGAA_1699_709.png


  • 3.数据标注

lQLPJxad3x5kmWDNAzbNBiKwlx2D1cy3UhQDA7ka4YBvAA_1570_822.png


lQLPJxad4zgH3OjNA0PNBgiwwcybaVCLxNYDA7_SMEBaAA_1544_835.png

三.创建任务

lQLPJxadT_jcfh3NAubNB02wOcK5qGY-bt8DAs6S8UCEAA_1869_742.png


lQLPJxadUA7qPoHNAsTNBhuwt6Kn_n-pu6cDAs63EkB1AA_1563_708.png

四.查看训练详情

lQLPJxad54kZ0xfNAtvNBnSwC3nVWcUmrV8DA8blkwBvAA_1652_731.png


lQLPJxad58Lq2YfNA0fNBb6wy4BUMa1DQwcDA8dEQ8B1AA_1470_839.png

五.服务端部署模型

1661218999713_80AA33D2-51D2-4a8a-AC67-A37DAA9D8B37.png


1661219127405_205AED37-8FE1-4e32-8D4D-F3F6EA3F8864.png


六.控制台在线调试

  • 1.请求Body示例
{
  "dataArray":[
    {
      "name":"image",
      "type":"stream",
      "body":"base64数据"
    }
  ]
}

image.png

  • 3.在线调试

lQLPJxad3bZhf83NAr7NBf6w0HO95k9nE7UDA7bMswBuAA_1534_702.png


1661218935352_D60AC39D-7CC3-4be8-BFCA-7FEEDB2CBC4A.png

更多参考

PAI-AutoLearning 图像分类使用教程

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
API Python
PAI EAS Flask应用部署Quick Start
本文介绍了如何将Python Flask应用快速部署到阿里云PAI EAS,并通过API对外提供服务。示例代码包括`web.py`和`demo.py`两个文件,展示了基本的Flask应用和跨文件导入功能。最后,通过阿里云控制台完成服务部署和调用。
479 28
|
机器学习/深度学习 存储 人工智能
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(上)
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(上)
1539 1
|
机器学习/深度学习 人工智能 算法
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(下)
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DSW Quick Start使用教程(下)
1291 0
|
机器学习/深度学习 人工智能 对象存储
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——EAS Quick Start使用教程
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——EAS Quick Start使用教程
1445 0
|
机器学习/深度学习 人工智能
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DLC Quick Start使用教程
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DLC Quick Start使用教程
1504 0
|
人工智能 算法 程序员
8月13日科技联播:英情报局渲染中国5G技术威胁,AI技术能准确识别代码真实作者
程序员注意了!AI技术已经能准确识别代码的真实作者了,自己的锅还得自己背!美国重返月球计划要泡汤?都是没有新款太空服惹的祸......英国过度渲染中国5G威胁,谁还不是吓大的,只怕是对我国的技术进步感到不安吧,今天的科技圈比较平静,跟小编一起看看今天的热门新闻有哪些!
1944 0
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
991 51
|
5月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1155 53
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
581 30
|
4月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
562 1

热门文章

最新文章