阿里云人工智能印刷文字识别

简介: 随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。典型的应用场景有证件信息的自动识别和提取,自然场景中的文字识别,文档或者宣传资料中的文字检测识别等。同时,由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。
Step By Step

1、购买服务
2、授权API
3、API调用


一、购买服务

开通API网关
在身份证服务页面购买服务

二、授权API

1、进入API网关管理控制台,点击左侧调用API—>应用管理,创建新应用。
app_create.png

2、应用创建后,点击应用名称,查看应用ID
appid.png

3、点击左侧已购买API,在对应的API一行中选择查看API,点击更多,授权,输入步骤2获取的应用ID,进行授权即可。
api2.png
api3.png
api4.png

三、API调用

API的具体调用方式见身份证服务产品页面
api使用.png

具体的示例代码见产品页面的请求示例代码,通过此页面查看APPCODEapi代码示例.png

示例如下

本服务包含多种场景下的文字识别

身份证识别
输入格式

{
    "image":  "图片二进制数据的base64编码",
    "configure": "{\"side\":\"face\"}"  #正面/反面:face/back
}

输出格式

 正面返回结果:
{
    "address"    : "浙江省杭州市余杭区文一西路969号",   #地址信息
    "config_str" : "{\"side\":\"face\"}",    #配置信息,同输入configure
    "face_rect":{       #人脸位置
        "angle": -90,   #angle表示矩形顺时针旋转的度数
        "center":{      #center表示人脸矩形中心坐标
            "x" : 952,
            "y" : 325.5
        },
        "size":{        #size表示人脸矩形长宽
            "height":181.99,
            "width":164.99
        }
    }, 
    "card_region":[  #身份证区域位置,四个顶点表示,顺序是逆时针(左上、左下、右下、右上)
       {"x":165,"y":657},
       {"x":534,"y":658},
       {"x":535,"y":31},
       {"x":165,"y":30}
    ],
    "face_rect_vertices":[  #人脸位置,四个顶点表示
        { "x":1024.66, "y":336.62 },
        { "x":906.66,   "y":336.14},
        { "x":907.15,   "y":214.14},
        {"x":1025.15,  "y":214.63}
     ],
    "name" : "张三",                 #姓名
    "nationality": "汉",            #民族 
    "num" : "1234567890",            #身份证号
    "sex" : "男",                    #性别
    "birth" : "20000101",            #出生日期
    "nationality" : "汉",            #民族
    "success" : true                 #识别结果,true表示成功,false表示失败
}
反面返回结果:
{
    "config_str" : "{\"side\\\":\"back\"}",  #配置信息,同输入configure
    "card_region":[    #身份证区域位置,四个顶点表示,顺序是逆时针(左上、左下、右下、右上)
         { "x":212,    "y":371},
         { "x":2188,  "y":350},
         { "x":2201,  "y":1607},
         { "x":225,    "y":1627}
     ],
    "start_date" : "19700101",       #有效期起始时间
    "end_date" : "19800101",         #有效期结束时间
    "issue" : "杭州市公安局",         #签发机关
    "success" : true                 #识别结果,true表示成功,false表示失败
}

驾驶证识别
输入格式

{
    "image":  "图片二进制数据的base64编码",
    "configure": "{\"side\":\"face\"}"  #首页/副页:face/back
}

输出格式

首页识别返回格式:
{
    "config_str": "{\\\"side\\\": \\\"face\\\" }"  #配置字符串信息
    "name": "张三三",                #姓名字符串,识别不出来时,可能为"NoResult"/"InvalidInput"
    "num": "360502xxxx03071357",    #驾驶证号,识别错误时,为"NoResult"/"InvalidInput"
    "vehicle_type":"C1",           #驾驶证准驾车型
    "start_date": "2010xxxx",       #驾驶证有效期开始时间
    "end_date": "6",                #驾驶证有效期时长
    "addr":"北京市海淀区清华园6号楼", #地址
    "sex":"男",                     #性别
    "success": true                 #识别成功与否 true/false
}
副页识别返回格式:
{
    "config_str": "{\\\"side\\\": \\\"back\\\" }",         #配置字符串信息
    "archive_no":"370211375349",  #档案编号
    "success": true                 #识别成功与否 true/false
}

行驶证识别
输入格式

{ 
    "image": "Base64编码的字符",
    "configure": "{\"side\":\"face\"}"   #正反面类型face/back
}

输出格式

正面
{
    "config_str": "null\n",         #配置字符串信息
    "plate_num": "沪A0M084",        #车牌号码
    "vehicle_type":"小型轿车",       #车辆类型
    "owner": "张三",                #所有人名称
    "use_character":"出租转非",      #使用性质
    "addr":"浙江省宁波市江东区丁街88弄", #地址
    "model":"桑塔纳牌SVW7180LE1",    #品牌型号
    "vin" : "LSVFF66R8C2116280",     #车辆识别代号
    "engine_num" : "416098",        #发动机号码
    "register_date":"20121127",       #注册日期
    "issue_date":"2013-07-08",        #发证日期
    "request_id": "84701974fb983158_20160526100112",               #请求对应的唯一表示
    "success": true                 #识别成功与否 true/false
}
反面
{
    "config_str":"{\"side\": \"back\" }",  #配置字符串信息
    "appproved_passenger_capacity":"5人",    #核定载人数
    "approved_load":"",                      #核定载质量
    "file_no":"530100001466",                #档案编号
    "gross_mass":"2000kg",                   #总质量
    "inspection_record":"检验有效期至2014年09月云A(01)",  #检验记录
    "overall_dimension":"4945x1845x1480mm",   #外廓尺寸
    "traction_mass":"",                       #准牵引总质量
    "unladen_mass":"1505kg"                   #整备质量
    "plate_num":"云AD8V02",                   #号牌号码
    "success":true,              #识别成功与否 true/false
    "request_id":"20180131144149_c440540b20a4dc079a10680ff60b2d2a" #请求对应的唯一表示
}

护照识别
输入格式

{
    "image": "base64_image_string"      #图片以base64编码的string
}

输出格式

{
     "authority": "公安部出入境管理局*",  #签发机关
     "birth_date": "19861030",                 #生日
     "birth_day": "861030",                    #生日(即将弃用)
     "birth_place": "广西",                    #出生地
     "country": "CHN",                         #国籍
     "expiry_date": "20230501",                #到期日期
     "expiry_day": "230501",                   #到期日期(即将弃用)
     "issue_date": "20130502",                 #发证日期
     "issue_place": "广西",                     #发证地址
     "line0": "P0CHNWANG**JING*************************",
     "line1": "E203545580CHN8610304M2305019MNPELOLIOKLPA938",
     "name": "WANG.JING",                   #姓名英文
     "name_cn": "汪婧",                         #姓名中文
     "passport_no": "E20354xxxx",               #护照号码
     "person_id": "MNPELOLIOKLPA9",            #持照人身份ID
     "request_id": "20171120113612_813974f02a16b81ab911292d181b0b42",  #请求唯一标识,用于错误追踪
1
     "sex": "M",                               #性别
     "src_country": "CHN",                     #国籍
     "success": true,
     "type": "P0"                               #护照类型
}

营业执照识别

输入格式

{
    "image": "对图片内容进行Base64编码"
}

输出格式

{
    "config_str" : "null\n", #配置字符串信息
    "angle" : float, #输入图片的角度(顺时针旋转),[0, 90, 180,270]
    "reg_num" : string, #注册号,没有识别出来时返回"FailInRecognition"
    "name" : string, #公司名称,没有识别出来时返回"FailInRecognition"
    "person" : string, #公司法人,没有识别出来时返回"FailInRecognition"
    "establish_date": string, #公司注册日期(例:证件上为"2014年04月16日",算法返回"20140416")
    "valid_period": string, #公司营业期限终止日期(例:证件上为"2014年04月16日至2034年04月15日",算法返回"20340415")
    #当前算法将日期格式统一为输出为"年月日"(如"20391130"),并将"长期"表示为"29991231",若证件上没有营业期限,则默认其为"长期",返回"29991231"。
    "address" : string, #公司地址,没有识别出来时返回"FailInRecognition"
    "captial" : string, #注册资本,没有识别出来时返回"FailInRecognition"
    "business": string, #经营范围,没有识别出来时返回"FailInRecognition"
    "elbem" : string, #国徽位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "title" : string, #标题位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "stamp" : string, #印章位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "qrcode" : string, #二维码位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "success" : bool, #识别成功与否 true/false
    "request_id": string
}

银行卡识别
输入格式

{
    "image": "图片二进制数据的base64编码/图片url",      #图片以base64编码的string
    "card_type":true    # 默认是false, 如果需要card_type字段,则写成true
}

输出格式

{  
   "bank_name":"中国银行",      # 图片中没有的话,返回""
   "card_num":"6227594409463185",
   "valid_date":"03/17",             # 图片中没有的话,返回"";如有多个,则逗号分隔开"03/17,04/05"
   "card_type:"DC",       #DC(借记卡),  CC(贷记卡),  SCC(准贷记卡), DCC(存贷合一卡), PC(预付卡)
   "request_id":"20190806163620_e8b744b981620b764c4abb9537533287",
   "success":true
}

名片识别
输入格式

{
    "inputs": [
        {
            "image": {
                "dataType": 50,
                "dataValue": "Base64编码的字符"
            }
        }
    ]
}

输出格式

{
     "outputs": [
    {
        "outputLabel": "ocr_businesscard",
        "outputMulti": {},
        "outputValue": {
            "dataType": 50,
            "dataValue": "{
                \"name\": \"张三\",                         #姓名
                \"company\": [\"阿里巴巴\", \"阿里巴巴有限公司\" ],                #公司结果数组,数组可能为空
                \"department\": [\"市场部\" ],               #部门结果数组,数组可能为空
                \"title\" : [ \"经理\" ],                    #职位结果数组,数组可能为空
                \"tel_cell\" : [\"15234563443\"],           #手机结果数组,数组可能为空
                \"tel_work\": [\"057185212345\"],          #座机结果数组,数组可能为空
                \"addr\": [\"浙江省杭州市西湖区文一西路969号\"], #地址结果数组,数组可能为空
                \"email\": [],         #邮箱结果数组  ,数组可能为空            
                \"request_id\" : 20160822_32423dfsa23432f   #请求对应的唯一表示
                \"success\": true                           #识别成功与否 true/false
            }"
        }
    }]
}

车牌识别
输入格式

{
    "image": "base64_image_string",
    "configure": "{\"multi_crop\":false}"  #optional, 当设成true时,会做多crop预测,只有当多crop返回的结果一致,并且置信度>0.9时,才返回结果 
}

输出格式

{
      "config_str":"{\\\"multi_crop\\\":true}",
      "plates":[
        {
          "detail":"冀AA617A,0.99753#冀AA617A,0.997782#冀AA617A,0.999783#冀AA617A,0.999999",
          "prob":0.99752956628799438,
          "roi":{"h":35,"w":90,"x":17,"y":21},
          "txt":"冀AA617A"
        }
      ],
      "success":true
}

vin码识别
输入格式

{
   "image":    "图片文件内容的base64编码"
}

输出格式

{    
       "success" : true,
       "vin" : "LSGPB54R4DD331665",
       "request_id" : 20171031122455
}

火车票识别
输入格式

{
   "image":    "图片文件内容的base64编码"
}

输出格式

{
    "date": "2013年10月07日10:43",
    "destination": "潍坊",
    "level": "新空调硬座",
    "number": "K970",
    "origin": "高密",
    "place": "16车无座",
    "price": 14.5,
    "request_id": "20170720134032_416f8b6b6a13b69647e4dc9fdc696ecd",
    "success": true
}

公章识别
输入格式

{
    "image": "对图片内容进行Base64编码"
}

输出格式

{
    "result" : [   
        {                            # 印章#1
            "roi": {                    # 文字区域
                 "left": 325,               # 文字区域左上角x坐标
                "top":  119,               # 文字区域左上角y坐标
                "width": 122,              # 文字区域宽度
                "height": 161,             # 文字区域高度
            }​,
            "text": {                    # 印章文字
                "context": "北京开单科技有限公司",        # 印章文字内容
                "prob":    0.9441,                    # 印章文字概率
            },
            "general_text": [        # 其他印章区域的文字
                {                            # 其他文字#1
                    "content": "2018年07月11日",        # 其他文字内容
                    "prob": 0.6544,                    # 其他文字概率
                },
                {                            # 其他文字#2
                    "content": "电话:010-86468909",    # 其他文字内容
                    "prob": 0.9612,                    # 其他文字概率
                },
                ...                            # 其他文字#N
            ],
        },
        {                            # 印章#2
            "roi": {                    # 文字区域
                 "left": 140,               # 文字区域左上角x坐标
                "top":  139,               # 文字区域左上角y坐标
                "width": 118,              # 文字区域宽度
                "height": 122,             # 文字区域高度
            }​,
            "text": {                    # 印章文字
                "context": "北京开单科技有限公司",        # 印章文字内容
                "prob":    0.8877,                    # 印章文字概率
            },
        }  
        ...                                # 印章#N
    ],
    "success": true,                     # 识别成功与否 true/false
}

出租车机打发票识别
输入格式

{
    "image": "base64_image_string"
}

输出格式

{
    "recipts": [     #发票列表
        { # 发票1
            "items": [ #每张发票的字段列表
                {
                    "roi": {  #对应opencv RotatedRect
                        "angle": -2.5791473388671875, 
                        "center": {
                            "x": 332.9342041015625, 
                            "y": 117.53900146484375
                        }, 
                        "size": {
                            "h": 23.030702590942383, 
                            "w": 180.89764404296875
                        }
                    }, 
                    "txt": "142011671003"
                },  
                {
                    "roi": {
                        "angle": -90, 
                        "center": {
                            "x": 361, 
                            "y": 289.5
                        }, 
                        "size": {
                            "h": 106, 
                            "w": 17
                        }
                    }, 
                    "txt": "A-X9F99"
                }
            ], 
            "roi": { #发票1 位置, 对应opencv的Rect(x, y, w, h)
                "h": 763,     #height
                "w": 379,     #width
                "x": 96,      #upper left corner point x
                "y": 0        #upper left corner point y
            }, 
            "rotate_type": 0      #0,不需要旋转;1.顺时针转90;2.顺时针转180;3.顺时针转270
        }
        { #发票2
            "items": [
                { ...
                },
                { ...
                }
            ],
            "roi": {
                ...
            }, 
            "rotate_type": 0 
        }
    ], 
    "success": true
}
目录
相关文章
|
6月前
|
人工智能 文字识别 监控
|
6月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
3463 166
|
6月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2342 120
|
7月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
1388 66
|
7月前
|
消息中间件 人工智能 运维
事件驱动重塑 AI 数据链路:阿里云 EventBridge 发布 AI ETL 新范式
“一个简单的数据集成任务,开始时总是轻松愉快的,但随着业务扩展,数据源越来越多,格式越来越乱,整个数据链路就会变得一团糟。”陈涛在演讲中指出了当前 AI 数据处理的普遍困境。扩展难、运维难、稳定性差,这三大挑战已成为制约 AI 应用创新和落地的关键瓶颈。针对这些痛点,在2025云栖大会期间,阿里云重磅发布了事件驱动 AI ETL 新范式,其核心产品 EventBridge 通过深度集成 AI 能力,为开发者提供了一套革命性的解决方案,旨在彻底改变 AI 时代的数据准备与处理方式。
693 50
|
6月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
6月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
1045 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
6月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。

热门文章

最新文章