阿里云人工智能印刷文字识别

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 随着智能手机和移动设备的普及,越来越多的图片被产生,也有越来越多的图片文字识别需求。典型的应用场景有证件信息的自动识别和提取,自然场景中的文字识别,文档或者宣传资料中的文字检测识别等。同时,由于深度学习和图像检测技术的发展,使得上述场景中的文字的检测和识别效果越来越好,使得机器自动识别成为可能,在业务审核中给公司节省了大量的人力。
Step By Step

1、购买服务
2、授权API
3、API调用


一、购买服务

开通API网关
在身份证服务页面购买服务

二、授权API

1、进入API网关管理控制台,点击左侧调用API—>应用管理,创建新应用。
app_create.png

2、应用创建后,点击应用名称,查看应用ID
appid.png

3、点击左侧已购买API,在对应的API一行中选择查看API,点击更多,授权,输入步骤2获取的应用ID,进行授权即可。
api2.png
api3.png
api4.png

三、API调用

API的具体调用方式见身份证服务产品页面
api使用.png

具体的示例代码见产品页面的请求示例代码,通过此页面查看APPCODEapi代码示例.png

示例如下

本服务包含多种场景下的文字识别

身份证识别
输入格式

{
    "image":  "图片二进制数据的base64编码",
    "configure": "{\"side\":\"face\"}"  #正面/反面:face/back
}

输出格式

 正面返回结果:
{
    "address"    : "浙江省杭州市余杭区文一西路969号",   #地址信息
    "config_str" : "{\"side\":\"face\"}",    #配置信息,同输入configure
    "face_rect":{       #人脸位置
        "angle": -90,   #angle表示矩形顺时针旋转的度数
        "center":{      #center表示人脸矩形中心坐标
            "x" : 952,
            "y" : 325.5
        },
        "size":{        #size表示人脸矩形长宽
            "height":181.99,
            "width":164.99
        }
    }, 
    "card_region":[  #身份证区域位置,四个顶点表示,顺序是逆时针(左上、左下、右下、右上)
       {"x":165,"y":657},
       {"x":534,"y":658},
       {"x":535,"y":31},
       {"x":165,"y":30}
    ],
    "face_rect_vertices":[  #人脸位置,四个顶点表示
        { "x":1024.66, "y":336.62 },
        { "x":906.66,   "y":336.14},
        { "x":907.15,   "y":214.14},
        {"x":1025.15,  "y":214.63}
     ],
    "name" : "张三",                 #姓名
    "nationality": "汉",            #民族 
    "num" : "1234567890",            #身份证号
    "sex" : "男",                    #性别
    "birth" : "20000101",            #出生日期
    "nationality" : "汉",            #民族
    "success" : true                 #识别结果,true表示成功,false表示失败
}
反面返回结果:
{
    "config_str" : "{\"side\\\":\"back\"}",  #配置信息,同输入configure
    "card_region":[    #身份证区域位置,四个顶点表示,顺序是逆时针(左上、左下、右下、右上)
         { "x":212,    "y":371},
         { "x":2188,  "y":350},
         { "x":2201,  "y":1607},
         { "x":225,    "y":1627}
     ],
    "start_date" : "19700101",       #有效期起始时间
    "end_date" : "19800101",         #有效期结束时间
    "issue" : "杭州市公安局",         #签发机关
    "success" : true                 #识别结果,true表示成功,false表示失败
}

驾驶证识别
输入格式

{
    "image":  "图片二进制数据的base64编码",
    "configure": "{\"side\":\"face\"}"  #首页/副页:face/back
}

输出格式

首页识别返回格式:
{
    "config_str": "{\\\"side\\\": \\\"face\\\" }"  #配置字符串信息
    "name": "张三三",                #姓名字符串,识别不出来时,可能为"NoResult"/"InvalidInput"
    "num": "360502xxxx03071357",    #驾驶证号,识别错误时,为"NoResult"/"InvalidInput"
    "vehicle_type":"C1",           #驾驶证准驾车型
    "start_date": "2010xxxx",       #驾驶证有效期开始时间
    "end_date": "6",                #驾驶证有效期时长
    "addr":"北京市海淀区清华园6号楼", #地址
    "sex":"男",                     #性别
    "success": true                 #识别成功与否 true/false
}
副页识别返回格式:
{
    "config_str": "{\\\"side\\\": \\\"back\\\" }",         #配置字符串信息
    "archive_no":"370211375349",  #档案编号
    "success": true                 #识别成功与否 true/false
}

行驶证识别
输入格式

{ 
    "image": "Base64编码的字符",
    "configure": "{\"side\":\"face\"}"   #正反面类型face/back
}

输出格式

正面
{
    "config_str": "null\n",         #配置字符串信息
    "plate_num": "沪A0M084",        #车牌号码
    "vehicle_type":"小型轿车",       #车辆类型
    "owner": "张三",                #所有人名称
    "use_character":"出租转非",      #使用性质
    "addr":"浙江省宁波市江东区丁街88弄", #地址
    "model":"桑塔纳牌SVW7180LE1",    #品牌型号
    "vin" : "LSVFF66R8C2116280",     #车辆识别代号
    "engine_num" : "416098",        #发动机号码
    "register_date":"20121127",       #注册日期
    "issue_date":"2013-07-08",        #发证日期
    "request_id": "84701974fb983158_20160526100112",               #请求对应的唯一表示
    "success": true                 #识别成功与否 true/false
}
反面
{
    "config_str":"{\"side\": \"back\" }",  #配置字符串信息
    "appproved_passenger_capacity":"5人",    #核定载人数
    "approved_load":"",                      #核定载质量
    "file_no":"530100001466",                #档案编号
    "gross_mass":"2000kg",                   #总质量
    "inspection_record":"检验有效期至2014年09月云A(01)",  #检验记录
    "overall_dimension":"4945x1845x1480mm",   #外廓尺寸
    "traction_mass":"",                       #准牵引总质量
    "unladen_mass":"1505kg"                   #整备质量
    "plate_num":"云AD8V02",                   #号牌号码
    "success":true,              #识别成功与否 true/false
    "request_id":"20180131144149_c440540b20a4dc079a10680ff60b2d2a" #请求对应的唯一表示
}

护照识别
输入格式

{
    "image": "base64_image_string"      #图片以base64编码的string
}

输出格式

{
     "authority": "公安部出入境管理局*",  #签发机关
     "birth_date": "19861030",                 #生日
     "birth_day": "861030",                    #生日(即将弃用)
     "birth_place": "广西",                    #出生地
     "country": "CHN",                         #国籍
     "expiry_date": "20230501",                #到期日期
     "expiry_day": "230501",                   #到期日期(即将弃用)
     "issue_date": "20130502",                 #发证日期
     "issue_place": "广西",                     #发证地址
     "line0": "P0CHNWANG**JING*************************",
     "line1": "E203545580CHN8610304M2305019MNPELOLIOKLPA938",
     "name": "WANG.JING",                   #姓名英文
     "name_cn": "汪婧",                         #姓名中文
     "passport_no": "E20354xxxx",               #护照号码
     "person_id": "MNPELOLIOKLPA9",            #持照人身份ID
     "request_id": "20171120113612_813974f02a16b81ab911292d181b0b42",  #请求唯一标识,用于错误追踪
1
     "sex": "M",                               #性别
     "src_country": "CHN",                     #国籍
     "success": true,
     "type": "P0"                               #护照类型
}

营业执照识别

输入格式

{
    "image": "对图片内容进行Base64编码"
}

输出格式

{
    "config_str" : "null\n", #配置字符串信息
    "angle" : float, #输入图片的角度(顺时针旋转),[0, 90, 180,270]
    "reg_num" : string, #注册号,没有识别出来时返回"FailInRecognition"
    "name" : string, #公司名称,没有识别出来时返回"FailInRecognition"
    "person" : string, #公司法人,没有识别出来时返回"FailInRecognition"
    "establish_date": string, #公司注册日期(例:证件上为"2014年04月16日",算法返回"20140416")
    "valid_period": string, #公司营业期限终止日期(例:证件上为"2014年04月16日至2034年04月15日",算法返回"20340415")
    #当前算法将日期格式统一为输出为"年月日"(如"20391130"),并将"长期"表示为"29991231",若证件上没有营业期限,则默认其为"长期",返回"29991231"。
    "address" : string, #公司地址,没有识别出来时返回"FailInRecognition"
    "captial" : string, #注册资本,没有识别出来时返回"FailInRecognition"
    "business": string, #经营范围,没有识别出来时返回"FailInRecognition"
    "elbem" : string, #国徽位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "title" : string, #标题位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "stamp" : string, #印章位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "qrcode" : string, #二维码位置[top,left,height,width],没有识别出来时返回"FailInDetection"
    "success" : bool, #识别成功与否 true/false
    "request_id": string
}

银行卡识别
输入格式

{
    "image": "图片二进制数据的base64编码/图片url",      #图片以base64编码的string
    "card_type":true    # 默认是false, 如果需要card_type字段,则写成true
}

输出格式

{  
   "bank_name":"中国银行",      # 图片中没有的话,返回""
   "card_num":"6227594409463185",
   "valid_date":"03/17",             # 图片中没有的话,返回"";如有多个,则逗号分隔开"03/17,04/05"
   "card_type:"DC",       #DC(借记卡),  CC(贷记卡),  SCC(准贷记卡), DCC(存贷合一卡), PC(预付卡)
   "request_id":"20190806163620_e8b744b981620b764c4abb9537533287",
   "success":true
}

名片识别
输入格式

{
    "inputs": [
        {
            "image": {
                "dataType": 50,
                "dataValue": "Base64编码的字符"
            }
        }
    ]
}

输出格式

{
     "outputs": [
    {
        "outputLabel": "ocr_businesscard",
        "outputMulti": {},
        "outputValue": {
            "dataType": 50,
            "dataValue": "{
                \"name\": \"张三\",                         #姓名
                \"company\": [\"阿里巴巴\", \"阿里巴巴有限公司\" ],                #公司结果数组,数组可能为空
                \"department\": [\"市场部\" ],               #部门结果数组,数组可能为空
                \"title\" : [ \"经理\" ],                    #职位结果数组,数组可能为空
                \"tel_cell\" : [\"15234563443\"],           #手机结果数组,数组可能为空
                \"tel_work\": [\"057185212345\"],          #座机结果数组,数组可能为空
                \"addr\": [\"浙江省杭州市西湖区文一西路969号\"], #地址结果数组,数组可能为空
                \"email\": [],         #邮箱结果数组  ,数组可能为空            
                \"request_id\" : 20160822_32423dfsa23432f   #请求对应的唯一表示
                \"success\": true                           #识别成功与否 true/false
            }"
        }
    }]
}

车牌识别
输入格式

{
    "image": "base64_image_string",
    "configure": "{\"multi_crop\":false}"  #optional, 当设成true时,会做多crop预测,只有当多crop返回的结果一致,并且置信度>0.9时,才返回结果 
}

输出格式

{
      "config_str":"{\\\"multi_crop\\\":true}",
      "plates":[
        {
          "detail":"冀AA617A,0.99753#冀AA617A,0.997782#冀AA617A,0.999783#冀AA617A,0.999999",
          "prob":0.99752956628799438,
          "roi":{"h":35,"w":90,"x":17,"y":21},
          "txt":"冀AA617A"
        }
      ],
      "success":true
}

vin码识别
输入格式

{
   "image":    "图片文件内容的base64编码"
}

输出格式

{    
       "success" : true,
       "vin" : "LSGPB54R4DD331665",
       "request_id" : 20171031122455
}

火车票识别
输入格式

{
   "image":    "图片文件内容的base64编码"
}

输出格式

{
    "date": "2013年10月07日10:43",
    "destination": "潍坊",
    "level": "新空调硬座",
    "number": "K970",
    "origin": "高密",
    "place": "16车无座",
    "price": 14.5,
    "request_id": "20170720134032_416f8b6b6a13b69647e4dc9fdc696ecd",
    "success": true
}

公章识别
输入格式

{
    "image": "对图片内容进行Base64编码"
}

输出格式

{
    "result" : [   
        {                            # 印章#1
            "roi": {                    # 文字区域
                 "left": 325,               # 文字区域左上角x坐标
                "top":  119,               # 文字区域左上角y坐标
                "width": 122,              # 文字区域宽度
                "height": 161,             # 文字区域高度
            }​,
            "text": {                    # 印章文字
                "context": "北京开单科技有限公司",        # 印章文字内容
                "prob":    0.9441,                    # 印章文字概率
            },
            "general_text": [        # 其他印章区域的文字
                {                            # 其他文字#1
                    "content": "2018年07月11日",        # 其他文字内容
                    "prob": 0.6544,                    # 其他文字概率
                },
                {                            # 其他文字#2
                    "content": "电话:010-86468909",    # 其他文字内容
                    "prob": 0.9612,                    # 其他文字概率
                },
                ...                            # 其他文字#N
            ],
        },
        {                            # 印章#2
            "roi": {                    # 文字区域
                 "left": 140,               # 文字区域左上角x坐标
                "top":  139,               # 文字区域左上角y坐标
                "width": 118,              # 文字区域宽度
                "height": 122,             # 文字区域高度
            }​,
            "text": {                    # 印章文字
                "context": "北京开单科技有限公司",        # 印章文字内容
                "prob":    0.8877,                    # 印章文字概率
            },
        }  
        ...                                # 印章#N
    ],
    "success": true,                     # 识别成功与否 true/false
}

出租车机打发票识别
输入格式

{
    "image": "base64_image_string"
}

输出格式

{
    "recipts": [     #发票列表
        { # 发票1
            "items": [ #每张发票的字段列表
                {
                    "roi": {  #对应opencv RotatedRect
                        "angle": -2.5791473388671875, 
                        "center": {
                            "x": 332.9342041015625, 
                            "y": 117.53900146484375
                        }, 
                        "size": {
                            "h": 23.030702590942383, 
                            "w": 180.89764404296875
                        }
                    }, 
                    "txt": "142011671003"
                },  
                {
                    "roi": {
                        "angle": -90, 
                        "center": {
                            "x": 361, 
                            "y": 289.5
                        }, 
                        "size": {
                            "h": 106, 
                            "w": 17
                        }
                    }, 
                    "txt": "A-X9F99"
                }
            ], 
            "roi": { #发票1 位置, 对应opencv的Rect(x, y, w, h)
                "h": 763,     #height
                "w": 379,     #width
                "x": 96,      #upper left corner point x
                "y": 0        #upper left corner point y
            }, 
            "rotate_type": 0      #0,不需要旋转;1.顺时针转90;2.顺时针转180;3.顺时针转270
        }
        { #发票2
            "items": [
                { ...
                },
                { ...
                }
            ],
            "roi": {
                ...
            }, 
            "rotate_type": 0 
        }
    ], 
    "success": true
}
目录
相关文章
|
5天前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
|
17天前
|
存储 人工智能 运维
正式收官!阿里云函数计算携手优酷,用 AI 重塑影视 IP 创新边界
近日,阿里云联合优酷发起的 Create@影视 IP x AI 应用创新大赛,将网剧《少年白马醉春风》这一热门影视 IP 与阿里云 AI 技术相结合,由阿里云函数计算提供 AIGC 技术支持参赛者基于网剧《少年白马醉春风》IP 或“少年江湖”精神内核,用 AI 生成角色场景设计、手办设计、破次元合照、数字人等多样化的作品。
|
1天前
|
云安全 人工智能 安全
|
1月前
|
人工智能 缓存 Cloud Native
用 Higress AI 网关降低 AI 调用成本 - 阿里云天池云原生编程挑战赛参赛攻略
《Higress AI 网关挑战赛》正在火热进行中,Higress 社区邀请了目前位于排行榜 top5 的选手杨贝宁同学分享他的心得。本文是他整理的参赛攻略。
518 67
|
14天前
|
人工智能 小程序 Java
【评测】玩转阿里云《10 分钟构建 AI 客服并应用到网站、钉钉或微信中》
本文介绍了使用阿里云百炼大模型在10分钟内构建AI客服,并应用于网站、钉钉或微信中的体验。作者“JavaDog程序狗”详细描述了从搭建到完成的全过程,包括快速上手、遇到的问题及解决方法、定制化需求以及云产品的整体体验。文档清晰易懂,集成过程顺畅,客服支持响应迅速,定制功能满足特定业务需求,总体体验极佳,适合开发者尝试。
92 5
【评测】玩转阿里云《10 分钟构建 AI 客服并应用到网站、钉钉或微信中》
|
15天前
|
人工智能 数据中心 云计算
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
9月3日,在2024 ODCC开放数据中心大会上,阿里云联合信通院、AMD等国内外十余家业界伙伴发起AI芯片互连开放生态ALS(ALink System)。
AI网络新生态ALS发起成立,信通院、阿里云、AMD等携手制定互连新标准
|
14天前
|
人工智能 自然语言处理 算法
|
28天前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
1月前
|
机器学习/深度学习 人工智能 算法
解密巴黎奥运会中的阿里云AI技术
2024年巴黎奥运会圆满结束,中国代表团金牌数与美国并列第一,展现了卓越实力。阿里云作为官方云服务合作伙伴,通过先进的AI技术深度融入奥运的各项环节,实现了大规模的云上转播,超越传统卫星转播,为全球观众提供流畅、高清的观赛体验。其中,“子弹时间”回放技术在多个场馆的应用,让观众享受到了电影般的多角度精彩瞬间。此外,8K超高清直播、AI智能解说和通义APP等创新,极大地提升了赛事观赏性和互动性。能耗宝(Energy Expert)的部署则助力实现了赛事的可持续发展目标。巴黎奥运会的成功举办标志着体育赛事正式进入AI时代,开启了体育与科技融合的新篇章。
解密巴黎奥运会中的阿里云AI技术
|
15天前
|
人工智能 运维 Cloud Native
专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来
AI智算时代,服务器操作系统面临的挑战与机遇有哪些?