批量名片识别解决方案

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
注册配置 MSE Nacos/ZooKeeper,182元/月
简介: 批量对名片图片进行识别,并保存在数据库中,识别完成后并完成消息通知

场景

用户在参加展会时会互相交换名片,这些名片后续需要录入到系统中,作为一个客户或者供应商存在。如果使用人工手动输入上传会比较耗时,因而需要一个将名片拍照后进行批量识别并直接导入到系统的功能。

解决思路

1、文件上传

拍好的名片照片需要进行上传,可以通过单张上传或者打成压缩包上传。若采用单张上传,那么文件的上传需要做成支持多选的功能,这样的话就会面临需要上传的文件会有几千张,如果做多选的话,我们的上传控件为了考虑性能问题,一定会做选择文件个数的限制,这样就会导致用户需要频繁操作,同时可能会造成很多的请求。鉴于以上原因此处选择压缩包分片上传,防止单个压缩包过大导致上传失败。

在技术上,此处选择阿里云的 对象存储OSS 来处理打包文件的分片上传,以下为主要代码:

📎aliyun-oss-sdk-5.3.1.min.js📎es6-promise.min.js📎md5.js📎uploadFile.js

<!DOCTYPE html><html><head><title></title><scripttype="text/javascript"src="/aliyun-oss-sdk-5.3.1.min.js"></script><scripttype="text/javascript"src="/es6-promise.min.js"></script><scripttype="text/javascript"src="/jSignature/md5.js"></script><scripttype="text/javascript"src="/mumu.file.js"></script></head><body><inputtype="file"name="file"title="上传文件"text="上传文件"allowexts="zip"onchange=""><p><buttontype="button"name="uploadFile"class="hide">上传文件</button></p><scripttype="text/javascript">varmyFiles= [];
varsaveFileUrl="/add/upload/file/url";//上传文件成功后回调url//设置OSS上传的ststoken信息MyFile.stsTokenObj= {
region: "oss-cn-qingdao",//替换你的bucket所在的区域accessKeyId: "your-AccessKeyId",//替换为你的accesskeyaccessKeySecret: "your-AccessKeySecret",//替换为你的accesskeySeceretstsToken: "your-sts-Token",//替换为你的ststokenbucket:"your-bucket-name",//替换为你的bucket那么secure:true };
//设置文件上传的路径MyFile.uploadFilePath="/my/file/path/";
//设置文件控件的变化$("body").delegate("input[type=file]", "change", function () {
//上传文件时或者更换文件时,可进行文件类型、文件大小的验证for (vari=0; i<this.files.length; i++) {
myFiles.push(this.files[i]);
        }
    });
//上传文件$("button[name=uploadFile]").click(function () {
$(this).attr("disabled", "disabled");
letcurButton=$(this);
varupLoadedCount=0;
varfileUploadPromise= (file, index) => {//执行上传letpromise=newPromise((resolve, reject) => {
varcallback=function (res) {
varform=newFormData();
form.append("file", res.name);//上传文件后在oss的文件路径form.append("originName", res.originName);//上传的文件的本地名称$.ajax({
type: "post",
url: saveFileUrl,//上传文件成功后回调地址data: form,
processData: false,
contentType: false,
success: function (res) {
curButton.removeAttr("disabled");
if (res.success) {
alert("上传成功");
                            }
else{
alert("上传失败");     
                            }
                        },
error: function (res) {
curButton.removeAttr("disabled");   
alert("上传失败");
                        }
                    });
                };
varuploadProgress=function (p) {
console.log(p);
returnfunction (done) {
done();
                    }
                };
MyFile.applyTokenDo(MyFile.uploadFile, file, callback, uploadProgress);
            });
returnpromise;
        };
varhandleFiles= (files) => {
letfilesPromise=files.map((file, index) =>fileUploadPromise(file, index));
Promise.all(filesPromise)
            .then(data=> {
data.map((image, index) =>console.log("success"))
            })
        };
handleFiles(myFiles);
    });
</script></body></html>


这里分片上传文件到 OSS 使用了 OSS 的官方sdk,大家可参考阿里云官网上的 OSS SDK下载最新的开发包。上传时的 AccessKey 和 AccessSecret 为使用 STS 方式获取的临时 token,这样可以保证原密钥的安全性。这里就不再说明了。

2、保存文件数据、发送队列

在文件上传成功后,可将上传的文件信息保存到数据库中,比如,可设计一个文件记录表:

CREATETABLE `tbfile` (  `id` int(11)unsignedNOTNULL AUTO_INCREMENT,  `file_path` varchar(300) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '文件路径',  `createtime` datetime DEFAULT NULL COMMENT '上传时间',  `origin_name` varchar(200) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL COMMENT '原始名',  PRIMARY KEY (`id`)) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='上传文件';


考虑到图片识别的速度会很慢,如果立即识别可能会导致用户的浏览器连接超时,当压缩包上传成功后,此处使用异步发送 MQ 的方式进行名片识别。

将刚插入数据库的数据 ID 作为消息体发送,可使用 ActiveMQ、Rocket MQ、Alimns等消息队列处理。

3、接收队列、进行识别

在服务端新建一个 Service 进行队列接收,并根据消息内容从第二步的数据表中获取上传文件的 OSS 地址,将该压缩包下载解压后,依次识别每个名片信息。识别成功后可将识别的数据插入到目标数据表,并同时通过企业微信、钉钉、短信等通知上传用户。

名片的识别可使用阿里云 视觉智能开放平台>文字识别>名片识别 或者 其他名片识别。此处以 Laravel 框架展示主要代码内容:

/*** 处理名片信息
*@paramfileUrl 压缩文件的下载地址
*/privatefunctiondealCardInfo($fileUrl){
//下载文件
$filePath=storage_path('downloads/mycards.zip');
$downloadFile=file_get_contents("compress.zlib://".$fileUrl);
file_put_contents($filePath, $downloadFile);
//解压文件
shell_exec("unzip -d ".storage_path("downloads/mycards/").' -o '.$filePath);
//循环文件
$allFiles= \Storage::disk('download')->allFiles("mycards/");
foreach ($allFilesas$curFile) {
$curImagePath=storage_path("downloads/".$curFile);
$curImage=base64_encode(file_get_contents($curImagePath));
$ret=$this->getCardInfo($curImage);
if (!empty($ret)) {
$curContent= [
"name"=>$ret["name"],
"company"=>$ret["company"],
"department"=>$ret["department"],
"title"=>$ret["title"],
"tel_cell"=>$ret["tel_cell"],
"tel_work"=>$ret["tel_work"],
"addr"=>$ret["addr"],
"email"=>$ret["email"]
        ];
app("db")->connection("mysql")->table("tbcontact")->insert($curContent);
    }
//删除文件
unlink($curImagePath);
  }
//发送消息提醒
#todo//删除下载文件
unlink($filePath);
}
/*** 识别名片
*@paramimageInfo 图片base64 或者图片url*/privatefunctiongetCardInfo($imageInfo){
$url="https://bizcard.market.alicloudapi.com/rest/160601/ocr/ocr_business_card.json";
$method="POST";
$appcode="your app code";
$headers= [
"Authorization:APPCODE ".$appcode,
"Content-Type".":"."application/json; charset=UTF-8"    ];
//图片二进制数据的base64编码或者图片url$bodys="{\"image\":\"".$imageInfo."\"}";
$ret="";
try {
$curl=curl_init();
curl_setopt($curl, CURLOPT_CUSTOMREQUEST, $method);
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_HTTPHEADER, $headers);
curl_setopt($curl, CURLOPT_FAILONERROR, false);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
curl_setopt($curl, CURLOPT_HEADER, false);        
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($curl, CURLOPT_POSTFIELDS, $bodys);
$ret=curl_exec($curl);
curl_close($curl);
  } catch(\Exception$ex){
  }
$retArr=json_decode($ret,true);
if (empty($retArr)) {
return [];
  }
if (!$retArr["success"]) {
return [];
 }
return$retArr;
}


相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
Rust 安全 前端开发
为什么 Rust 备受开发者青睐?
在本篇文章中,作者介绍了 Rust 是什么,它的历史以及 Rust 是如何备受开发者和行业的青睐。希望本篇文章能帮助读者对 Rust 这门语言有一个大概的了解。
137881 43
|
监控 前端开发 JavaScript
前端监控(Frontend Monitoring):保障用户体验的不可或缺工具
前端监控是维护卓越用户体验的关键,它使您能够追踪、分析和解决您的Web应用程序中的性能问题和错误。在本博客中,我们将深入探讨前端监控的重要性、监控的关键指标以及如何实施前端监控来提高您的应用程序的可用性和性能。
836 0
|
数据采集 Web App开发 测试技术
如何避免反爬虫程序检测到爬虫行为?
这段内容介绍了几种避免被反爬虫程序检测的方法:通过调整请求频率并遵循网站规则来模拟自然访问;通过设置合理的User-Agent和其他请求头信息来伪装请求;利用代理IP和分布式架构来管理IP地址;以及采用Selenium等工具模拟人类的浏览行为,如随机点击和滚动页面,使爬虫行为更加逼真。这些技巧有助于降低被目标网站识别的风险。
|
机器学习/深度学习 算法 搜索推荐
一文读懂FM算法优势,并用python实现!(附代码)
介绍 我仍然记得第一次遇到点击率预测问题时的情形,在那之前,我一直在学习数据科学,对自己取得的进展很满意,在机器学习黑客马拉松活动中也开始建立了自信,并决定好好迎接不同的挑战。 为了做得更好,我购买了一台内存16GB,i7处理器的机器,但是当我看到数据集的时候却感到非常不安,解压缩之后的数据大概有50GB - 我不知道基于这样的数据集要怎样进行点击率预测。
15349 0
|
28天前
|
监控 算法 C#
C#与Halcon联合编程实现鼠标控制图像缩放、拖动及ROI绘制
C#与Halcon联合编程实现鼠标控制图像缩放、拖动及ROI绘制
211 0
|
8月前
|
前端开发 JavaScript UED
React 轮播图组件 Carousel
本文介绍了如何在 React 中实现和优化轮播图组件,涵盖自动播放、手动切换、循环播放和响应式设计等核心功能。通过 `useState` 和 `useEffect` 钩子管理状态和副作用,添加左右箭头和指示器增强交互性。同时,探讨了常见问题如自动播放与手动切换冲突、指示器样式不一致、响应式设计及性能优化,并提供解决方案和代码示例。帮助开发者提升轮播图组件的用户体验。
402 26
Google Earth Engine(GEE) ——如何获取指定研究区范围内的单个影像的时间,这里求具体的天数,以landsat9影像为例。
Google Earth Engine(GEE) ——如何获取指定研究区范围内的单个影像的时间,这里求具体的天数,以landsat9影像为例。
391 0
|
缓存 运维 Java
解决Spring Boot中的内存泄漏问题
解决Spring Boot中的内存泄漏问题
|
运维 安全 网络安全
远程访问内网设备:对比IPsec VPN,SD-WAN异地组网更具优势
无论是远程办公还是工业物联,高效网络连接至关重要。传统IPsec VPN虽能提供安全通道,但部署复杂且灵活性有限。相比之下,SD-WAN作为一种软件定义广域网技术,以其简易部署、智能选路及云端管理等优势脱颖而出。它不仅简化了配置流程,支持任意网络环境下的快速组网,还通过智能优化路径保证了跨地域和运营商间的高质量传输。此外,SD-WAN的云端化管理平台使得维护与扩展更为灵活便捷,集成的安全功能进一步提升了整体网络防护水平。
590 0
|
文字识别 安全 API
阿里云文字识别OCR的发票凭证识别功能可以通过API接口的形式进行调用
【2月更文挑战第5天】阿里云文字识别OCR的发票凭证识别功能可以通过API接口的形式进行调用
625 5