阿里安全OCR技术刷新世界纪录 曾协助14省侦办百余起制售假疫情物资案

本文涉及的产品
文档理解,结构化解析 100页
通用文字识别,通用文字识别 200次/月
票据凭证识别,票据凭证识别 200次/月
简介: 日前,阿里知产保护科技大脑中的一项OCR技术刷新世界纪录。OCR是学界业界必争之战,阿里、谷歌、微软、亚马逊等互联网公司也都研究多年。有OCR奥斯卡之称的ICDAR赛事,吸引全球近百国家数千队伍参加。近期,来自中国的阿里巴巴,一举刷新ICDAR-RCTW17文字检测及端到端文字识别两项世界最好成绩,位列世界第一。

日前,阿里知产保护科技大脑中的一项OCR技术刷新世界纪录。OCR是学界业界必争之战,阿里、谷歌、微软、亚马逊等互联网公司也都研究多年。有OCR奥斯卡之称的ICDAR赛事,吸引全球近百国家数千队伍参加。近期,来自中国的阿里巴巴集团安全团队,一举刷新ICDAR-RCTW17文字检测及端到端文字识别两项世界最好成绩,位列世界第一。

OCR与奥斯卡均诞生于1929年,二者分别代表全球科技和艺术的里程碑事件。1986年中国提出“863”高新科技研究计划,才让OCR的汉字识别研究进入实质性阶段。在该领域研究起步晚半个世纪的中国,后程发力进入世界第一梯队。

OCR是一种能够自动从图像中检测并识别文本的技术,应用场景极为广阔,除了文本翻译、扫描文档阅读等办公场景,自动驾驶等工业场景,还能识别海量图像和视频中的低俗不雅信息,识别海量商品中的疑似侵权标识,是数字经济时代社会治理的新型基础设施。
阿里安全资深算法专家薛晖指出,这项广泛应用于阿里经济体的技术,也在为解决复杂社会问题持续迭代升级。三年前,阿里OCR识别技术每秒能扫描图片文字2000余万个,相当于501本《康熙字典》,识别准确率达97.6%。

阿里知产保护科技大脑.png

 图说:阿里人工智能打假技术“知产保护科技大脑”

其实,OCR只是阿里知产保护科技大脑中的一项技术。“大脑”包含上亿个商品特征、百余个算法模型,效率相当于5万人同时工作。过去两年阿里利用该技术协助执法机关破获制假售假案件涉案金额122亿元。

今年疫情期间,为让公共服务、执法监管等力量少跑腿,减少线下排查被感染的风险,阿里迅速升级知产保护科技大脑技术,提升AI打假能力,输出疫情防控的相关算法模型。截至2月3日,阿里安全已协助全国14个省份30个地市公安机关侦办制售假冒伪劣口罩等违法案件128起。人民日报高度评价称科技战“疫”、智胜一筹,创新技术让我们战胜疫情更有信心。

去年,美国众议院司法委员会副主席道格·柯林斯就公开表示,“阿里巴巴的打假政策和项目比任何美国同行都有效得多,我发现美国平台在这方面远远落后,令人震惊。”阿里知产保护科技大脑中的技术相继打破“世界计算机视觉挑战赛”纪录,在和亚马逊、IBM、英特尔的同台竞技中获得国际计算机学会“最佳应用论文奖”,在美国国家标准技术研究所的视频类人工智能评测中夺冠。2019年12月,以阿里知产保护科技大脑为代表的阿里打假防假技术,被国家知识产权局定义为“中国样本”、“中国经验”,向全社会推广。

相关文章
|
7月前
|
机器学习/深度学习 文字识别 算法
文字识别OCR技术在表格识别方面的确已经取得了一些进展
文字识别OCR技术在表格识别方面的确已经取得了一些进展【1月更文挑战第24天】【1月更文挑战第117篇】
195 3
|
机器学习/深度学习 文字识别 算法
文字识别技术3
文字识别技术3
119 2
|
人工智能 文字识别 自然语言处理
智能文字识别技术——AI赋能古彝文保护
人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。
|
1月前
|
机器学习/深度学习 数据采集 文字识别
7大核心技术:智能OCR如何助力市政单位文档处理数字化转型
随着政务服务数字化的推进,市政单位面临复杂的文档处理需求。本文介绍了一种基于智能OCR技术的一站式文档处理方案,涵盖数据矫正、通用文字识别、表格与票据结构化提取、卡证分类、印章检测、手写文字识别及图像内容识别等核心技术,显著提升工作效率与文档解析的准确性。
|
21天前
|
机器学习/深度学习 文字识别 自然语言处理
医疗行业化验单智能识别技术探讨:OCR与表格识别的应用
本文探讨了OCR与表格识别技术在医疗化验单处理中的应用,通过自动化数据提取和录入,显著提高了效率和准确性,降低了人工劳动强度和错误率。技术实现包括图像预处理、文字识别和表格解析等核心算法的优化,支持与医院信息管理系统集成,未来将向跨模态数据融合、多语言适配及数据安全方向发展。
|
1月前
|
数据采集 人工智能 文字识别
如何绕过Captcha并使用OCR技术抓取数据
在现代网页数据抓取中,Captcha作为一种防止爬虫和恶意访问的措施,广泛应用于各种网站。本文介绍如何使用OCR技术绕过文字Captcha,并通过代理IP技术提高爬虫的隐蔽性。具体实现包括下载Captcha图片、使用Tesseract OCR识别文字、通过代理IP抓取目标数据。示例代码展示了如何抓取大众点评的商家信息。
如何绕过Captcha并使用OCR技术抓取数据
|
1月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
5月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
文本,文字识别02----PaddleOCR基础概念及介绍,安装和使用,人工智能是一种使计算机模仿人类的一种技术,PaddleOCR的安装地址-https://www.paddlepaddle.org
|
5月前
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
5月前
|
文字识别 Java Python
文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响
文本,文识10,springBoot提供RestTemplate以调用Flask OCR接口,调用flask实现ocr接口,用paddleocr进行图片识别云服务技术,单个paddleocr接口有影响

热门文章

最新文章