日前,阿里知产保护科技大脑中的一项OCR技术刷新世界纪录。OCR是学界业界必争之战,阿里、谷歌、微软、亚马逊等互联网公司也都研究多年。有OCR奥斯卡之称的ICDAR赛事,吸引全球近百国家数千队伍参加。近期,来自中国的阿里巴巴集团安全团队,一举刷新ICDAR-RCTW17文字检测及端到端文字识别两项世界最好成绩,位列世界第一。
OCR与奥斯卡均诞生于1929年,二者分别代表全球科技和艺术的里程碑事件。1986年中国提出“863”高新科技研究计划,才让OCR的汉字识别研究进入实质性阶段。在该领域研究起步晚半个世纪的中国,后程发力进入世界第一梯队。
OCR是一种能够自动从图像中检测并识别文本的技术,应用场景极为广阔,除了文本翻译、扫描文档阅读等办公场景,自动驾驶等工业场景,还能识别海量图像和视频中的低俗不雅信息,识别海量商品中的疑似侵权标识,是数字经济时代社会治理的新型基础设施。
阿里安全资深算法专家薛晖指出,这项广泛应用于阿里经济体的技术,也在为解决复杂社会问题持续迭代升级。三年前,阿里OCR识别技术每秒能扫描图片文字2000余万个,相当于501本《康熙字典》,识别准确率达97.6%。
图说:阿里人工智能打假技术“知产保护科技大脑”
其实,OCR只是阿里知产保护科技大脑中的一项技术。“大脑”包含上亿个商品特征、百余个算法模型,效率相当于5万人同时工作。过去两年阿里利用该技术协助执法机关破获制假售假案件涉案金额122亿元。
今年疫情期间,为让公共服务、执法监管等力量少跑腿,减少线下排查被感染的风险,阿里迅速升级知产保护科技大脑技术,提升AI打假能力,输出疫情防控的相关算法模型。截至2月3日,阿里安全已协助全国14个省份30个地市公安机关侦办制售假冒伪劣口罩等违法案件128起。人民日报高度评价称科技战“疫”、智胜一筹,创新技术让我们战胜疫情更有信心。
去年,美国众议院司法委员会副主席道格·柯林斯就公开表示,“阿里巴巴的打假政策和项目比任何美国同行都有效得多,我发现美国平台在这方面远远落后,令人震惊。”阿里知产保护科技大脑中的技术相继打破“世界计算机视觉挑战赛”纪录,在和亚马逊、IBM、英特尔的同台竞技中获得国际计算机学会“最佳应用论文奖”,在美国国家标准技术研究所的视频类人工智能评测中夺冠。2019年12月,以阿里知产保护科技大脑为代表的阿里打假防假技术,被国家知识产权局定义为“中国样本”、“中国经验”,向全社会推广。