ICPR 2018|阿里巴巴读光OCR及MTWI数据集亮相引关注

简介: 近日,第24届国际模式识别大会(ICPR 2018)在北京举办,阿里巴巴“图像和美”团队成为会场焦点,在本次ICPR大会中,阿里巴巴“图像和美”团队集中展示了在OCR方向的学术能力与读光OCR的产品能力。

近日,第24届国际模式识别大会(ICPR 2018)在北京举办,阿里巴巴“图像和美”团队成为会场焦点,在本次ICPR大会中,阿里巴巴“图像和美”团队集中展示了在OCR方向的学术能力与读光OCR的产品能力。

阿里巴巴“图像和美”团队是阿里巴巴延续时间最久的图像识别团队,从事OCR研究超过7年,全面覆盖公司内网络图片、文档等类型,日均处理图片超过6亿,累计超千亿,并于2017年底在阿里云上推出了读光云产品,提供企业级的公有云和专有云服务。目前读光OCR已广泛运用于各行业领域,在办公自动化、文档电子化、数据智能等场景实现企业的生产应用。在本次ICPR的展区也重点展示了卡证识别、表单识别、增值税发票识别等综合识别能力。

640

(读光OCR在ICPR的展台)

本次阿里巴巴“图像和美”团队还和华中科技大学、中科院自动化所共同举办了首届深度学习文档分析和识别研讨会,吸引了上百名研究人员参加。研讨会上IAPR主席Simone Marinai教授、华南理工大学金连文教授、阿里巴巴高级算法专家永攀等人发表了报告,各位专家同步了学术界最新研究及工业界的落地进展,现场反响热烈。

6401

(阿里巴巴高级算法专家永攀在研讨会上的报告)


6402

(Simone Marinai教授在研讨会上做报告)


研讨会的最后,华南理工大学金连文教授、北京大学王勇涛教授、阿里巴巴高级算法专家永攀等嘉宾就“深度学习OCR和DAR领域的未来趋势”进行了探讨,包括深度学习模型构架、数据集构建、算法应用方向等学术界及工业界都共同关注的热门话题。阿里巴巴高级算法专家永攀表示:“阿里读光是OCR应用领域的先行者,在实践中,读光将模型、数据、应用融合,实现通用应用场景的OCR算法架构,并按应用场景构建了完善的数据集系统。OCR是最基础最广泛的AI应用方向,能够与各行业结合形成广泛的社会效应, 我们期待和学术界一起追求算法极限,探索接近客观规律的AI问题。”

6403

(研讨会现场座无虚席)


此次,阿里巴巴“图像和美”团队联合华南理工大学共同举办ICPR MTWI 2018 挑战赛在大会进行了报告和颁奖,ICPR MTWI 2018挑战赛是目前参赛人数最多的OCR竞赛,由阿里巴巴天池平台承办,共有4282支队伍参与竞赛。 同时, 本次竞赛标注并公开了MTWI数据集,是现有难度最大、内容最丰富的网络图片OCR数据集,也是阿里巴巴首个公开的OCR数据集。

6404

(阿里巴巴算法专家永麒在大会进行竞赛报告)


阿里巴巴算法专家永麒在大会报告中表示:“希望通过这个数据集和竞赛,回馈学术界,并且推动业界技术的发展。从最终的效果来看,参加竞赛的队伍包括了众多知名高校和企业,在本次竞赛中,企业展现出了比较大的竞争优势。这也表明,众多企业看好OCR应用,OCR进入了应用爆发期。不过在三个赛道,最好队伍的准确率都没有超过90%。这也表明了网络图片的技术难点还没有完全解决。我们也希望这次的竞赛能够促进业界对这类问题的研究,一起来彻底解决这些问题。”

6405

(阿里巴巴资深算法专家雷音为获奖队伍颁奖)


在本次ICPR 2018中,阿里巴巴“图像和美”团队通过竞赛、研讨会、展区展示等形式多元化、全方位的展现了团队在OCR方面的深度积累及学术能力、产品能力,也得到了与会人员的高度评价和关注。
相关文章
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】Fast R-CNN中的RoI(Region of Interest)池化详解
【PyTorch实战演练】Fast R-CNN中的RoI(Region of Interest)池化详解
677 1
|
人工智能 Prometheus 监控
容器化AI模型的监控与治理:确保模型持续稳定运行
在前几篇文章中,我们探讨了AI模型的容器化部署及构建容器化机器学习流水线。然而,将模型部署到生产环境只是第一步,更重要的是确保其持续稳定运行并保持性能。为此,必须关注容器化AI模型的监控与治理。 监控和治理至关重要,因为AI模型在生产环境中面临数据漂移、概念漂移、模型退化和安全风险等挑战。全面的监控涵盖模型性能、数据质量、解释性、安全性和版本管理等方面。使用Prometheus和Grafana可有效监控性能指标,而遵循模型治理最佳实践(如建立治理框架、定期评估、持续改进和加强安全)则能进一步提升模型的可信度和可靠性。总之,容器化AI模型的监控与治理是确保其长期稳定运行的关键。
|
Java 测试技术 API
Java零基础-接口详解
【10月更文挑战第19天】Java零基础教学篇,手把手实践教学!
466 1
|
存储 编解码 API
python多种方法压缩图片,opencv、PIL、tinypng、pngquant压缩图片
python多种方法压缩图片,opencv、PIL、tinypng、pngquant压缩图片
1902 1
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】深入剖析MTCNN(多任务级联卷积神经网络)并使用30行代码实现人脸识别
【PyTorch实战演练】深入剖析MTCNN(多任务级联卷积神经网络)并使用30行代码实现人脸识别
1620 2
|
测试技术
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。
629 1
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
|
机器学习/深度学习 数据采集 API
|
SQL 数据采集 存储
NULL 值与零或空格相同吗?详尽解析
【8月更文挑战第31天】
1594 0
|
消息中间件 Shell Go
GoLang 环境变量与配置
编程语言中的环境变量和配置管理是关键,Go 项目中配置文件不被打包,需通过环境变量解耦代码。
496 0