昨天,2019 中关村论坛在北京正式开幕。在下午的「AI 时代深度学习技术与应用创新论坛」中,百度 CTO 王海峰致辞介绍飞桨的最新发展全景图,继而百度 AI 技术平台体系执行总监吴甜介绍了这一深度学习平台的四大领先技术方向。
「深度学习算法需要大量算力和数据,进入大规模应用时代的深度学习工具需要很强的通用性,同时也需要做到标准化、自动化和模块化,」王海峰表示。「百度飞桨就是为了应对这些挑战而设计的。我们希望飞桨平台能够赋能各个行业的智能化转型。」
百度首席技术官,深度学习技术及应用国家工程实验室主任王海峰
可以说,深度学习技术的广泛应用,得益于深度学习框架。王海峰指出,在智能时代,深度学习框架起到了承上启下的作用:下接芯片,上承各种应用,可看作是「智能时代的操作系统」。
强大的深度学习框架
提起国内的深度学习框架,我们首先想到的就是飞桨(PaddlePaddle),这款工具自 2013 年开始研发,2016 年宣布开源,拥有一系列业内领先的算法。目前它已经成为集深度学习核心框架、工具组件和服务平台为一体完整开源深度学习平台。
作为一款被百度,以及多家科技公司和开发者所采用的深度学习框架,飞桨已拥有完整的核心框架,覆盖开发、训练和预测,模型库也覆盖了 AI 的所有方面。同时,飞桨提供了包括迁移学习、强化学习、自动化网络结构设计、联邦学习、图神经网络等在内的工具组件。
在服务平台层面,飞桨拥有可供零基础用户使用的定制化训练和服务平台 EasyDL、一站式实训开发平台 AI Studio 和端计算模型生成平台 EasyEdge 等。飞桨以完备的框架、工具和服务,致力于帮助开发者和企业能够利用工具化、平台化的方式进一步降低深度学习应用门槛。
在 NLP 领域,飞桨中包含语义表示模型 ERNIE、BERT、ELMo,语言模型 LSTM、GRU。在计算机视觉领域,百度为使用者提供了目前最为流行的 fast R-CNN、faster R-CNN、mask R-CNN、SSD、VGG、ResNet 等丰富选择。
百度 AI 技术平台体系执行总监,深度学习技术及应用国家工程实验室副主任吴甜向我们介绍了飞桨产业级开源开放平台
飞桨同时支持稠密参数和稀疏参数场景的大规模深度学习并行化训练,支持万亿规模参数、数百个节点级的并行训练。同时,这款深度学习框架也可以在多种硬件上部署,支持服务器端、移动端等多种异构硬件设备的高速推理,预测性能有显著优势。
更为重要的是,这套完整的系统是由百度自主研发的,国内具有完整的知识产权。
技术先进
除了完善的功能以外,飞桨还拥有先进的技术。今年 7 月,百度正式发布了持续学习语义理解框架 ERNIE 2.0,该模型在共计 16 个中英文任务上超越了 BERT 和 XLNet,取得了业内领先的水平。在 ERNIE 2.0 的训练中,其核心特征「可持续学习」需要基于超大规模语料、GPU 集群持续进行多种任务下的预训练。百度表示,通过飞桨多机分布式训练优势。目前 ERNIE 已累计学习了超过 13 亿条知识,并全面刷新了中文 NLP 任务的最优结果。
在工业应用上,通过 ERNIE 2.0,飞桨已可以实现智能问答召回率 7% 的提升,而在对话理解上,ERNIE 也带来了 2% 的准确率提升。
今年 8 月 21 日,百度又发布了针对端侧的推理引擎 Paddle Lite。这一组件的出现使得飞桨在多硬件、多平台以及硬件混合调度的支持上更加完备。
通过对底层架构设计、拓展性和兼容性等方面的改进,Paddle Lite 推理引擎在多硬件、多平台以及硬件混合调度上效率很高。而且,这一工具可针对端侧设备特点进行深度定制及优化,无第三方库依赖,让部署过程更轻量化。在安卓平台上,ARMV7 动态库只需要 800k,ARMV8 动态库仅有 1.3M,而且还也可以根据需要,进行更深度的剪裁。目前,Paddle Lite 已经支持了 ARM CPU,Mali GPU,Adreno GPU,华为 NPU 以及 FPGA 等诸多硬件平台。
今年 7 月,百度在开发者大会上宣布飞桨与华为展开合作,不久 Paddle Lite 成为了首个支持华为 NPU 在线编译的深度学习推理框架。在深度学习应用逐渐进入端侧的情况下,飞桨或许可以通过对于移动芯片硬件能力的优化,在深度学习框架的竞争中占据一席之地。
Paddle Lite 架构
据介绍,Paddle Lite 及其前身的相关技术,已经在百度 App 、百度地图、百度网盘和自动驾驶等产品大规模使用。
16 日,王海峰在世界科技与发展论坛上发布了「飞桨产业级深度学习开源开放平台」。在昨天的大会上,吴甜向我们深入介绍了这一平台的四大领先方向:
- 便捷的开发:飞桨框架采用基于编程逻辑的组网范式,对于普通开发者来说更容易上手。同时支持声明式和命令式编程,兼具开发的灵活性和高性能,网络结构自动设计效果已超越人类专家。
- 支持超大规模深度学习模型训练:飞桨的模型训练技术实现了世界首个支持千亿特征、万亿参数、数百节点的开源大规模训练平台,实现了万亿规模参数模型的实时更新。
- 推理引擎多端多平台部署:飞桨兼容其他开源框架训练的模型,同时可以轻松部署到不同架构的平台设备上。飞桨的推理速度对于很多芯片实现了优化,其中还包括对华为麒麟 NPU 的软硬一体优化。
- 面向产业,覆盖多领域的工业级模型库:飞桨官方支持 100 多个经过产业实践长期打磨的主流模型,其中包括很多业内顶尖水平的模型;同时开源开放了 200 余个预训练模型,助力快速的产业应用。
作为唯一提供系统化深度学习技术服务的平台,飞桨已经实现了 API 的稳定和向后兼容,并为用户提供了从入门教程到安装编译的完整文档。
应用不断扩张
目前,飞桨的核心框架已经发展至 1.5 版,其兼顾了动态图和静态图的优势,包含大量业内性能最佳的官方模型,可实现大规模分布式训练、端到端全流程部署。百度希望飞桨能够作为更多开发者深度学习上的平台,让深度学习技术的创新与应用更简单。
除了专业用户之外,百度飞桨中还有图形化深度学习系统 EasyDL,它可以让用户在没有机器学习背景知识的情况下搭建出优秀的深度学习服务。
自 2018 年 4 月推出以来,EasyDL 的发展迅速,目前在平台上已有超过 3 万种模型。
飞桨有多好用?吴甜向我们介绍了一些应用案例:仅在百度地图上,飞桨的应用就提升了 ETA 开发和调试的效率,提高了 AI 模型的训练效率,帮助开发者们完成了天级别的百亿级数据训练。与此同时,跑在飞桨上的模型将百度地图用户出行时间预估的准确率从 81% 提升到 86%。
此外,飞桨还在目标检测、视频内容理解、大规模推荐系统、智慧城市、智能零售以及智慧农业等方面有了广泛的应用。
目前,飞桨深度学习平台已累计服务 150 多万开发者,仅在定制化训练平台上就有超过 6.5 万企业用户,发布了 16.9 万个模型。飞桨正推动着人工智能技术的标准化、自动化、模块化,进而推动技术落地应用。
当下,深度学习框架的竞争背后除了有市场选择、技术因素的影响,政策层面对于深度学习技术及框架的支持力度也是前所未有。这关乎国家自主知识产权,甚至科技发展战略。
飞桨快速发展的背后是百度对于 AI 底层技术平台的重视,从近日王海峰几乎公开露面则必谈飞桨其重要程度便可窥得一二。作为本次深度学习平行论坛唯一主办方的百度,早已是国内深度学习领域的核心玩家,而深度学习平台飞桨作为 AI 的底层技术支撑,或许可以成为百度突出重围的一张王牌。
本文为机器之心报道,转载请联系本公众号获得授权。