百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相

简介: 「智能时代的操作系统」飞桨和自研 AI 处理器百度昆仑都已就位,产业智能化时代正在到来。

在刚刚开幕的百度世界大会上,总台央视主持人康辉和年轻 20 岁版的自己对话,成为了人们喜闻乐见的话题。

微信图片_20211204174732.gif

这个虚拟版康辉同样「立志成为新闻播音员」。


之所以说是年轻 20 岁的康辉,是因为「他」是基于几十年前康辉的新闻播报视频数据生成的。与我们此前见过的一些类似技术相比,今天亮相的「康辉」,是一款具备认知能力的终端虚拟人,甚至可以进行机器——机器对话。

除了更会思考,全新的虚拟人技术还有另一个突破:他们的生成和展示的门槛已经大大降低,可以在普通手机上流畅运行。像这样帅气、聪明又会思考的虚拟人,背后整合了视觉、语音、语言与知识等多种模态的 AI 技术。这些技术是由升级后的百度大脑 6.0 提供的。

微信图片_20211204174735.jpg


百度大脑是百度技术多年积累和业务实践的集大成,其中包括视觉、语音、自然语言处理、知识图谱、深度学习、人工智能安全等 AI 核心技术和 AI 开放平台,对内支持了百度所有业务,对外也是全方位开放。

从技术到硬件,从场景到应用,百度大脑作为软硬一体 AI 大生产平台,有效地降低了各行业应用 AI 技术的门槛。截至目前,百度大脑共计开放了 273 项 AI 能力,吸引到 230 万开发者,创建超过 31 万模型,并已培养出 100 万人工智能领域的从业者,目前在业内规模最大。

「百度大脑自 2010 年开始布局和积累基础技术,迄今为止已经发展了十年,」百度 CTO 王海峰说道。「今天我们发布的百度大脑 6.0,是『AI 新型基础设施』,它将方便各行各业更全面、更高效地应用 AI 技术,加快智能化升级。」

微信图片_20211204174738.jpg

在大会上,百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜向我们介绍了百度大脑平台的全新图景。

在百度,不论是无人驾驶汽车、小度音箱、度晓晓、康辉和李彦宏的虚拟形象,还是人们常用的百度搜索、地图、输入法等等产品的背后,都有百度大脑提供的 AI 技术。

「从时代大背景来看,人类社会正处在第四次工业革命的开端,人工智能是其核心科技,正在驱动新一轮科技革命和产业变革,带领人类进入智能时代,」王海峰表示。「近期国家提出了『推动互联网、大数据、人工智能和实体经济深度融合』,推进新基建,加速产业转型升级,促进社会经济高质量发展等战略。人工智能是新基建重点建设的新型基础设施。百度建设的 AI 基础设施就是百度大脑。」

什么样的技术才能承担起这样的重任?在今天的大会中,百度大脑 6.0 宣布了从内到外的升级。


新一代百度昆仑芯片


首先是 AI 技术最为依赖的算力。「百度昆仑」是百度在 2018 年 7 月 4 日发布的一款 AI 芯片,但在之后的很长一段时间里鲜被提及。但实际上,百度昆仑团队已在业界顶级芯片会议 Hotchips 上发表了 4 篇论文,是国内发表最多的机构。

在今天的大会上,百度介绍了芯片研发的最新消息。目前,百度昆仑芯片一代已经大规模部署,在百度搜索引擎及云计算任务上部署了 2 万片。在实际工作环境中,相比英伟达 Tesla T4 GPU,这种芯片在不同模型任务上的性能可以提升 1.5 到 3 倍。

微信图片_20211204174743.jpg


百度还宣布了百度昆仑 2 芯片的计划,新一代芯片将采用 7nm 工艺打造,性能相比百度昆仑 1 代提升三倍,计划明年上半年量产。新一代芯片将加入高速片间互联能力,并推出多款细分型号,覆盖训练和推理,还将有边缘计算的型号。


飞桨平台:核心技术自主研发


百度飞桨是国内首个开源的,功能完整的产业级深度学习平台,集深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件于一体。随着功能的不断完善,飞桨吸引了越来越多的开发者。

「飞桨正在作为中国智能经济的基础底座,对外输出产业智能化升级转型的强大推动力。」王海峰说道。

最近,飞桨也经历了大幅度的升级,其范围覆盖动态图和 API 体系,一些核心技术也有了新的突破。其迎来了「动静统一、软硬融合」的升级:已适配 22 种芯片型号,覆盖 15 家硬件厂商,对国产硬件的支持业内第一,范围超过 TensorFlow 和 PyTorch。

微信图片_20211204174746.jpg


在动态图转静态图方面,飞桨现在已经支持完备的语法覆盖和带控制流的任务,仅需一个装饰器就可以触发操作,统一的接口可以让模型保存加载实现自动适配。

在动态图上,飞桨提供了比静态图更简洁灵活的混合精度训练接口,并且实现媲美静态图的混合精度与量化训练效果。以 ResNet 训练为例,FP 使用混合精度训练,比 FP32 方式速度提升了 2.7 倍。动态图还支持量化,在 MobileNet,ResNet 等动态图模型的任务中,在保持精度不变的情况下,仅占 FP32 体积的 1/4。

飞桨的 API 体系也在全面升级。据介绍,飞桨形成了贴合用户使用习惯的全新 API 体系,包括包结构、API 规范、共性问题优化等,面对用户更加友好。为了减少开发者的工作量,飞桨可以提供包含视觉、NLP 等领域的模型和工具封装的高层 API,以及最经典的模型结构。

 

语音交互,日均调用量超 155 亿次


在语音识别领域,百度推出了端到端信号声学一体化建模的技术。语音合成方面,最新的 Meitron(语音风格迁移)和单人千面合成个性化技术亮相。

个性化 TTS 是个性化定制的 Meitron 语音合成系统的最新演进,是基于子带分解和 GAN_loss 的端侧神经网络声码器,也是业内首个在手机端多人通用的端侧的基于神经计算的声码器。个性化 TTS 相较于传统的基于信号处理和参数的声码器,ABS 提升可以达到 65:35,其已应用于地图导航,目前每日的导航播报超过 1 亿次。

多角色的语音合成,则是针对娱乐内容产业存在的挑战。在制作小说有声读物等任务中,多个角色交替出现,单一音色演绎会出现没有张力的问题。通过深度学习技术对小说文本进行分析,AI 可以判断出文字中的角色、身份、情感,再借助多风格、多角色语音合成技术去合成小说中的声音,从而实现声音自然、体验优美的效果。

百度在大会上还交出了语音技术的最新成绩单:日均调用量超过 155 亿次,广泛应用在移动端、智能家居、和语音 IoT 等场景。


全球最大知识图谱的再次升级


百度拥有目前全球最大的知识图谱,其中包含超过 50 亿实体、5500 亿事实,日均调用量超 400 亿。百度的知识中台现在向企业提供了面向知识应用全生命周期的一站式解决方案,其知识图谱产品目前已覆盖 100 多个行业场景。

最近,这个知识图谱也有了全新升级。在通用图谱方面,百度提出了基于深度自注意力机制的知识表示框架,通过深度自注意力网络对知识图谱中的实体和关系进行连续向量表示,在此基础上,进一步引入预训练语言模型助力结构化知识表示,二元关系推理能力全面超越现有方法,语言学知识图谱上提升尤为显著。

利用多元关系异构图表示,百度还实现了简单知识表示到复杂知识表示的跃迁,多元关系推理效果大幅提升,关键指标平均提升 10%+。

微信图片_20211204174750.jpg


在关系抽取技术上,百度研究人员提出了基于文本图谱联合预训练的关系抽取,通过联合文本语境与图谱路径,共同推断实体间的语义关系,从而大幅提升了关系抽取效果。

在事件图谱方面,百度已经形成了事件检测、事件表示、事件抽取、事件关系挖掘等核心能力,可实现分钟级检测热点、构建了包含 4000 多种事件类型、千万量级的事件库,并发布了业界规模最大的中文事件抽取数据集 DuEE。

除此之外,百度还研发了事理图谱,并升级了多模态语义理解技术。


语义理解框架文心(ERNIE)


在预训练模型火热的 NLP 领域里,百度提出的知识增强语义理解框架文心(ERNIE)最近一直被人们所关注。它以知识增强和持续学习为核心创新点,在深度学习的基础上融入了知识,通过持续学习技术不断吸收海量数据中的词汇、结构、语义等方面的知识。此前,文心在最具影响力的 NLP 评测基准 GLUE 上刷新了不少业内最佳水平记录。

目前,文心已经实现了基于知识增强的跨模态深度语义理解。通过知识关联多模态信息,AI 模型可以使用语言描述不同模态信息的语义,让机器实现从「看清」到「看懂」、「听清」到「听懂」,即图像和语言、语音和语言的一体化理解。

这种能力被百度称为「知识增强的跨模态深度语义理解」,它让机器能够听懂语音、看懂图像视频、理解语言,进而理解真实世界,并与人进行更好的交流。

微信图片_20211204174753.jpg


因为语义理解框架文心的新发展,基于多流机制的预训练语言生成技术 ERNIE-GEN 和知识增强跨模态语义理解技术 ERNIE-ViL,ERNIE-ViL 首次将场景图知识融入到跨模态的预训练模型中。百度推出了文心语义理解技术平台,为企业提供一整套 NLP 定制与应用能力,目前已累计支持 2 万余名开发者。

文心基于深度学习平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,这套技术可以向开发者们提供一站式 NLP 开发与服务,让开发者更简单、高效地定制企业级 NLP 模型。经过大量真实应用场景的应用,这项技术已经具备工业级的落地实力。


视觉计算进入「软 + 硬」时代


视觉计算在端侧的需求凸显,模型小型化已成为趋势。百度大脑 6.0 让视觉计算走向极致效率,基于 PaddleSlim,为开发者开源 Slim 系列视觉模型,不仅包括端侧检测和分类上性能优异的基础模型,还包括计算量下降到 1/7 的人脸识别、仅有 3.1M 的文字识别模型,并开放了 3 款业界首发的视频生成 SDK 方案,可在手机端赋予用户 2D 虚拟真人、二次元等独特的形象。最后还探讨了以度目为代表的视觉硬件在生产生活中的落地应用,正式开启「软硬一体」的视觉时代。

微信图片_20211204174755.jpg


目前,Slim 系列模型拥有业界最小的人脸识别、文字识别等模型等,在人脸识别方向,Slim 系列模型可以做到计算量小至 7 倍压缩。

百度大脑度目硬件则将优势算法通过嵌入式开发技术移植到边缘产品上,打造了人脸应用套件、人脸抓拍机、AI 镜头模组、视频分析盒等民用软硬件产品。通过软硬结合的一体化设计,实现了算法与硬件的深度调优,配备预设应用,可直接部署应用及简单的二次开发和集成。


首发国内首个面向疫情预测与追踪的多方位数据协作平台


在分论坛中,百度研究院大数据实验室与商业智能实验室主任窦德景发布了国内首个面向疫情预测与追踪的多方位数据协作平台——百度数据联邦平台。其具备安全数据存储、云上可信数据交换、大规模数据演算等特性,能够实现多个机构间的隐私数据融合、数据访问与联邦学习,目前已助力清华大学、西安交通大学,厦门大学等研究机构进行疫情研究。

微信图片_20211204174758.jpg


在安全性方面,百度数据联邦平台可以保证数据不被泄露、篡改。在可扩性方面,这一平台可以提供自动部署服务打通不同城市的数据中心,加快不同数据中心数据的读写。而在可持续性方面,数邦平台与百度智能云原生集成,基于百度智能云进行了定制化的优化,极大限度地减少了损耗。

百度数据联邦平台还通过弹性动态配置,实现了多方数据的安全共享,形成了全动态的自动部署。


量脉 + 量桨 + 量易伏


今年 5 月,百度提出的量子机器学习工具「量桨」让飞桨成为了国内首个支持量子机器学习的深度学习平台。百度研究院量子计算研究所今天全新发布了国内首个云原生量子计算平台量易伏,并全面升级了量脉与量桨。

量易伏具备一系列特色功能:首先是三大量子开发套件——针对开发者,量易伏提供基于 Python 的开源开放工具包 QCompute,对于量子研究人员直接登陆浏览器而不需要任何人工配置即可使用在线编程工具 PyOnline,而对于量子计算爱好者来说,可以使用 QComposer 拖动编程体验量子计算的乐趣。

量易伏还带有量子编程全生命周期的支持,根据需要可以调用本地或者云端的服务器完成计算。量子工具链则支持用 Python 和量子汇编语言进行混杂编程,还具有设备无关性。量易伏的特色应用「变分量子特征求解器」,可以准确高效求解分子基态及能量,有望用于量子化学模拟以及新药发现等领域。

微信图片_20211204174801.jpg


现在,百度量子平台已提供了连接顶层解决方案和底层硬件基础所需的大量软件工具以及接口,百度希望这一平台,帮助开发者与合作伙伴们免除学习复杂量子软硬件的麻烦,更快速地为各行业提供量子计算的能力。


在危害出现之前,保证 AI 安全


随着 AI 技术的不断落地,IoT 设备进入人们的家庭,人工智能技术的安全可信问题逐渐被人重视。面对前所未有的挑战,百度提出了 AI 安全三大维度:Security、Safety 和 Privacy,即强对抗环境下的安全威胁、非对抗条件下自然环境所产生的真实威胁,以及数据安全与隐私保护。

针对安全威胁,百度首创的模型鲁棒性体系化评估框架和对抗样本工具箱,将为量化评估安全威胁,帮助飞桨、TensorFlow 等主流机器学习平台快速提升模型鲁棒性提供支撑。

在隐私保护方面,百度在联邦学习等方面的技术探索,将为整个数据生命周期提供安全保障,进一步释放数据价值,扩大 AI 时代大规模数据协作的信任边界。

「我们希望通过长期的研究与实践,能够跑在这些威胁造成重大危害之前。」百度副总裁马杰说道。

微信图片_20211204174805.jpg


现在,百度大脑的技术,已经可以实现设备端、服务端的软硬件一体部署,覆盖企业服务、智能零售再到医疗和教育等多个行业。
李彦宏表示,芯片、操作系统这样过去被「卡脖子」的技术,都是需要长期坚持的,它们的商业价值不可能在短短几年之内就体现出来,需要我们的科技人员有雄心、有耐心、耐得住寂寞,而且有信仰。我们也有长期的考虑和耐心,希望把中国的这些被「卡脖子」的技术能够一点一点突破,最后被市场广泛接受。

百度大脑从 2010 年开始布局和积累基础技术,迄今为止已经发展了十年。它已成为百度人工智能技术积累和产业实践的集合,覆盖了人工智能工作的基础层、感知层、认知层、平台层和安全的所有方面。这家公司希望能够能力通过云服务和开放平台将技术输出给更多人,支持各行业进行智能化升级。

百度大脑是百度 AI 生态建设的基础,结合对 AI 技术的底层研究,中间层的智能云、Apollo 等智能化平台,以及最上层各行业的解决方案,AI 先进技术已经开始批量商业化落地的进程。在多年的大幅研发投入之后,百度的 AI 战略已经开始显现成效。

相关文章
|
前端开发 小程序 算法
【微信小程序】基于百度大脑人体检测、人脸识别以及调用阿里垃圾分类识别小程序利用canvas完成人脸画图、分割手部部分图片算法
【微信小程序】基于百度大脑人体检测、人脸识别垃圾分类人体出现在镜头里用红色框将人脸圈出来、用黄色框将手部圈出来,定时器触发后,通过百度返回的top+、left+、width+、height+将拍照的截图用canvas画出来,最后保存上传到阿里云垃圾分类识别检测博主用的是手部关键点识别,手部截取包括手肘部分,当出现手肘没有手掌时会出现截取不到目标的问题,目前解决办法:定时器设置时间长一点供演示员做好调整,另外就是出现手掌,可以尽量把掌心打开方便识别这样手肘部分就不会被检测到了在截取的时候canvas用不了..
260 0
【微信小程序】基于百度大脑人体检测、人脸识别以及调用阿里垃圾分类识别小程序利用canvas完成人脸画图、分割手部部分图片算法
|
缓存 人工智能 小程序
【零基础微信小程序】基于百度大脑人像分割的证件照换底色小程序实战开发
通过小程序配合百度的人体分割接口进行简单的照片渲染,本期做一个小工具,对学生党、工作人员、打印店铺以及涉及到求职简历办公等需求的人员都很有用,这个项目由于一些原因不再做维护了,于是打算出个教程将证件照小程序分享给大家,这里采用百度AI接口是因为现在网上开源的py脚本对边缘计算不是很优秀,会有很多模糊点没办法处理,识别人体的轮廓范围,与背景进行分离,适用于拍照背景替换、照片合成、身体特效等场景。输入正常人像图片,返回分割后的二值结果图、灰度图、透明背景的人像图(png格式);并输出画面中的人数、人体坐标信息,
405 0
【零基础微信小程序】基于百度大脑人像分割的证件照换底色小程序实战开发
|
文字识别
百度大脑和腾讯云的OCR图片文字识别接口
百度大脑和腾讯云的OCR图片文字识别接口
765 0
|
机器学习/深度学习 存储 人工智能
接入百度大脑OCR技术,读书郎让小朋友变身“自学读书郎”
接入百度大脑OCR技术,读书郎让小朋友变身“自学读书郎”
175 0
接入百度大脑OCR技术,读书郎让小朋友变身“自学读书郎”
|
人工智能 搜索推荐 大数据
百度教育大脑赋能雄安探索智慧教育 落成国内首家AI教育实验室
百度教育大脑赋能雄安探索智慧教育 落成国内首家AI教育实验室
252 0
百度教育大脑赋能雄安探索智慧教育 落成国内首家AI教育实验室
|
机器学习/深度学习 人工智能 自然语言处理
挺进“智慧医疗”,百度医疗大脑前景如何?
挺进“智慧医疗”,百度医疗大脑前景如何?
333 0
挺进“智慧医疗”,百度医疗大脑前景如何?
|
机器学习/深度学习 人工智能 算法
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
180 0
百度大脑发布13项AI硬件,这是要“铆足劲”发力端上AI?
|
机器学习/深度学习 人工智能 自然语言处理
从融合创新到降低门槛,全新发布的百度大脑7.0撑起AI时代「星辰大海」
机器之心编辑部 百度大脑升级至 7.0,以融合创新、降低门槛为显著特点,通过百度智能云加速产业落地爆发。
192 0
从融合创新到降低门槛,全新发布的百度大脑7.0撑起AI时代「星辰大海」
|
机器学习/深度学习 人工智能 自然语言处理
百度大脑5.0发布,宣布与华为重要合作,全新AI芯片「鸿鹄」面世
7 月 3 日,百度 AI 开发者大会在北京开幕。在大会上李彦宏展示的百度 AI 语音识别能力之外,最为引人注目的就是新任 CTO 王海峰向我们揭幕的,最新升级的百度大脑 5.0。新一代大脑在算法和算力上都有了重大突破。
325 0
百度大脑5.0发布,宣布与华为重要合作,全新AI芯片「鸿鹄」面世
|
机器学习/深度学习 人工智能 算法
百度大脑首次发布AI硬件:「蓄谋已久」向终端发力
在不断开发新技术、推动人工智能服务的同时,百度大脑也推出了自己的硬件。本周三,百度在深圳一口气发布了 12 个计算板卡、硬件平台等产品。如此「硬核」的发布会开了整整两个小时。
265 0
百度大脑首次发布AI硬件:「蓄谋已久」向终端发力