从TPU3.0到DeepMind支持的Android P,谷歌I/O 2018的AI亮点全在这了-阿里云开发者社区

开发者社区> 超努力的写代码> 正文

从TPU3.0到DeepMind支持的Android P,谷歌I/O 2018的AI亮点全在这了

简介: 2018 年 5 月 8 日,一年一度的谷歌 I/O 开发者大会在美国加州山景城开幕。2016 年谷歌从移动优先到人工智能优先(AI-first),两年来我们从谷歌 I/O 看到了谷歌如何践行这一战略。在今日刚刚结束的 Keynote 中,机器学习依旧是整个大会的主旋律:谷歌发布了 TPU 3.0、Google Duplex,以及基于 AI 核心的新一代安卓操作系统 Android P,也介绍了自己在 News、Map、Lens 等众多产品中对 AI 与机器学习模型的应用。本文带你一览谷歌 I/O 2018 首日 keynote 的核心亮点。
+关注继续查看

在今天的 Keynote 中,谷歌 CEO 桑德尔·皮查伊等人介绍了谷歌一年来的多方面 AI 研究成果,例如深度学习医疗、TPU3.0、Google Duplex 等,也展示了 AI 如何全方位地融入了谷歌每一条产品线,从安卓到 Google Lens 和 Waymo。在本文中,机器之心对 Keynote 的核心内容进行了整理。

深度学习医疗


大会刚开始,昨天谷歌所有的 AI 研究合并出的 Google AI 发布了一篇博客,介绍谷歌在医疗领域的研究:


联合斯坦福医学院、加州大学旧金山分校 、芝加哥大学医学中心,谷歌今天在 Nature Partner Journals: Digital Medicine 上发布了一篇论文《Scalable and Accurate Deep Learning with Electronic Health Records》。


在此研究中,谷歌使用深度学习模型根据去识别的电子病历做出大量与病人相关的预测。重要的是,谷歌能够使用原始数据,不需要人工提取、清洁、转换病历中的相关变量。


在预测之前,深度学习模型读取早期到现在所有的数据点,然后学习对预测输出有帮助的数据。由于数据点数量巨大,谷歌基于循环神经网络与前馈网络开发出了一种新型的深度学习建模方法。


微信图片_20211129193504.jpg病人病历中的数据以时间线的形式展示


至于预测准确率(标准:1.00 为完美得分),如果病人就医时间较长,论文提出的模型预测得分为 0.86,而传统的 logistic 回归模型得分为 0.76。这一预测准确率已经相当惊人。


Looking to Listen:音频-视觉语音分离模型


而后,皮查伊介绍了谷歌博客不久前介绍的新型音频-视觉语音分离模型。


微信图片_20211129193535.jpg在论文《Looking to Listen at the Cocktail Party》中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。


据介绍,这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比),它还将分离的干净语音轨道与视频中的可见说话者相关联。


微信图片_20211129193557.jpg在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。


皮查伊还介绍了谷歌其他 NLP 应用,例如通过谷歌的键盘输入摩斯电码让语言障碍者重新获得表达能力、GMail 中利用语言模型与语境信息预测输入。


之后,皮查伊介绍了谷歌在计算机领域的一些研究成果与应用,包括医疗影像方面的研究,移动设备中应用的照片理解、抠图、自动上色和文档处理等。


TPU 3.0


去年,谷歌 I/0 公布了 TPU 2.0,且开放给了谷歌云客户。今天,皮查伊正式宣布 TPU 3.0 版本。


微信图片_20211129193618.jpg


皮查伊介绍,TPU 3.0 版本功能强大,采用液冷系统,计算性能是 TPU 2.0 的 8 倍,可解决更多问题,让用户开发更大、更好、更准确的模型。更多有关 TPU 3.0 的信息也许会在之后放出。


Google Assitant 与 Google Duplex


集成谷歌人机交互研究的 Google Assistant 在今日的 keynote 中必然会亮相。Google Assitant 负责工程的副总裁 Scott Huffman 介绍了 Google Assitant 过去一年的成果,谷歌产品管理总监 Lilian Rincon 介绍了带有视觉体验的 Google Assistant 产品,且有数款产品将在今年 7 月份发布。


而后谷歌 CEO 桑德尔·皮查伊在 Keynote 中展示了语言交互的重要性,并正式介绍了一种进行自然语言对话的新技术 Google Duplex。这种技术旨在完成预约等特定任务,并使系统尽可能自然流畅地实现对话,使用户能像与人对话那样便捷。


这种自然的对话非常难以处理,因为用户可能会使用更加不正式或较长的句子,且语速和语调也会相应地增加。此外,在交互式对话中,同样的自然语句可能会根据语境有不同的意思,因为人类之间的自然对话总是根据语境尽可能省略一些语言。


为了解决这些问题,Duplex 基于循环神经网络和 TensorFlow Extended(TFX)在匿名电话会话数据集上进行训练。这种循环网络使用谷歌自动语音识别(ASR)技术的输出作为输入,包括语音的特征、会话历史和其它会话参数。谷歌会为每一个任务独立地训练一个理解模型,但所有任务都能利用共享的语料库。此外,谷歌还会使用 TFX 中的超参数优化方法优化模型的性能。


如下所示,输入语音将输入到 ASR 系统并获得输出,在结合 ASR 的输出与语境信息后可作为循环神经网络的输入。这一深度 RNN 最终将基于输入信息输出对应的响应文本,最后响应文本可传入文本转语音(TTS)系统完成对话。RNN 的输出与 TTS 系统对于生成流畅自然的语音非常重要,这也是 Duplex 系统关注的核心问题。


微信图片_20211129193735.jpg在 Duplex 系统的语音生成部分,谷歌结合了拼接式的 TTS 系统和合成式的 TTS 系统来控制语音语调,即结合了 Tacotron 和 WaveNet。


由于这样的系统引入了「嗯、额」等停顿语,系统生成的语音会显得更加的自然。当结合拼接式 TTS 引擎中大量不同的语音单元或添加合成式停顿时,这些引入的停顿语允许系统以自然的方式表示它还需要一些处理时间。


总的来说,Google Duplex 的这些结构与方法对生成更自然的对话与语音有非常大的帮助。目前虽然主要是针对特定领域中的语言交互,但确实提升了语音会话中的用户体验。


安卓以及闪现的 DeepMind


即将在今年 9 月迎来自己 10 岁生日的安卓也在 I/O 上宣布了新一代操作系统。继承 Android Oreo 工作的新版安卓系统被命名为 Android P。


「本次发布有三个主题,分别是智能(Intelligence)、简洁(Simplicity)与数字健康(Digital Wellbeing)。Android P 是我们『AI 位于操作系统核心』愿景的第一步,而 AI 也是『智能』主题的奠基石。」谷歌工程副总裁 Dave Burke 如是展开了他的演讲。


智能部分里首先介绍了两个功能,Adaptive Battery 自适应电池管理系统和 Adaptive Brightness 自适应亮度调节系统。


其中,Adaptive Battery 通过卷积神经网络来预测用户接下来会使用的应用程序,通过适应用户的使用模式将电池仅用于你接下来可能需要的应用程序中,这减少了 30% 的后台 CPU 唤醒。而 Adaptive Brightness 则不再单纯根据照明情况调节亮度,而是加上了用户喜好和所处环境因素。超过一半的测试用户减少了他们手动调节亮度条的频率。


事实上,这两个功能均来自之前一度被美媒质疑「烧钱还傲娇不干实事」的 DeepMind。DeepMind 本次并没有直接在 I/O 露出,只是在博客上发表了一篇文章(https://deepmind.com/blog/deepmind-meet-android/),说明了 Android 的这两个新功能来自 DeepMind for Google 团队。


除此之外,Android P 也将去年发布的、准确率达到 60% 的「用户接下来可能使用哪个 App」预测更进一步,转而预测「用户接下来可能用什么 App 进行什么操作」,并直接在上滑菜单顶部呈现给用户。


Dave Burke 在介绍上述每一个功能时都着重强调了所有的预测均由在端上运行的机器学习模型完成,以确保用户隐私得到最大程度的保护。


除了将 AI 融入操作系统的优化之外,Android 还试图降低非机器学习背景的开发者使用相关技能的门槛:包括图片标注、文字识别、智能回复等一系列 AI 相关的 API 将以 ML Kit 的形式开放给开发者。


「你可以将 ML Kit 视作基于 TensorFlow Lite 提供的、为移动设备优化过的、随拿随用机器学习模型。」Dave Kurve 介绍说。而且,谷歌非常大方地同时对 iOS 系统开放了这一 API 集。


微信图片_20211129193758.jpg


开发者今天就能在 Pixel 上实验 Android P Beta 的效果了。值得一提的是,除了 Pixel 之外,Android P Beta 还对其他 7 家手机生产厂商的旗舰机开放,其中有 4 家都来自中国,它们分别是小米、vivo、oppo 和一加。


无人驾驶


昨日,起源于斯坦福人工智能实验室的自动驾驶汽车初创公司 Drive.ai 于 7 日宣布,将与德克萨斯州的弗里斯科政府以及 Hall 集团进行合作,在德州落地首个无人出租车服务。而在今天的 Keynote 中,Waymo CEO John Krafcik 通过视频展示了居住在凤凰城的一些人参与其 EarlyRider 项目(即体验 Waymo 的自动驾驶技术)的场景。Krafcik 称 Waymo 将在今年于凤凰城开始 passenger-pickup 项目,凤凰城是第一站。



版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26793 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
10084 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2962 0
使用SSH远程登录阿里云ECS服务器
远程连接服务器以及配置环境
2511 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9161 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13890 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
11818 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
4659 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4505 0
1946
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载