从TPU3.0到DeepMind支持的Android P,谷歌I/O 2018的AI亮点全在这了

简介: 2018 年 5 月 8 日,一年一度的谷歌 I/O 开发者大会在美国加州山景城开幕。2016 年谷歌从移动优先到人工智能优先(AI-first),两年来我们从谷歌 I/O 看到了谷歌如何践行这一战略。在今日刚刚结束的 Keynote 中,机器学习依旧是整个大会的主旋律:谷歌发布了 TPU 3.0、Google Duplex,以及基于 AI 核心的新一代安卓操作系统 Android P,也介绍了自己在 News、Map、Lens 等众多产品中对 AI 与机器学习模型的应用。本文带你一览谷歌 I/O 2018 首日 keynote 的核心亮点。

在今天的 Keynote 中,谷歌 CEO 桑德尔·皮查伊等人介绍了谷歌一年来的多方面 AI 研究成果,例如深度学习医疗、TPU3.0、Google Duplex 等,也展示了 AI 如何全方位地融入了谷歌每一条产品线,从安卓到 Google Lens 和 Waymo。在本文中,机器之心对 Keynote 的核心内容进行了整理。

深度学习医疗


大会刚开始,昨天谷歌所有的 AI 研究合并出的 Google AI 发布了一篇博客,介绍谷歌在医疗领域的研究:


联合斯坦福医学院、加州大学旧金山分校 、芝加哥大学医学中心,谷歌今天在 Nature Partner Journals: Digital Medicine 上发布了一篇论文《Scalable and Accurate Deep Learning with Electronic Health Records》。


在此研究中,谷歌使用深度学习模型根据去识别的电子病历做出大量与病人相关的预测。重要的是,谷歌能够使用原始数据,不需要人工提取、清洁、转换病历中的相关变量。


在预测之前,深度学习模型读取早期到现在所有的数据点,然后学习对预测输出有帮助的数据。由于数据点数量巨大,谷歌基于循环神经网络与前馈网络开发出了一种新型的深度学习建模方法。


微信图片_20211129193504.jpg病人病历中的数据以时间线的形式展示


至于预测准确率(标准:1.00 为完美得分),如果病人就医时间较长,论文提出的模型预测得分为 0.86,而传统的 logistic 回归模型得分为 0.76。这一预测准确率已经相当惊人。


Looking to Listen:音频-视觉语音分离模型


而后,皮查伊介绍了谷歌博客不久前介绍的新型音频-视觉语音分离模型。


微信图片_20211129193535.jpg在论文《Looking to Listen at the Cocktail Party》中,谷歌提出了一种深度学习音频-视觉模型,用于将单个语音信号与背景噪声、其他人声等混合声音分离开来。这种方法用途广泛,从视频中的语音增强和识别、视频会议,到改进助听器,不一而足,尤其适用于有多个说话人的情景。


据介绍,这项技术的独特之处是结合了输入视频的听觉和视觉信号来分离语音。直观地讲,人的嘴的运动应当与该人说话时产生的声音相关联,这反过来又可以帮助识别音频的哪些部分对应于该人。视觉信号不仅在混合语音的情况下显著提高了语音分离质量(与仅仅使用音频的语音分离相比),它还将分离的干净语音轨道与视频中的可见说话者相关联。


微信图片_20211129193557.jpg在谷歌提出的方法中,输入是具有一个或多个说话人的视频,其中我们需要的语音受到其他说话人和/或背景噪声的干扰。输出是将输入音频轨道分解成的干净语音轨道,其中每个语音轨道来自视频中检测到的每一个人。


皮查伊还介绍了谷歌其他 NLP 应用,例如通过谷歌的键盘输入摩斯电码让语言障碍者重新获得表达能力、GMail 中利用语言模型与语境信息预测输入。


之后,皮查伊介绍了谷歌在计算机领域的一些研究成果与应用,包括医疗影像方面的研究,移动设备中应用的照片理解、抠图、自动上色和文档处理等。


TPU 3.0


去年,谷歌 I/0 公布了 TPU 2.0,且开放给了谷歌云客户。今天,皮查伊正式宣布 TPU 3.0 版本。


微信图片_20211129193618.jpg


皮查伊介绍,TPU 3.0 版本功能强大,采用液冷系统,计算性能是 TPU 2.0 的 8 倍,可解决更多问题,让用户开发更大、更好、更准确的模型。更多有关 TPU 3.0 的信息也许会在之后放出。


Google Assitant 与 Google Duplex


集成谷歌人机交互研究的 Google Assistant 在今日的 keynote 中必然会亮相。Google Assitant 负责工程的副总裁 Scott Huffman 介绍了 Google Assitant 过去一年的成果,谷歌产品管理总监 Lilian Rincon 介绍了带有视觉体验的 Google Assistant 产品,且有数款产品将在今年 7 月份发布。


而后谷歌 CEO 桑德尔·皮查伊在 Keynote 中展示了语言交互的重要性,并正式介绍了一种进行自然语言对话的新技术 Google Duplex。这种技术旨在完成预约等特定任务,并使系统尽可能自然流畅地实现对话,使用户能像与人对话那样便捷。


这种自然的对话非常难以处理,因为用户可能会使用更加不正式或较长的句子,且语速和语调也会相应地增加。此外,在交互式对话中,同样的自然语句可能会根据语境有不同的意思,因为人类之间的自然对话总是根据语境尽可能省略一些语言。


为了解决这些问题,Duplex 基于循环神经网络和 TensorFlow Extended(TFX)在匿名电话会话数据集上进行训练。这种循环网络使用谷歌自动语音识别(ASR)技术的输出作为输入,包括语音的特征、会话历史和其它会话参数。谷歌会为每一个任务独立地训练一个理解模型,但所有任务都能利用共享的语料库。此外,谷歌还会使用 TFX 中的超参数优化方法优化模型的性能。


如下所示,输入语音将输入到 ASR 系统并获得输出,在结合 ASR 的输出与语境信息后可作为循环神经网络的输入。这一深度 RNN 最终将基于输入信息输出对应的响应文本,最后响应文本可传入文本转语音(TTS)系统完成对话。RNN 的输出与 TTS 系统对于生成流畅自然的语音非常重要,这也是 Duplex 系统关注的核心问题。


微信图片_20211129193735.jpg在 Duplex 系统的语音生成部分,谷歌结合了拼接式的 TTS 系统和合成式的 TTS 系统来控制语音语调,即结合了 Tacotron 和 WaveNet。


由于这样的系统引入了「嗯、额」等停顿语,系统生成的语音会显得更加的自然。当结合拼接式 TTS 引擎中大量不同的语音单元或添加合成式停顿时,这些引入的停顿语允许系统以自然的方式表示它还需要一些处理时间。


总的来说,Google Duplex 的这些结构与方法对生成更自然的对话与语音有非常大的帮助。目前虽然主要是针对特定领域中的语言交互,但确实提升了语音会话中的用户体验。


安卓以及闪现的 DeepMind


即将在今年 9 月迎来自己 10 岁生日的安卓也在 I/O 上宣布了新一代操作系统。继承 Android Oreo 工作的新版安卓系统被命名为 Android P。


「本次发布有三个主题,分别是智能(Intelligence)、简洁(Simplicity)与数字健康(Digital Wellbeing)。Android P 是我们『AI 位于操作系统核心』愿景的第一步,而 AI 也是『智能』主题的奠基石。」谷歌工程副总裁 Dave Burke 如是展开了他的演讲。


智能部分里首先介绍了两个功能,Adaptive Battery 自适应电池管理系统和 Adaptive Brightness 自适应亮度调节系统。


其中,Adaptive Battery 通过卷积神经网络来预测用户接下来会使用的应用程序,通过适应用户的使用模式将电池仅用于你接下来可能需要的应用程序中,这减少了 30% 的后台 CPU 唤醒。而 Adaptive Brightness 则不再单纯根据照明情况调节亮度,而是加上了用户喜好和所处环境因素。超过一半的测试用户减少了他们手动调节亮度条的频率。


事实上,这两个功能均来自之前一度被美媒质疑「烧钱还傲娇不干实事」的 DeepMind。DeepMind 本次并没有直接在 I/O 露出,只是在博客上发表了一篇文章(https://deepmind.com/blog/deepmind-meet-android/),说明了 Android 的这两个新功能来自 DeepMind for Google 团队。


除此之外,Android P 也将去年发布的、准确率达到 60% 的「用户接下来可能使用哪个 App」预测更进一步,转而预测「用户接下来可能用什么 App 进行什么操作」,并直接在上滑菜单顶部呈现给用户。


Dave Burke 在介绍上述每一个功能时都着重强调了所有的预测均由在端上运行的机器学习模型完成,以确保用户隐私得到最大程度的保护。


除了将 AI 融入操作系统的优化之外,Android 还试图降低非机器学习背景的开发者使用相关技能的门槛:包括图片标注、文字识别、智能回复等一系列 AI 相关的 API 将以 ML Kit 的形式开放给开发者。


「你可以将 ML Kit 视作基于 TensorFlow Lite 提供的、为移动设备优化过的、随拿随用机器学习模型。」Dave Kurve 介绍说。而且,谷歌非常大方地同时对 iOS 系统开放了这一 API 集。


微信图片_20211129193758.jpg


开发者今天就能在 Pixel 上实验 Android P Beta 的效果了。值得一提的是,除了 Pixel 之外,Android P Beta 还对其他 7 家手机生产厂商的旗舰机开放,其中有 4 家都来自中国,它们分别是小米、vivo、oppo 和一加。


无人驾驶


昨日,起源于斯坦福人工智能实验室的自动驾驶汽车初创公司 Drive.ai 于 7 日宣布,将与德克萨斯州的弗里斯科政府以及 Hall 集团进行合作,在德州落地首个无人出租车服务。而在今天的 Keynote 中,Waymo CEO John Krafcik 通过视频展示了居住在凤凰城的一些人参与其 EarlyRider 项目(即体验 Waymo 的自动驾驶技术)的场景。Krafcik 称 Waymo 将在今年于凤凰城开始 passenger-pickup 项目,凤凰城是第一站。



相关文章
|
1月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
57 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
27天前
|
人工智能 API Android开发
[AI Google] I/O 2024大会上我们宣布的100件事情
I/O 2024 发生了很多事情!无论你对最新的 Gemini 应用更新感兴趣,对开发者即将推出的内容感到特别兴奋,还是迫不及待想尝试最新的生成式 AI 工具,这里几乎为每个人都提供了一些内容。不信?以下是我们在过去两天宣布的 100 件事情。
[AI Google] I/O 2024大会上我们宣布的100件事情
|
1月前
|
人工智能
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
【4月更文挑战第14天】谷歌新扩散模型创新AI视频生成技术,仅需一张图片即可让人物动起来,简化视频制作流程,提升效率。该技术有望革新娱乐、教育、广告等领域,但同时也带来虚假内容制作与行业冲击的风险,引发技术伦理及法规挑战。
29 10
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
|
1月前
|
机器学习/深度学习 人工智能
谷歌最新AI听咳嗽就能检测新冠/结核
【5月更文挑战第1天】谷歌研发的HeAR AI系统能通过咳嗽和呼吸声检测新冠和结核病。利用自我监督学习,该系统在多种健康声学任务上超越现有模型,尤其在识别呼吸道疾病方面表现出色,有望成为低成本筛查工具。即便在少量数据下,HeAR仍能保持高效。然而,录音质量和潜在的数据偏差是其面临的问题。[链接](https://arxiv.org/abs/2403.02522)
28 3
|
1月前
|
机器学习/深度学习 人工智能
谷歌发布天气预报生成式AI模型SEEDS
【4月更文挑战第7天】谷歌推出SEEDS AI模型,运用生成式扩散模型提升天气预报效率和准确性。该模型通过学习历史数据生成预测样本,降低计算成本,增强极端天气预测准确性。结合ERA5数据,SEEDS能校正预报偏差,尤其在极端事件预测上表现出色。然而,模型依赖高质量训练数据,且解释性不足,未来需关注数据偏差、信息提取及模型透明度问题。
43 1
谷歌发布天气预报生成式AI模型SEEDS
|
1月前
|
JSON 人工智能 数据库
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
89 0
【AI大模型应用开发】【LangChain系列】1. 全面学习LangChain输入输出I/O模块:理论介绍+实战示例+细节注释
|
1月前
|
人工智能 文字识别 安全
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的SIMA项目旨在创建一个通用AI代理,该代理能在多种3D环境中执行复杂任务,通过语言指令与环境交互。目标是让AI理解并执行600多种动作,包括导航和建造等。使用多样化的3D环境训练,结合零基础训练和预训练模型,如SPARC和Phenaki,以增强语言理解和行动执行。评估方法多角度,包括人类评估,但也面临效率和成本挑战。项目注重伦理安全,但AI在复杂环境中的性能仍有提升空间。DeepMind将继续优化代理的鲁棒性,扩大研究范围,以推动通用人工智能的发展。
31 2
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
|
1月前
|
人工智能 边缘计算 机器人
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
|
1月前
|
人工智能 API
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
【2月更文挑战第24天】谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
78 1
谷歌SIMA:一种适用于 3D 虚拟环境的通用 AI 智能体
|
1月前
|
人工智能 安全 搜索推荐
OpenAI、谷歌、微软、Meta联名签署AI公开信
【2月更文挑战第16天】OpenAI、谷歌、微软、Meta联名签署AI公开信
33 2
OpenAI、谷歌、微软、Meta联名签署AI公开信

热门文章

最新文章