谷歌io开发者大会2018:AI无处不在

简介:

中国时间5月9日凌晨,谷歌一年一度的I/O开发者大会在旧金山山景城开幕。在两个小时的KeyNote演讲中,谷歌着重介绍了谷歌助手(Google Assitant)、安卓新版本Android P Beta的更新,以及一些谷歌软件(谷歌地图、谷歌新闻、谷歌摄像头)的更新,同时还谈到了谷歌在自动驾驶领域和TPU芯片研发的新进展。

  AI无处不在

  谷歌将AI作为公司的重点发展方向,在这场KeyNote演讲中,处处体现着这个特征。

  谷歌首席执行官Sundar Pichai首先登场,一上场,Sundar Pichai就谈了谷歌AI在不同领域的应用。

\
  比如在医疗领域,谷歌AI可以在糖尿病视网膜病变和心血管风险方面帮助诊断,还能帮助医生预测患者再次入院的可能性。又例如,通过AI与NLP技术,谷歌现在可以讲两个人同时讲话时的声音分割开来用文字显示。而且现在语言残障人士能够通过谷歌键盘(G-borad)用摩斯电码合成自己的声音。Sundar Pichai还提到了Gmail运用AI技术生成自动回复的功能。

  这些都是谷歌在AI领域的一些尝试,但大会的重点还是放在谷歌助手(Google Assitant)、安卓新版本Android P Beta上,尤其是谷歌助手,一度掀起大会现场的高潮。尤其是Pichai在现场展示的一段谷歌助手给人类打电话的视频DEMO,无论是答案合理的回复还是高度像人的语音语调,都足以骗过电话那头的人类、以假乱真。

  谷歌助手(Google Assitant)七大更新

  Google Assitant的更新发布是本次大会的重点。目前,已有超过5亿设备搭载Google Assitant,其中有超过5000种家居设备。Google Assitant今天的日常使用量同比翻了两番。目前,Google Assitant进入了80个国家,支持30余种语言。以下是Google Assitant的一些新进展。

  1.Google Assitant通过WaveNet可以合成更加自然的AI语音。目前,Google Assitant口音库中加入了6种口音类型,适应各地发音习惯,而且都非常自然。

  2.Google Assitant支持更自然的交流。为了与用户更好的交互,不仅是口音的多样化,Google Assitant比原来更了解人们的生活与表达习惯。例如,用户与Google Assitant进行多轮对话时,不再需要每句话都以“Hey Google”开头。这破解了之前AI语音助手难以进行多轮对话的问题。

  3.Google Assitant能更好的执行多重任务,它能辨别出用户发出指令中的多重并列指令,并做出相应的反应。

  4.Google Assitant更加适用于家庭教育场景。Google Assitant可提供超过13万儿童故事,而且新加入了Pretty please功能,鼓励小孩对Google Assitant进行礼貌提问。

  5.Google Assitant成为了可听化与可视化结合的助手。Google Assitant加入了Visually assistant功能,使Google Assitant不只对用户进行语音提示,并且在设备屏幕上显示相应的信息,更方便使用,例如显示导航路线、显示菜谱视频。

  6.三款搭载Google Assitant的带屏音箱将会于今年7月上市发售,包括JBL、联想、LG,Google旗下的YouTube资源也会向这些音箱开放。这些音箱都在今年CES上展示过。

  7.Google Assitant支持用户通过它进行订餐与预约,Doordash、711、星巴克等餐饮品牌都与Google Assitant进行了合作。

  为了展示Google Assitant的智能化程度,谷歌首席执行官Sundar Pichai播放了用Google Assistant打电话预约发廊服务和定餐厅的演示视频。Google Assistant在给发廊和餐厅的真人服务员打电话进行预约的过程中,让人几乎感觉不到这是AI与人的对话,而是人与人的对话。

  这个功能是通过谷歌开发许久的AI系统Google Duplex实现的,目前尚处于内测阶段。但这段演示已经吊足了人们的胃口,让人不禁更加期待Google Assitant带来的更多可能性。

  AI加持Android P Beta系统

  Android系统已有10年历史。谷歌副总裁Dave Burke上台谈到了谷歌发布的全新系统Android P Beta,他说,这可能是Android近几年来最大的更新。

  Dave Burke说,Android P Beta将成为谷歌把移动应用与AI结合的主要部分。Android P Beta有这些变化:

  1.预测几个小时内用户要用的应用,智能分配手机资源,节省电量;

  2.根据使用环境自动调节手机屏幕亮度;

  3.预测用户行为,为用户推荐应用;

  4.类似iPhone X的操作手势;

  5.管控用户花在手机上的时间,比如夜晚把手机屏幕调成灰色,降低用户对手机的欲望。

  6.谷歌还特别向开发者提供了一系列和AI相关的API:ML Kit,常见的AI功能都包含其中,而且更适合不太熟悉AI技术的开发者使用。

  Google News:AI做新闻

  谷歌此次推出了以AI驱动的新版Google News应用,有三项重点关注领域:让用户时刻关注新动态、理解新闻事件全貌、享受并支持你喜爱的媒体。跟今日头条很相似,Google News使用信息流的方式,用算法来推荐最适合你的新闻、短视频、深度文章、相关信息等。今天,Google News已在127个国家中上线。

  其中,News_cast功能会将新闻进行梗概,帮助用户快速了解信息。Full coverage功能则会打通网络上各种散乱信息之间的时间、逻辑联系,建立新闻专题,帮助用户了解新闻的来龙去脉。

  谷歌地图(Google Map):AI融入地图

  在使用地图应用的时候,用户最害怕的一点就是——不准确!

  然而,通过AI算法,Google Maps现在已经可以自动添加新开张的一些店铺,显示某一地点的路线变化,完善地图的准确性和完整性。除了告知用户到达目的地的路线之外,现在Maps还能向用户描述商店的开张时间、顾客在店内滞留的平均时长等信息。

\
  它还能为不同的用户定制他们关心的信息,比如居住地附近新开了什么店铺,推荐附近的美食——这一些都是建立在机器学习之上的,通过比对用户个人偏好的大量数据。用户也可以与朋友快速分享地图上的美食,并且在地图上进行实时标注。这能帮助用户快速做出决定并下单,也能为商户带来新的商机。

  此外,谷歌还介绍了“视觉定位系统”(Vision Position System,简称VPS)。简单来说,其就是通过手机摄像头,用AR技术来为用户进行导航。

  谷歌摄像头(Google Lens)

  此次大会对Google Lens的着墨也不少。

  谷歌介绍了Google Lens如何让摄像头、Google Map、GPS信息进行融合。Google Lens可以在真实街景上叠加左转、右转或者前行标志,使用户更直观地了解到自己该怎么去往目的地。为了使用户体验更有趣,谷歌还开发了一只虚拟狐狸给用户指路。

  同时Google Lens能进行更快更准确的文本识别。而且,在进行划词识别后,Google Lens不仅能理解字面意思,更能了解文本的背景和相关信息等,然后对文本相关信息进行展示。

  Google Lens不仅能识别文本,而且运用通过AI加持的VPS(视觉处理系统),还能识别图像、地标、食物等。

  Google Lens还推出了类似淘宝的用图片搜索相关商品的功能。

  无人驾驶:车自己预判路况

  值得一提的是,这是Waymo首次登上谷歌I/O大会。Uber和特斯拉、以及Waymo近来一直被爆出无人车事故,因此外界一直对自动驾驶相关技术争议颇大。不过,这并没有影响Waymo对新技术的憧憬。

  Waymo CEO John Krafcik描述了如何利用AI技术来解决无人驾驶研发中的各种各样的问题。

  Waymo提到,无人驾驶汽车对周边物体和环境的感知非常重要,通过不断的数据训练,其可以预测路上人与车的行动。其无人驾驶汽车已经积累了600万英里行驶里程,同时在仿真系统中已经行驶50亿英里。

\
  即使在极端恶劣的环境下,Waymo 的算法依旧能识别出车辆和道路。Waymo 无人车的算法训练使用了 Google TPU,这使得训练效率提高了 15 倍,有了 AI 算法的帮助,Waymo 即使在暴雪这样的恶劣环境中,都能将测试和训练继续进行下去。

  目前Waymo有2.5万辆车每天在路上验证各种路况。Waymo的讲解人举了个例子来说明神经网络的学习结果:无人车可以自己预测人们或车在横穿马路、闯红灯等行为提前预判,防止在过十字路口时候撞到闯红灯人或车。



本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。

目录
相关文章
|
1月前
|
人工智能
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
谷歌和苹果的研究揭示了大型语言模型(LLM)的惊人秘密:尽管LLM能自主识别错误,却在生成答案时装作不知情。这一“幻觉”现象背后,模型内部已编码了关于输出真实性的信息,但其外部表现与内部判断常有矛盾,暴露出LLM在实际应用中的局限性。研究为未来开发更有效的错误检测和缓解策略提供了新思路。论文地址:https://arxiv.org/pdf/2410.02707
68 30
|
1月前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
77 26
|
1天前
|
人工智能 算法 API
重磅:谷歌AI Gemini 2.0 Pro/Flash已来,国内用户怎么使用?
当人工智能的浪潮席卷全球,谷歌再次站在了时代的潮头。Gemini 2.0,这个名字如今已成为 AI 领域最耀眼的明星。它不仅仅是一个模型的升级,更代表着一场技术革命的开端。2024 年末,Gemini 2.0 Flash 以其疾风骤雨般的速度震撼登场,紧接着,2025 年初,Gemini 2.0 Pro 系列的发布,则将这场革命推向了高潮。谷歌正式宣告,我们已步入 Gemini 2.0 时代!
40 15
|
1月前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
212 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
10天前
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
32 5
|
7天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
35 1
|
1月前
|
人工智能 自然语言处理 开发工具
Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置
Languine 是一款面向开发者的 AI 翻译工具,支持 100+ 种语言,自动化翻译流程,提升多语言应用开发效率。
99 15
Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置
|
27天前
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
37 13
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
411 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
1月前
|
人工智能 数据处理 C#
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。
91 13

热门文章

最新文章