Google传奇Jeff Dean最新演讲:如何构建未来的机器学习芯片

简介:
本文来自AI新媒体量子位(QbitAI)

如何构建未来的机器学习加速芯片?

Google大脑负责人Jeff Dean是最有资格回答这个问题的人之一。昨天,还是在NIPS大会期间,Jeff Dean详细介绍了Google在AI芯片方面的最新研究。

ab88575f64df2331de37a239bc1abc63bf7a7370

以下是Jeff Dean最新演讲的主要内容。

众所周知,深度学习需要大量的计算资源支持,深度学习正在改变我们设计电脑的方式。例如,降低计算精度也是OK的。

Google在新机器学习方面的成果之一,就是TPU。这个专用的AI加速芯片,主要用来执行神经网络的推理计算。Google的搜索、神经机器翻译、语音图像识别,以及大名鼎鼎的AlphaGo背后,都是TPU在提供计算支持。

第一代TPU在推理方面取得了巨大的进步,但是训练怎么办?

于是Google又研发了第二代TPU。第二代TPU被设计用来同时执行训练和推理计算。第二代TPU的架构如下图所示:

3461f8f49dc36a66282d8507ec8d0897f7382411

Google还用64块TPU组成阵列(TPU Pod),这进一步提升了计算效力。具体有多厉害?例如,训练Resnet-50达到75%以上精确度,单个第二代TPU要耗时一整天,而阵列只需要22分钟,速度提升31倍,不需要任何额外代码优化。

成绩属于过去,未来挑战依然严峻。2009年以来,arXiv上机器学习论文的增长速度,已经超过摩尔定律。

0a87cad71a50242f1a58d7246e05f12c745c764e

所以,接下来要思考的问题还是:应该如何构建未来的机器学习加速器?如果现在开始着手,如何设计一个两年内能投入使用,五年内不会过时的AI芯片?

需要考虑的问题包括精度、稀疏和嵌入、Batch大小、训练算法等等。但首先是整个系统都应该有所改变。传统的low-level系统代码(操作系统、编译器、存储系统)还没有广泛利用当今的机器学习。

对于更高性能的机器学习模型来说,并行性非常重要。但是在多个计算设备上获得良好的性能,是并不是一件易事。

为什么这样?

因为Learned Index结构,不是传统的索引结构。这部分实际上是Google最新的研究成果。

在这个研究中,Google从假设现在所有的索引结构都可以用其他类型的模型来代替,包括深度学习模型,这被称为Learned Index。核心思想是,一个模型可以学习查询的排序顺序或者结构,并且利用这个信号来有效预测记录的位置。

294aa34a32cc77fc4934684b805a009982ad4e8c

Google还从理论上分析了Learned Index在哪些条件下,表现优于传统的指标结构,描述了Learned Index结构设计中的主要挑战。

初步的结果显示,在神经网络环境中,这能让经过缓存优化的B-Tree提速70%,同时节省了一个数量级的内存占用。

973e0ec3a4adff2ab6685d655d5cfc9c0e1e6412

另外,GPU/TPU让Learned Index更加可行。当然,GPU/TPU还面临高调用延迟等挑战,但是使用批量请求等技术,可以分摊调用成本。

重要的是,Google认为通过学习模型取代数据管理系统核心组件的想法,对未来的系统设计有着深远的影响。

如果对这部分研究的细节感兴趣,可以查看Google的论文The Case for Learned Index Structures,地址在此:https://arxiv.org/abs/1712.01208 。

在量子位微信公众号(QbitAI)对话界面,回复关键词“jeff”,就能下载此次Jeff Dean演讲PPT的全文。

One more thing…

Jeff Dean终于在推特上开了账号~

e484ec7bf5268a4cf0664da1509bc748acaef6dd

本文作者:允中
原文发布时间:2017-12-10
相关文章
|
5月前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的五大技巧
【4月更文挑战第7天】 在数据科学迅猛发展的今天,机器学习已成为解决复杂问题的重要工具。然而,构建一个既精确又高效的机器学习模型并非易事。本文将分享五种提升机器学习模型性能的有效技巧,包括数据预处理、特征工程、模型选择、超参数调优以及交叉验证。这些方法不仅能帮助初学者快速提高模型准确度,也为经验丰富的数据科学家提供了进一步提升模型性能的思路。
|
5月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
在机器学习的实践中,构建一个高效的模型并非一蹴而就。本文将深入探讨如何通过精确的数据预处理、合理的特征选择、适当的模型构建以及细致的参数调优来提升模型的性能。我们将讨论数据清洗的重要性,探索特征工程的策略,分析不同算法的适用场景,并分享模型调参的实用技巧。目标是为读者提供一套系统的方法论,以指导他们在构建机器学习模型时能够更加高效和目标明确。
638 3
|
5月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的最佳实践
【4月更文挑战第3天】在数据驱动的时代,构建高效的机器学习模型已成为解决复杂问题的关键。本文将探讨一系列实用的技术策略,旨在提高模型的性能和泛化能力。我们将从数据预处理、特征工程、模型选择、超参数调优到集成学习等方面进行详细讨论,并通过实例分析展示如何在实践中应用这些策略。
54 1
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型:从数据预处理到模型优化
在机器学习的实践中,一个精确且高效的模型是成功解决问题的关键。本文将深入探讨如何从原始数据的收集与处理开始,通过选择合适的算法,再到模型的训练与优化,最终构建出一个高性能的机器学习模型。我们将讨论数据预处理的重要性、特征工程的策略、常用机器学习算法的选择标准以及超参数调整的最佳实践。通过案例分析和技术讲解,本文旨在为读者提供一个清晰的构建高效机器学习模型的蓝图。
|
1月前
|
SQL 监控 大数据
通过Google Dataflow,我们能够构建一个高效、可扩展且易于维护的实时数据处理系统
【9月更文挑战第7天】随着大数据时代的到来,企业对高效数据处理的需求日益增加,特别是在实时分析和事件驱动应用中。Google Dataflow作为Google Cloud Platform的一项服务,凭借其灵活、可扩展的特点,成为实时大数据处理的首选。本文将介绍Dataflow的基本概念、优势,并通过一个电商日志分析的实际案例和示例代码,展示如何构建高效的数据处理管道。Dataflow不仅支持自动扩展和高可用性,还提供了多种编程语言支持和与GCP其他服务的紧密集成,简化了整个数据处理流程。通过Dataflow,企业可以快速响应业务需求,优化用户体验。
38 3
|
2月前
|
SQL 监控 大数据
"解锁实时大数据处理新境界:Google Dataflow——构建高效、可扩展的实时数据管道实践"
【8月更文挑战第10天】随着大数据时代的发展,企业急需高效处理数据以实现即时响应。Google Dataflow作为Google Cloud Platform的强大服务,提供了一个完全托管的流处理与批处理方案。它采用Apache Beam编程模型,支持自动扩展、高可用性,并能与GCP服务无缝集成。例如,电商平台可通过Dataflow实时分析用户行为日志:首先利用Pub/Sub收集数据;接着构建管道处理并分析这些日志;最后将结果输出至BigQuery。Dataflow因此成为构建实时数据处理系统的理想选择,助力企业快速响应业务需求。
130 6
|
2月前
|
机器学习/深度学习 数据采集 物联网
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战
86 0
|
4月前
|
人工智能 自然语言处理 机器人
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
探索谷歌最新的生成媒体模型:用于高分辨率视频生成的 Veo 和用于卓越文本生成图像能力的 Imagen 3。还可以了解使用 Music AI Sandbox 创作的新演示录音。
[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建
|
5月前
|
机器学习/深度学习 算法 数据挖掘
构建高效机器学习模型:从特征工程到模型调优
【4月更文挑战第4天】在数据驱动的时代,构建一个高效的机器学习模型是解决复杂问题的关键。本文将深入探讨特征工程的重要性,并分享如何通过自动化技术进行特征选择与构造。接着,我们将讨论不同的机器学习算法及其适用场景,并提供模型训练、验证和测试的最佳实践。最后,文章将展示如何使用网格搜索和交叉验证来微调模型参数,以达到最优性能。读者将获得一套完整的指南,用以提升机器学习项目的预测准确率和泛化能力。
|
5月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据预处理到模型优化
【4月更文挑战第5天】 在机器学习领域,构建一个高效的模型并非易事。它涉及多个阶段,包括数据预处理、特征工程、模型选择、训练以及最终的评估和优化。本文深入探讨了如何通过精确的数据预处理技巧和细致的特征工程来提升模型性能,同时介绍了几种常见的模型优化策略。我们的目标是为读者提供一套实用的指导方案,帮助他们在面对复杂数据集时能够有效地构建和调整机器学习模型。