扎克伯格的AI芯片野心:高调挖角谷歌 疯狂招人

简介: 6年前,世界上第一块AI芯片,诞生在Facebook首席AI科学家手里。

故事要从1992年开始说起。

1992年,在美国新泽西州霍姆德尔市,一处离海岸只有24公里的宁静小镇上,屹立着大半个世纪以来全球最著名的科学实验室之一——AT&T贝尔实验室。

image



▲AT&T贝尔实验室

在这个传奇的实验室里,不仅诞生了7位诺贝尔奖获得者,还是诞生了世界上第一个晶体管、蜂窝式电话系统、通讯卫星、有声电影、太阳能电池、C/C++语言、UNIX系统……

不仅如此,世界上第一块人工智能芯片也同样诞生于此。

1992年,马克·扎克伯格只有8岁,离他后来创办世界第一大社交网络Facebook还有12年时间,离“卷积神经网络之父”Yann LeCun加入Facebook人工智能研究院还有21年。

就在这一年,世界上第一块——同时也被当时研究频频受挫的Yann LeCun称为“可能是世界上最后一块”——神经网络芯片ANNA,就诞生AT&T贝尔实验室里。

image

▲1992年的AT&T贝尔实验室一景

ANNA之兴与卷积神经网络之衰

众所周知,无论是“人工智能”、“深度学习”还是“神经网络”,这些近年来大火的概念其实都可以追溯到几十年前。但由于这些算法对于数据与计算量都有着极大的要求,当时的软硬件条件都无法满足,因而这类研究一直到近些年才大火起来。

不过,即便在众人并不看好深度学习的年月里,依然有一小群在“神经网络寒冬”里也坚持信念的科学家们,Yann LeCun就是其中一个。

1988年10月,在学习完神经科学、芯片设计,并师从多伦多大学深度学习鼻祖Geoffrey Hinton后,年仅27岁的年轻博士后Yann LeCun来到美国新泽西州,正式成为传奇的AT&T贝尔实验室的一员。

在当时的贝尔实验室里,已经有一组研究员在进行英文字母识别的研究,并且积累下了一个拥有5000个训练样本的USPS数据集——这在当时已经是一个非常庞大的数据集。

在这个数据集的帮助下,Yann LeCun在三个月内便打造并训练了第一个版本的卷积神经网络LeNet one,在字母识别上取得了有史以来最高的准确率,也正式标志着卷积神经网络的诞生。

不过,Yann LeCun的研究并没有止步在软件层面。1989年,Yann LeCun与实验室的其他实验员Bernhard Boser、Edi Sackinger等人共同撰写了一篇新论文,介绍了他们所研制的一款名为“ANNA”的神经网络芯片。

image

▲“ANNA”神经网络芯片

ANNA中包括64个计算单元,专门针对卷积神经网络进行了优化,其峰值吞吐量为每秒40亿次加法。

虽然在此之前,神经网络作为一个新兴的研究方向已然小有名气,有不少研究人员也尝试打造过神经网络芯片,但它们都无法放在板级(Board-Level)测试环境中,也就无法在真实世界中应用。

除了ANNA之外,贝尔实验室还曾在1991年打造过一款Net32K芯片。在Yann LeCun等人随后发布了一系列论文中,他们不仅介绍了ANNA在板级测试中的优秀表现,还展示了ANNA在利用卷积神经网络在文本倾斜检测、手写数字识别等应用上的优异表现(比单独的DSP快10到100倍),让ANNA当之无愧地成为了世界上第一块“能用的”人工智能芯片。

image


▲搭载ANNA的测试板原理示意图


不过,天有不测风云。1996年,AT&T公司进行了一轮拆分,通信运营业务保留在新AT&T中,一部分贝尔实验室和AT&T的设备制造部门被剥离出来形成了朗讯科技,另一部分负责计算机业务的部门则组建了NCR公司。

image

▲Yann LeCun(后排中间)与新AT&T实验室成员,摄于2002年


Yann LeCun留在了新AT&T的实验室里,担任AT&T实验室图像处理研究部门负责人,然而极其不幸的是,卷积神经网络的专利却被律师团队最终决定分给了NCR公司(这一专利在2007年过期)。

用Yann LeCun的话来说,“当时NCR手握卷积神经网络的专利,却完全没有人知道卷积神经网络到底是什么”,而自己却因为身处另一家公司而无法继续进行相关研究。

然而,在1996年后的时间里,科学界对神经网络的兴趣逐渐走向衰微,越来越少人进行相关研究,一直到2010年以后才重新兴起。

AI芯片浪潮袭来

让我们把时间调回现在。

在过去的这十年间,AI领域迎来了一场新浪潮。

人工智能这一项新兴技术,在经历了技术积累、升级、发酵之后,正在以AI芯片作为载体而全面崛起。据智东西报道了解得知,目前全球至少有50家初创公司正在研发语音交互和自动驾驶芯片,并且至少有5家企业已经获得超过1亿美元的融资,这一数目还在不断增加当中。(深度 | AI芯片终极之战)

除了创业市场一片兴盛外,各大科技巨头也毫不示弱。除了谷歌、苹果、华为、百度、英特尔、赛灵思等巨头陆续重拳入局AI芯片外,亚马逊也被曝出拥有449人的芯片团队,设计定制AI芯片的消息基本坐实。

作为目前全球市值最高的第五大科技企业,日活跃用户达14.5亿、月活跃用户达22亿的全球第一大社交网站Facebook自然也不会缺席这场战役。

2013年,时任纽约大学教授的Yann LeCun宣布加入Facebook,帮助建立Facebook人工智能研究院(FAIR)。

image

▲部分Facebook人工智能研究院成员

在成立五年以来,Facebook人工智能研究院已经在美国加州门洛帕克(Facebook总部)、美国纽约、法国巴黎、以及加拿大蒙特利尔等地建有六所人工智能研究所,拥有超过115位科学家,各自专攻机器视觉、机器学习、自然语言处理等领域,包括何凯明、田渊栋等国内熟悉的人工智能学者。

在Yann LeCun的带领下,Facebook人工智能研究院中不仅诞生了著名的Caffe、Caffe2深度学习开源框架,也让Facebook在这人工智能浪潮当中能够与谷歌等巨头一争高下。

早在2017年底,Facebook就已经作为英特尔的首位合作伙伴,内部测试了英特尔AI云端芯片Spring Crest,并与英特尔合作进行了AI芯片的研发与优化,一时间有关“Facebook要打造自己的云服务器AI芯片”的传言尘嚣甚起。

不过我们综合各方线索来看,Facebook最先打造的应该并不会是一款能够支持多种AI应用的通用云端AI芯片,而是一款主攻视频的AI芯片,不过目测这款芯片不会在近期与众人见面。

挖角谷歌,大规模扩建AI芯片团队

从2018年年中开始,Facebook就在AI芯片方面频频发声。

5月,在巴黎Viva科技峰会上,Yann LeCun首次直接披露了Facebook在AI芯片方面的具体方向:视频实时监测。

由于这两年来视频直播的盛行,越来越多用户选择使用这种方式分享自己的生活,这位Facebook的视频实时分析、实时审核过滤带来了极大的压力。

2017年的复活节时,一名男子在Facebook上直播开枪杀人,该视频在Facebook上停留了超过2个小时后才被删除,引起了社会的极大恐慌。

传统软硬件不仅分析过滤不及时,对于越来越大量的视频压缩、审核、监管等应用,传统软硬件在计算资源和功耗控制上都达不到要求。

Yann LeCun说,“Facebook之所以要自己做芯片,是因为传统资源无法满足新时代需求,传统方法已经失效,我们需要一款AI芯片,实时分析和过滤视频内容。”

顺便一提的是,今年1月,Yann LeCun宣布将不再担任FAIR负责人,将由前IBM大数据集团CTO Jérôme Pesenti接任。LeCun表示他将改任Facebook的首席AI科学家,专注于AI学术研究以及对FAIR进行方向性指导。

image

▲Shahriar Rabii的LinkedIn界面

目前。Facebook的AI芯片团队还处在早期的起步组建阶段。就在上周,Facebook才刚刚从谷歌挖来一员大将——谷歌前芯片产品开发部门负责人Shahriar Rabii跳槽,担任Facebook副总监及芯片部分负责人一职。

Shahriar Rabii曾在谷歌工作7年,离职前职位为高级工程师主管、芯片产品开发部门负责人。他负责带队进行了大量针对消费者用户的芯片研发工作,其中最值得一提的是为“谷歌亲儿子”Pixel智能手机打造的Visual Core定制化AI视觉芯片,这枚芯片能够为智能手机摄像头带来机器学习AI功能。

更早之前的4月19日,Facebook的第一条AI芯片招聘信息开始在线上流传。在招聘信息当中,Facebook宣布即将为招聘一名管理者(Manger)来组建“端对端SoC/ASIC固件和驱动开发组织”,该管理者需要“针对多个垂直领域开发定制解决方案,包括人工智能和机器学习”。

image

在同日的另一则招聘启事中,Facebook则表示正在招聘“ASIC&FPGA设计工程师”,该工程是需要拥“架构和设计半定制和全定制ASIC的专业知识、能够与软件和系统工程师合作,了解当前硬件的局限性,并利用他们的专业知识打造针对多种应用(包括人工智能/机器学习,压缩,视频解码等)的定制解决方案。

时至今日,Facebook依然有不少AI芯片相关的岗位招聘挂在LinkedIn页面上,并且在持续更新中:比如五天前跟新的一条“内存&芯片产品总监”招聘信息、以及三天前更新的两条“ASIC&FPGA工程师”、“ASIC/FPGA技术项目主管”招聘信息。

从高调挖人到大规模招聘,可见Facebook在AI芯片的决心与投入。不过如果按照芯片18个月的设计制造周期来说,如果Facebook现在才开始招募团队,那么离芯片真正量产就还有至少一年时间。

结语:AI芯片的巨大想象空间

随着AI算法的进一步发展,人工智能在不同应用领域的分化也越来越明显。对于任何一个业务体量巨大的科技公司而言,专为自己业务线所打造的定制化AI芯片能够带来的成本缩减与效率提升有着巨大的想象力,任何一个科技巨头都不会轻易放过这一机会。

虽然硬件研发一直都不是Facebook的强项,但是如果瞄准的只是视频压缩与审查这一领域,那么AI芯片打造的难度将会大大小于通用云端AI芯片(君不见英特尔的AI芯片一再推迟面世),可能会比预期更早与世人见面。

原文发布时间为:2018-07-17
本文来自云栖社区合作伙伴“ 智东西 ”,了解相关信息可以关注“ 智东西 ”。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
65 6
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
117 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
20天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
127 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
12天前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
61 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
28天前
|
机器学习/深度学习 数据中心 芯片
【AI系统】谷歌 TPU 历史发展
本文详细介绍了谷歌TPU的发展历程及其在AI领域的应用。TPU是谷歌为加速机器学习任务设计的专用集成电路,自2016年首次推出以来,经历了多次迭代升级,包括TPU v1、v2、v3、v4及Edge TPU等版本。文章分析了各代TPU的技术革新,如低精度计算、脉动阵列、专用硬件设计等,并探讨了TPU在数据中心和边缘计算中的实际应用效果,以及谷歌如何通过TPU推动移动计算体验的进步。
64 1
【AI系统】谷歌 TPU 历史发展
|
24天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
64 12
|
22天前
|
人工智能 自然语言处理 安全
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临
谷歌发布的Gemini 2.0标志着AI新时代的到来,被誉为“谷歌版贾维斯”。该系统在自然语言处理、图像识别及自主操控电脑等方面取得重大进展,尤其在多模态数据处理上表现出色,能更准确理解用户需求并执行复杂任务。尽管存在对AI自主操控可能带来的负面影响的担忧,谷歌强调Gemini 2.0旨在辅助而非替代人类工作,且已采取多项措施保障其安全性和可靠性。
26 5
|
21天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
27天前
|
机器学习/深度学习 人工智能 芯片
【AI系统】谷歌 TPU v3 POD 形态
TPU v3 是 TPU v2 的增强版,主要改进包括:MXU 数量翻倍至 4 个,时钟频率提升 30%,内存带宽扩大 30%,容量翻倍,芯片间带宽增加 30%,可连接节点数增至 4 倍。TPU v3 通过采用水冷系统,不仅提高了功率,还优化了温度管理,显著提升了计算能力和能效。TPU v3 Pod 由 1024 个 TPU v3 组成,算力达 100 PFLOPS,适用于大规模神经网络训练。
34 2
|
28天前
|
机器学习/深度学习 缓存 芯片
【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
51 3

热门文章

最新文章