Facebook AML实验室负责人：将AI技术落地的N种方法（上）-阿里云开发者社区

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

2017-08-01 1514

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

（Facebook AML实验室负责人 Joaquin Candela）

雷锋网(公众号：雷锋网)按：在Facebook，有两个实验室领导着AI发展方向，一个是Yann LeCun领导的FAIR实验室，偏向AI的基础研究；另一个，就是AML实验室，偏向机器学习应用，负责将AI技术落地在Facebook各种产品。本月初，AML实验室负责人Joaquin Candela在@Scale大会上发表了一次演讲，他讲述了Facebook在规模化应用AI技术的方方面面，包括Facebook人工智能母体FB Learner Flow平台、图像处理引擎Lumos、文本理解、语音识别、视频风格变换等各领域的应用。

下面是演讲文字版，由雷锋网亚萌和夏睿共同编辑整理。

我在Facebook已经工作了五年，这是令人愉悦的经历。今天，我想要跟大家分享一下Facebook是如何设计AI来改善人们每天的生活。

每次你使用Facebook、Instagram和Messanger的时候，可能你没有意识到，你的使用体验已经是由AI技术做支撑了。

而实际上，我想强调的一点是，Facebook如果没有AI，那就会失去存在根基。

我们在AI上面加入了双倍的投资，帮助用户彼此之间联系更加紧密，及时得知最关心的消息和内容。我们AML团队，与FAIR团队及公司内其它产品团队紧密合作。

我们面临的一个挑战就是，我们的工作是在Facebook这么大的一个规模上进行的。这周三，Facebook发布了统计数据：我们每天支持了12亿用户。也就是说，每一天就有12亿人使用Facebook 。而其中的11亿用户，都是在手机上使用Facebook 的。所以手机的使用，占据主导地位。

如何规模化设计AI（design AI at scale）?

首先，我们需要回过头去，思考“工程”这件事情，好好思考“工程”对于Facebook的价值所在。其中有2个关键的价值：关注影响力（foucus on impact）和快速行动（move fast）。前者是指，要时刻清楚了解我目前所能解决的最重要的问题是什么。关于第二点，快速行动，Facebook对于“犯错”的容忍度极大，我们反复提醒自己，有时最危险的做法就是不去冒险，不去行动其实是非常冒险的一件事情。我们需要在Facebook这么大的体量上去快速行动。

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

这些价值观，启发了AML的战略，这个战略包括 3 大基本支柱：

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

推进最新技术，最大程度实现产品影响力。我们一直与FAIR实验室及产品团队合作，推进最新的技术。我们进入非常具体的问题领域，虽然我们可能起初并不知道如何去解决，但是我们知道，一旦我们攻克这个问题，其价值将异常巨大。

通过AI打造全新产品体验。当你在现今最前沿领域工作时，你往往会遇到别人从未想过的产品体验。待会后面，我会就此举一个具体的例子来说明。

使AI大众化。“规模化”是个大事情。对于Facebook来说，你需要不断地在平台、实验室和服务项目上进行创新，让整个公司都能用你的新技术。

设计FB Learner Flow平台五要素

很久之前，我还是一名Phd学生，当时致力于贝叶斯非参数法（bayesian nonparametric method），我在其中感受了一种类似于“巫师”的力量，当被给予一个任务时，比如在不同的域里做分类和递归任务，这种解决具体问题的感觉非常好。

之后，我去了工业界。我为此感到兴奋，因为工业界充满了亟待解决的诸多问题。但很快，我变得有点“被淹没”了，因为预测任务的类型、域的数量、训练数据的数量，这些比你所能想象的要庞大的多。

我意识到，巫师不知道如何“规模化”。当我在学术界的时候，关注点在于“准确度”，我能建造一个模型，以期比其它已经发表的研究成果，多出那么0.1%的AUC值。但是在工业界我发现，最重要的事情是“迭代速度”，是你每天可以运行多少次实验。因为，你无法忽视一个事实，那就是你所做的事情是融合各方利益的，如果你每周都可以将一个新的模型投入生产中（当然在我刚加入Facebook的时候这是很困难的一件事情），最终的成果是建立在一次又一次的尝试之上的。

如果你仔细想一想，你需要探索的参数、模型架构、输入值特征等如此庞大，实验的加速会产生非常非常大的影响。

所以，你必须建造一个“工厂”（就是后面要讲到的FB Learner Flow平台），成为一个巫师很酷，但是建造一个强大的“工厂”，让公司的每个人能够并行探索这个广阔的领域，将会让你以很稳定的节奏取得进步，不断地输出对产品的影响力。

当我们在设计一个“工厂”时，我们主要考虑五个方面的事情。

性能（performance）。我们必须加快速度，之前需要花几天时间进行的实验，现在要在一个小时内完成。这种速度的提升，对人们的心理状态会产生很大影响，当你工作到晚上回到家的时候，在这一天里你实际上已经完成了实验的一部分。而在之前，可能你一天里只能弄出一个模型，回家后可能就有点忘了，再过几天，这个模型可能会崩溃掉。
自动化（automation）。这非常重要，拖慢速度的永远都是人自己。比如，我曾经有一些系统，要进行转移到新的服务器等操作，但是运行不好，最后崩溃了，这浪费了我几天的时间。所以你必须将事情自动化。
重复使用（reusability）。这点非常重要，你必须得确保其中的工作内容，是可以一遍又一遍地使用。
成套系统（turnkey）。让整个系统变得容易使用，大部分工程师都是局限于一个小的领域，没有那么全面的知识和技术。
应用研究社群（applied research community）。对于建造研究社群这一点，我充满热情，我将会对此多谈一点，关于在整个公司内部打造“应用研究社群”的力量。

而我们建造的这个“工厂”确实是有效果的，而且效果很不错。

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

我们这个平台的建造工作，目前只进行了1%，也就是说，一切还是开始。整个Facebook公司使用这个平台的人数中，超过25%的人是该平台的活跃用户。而其中令人惊讶的是，如果你仔细观察这些工程师的背景，大部分人并不是AI或ML方面的专家。

另一件事就是，我们构建了一个非常强大的应用研究社群（applied research community）。我们为这个平台的“重复使用”性能感到兴奋，当一个工程师写了一个AI 工作流（workflow），可以被其它工程师拿过来接着使用。这有一个关于Instagram的例子。去年6月，Instagram开始对它的feed进行排序，几个工程师共同完成了这个功能，而这其中花费的时间之少令人惊讶。作为对比，Facebook的feed功能在前几年进行的，这在当时就是一个大工程，因为它是从无到有建立起来的。现在，Instagram的工程师，就可以进入一个公共的实验平台，找到其它产品类似功能实现时的工作流和模型。也就是说，工程师们可以借用前人的工作成果，“站在巨人的肩膀上”建立Instagram的feed功能，而且他们也能很快找到相关同事去请教。

其中有一个数据，我很骄傲。在过去的6个月时间里，这个平台的ML工作流的数量增长了6倍。

FB Learner Flow平台

FB Learner Flow平台是一个非常有弹性的环境，用于书写和执行AI工作流。生产力是最重要的事。其中有一件很酷的事情，那就是如果你要运行某个任务，FB Learner Flow将会把一整个流程都规划好，比如硬件用什么、如何规模化等等。

FB Learner Flow平台设计之初，就把“重复使用”的理念植入其中。如果你是一个Instagram工程师，想要训练和部署你的排序模型，FB Learner Flow就像是一个放满了工作流的图书馆库（library），你可以在当中搜索、索引、发现各种工作流，然后对此重复利用。你还可以进入到算法里，你可以看到不同参数下的各种学习曲线，最重要的是，你可以看到某个特定工作流的作者是谁，这是最重要的，因为这时你就知道找谁去请教问题了。

FB Learner Flow非常综合，这里有一个有趣的故事。有一次，我对团队成员说：“伙计们，你们在这个平台上运行PyTorch、Caffe和Caffe 2，我们试试Tensorflow怎么样？”。三天后，他们跟我说，我们试了一下Tensorflow，可以运行。所以它是兼容各种语言的，这很重要。

接下来我会讲解一些关于基于FB Learner Flow平台的一些系统，包括计算机视觉引擎、文本和语言理解系统、语音等方面的内容。

更多雷锋网文章：

对话百度IDL负责人林元庆：人脸识别获评十大突破性科技背后百度的布局和野心

百度引入Ring Allreduce算法，大规模提升模型训练速度

本文作者：亚萌

本文转自雷锋网禁止二次转载，原文链接

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

如何规模化设计AI（design AI at scale）?

设计FB Learner Flow平台五要素

FB Learner Flow平台

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Facebook AML实验室负责人：将AI技术落地的N种方法（上）

如何规模化设计AI（design AI at scale）?

设计FB Learner Flow平台五要素

FB Learner Flow平台

雷锋网

热门文章

最新文章

相关课程

相关电子书

相关实验场景