对于裴健教授来说,过去的一年是极为充实的一年。他在去年 7 月成为新一届 ACM SIGKDD 主席,任期两年,在今年 1 月,他又出任了京东集团副总裁,负责大数据平台与智能供应链事业部。这一年间,他在学界和业界都完成了大量的工作:在刚刚结束的 KDD 2018 上,他及合作者有三篇论文入选;另一方面京东今年也在业务转型和技术转型的道路上快速前进,完成了诸多与大数据与智能供应链平台相关的部署。
八月,我们来到了京东,与裴健教授聊了聊他近期的研究工作、在京东进行技术研发的思路和方法论,以及他作为一位「跨界达人」,对学界和业界进一步的交流与融合的看法。
学术工作:理解数据在决策过程中的作用
机器之心:KDD 2018 开幕在即,您有三篇论文被接收,能介绍下这三篇工作吗?
裴健:一篇是针对可解释性问题的(Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution)。
现在的深度学习有一个不尽人意的地方,就是它的结果是难以解释、难以理解的。举个例子,深度学习模型能识别医学图像中的癌细胞,但是这为什么是癌细胞,模型不告诉你;AlphaGo 把人赢了,为什么赢了,为什么下这一步棋,不知道,下了就下了。
而可解释性实际上有很多作用,第一是验证机器的想法到底对不对?举个例子,自动驾驶系统哪怕在学了很多的数据之后仍然有可能会出错、出现事故。这时出错的过程就很重要:如果这个模型可解释,我们就可以做一些验证,来评定这个模型的安全程度;如果模型不可解释,我们就只能够做实验,而做实验是有危险的一件事情。
另外一个用处是给人类获得新的知识提供一个途径。人下棋下了这么久,突然被机器超过了,到底是人的哪部分思维局限约束了人的能力?人类棋手下一步棋的时候,绝对不是把后面的所有的棋局都算出来然后进行选择,而是用了归纳的能力。这是人独特的、目前机器没有的能力。我们能否从机器学出来的模型里面归纳?为了解决这个问题,也有可解释性的要求。
关于可解释性的诸多研究,之前使用的都是比较偏实用的方法,我们这篇论文第一次给出了一个封闭解(closed form solution),是一个在数学上可以把公式写出来的解。它的思路很简洁:如果我们能把一个神经网络局部地转化成线性模型,那么我们就可以通过线性模型来解释整个神经网络做了什么事。
机器之心:文中给出了使用 ReLU 等线性激活函数的全连接神经网络的封闭解,这个思路是否适用于其他非线性激活函数呢?是否适用于其他模型结构呢?
裴健:在 KDD 这篇工作里我们针对 ReLU 这样线性的激活函数,现在我们也在把范围扩大到其他非线性的激活函数,这样的情况下虽然数学上可能没有封闭解,但是仍然可以得到一个近似解,并且近似质量可以控制。
同时,同样的思路除了可以应用在全连接网络之外,我们也在尝试用它给卷积神经网络(CNN)赋予可解释性,但是更复杂的网络,比如循环神经网络(RNN)我们需要新的方法。
机器之心:在拿到封闭解之后,在实际应用中,解释是以怎样的形式给出的?
裴健:什么叫可解释性没有一个唯一定义。我们现在正在写另外一篇论文,探讨可解释性有几种可能的定义方式,以及每种定义方式下有哪些可能的方法。
具体来说,我们现在这篇文章的想法其实很简单:如果有一个例子,通过神经网络之后,给出了一个特定结果,那么我们可以给出相应一个线性模型,它可以给出同样的判断。线性模型作为一个可以给出同样结果的可以理解的模型,相当于一个解释。
机器之心:第二篇是关于网络嵌入(network embedding)的(文章名:Arbitrary-Order Proximity Preserved Network Embedding)。
裴健:以前我们做网络嵌入通常都是从一阶或者说指定的某个特殊阶数的网络切入,但是在实际应用当中,因为不清楚数据处理了之后有什么样的应用,所以在嵌入阶段,我们并不清楚用几阶的距离更为合适。所以我们希望有一个通用的、适用于任意阶数的网络的嵌入,能够使得各种数据进行转换之后都能有效使用。
方法就是用一个 SVD 框架去解一个任意阶数的距离(arbitrary-order proximity)。整个框架有很好的代数性质,所以围绕任意阶节点算近邻关系的时候,不会受到特征选取和变化的较大影响。
机器之心:这篇工作在实际场景中会有哪些应用?相比于传统方法有哪些提升?
裴健:以前,做网络嵌入的时候是要根据特定任务做特定的嵌入,任务改了,相应的嵌入也要改。这样的话,数据的预处理就会特别的麻烦。
我们的工作就想要改变这样的现状,如果保留了任意维度上的、任意阶上的近似性,那么能不能做完一次嵌入后,大部分任务可以直接用,不用再改了?而且针对每个任务做 embedding 还会存在过拟合的问题,可以通用的嵌入也可以避免这样的问题。
机器之心:第三篇是关于 FM 方法的(Sketched Follow-The-Regularized-Leader for Online Factorization Machine)。
裴健:这篇的主题就是加速,加速 FM 的计算。现在的在线 FM 方法的问题是,性能很好、理论依据很强,但是计算复杂度太高。我们主要用了 Generalized Frequent Directions 的方法做近似然后做加速。
机器之心:您现在的研究方向主要集中在哪些领域?
裴健:我的研究方向主要还是在数据挖掘这个领域,核心点还是如何理解数据在整个决策过程当中的作用,比如模型的可解释性(数据究竟如何被用起来的),以及模型的安全性或可攻击性。
业界工作:高维度数据的时效性与安全性
机器之心:京东对待学术会议的态度是怎样的?在 KDD 会议的诸多方向里着重关心哪些方向?
裴健:京东一直就很重视这些顶级学术会议,追踪国际先进的科研前线。去年我还没有加入京东的时候,京东就已经拿了 KDD Cup 的奖,我当时作为颁奖嘉宾给他们颁了奖,后来又成为了同事。京东在技术的推进、在交流方面方向一直就有很好的传统。
在关注方向上,京东第一是非常重视落地的,所以我们会关注一些关键的能够落地技术,例如说大规模模型的计算、推荐方面的应用、智能城市的应用。第二个京东很关注数据,关注如何用 AI 的方法、数据挖掘的方法来搭建数据平台,如何做好数据的共享以为后面的模型建立一个数据的基础。
机器之心:您入职京东后的主要工作内容是什么?
裴健:我主要是在做数据、供应链、区块链这三方面的工作。其中在数据和供应链方面,有大量的场景会用到 AI 、机器学习和深度学习。举个例子,供应链有一个很重要的任务就是自动补货,自动补货里面又涉及到销量预测,这里面有很大量的工作是要用机器学习、深度学习方法来做的。
机器之心:能否介绍下京东大数据平台以及您在这部分的工作?
裴健:京东有很丰富的数据,我们现在大数据平台有大概 4 万台服务器,每天处理 100 万个任务,所有数据仓库、数据集市都在这个平台上运行。这样一个平台要保证几件事,第一是高效性,第二是数据的可靠性和安全性。第三是数据价值,要联通以支撑各种的业务。
我们这半年在这数据平台上的工作主要集中在如何提升京东的大数据服务的质量,利用大数据服务提升用户体验和供应商体系的运营效率等。这些工作对成本降低和用户体验的提升都是有非常明显的作用。
我们关注如何提高数据时效性、如何为京东开拓的新业务点提供业务场景支撑等。通过「知人、知货、知场」,整体对客户的服务质量都有提升。举个例子,我们的客服能不能在客户拿起电话的时候就知道他找客服的可能原因?我们的物流能不能在世界杯期间把啤酒放在离客户最近的地方?能不能做到周转库存的效率最高,客户拿到的产品新鲜度也最好?销售团队能不能不停贴近用户需求,甚至通过需求预测回到上游做到反向定制?
机器之心:京东在大数据方面接下来的计划有哪些?
裴健:举两个例子。首先是大数据的时效性,传统的数据仓库,可能是每天或者每几个小时更新一次,但是现在很多的新业务,例如内容营销和「闪购」、「拼购」这些业务,要求分钟级甚至是秒级的数据更新。这实际上是对整个大数据平台提出了很高的要求。
第二个是超高维数据的运算问题。我们正在做「千人千面」,用百万级的维度来描述一个用户、一个商品或者一个交易场景。那么在此前提下,如何能够迅速地感知用户对产品的需求,把这个信息快速地传达给设计商、制造商,进行上面提到的反向定制?
学界与业界:以人才为桥梁,更快速地传达方法与需求
机器之心:京东中是如何组织相关人员进行技术研发的?
裴健:京东整体的研发加起来有 2 万人规模,大部分团队的关注重点是落地实现,用技术为业务进行赋能,解决具体业务问题。技术本身的价值需要跟业务结合在一起才能真正体现,这是我觉得整个科技界应该树立的理念。所以京东的组织形式首先要看业务场景是什么。这也是我们现在能够吸引到很多的学术界的人加入到京东的一个很重要的原因。因为京东有很丰富的业务场景。
确定了业务场景之后,我们要确定相应的业务痛点,确定到底要解决一个什么样的问题。这实际上是一个双方沟通的过程:业务人员要告诉技术人员,实际业务中其实有这样一些现象,技术人员要告诉业务人员,其实我可以帮你解决一些什么样的问题。
然后我们开始定义产品,然后进行相应的研发、测试这些整个过程。
至于团队的划分,我们有时候是以业务的垂直线来分团队,例如说我们会有专门的团队来做供应链的销量预测,有专门的团队为品牌商做数据分析。也有时候按技术层面分团队,例如大数据平台有专门的团队专门做流式数据,根据不同的业务性质会有不同的划分。
机器之心:京东如何选择研发的方向?
裴健:我们的研究会紧密地跟随着业务需求和业务发展:一方面是看现在业务需要什么,如何解决业务的核心需要;另外一方面是往前看一步,未来的业务方向在什么地方,未来业务方向需要什么样的技术。两方面我们都会进行研究。
至于具体采用哪一种技术,则是跟随数据特点和算法的进展进行的。例如在用什么方法进行销量预测这一点上,一开始传统的供应链行业,是用很少的几个指标,用统计模型去预测。但是现在我们的指标非常多,传统的模型就做不好这个任务了,深度学习模型就进来了。
机器之心:京东现在的技术人才储备与需求状况如何?急需哪些类型的人才?
裴健:整个京东除了技术在转型,业务也在快速发展以及转型。所以从人才角度出发,现在我们绝对没有人才饱和这个问题,我们现在仍然是求贤若渴,希望吸纳更多的高素质的人才进来。
同时我们的技术转型与技术提升也包括了现有员工的技术提升,很多原来做传统的技术工作的员工,通过学习和在项目当中的锻炼,能够把机器学习等新的技术应用到工作中去。
京东对于人才的需求也是全方面的,从数据挖掘、数据科学方面的人才,到云、大数据、系统方面的人才,都是我们所需要的。
对于我的团队来说,我最希望加入我们的人才有「技术直觉」。我们不希望一个人来了只会调模型,我们希望他还知道为什么这样调模型,到底在调的是什么,有看透技术本质的直觉。第二个是对业务的兴趣,如果一个人对业务完全没有兴趣,很难去业务的环境下发挥很大作用。第三我们希望团队有打破框架去创新的欲望,希望团队手上有技术的工具之后,有欲望做创新。
机器之心:学界与业界之间交流与融合如今处于什么状态?还有哪些可以提高的部分?如何进行提高?
裴健:这二者的融合会越来越好,学术界更多提供技术和算法,工业界则会提供很多应用场景的背景以及数据。
举个例子,京东最近也在做智能优化大赛,我们提供了两个在业界非常宝贵的数据集,分别是仓储数据集和供应链数据集。这些数据集对于学界有非常大的作用。而我在学校一直做的事情也是偏向于应用驱动的。我们做的问题一定是来自一个应用场景,一个实际需求。
但是从人才的角度讲,人才培养和人才需求之间还存在一个非常巨大的鸿沟。大学在课程和培养方法上都远远落后于业界,业界的需求传递到大学需要大概 3 到 5 年的时间,「反向定制」的效率很低。另一方面,业界对学术界的这种信任和灵活性都比较弱。业界往往心很急,觉得学学术界东西太虚了。因此如何使两方能够更紧密的结合,是非常关键的。
一方面,以后我们能不能有一些博士后不在大学里培养,能不能在公司里创造一些被大的具体应用场景包裹的小的研究环境。另一方面,公司里的人能不能更多回到学校去,去直接地建立沟通的管道,把业界最直接的需求的声音传递到研究者。这都是值得思考的做法。