伦敦大学学院计算机系教授汪军:决策大模型(1)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 伦敦大学学院计算机系教授汪军:决策大模型

我今天分享的题目是《决策大模型》。首先我将要介绍我们在决策智能领域做的一些研究,同时我认为大模型很重要,它代表了其在现在技术上的一个思路,不管从技术突破层面,还是实际应用层面,大模型可能给大家带来不一样的东西,同时大模型也有不足之处,学术界、工业界也在不断地推进大模型发展,所以这是一个不断发展的研究领域,最后我会点题大模型。


决策智能和预测智能是有差别的。需要强调的是在人工智能应用领域,一开始我们是在做感知智能、预测智能,这相当于在数据里面找规律,有了规律以后,我们希望能够反馈到数据来改变数据,甚至能够优化决策,对数据产生改变,然后形成闭环。

我目前在上海筹备一个名为「数字大脑研究院」的机构,这是一家以科技创新与资本联动方式加速科技成果快速商业化的新型科研机构,已经研发出全球第一个多智能体决策大模型。其目的也是想把决策智能应用,进行更清楚地梳理,特别是用大模型大数据来解决决策智能问题,驱动各产业全面智能化升级。


今天我讲的内容主要分成几个部分。

首先我会介绍决策在数学上是怎么表达的,以及为何如此重要。

第二部分我会介绍决策智能最重要、最关键的问题:安全性和鲁棒性问题。决策智能可应用于互联网,比如搜索推荐广告,这些对安全要求其实并不高,其本质就是推荐内容,推荐错了也不会造成大的财产损失,只要平均能提高百分之几的点击率就可以了。所以在互联网上的这些搜索广告推荐,很容易就会用到决策的一些方法。但是我们将决策智能用到工业互联网,或是其他地方,情况可能就不一样了,我们必须有一个从理论上、实际上都要保证它是安全、鲁棒的。因此我会介绍一下这方面的思路是什么、研究方法,以及可能的实现方法,此外我还会介绍各个技术点。

第三部分我会介绍因果分析。

第四部分我会介绍贝叶斯优化,贝叶斯优化数据样本效率特别高,使得我们在小数据的情况下也可以做决策。

最后我会介绍大模型,我们为什么要做决策的大模型?我们应该怎么做?潜在的影响是什么?


决策
首先是决策,历史上笛卡尔在 17 世纪作为哲学家和数学家,就开始思考人是怎样做决策的。当然那时的科学还是比较落后的,给出的解释是比较机械的。大家都知道所谓的二元论观点,即在大脑里面,二元论观点认为有一个特定的器官:松果体。心灵和肉体之间有一个交互的地方,这个地方就是在大脑的松果体里。心灵是没法解释的,但是心灵可以控制人体行为动作,通过心灵的引导人类能够进行一些日常决策、行动等。以上是对人的决策解释。


其实再往前、往大的地方考虑的话,有一个思路可以去解释人、生命,即熵增熵减。整个宇宙是一个熵增的过程,即从有序变无须的状态。假设某个封闭的空间被抽成了真空,在一边划一个裂缝,将气体放进去,慢慢扩散到整个空间,这种气体的扩散就是从有序变成无序的状态。生命体则相反,吸收能量,是从无序走向有序的状态;于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律,即使生活环境在变,人内环境的很多东西是不会变的,比如说身体的体温,身体体液的成分等。所以作为一个生命体,无论外界的情况如何变化,其内部总是希望保持一个恒定的状态。


人类开发了人工智能以及各种技术,必然是帮助我们解决不变性的,或者说是解决熵减。所以按照这个思路进行思考,就会比较容易理解一个生命体如何去做决策,或者说生命体做决策原理是什么。我们用一个最简化的数学模型来描述这个过程。
如下图,比如说整个世界假设它是不可知的,我们可以用一个隐变量 s* 来描述这个世界(或者说代表世界运行的规律或真理)。然后作为个体,比如生命体或是细胞,存在于这个世界当中,受这个世界运行影响。这个生命体不知道 S * 但会观察这个外部世界,假设这个观察量是 o (因为 s * 是不可观察的,但是 o 是 s * 生成的,可以推理出 s*) 。透过 o,生命体对 s * 有了理解,但生命体不是 100% 完全可以推理出自然界隐藏的规律。比如说重力,牛顿根据苹果落地这样一个事实,他观察到了这种现象 o,对真实世界产生一定认知和理解,这个认知和理解就是 s。但是 s 和 s * 可能不一样,也可能一样,因为其代表了个体对外界的理解。当个体理解以后,个体就会采取行动(下图的 u)改变世界,比如说人,人可以改变世界,细胞可以释放某些东西,与病毒做斗争,所有这些都是个体对外界的影响。在外界影响的情况下,改变自然界,自然界然后又会出现新的状态规律,个体在根据观察做出理解和改变,依次反复。

所以对于感知智能来说,感知是从观察到发现规律 o -> s;决策智能,就是从规律再返回事件 s -> u,来改变数据环境。


感知是主观的,它是个体的感知,每个人可能不一样,难以用语言来描述,但可以通过其他方式来描述。人与人之间会产生共鸣,这是为什么?因为你的感知和另外一个人的感知,对于观察到的同一个东西或者观察到的同一现象可能不一样,但是会产生共鸣。所以当你看到这些绘画的时候,就会和这些绘画的作者产生共鸣。所以这就是感知方面的一个规律,这个也就是艺术存在的本源。


决策是如何进行的?效用理论 (Utility theory)。John  Von Neuman 是一位非常著名的数学家,同时也是计算机学科的奠基人,他同时也创立了 Games Theory。在经典的《Games Theory》里,他讲到了 Utility theory,提供了一套数学工具来告诉大家怎样去做决策。其数学表达可以认为是优化某一个特定的函数,选择能够最大化函数的值。

如果一个智能体是理性的话,那么怎样做决策呢?我们还是用上面的这个例子来讲,假设人或者机器都可以,他们存在于一个世界中,我从外界观察到一个信号 o,那么我要选择的最优决策是什么 u?贝叶斯决策理论就是说,当我观察 o 的时候,其实对 s 到底长什么样已经有了一定的估计,比如说一个分布和描述。通过观察 o 之后的后验知识,那么我对自然界的一些规律和法则有了一定的了解。这个了解反映在它的分布和后验概率上 p(s|o)。也就是说,我对它的了解有一定的不确定性。

再来看所谓的奖励函数。如果自然界长成这个样子 s,我采取了行动 u,那么我的获利应该是多少,我们用 R(s,u) 这个函数来描述?只要你可以定义这个获利,就可以最大化平均的获利值。我选择自己的决策,最大化预期利益或者说平均利益。贝叶斯决策理论可以告诉你,这个就是最优的决策。刚才其他演讲者讲到强化学习和优化,无外乎就是上述公式,优化一个特定的(奖励)函数。我选择的这个决策变量使得这个函数值是最大化的。


另外一个更基础的问题来了,什么是智能呢?其实,智能可以用函数来解决。我使得自己的长期收益是最好的,比如说经典的巴普洛夫条件反射,为什么狗可以跟它的铃声和食物产生联系呢?为什么一听到铃声就会产生唾液呢?这是因为它学习到了你经常一敲铃便会给它食物,这样狗当然就迅速行动了。


从长期角度来讲,对狗这个生命体来说,它优化了自己「迅速跑到这边获取食物」。狗的行为最优的的表现是它可以适应环境获取食物,从长时间来达到它的受益。

但实际上,我们说做(机器)决策智能的时候,包括将来讲的应用如互联网广告,已经广泛地应用到了。我之前做联合创始人的公司就是专门做强化学习用于互联网广告。除了强化学习,决策智能有其他的表现形式或数学表达,能够解决不一样的东西。

刚才有演讲者讲到了运筹优化的内容。运筹优化本质是个优化问题,就是我给定一个目标函数 f(x),它可以是知道的,也可以是不知道的。在不知道的情况下,我们叫它黑盒优化;在知道的情况下,我们叫它白盒优化。然后,我的目的是要找到决策 x,我选择自己的决策并最大化函数 f。这个函数可以是刚才说到的 utility 奖励函数,也可以是其他各种各样的函数。那么如果从这个角度来讲的话,它就有很广泛的用途。

比如其他演讲者所讲的电厂和 EDA 优化的问题。生物化学上,我们甚至可以用它来寻找抗体,就是用机器学习或黑盒优化的方法,帮助找到更合适的抗体。还有演讲者提到的 AutoML,它们本质上也是黑盒优化问题。


黑盒优化里面比较好的方法就是贝叶斯优化,比如我们做优化时允许去试错。我们找一些 x「喂」到 f 里面,然后去测试(给出 f 的值)。如果说我们的任务是找抗体的话,则允许做一些黑盒实验,看看化学反应如何。然后我们再去建一个对 f 了解的模型,叫做代理模型(surrogate model)。接着再创建一个采集函数 (acquisition function),告诉我们下一个实验应该怎么做 (下一个测试的输入值 x 应该是什么),然后无限循环往复,直到实现最优 。

贝叶斯优化好处是什么?它从理论上保证能够找到全局最优。同时它也能减少做实验的次数,所以贝叶斯优化可以帮助我们在数据稀疏的情况下,去优化决策。

大约一年前,我带着华为团队一起做了一个贝叶斯优化算法,获得 NeurIPS 黑盒优化冠军,名字为河伯,该系统已经开源,被研究者广泛使用,该研究应用领域包括在 Auto ML、蛋白质设计、 MindSpore 超参数优化、机器学习系统里的 rate 超参数优化,此外还包括各种各样的实际场景应用。接下来我会介绍几个例子,我认为这是比强化学习更容易落地、更接地气的方法,因为这种方法对数据要求不高。


以上是我介绍的决策智能一些重点内容。那么决策智能难点在哪?刚才有演讲者讲了安全的知识,安全在决策智能中非常重要,我会稍微介绍一下最近的一些算法,然后我再讲一些因果分析的内容(对决策的可解释性提供了理论基础)。

大约十多年前,我刚去 UCL 的时候,对互联网搜索的问题很感兴趣。其中很关心搜索引擎的不确定性问题,比如用户使用百度搜索 iPhone 4 代,能搜索出结果。但是当用户搜索了一个困难的主题关键字,可能没有一个跟用户的需求相关的,那么用户就会不在用这个搜索引擎,改用其他的搜索方法。所以搜索引擎需要有个有效的方法避免以上问题出现。


我们该如何看待这个问题?其实就是最大化用户满意度。我们在 2009 年做过一套理论,参考了投资的一些原则,就是不要把所有的钱都投到同一个地方。为什么这样做?因为股票价值有高有低,之间此起彼伏,你需要多样化投资组合。同样的道理,你在做搜索推荐或者互联网广告时,不要把你认为用户相关的都展示出来,万一判断有错怎么办,所以你要多样化你的文件列表。当时在学术圈,大家都已经开始做 多元化排序了,但其实没有给出一套理论,我们给出了一套理论,该理论告诉搜索引擎在什么时候多样化,多样化多少的的。SIGIR 对这个工作非常认可,去年授予了 test of time honorable mention: 十年、甚至十几年之后再去看这篇文章,还是非常有影响力的。我本身对这个工作还是非常自豪的。


安全和鲁棒
在工业互联网时代,需要做更加精细的决策,安全与风险是其中重要的部分。我之前带领了华为诺亚实验室伦敦团队,在 2022 年发表在机器学习会议 ICML 上的一篇文章(SAUTE RL)。几乎肯定(或以概率为一)的满足安全约束对于在现实应用中部署强化学习 (RL) 至关重要。例如,飞机着陆和起飞在理想情况下应该以概率 1 发生。我们团队通过引入安全增强的马尔可夫决策过程(MDP)来解决这个问题,其中通过将安全约束增强到状态空间并重塑目标来消除安全约束。团队证明了 “炒” (Saute)过的马科夫决策过程( MDP) 满足贝尔曼 (Bellman) 方程,并更接近于解决几乎肯定满足约束的安全强化学习。团队认为 Saute MDP 采用了一个不同角度对待安全决策问题。例如,新提出的方法具有即插即用的特性,即任何 RL 算法都可以 “炒”。此外,状态增强允许跨安全约束的策略泛化。最终表明,当约束满足非常重要时,Saute RL 算法可以超越其最先进的算法。在下图所示的实验中,可以 Saute RL 算法在一些极端的测试下,安全性仍然是绿色的,图中虚线表示 100% 安全。Saute RL 算法在一些安全性要求较高的场景广泛应用,比如电力、自动驾驶等。


这是我们做的一个实验,可以看到在一些 setting 极端策略下, 我们的方法保证 100% 安全。不管从实验上、还是理论上我们都可以 100% 得到安全保障。如果用这些方法,我们在一些严格的安全性场景里,比如电力、自动驾驶等,我们就可以广泛地使用这些强化学习和优化决策的方法了。


另外一个更难的问题是如何保证模型训练安全。我们将类似的方法运用到训练中。训练过程中加入一个安全状态,它会记录历史上的操作是否安全,在学习的过程中可以根据安全状态选择安全的路径。


因果分析
下面介绍因果分析 ,刚才有人讲到数字孪生,这其中涉及模型和数据的关系。所谓数字孪生,本质就是对真实世界建模,如果仅凭自己想象建模,那结果和真是世界差别很大。同样的道理,假如你有数据,但数据不代表真实情况,数据在采样的情况下就存在偏差,用存在偏差的数据建立模型,显然不能真实地反映情况,导致模型和数据之间有差别。如果你用这些数据建立数字孪生去仿真、去学习,显然不准确。所以数字孪生的核心问题就是建立必须要让它与环境一致、与数据一致 。举例来说,在推荐系统里面,我们可以去做推荐的仿真 ,可以去仿真数据,但是要强调的是仿真必须跟真实情况保持一致。


我认为 Judea Pearl 因果分析的研究很有意义,给我们提供了很好的理论基础。他提出的 结构化的因果模型(structure causal model)对 因果关系提供了一个系统的描述。从我个人理解来讲,如果将其与 图模型或者主流的统计方法相比的话,主要区别在于增加了外生变量,这些外生变量对系统会造成改变。我们必须有一套理论去理解它,而不是假设它不存在,假如这些外生变量不存在,你就没有规则去完全消除这些偏差( bias)的问题。只有对这些外生变量建模,模型才会有效。Judea Pearl 的一个思路很有意思,就是系统的介绍了干预和想象的操作。比如 A 和 B 经常在一起,当有 A 的时候,预测 B 的存在。但实际上 A 和 B 的存在可能是另外一个 confounding 干扰变量的影响, A 和 B 实际上没有任何内在的因果关系,他们只是关联(association)的关系。

第二个就是 DO 操作,就是去干预 ,假如改变某一个量,另外一个量会不会随之改变。如果我看到 A ,就说明看到 B, 哪一天 A 消失了, B 是不是也消失了,还是 B 因为另外一个 confounding 的存在导致 B 一直存在,所以你可以通过此方法进行分析 。

第三个是想象 (imagine),你可以问 what if 问题,刚才我们在讲运筹优化的时候,会进行 what if 分析,问如果当初我们执行另外一个策略,会给我们带来什么。没有进行 what if 推论,就把一个策略执行到实际中是不科学的。所以,我们需要在仿真器里问「what if question」问题,即如果这样做结果会怎么样,是不是有更好的决策,这就是所谓的反事实(counterfactual),它实际没有出现,需要在脑子里进行想象,用数字孪生去想象,但必须保证 counterfactual 是无偏见的。所以,如果我们要做数字孪生,就必须解决 counterfactual 的问题。


举例来说,在智能推荐系统里,首要的问题是数据偏差问题,如下图标记的有用户 user (U)、 推荐列表 recommendation list (R)、 正例 positive items (S) 。一个物品 items 要被用户喜欢并且被观察到,必须满足两个条件,首先要被推荐,如果没有推荐,用户就看不到,所以必须和 R 有关系;同时要跟用户 U 有关系,就是用户可能喜欢、也可能不喜欢。同时喜欢并且被推荐了,那么这个 item 是被观察了 S, 在数据里面它是有 bias 的,如果它不在推荐系统里面,但用户是喜欢的,这种情况下是观察不到的。如果你使用观察到的这些数据来构建仿真器,必然存在一个偏差项,是被推荐过去,只有被推荐过的东西你才会看见被仿真。但实际上还有那些没有被推荐,实际上用户可能喜欢的,所以你需要问 what if question,用户是不是喜欢,如果用户喜欢,你就推荐,如果用户不喜欢,你就不推荐。


我们需要构建一个所谓的 数据产生模型 data impression model 和用户反馈模型 user feedback model 。外生变量是需要模型的,在一般的推荐系统里面,它是不存在建模问题的。图中的 beta 也是个外层变量 ,需要对它进行建模并估计。当出现新数据时,我们需要估计 alpha 、beta ,然后再去纠正当前状态, 进行真正的仿真。

我们也做了一些理论分析,如果我们有这样的仿真系统,数据多事效果会更好。这就面临一个问题,有了数据以后,我是用数据来构建仿真器再去做决策,还是直接用数据做优化决策。方案是如果你有 inductive bias 归纳偏置,构建到这个模型里面,这样用仿真器才有意义。



相关文章
|
3月前
|
项目管理
【贝叶斯分析】计算机科学专业博士作业一
本文通过多个案例,详细解释了贝叶斯分析在不同情境下的应用,包括跨种族夫妇的有罪概率、患X病的风险评估、犯罪现场的嫌疑人推断以及XOR运算的概率计算,展示了如何利用贝叶斯定理进行推理和决策。
36 3
|
3月前
【贝叶斯分析】计算机科学专业博士作业二
本文通过多个实例详细解释了如何使用贝叶斯定理和贝叶斯网络来求解条件概率和期望效用等问题。
31 2
|
3月前
|
人工智能 TensorFlow 算法框架/工具
【人工智能课程】计算机科学博士作业二
本文使用TensorFlow 1.x实现了一个手势识别任务,通过图像增强技术改进模型,将基准训练准确率从0.92提升到0.97,测试准确率从0.77提升到0.88,并提供了详细的代码实现过程。
28 3
【人工智能课程】计算机科学博士作业二
|
3月前
|
机器学习/深度学习 人工智能 算法
【人工智能课程】计算机科学博士作业三
本文是关于计算机科学博士课程的第三次作业,主要介绍了图片攻击的概念、常见算法(如FGSM、IFGSM、MIFGSM等),并通过Python代码实现了对图像的攻击以及评估了这些攻击算法对模型性能的影响。
48 3
【人工智能课程】计算机科学博士作业三
|
3月前
|
机器学习/深度学习 数据采集 人工智能
【人工智能课程】计算机科学博士作业一
本文是一份人工智能课程作业指南,详细描述了使用深度神经网络构建回归模型的任务,包括数据预处理、特征选择、模型构建、训练、评估和优化的全过程,并提供了相应的PyTorch代码实现。
20 2
【人工智能课程】计算机科学博士作业一
|
Web App开发 机器学习/深度学习 人工智能
伦敦大学学院计算机系教授汪军:决策大模型(2)
伦敦大学学院计算机系教授汪军:决策大模型
251 0
|
云计算 Python 机器学习/深度学习
复旦大学计算机科学技术学院与阿里云计算有限公司联合培养研究生
按照复旦大学对全日制专业学位研究生实践化培养的要求,近期计算机科学技术学院(以下简称学院)与阿里云计算有限公司(以下简称阿里云)签订了专业学位研究生实践化培养基地合作协议,同时阿里云推荐的一批行业导师也已通过学校审核被正式聘用。
1296 1
复旦大学计算机科学技术学院与阿里云计算有限公司联合培养研究生
|
机器学习/深度学习 Web App开发 人工智能
邢波任校长的大学迎来机器学习鼻祖:Michael Jordan加盟MBZUAI任荣誉教授
邢波任校长的大学迎来机器学习鼻祖:Michael Jordan加盟MBZUAI任荣誉教授
227 0
邢波任校长的大学迎来机器学习鼻祖:Michael Jordan加盟MBZUAI任荣誉教授
|
机器学习/深度学习 人工智能 自然语言处理
第四范式首席科学家杨强教授:未来人工智能会让二流科学家失业
近日,机器之心对杨强教授进行了专访,他对迁移学习、人工智能行业与技术进行了深入讲解,并对人工智能从业者提供了众多有价值的建议。
526 0
第四范式首席科学家杨强教授:未来人工智能会让二流科学家失业
|
机器学习/深度学习 人工智能 自然语言处理
姚期智亲任主编,正规军的高中 AI 教材来了
姚期智亲任主编,正规军的高中 AI 教材来了
姚期智亲任主编,正规军的高中 AI 教材来了

热门文章

最新文章