伦敦大学学院计算机系教授汪军：决策大模型（1）-阿里云开发者社区

我今天分享的题目是《决策大模型》。首先我将要介绍我们在决策智能领域做的一些研究，同时我认为大模型很重要，它代表了其在现在技术上的一个思路，不管从技术突破层面，还是实际应用层面，大模型可能给大家带来不一样的东西，同时大模型也有不足之处，学术界、工业界也在不断地推进大模型发展，所以这是一个不断发展的研究领域，最后我会点题大模型。

决策智能和预测智能是有差别的。需要强调的是在人工智能应用领域，一开始我们是在做感知智能、预测智能，这相当于在数据里面找规律，有了规律以后，我们希望能够反馈到数据来改变数据，甚至能够优化决策，对数据产生改变，然后形成闭环。

我目前在上海筹备一个名为「数字大脑研究院」的机构，这是一家以科技创新与资本联动方式加速科技成果快速商业化的新型科研机构，已经研发出全球第一个多智能体决策大模型。其目的也是想把决策智能应用，进行更清楚地梳理，特别是用大模型大数据来解决决策智能问题，驱动各产业全面智能化升级。

今天我讲的内容主要分成几个部分。

首先我会介绍决策在数学上是怎么表达的，以及为何如此重要。

第二部分我会介绍决策智能最重要、最关键的问题：安全性和鲁棒性问题。决策智能可应用于互联网，比如搜索推荐广告，这些对安全要求其实并不高，其本质就是推荐内容，推荐错了也不会造成大的财产损失，只要平均能提高百分之几的点击率就可以了。所以在互联网上的这些搜索广告推荐，很容易就会用到决策的一些方法。但是我们将决策智能用到工业互联网，或是其他地方，情况可能就不一样了，我们必须有一个从理论上、实际上都要保证它是安全、鲁棒的。因此我会介绍一下这方面的思路是什么、研究方法，以及可能的实现方法，此外我还会介绍各个技术点。

第三部分我会介绍因果分析。

第四部分我会介绍贝叶斯优化，贝叶斯优化数据样本效率特别高，使得我们在小数据的情况下也可以做决策。

最后我会介绍大模型，我们为什么要做决策的大模型？我们应该怎么做？潜在的影响是什么？

决策
首先是决策，历史上笛卡尔在 17 世纪作为哲学家和数学家，就开始思考人是怎样做决策的。当然那时的科学还是比较落后的，给出的解释是比较机械的。大家都知道所谓的二元论观点，即在大脑里面，二元论观点认为有一个特定的器官：松果体。心灵和肉体之间有一个交互的地方，这个地方就是在大脑的松果体里。心灵是没法解释的，但是心灵可以控制人体行为动作，通过心灵的引导人类能够进行一些日常决策、行动等。以上是对人的决策解释。

其实再往前、往大的地方考虑的话，有一个思路可以去解释人、生命，即熵增熵减。整个宇宙是一个熵增的过程，即从有序变无须的状态。假设某个封闭的空间被抽成了真空，在一边划一个裂缝，将气体放进去，慢慢扩散到整个空间，这种气体的扩散就是从有序变成无序的状态。生命体则相反，吸收能量，是从无序走向有序的状态；于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律，即使生活环境在变，人内环境的很多东西是不会变的，比如说身体的体温，身体体液的成分等。所以作为一个生命体，无论外界的情况如何变化，其内部总是希望保持一个恒定的状态。

人类开发了人工智能以及各种技术，必然是帮助我们解决不变性的，或者说是解决熵减。所以按照这个思路进行思考，就会比较容易理解一个生命体如何去做决策，或者说生命体做决策原理是什么。我们用一个最简化的数学模型来描述这个过程。
如下图，比如说整个世界假设它是不可知的，我们可以用一个隐变量 s* 来描述这个世界（或者说代表世界运行的规律或真理）。然后作为个体，比如生命体或是细胞，存在于这个世界当中，受这个世界运行影响。这个生命体不知道 S * 但会观察这个外部世界，假设这个观察量是 o （因为 s * 是不可观察的，但是 o 是 s * 生成的，可以推理出 s*）。透过 o，生命体对 s * 有了理解，但生命体不是 100% 完全可以推理出自然界隐藏的规律。比如说重力，牛顿根据苹果落地这样一个事实，他观察到了这种现象 o，对真实世界产生一定认知和理解，这个认知和理解就是 s。但是 s 和 s * 可能不一样，也可能一样，因为其代表了个体对外界的理解。当个体理解以后，个体就会采取行动（下图的 u）改变世界，比如说人，人可以改变世界，细胞可以释放某些东西，与病毒做斗争，所有这些都是个体对外界的影响。在外界影响的情况下，改变自然界，自然界然后又会出现新的状态规律，个体在根据观察做出理解和改变，依次反复。

所以对于感知智能来说，感知是从观察到发现规律 o -> s；决策智能，就是从规律再返回事件 s -> u，来改变数据环境。

感知是主观的，它是个体的感知，每个人可能不一样，难以用语言来描述，但可以通过其他方式来描述。人与人之间会产生共鸣，这是为什么？因为你的感知和另外一个人的感知，对于观察到的同一个东西或者观察到的同一现象可能不一样，但是会产生共鸣。所以当你看到这些绘画的时候，就会和这些绘画的作者产生共鸣。所以这就是感知方面的一个规律，这个也就是艺术存在的本源。

决策是如何进行的？效用理论（Utility theory）。John Von Neuman 是一位非常著名的数学家，同时也是计算机学科的奠基人，他同时也创立了 Games Theory。在经典的《Games Theory》里，他讲到了 Utility theory，提供了一套数学工具来告诉大家怎样去做决策。其数学表达可以认为是优化某一个特定的函数，选择能够最大化函数的值。

如果一个智能体是理性的话，那么怎样做决策呢？我们还是用上面的这个例子来讲，假设人或者机器都可以，他们存在于一个世界中，我从外界观察到一个信号 o，那么我要选择的最优决策是什么 u？贝叶斯决策理论就是说，当我观察 o 的时候，其实对 s 到底长什么样已经有了一定的估计，比如说一个分布和描述。通过观察 o 之后的后验知识，那么我对自然界的一些规律和法则有了一定的了解。这个了解反映在它的分布和后验概率上 p(s|o)。也就是说，我对它的了解有一定的不确定性。

再来看所谓的奖励函数。如果自然界长成这个样子 s，我采取了行动 u，那么我的获利应该是多少，我们用 R(s,u) 这个函数来描述？只要你可以定义这个获利，就可以最大化平均的获利值。我选择自己的决策，最大化预期利益或者说平均利益。贝叶斯决策理论可以告诉你，这个就是最优的决策。刚才其他演讲者讲到强化学习和优化，无外乎就是上述公式，优化一个特定的（奖励）函数。我选择的这个决策变量使得这个函数值是最大化的。

另外一个更基础的问题来了，什么是智能呢？其实，智能可以用函数来解决。我使得自己的长期收益是最好的，比如说经典的巴普洛夫条件反射，为什么狗可以跟它的铃声和食物产生联系呢？为什么一听到铃声就会产生唾液呢？这是因为它学习到了你经常一敲铃便会给它食物，这样狗当然就迅速行动了。

从长期角度来讲，对狗这个生命体来说，它优化了自己「迅速跑到这边获取食物」。狗的行为最优的的表现是它可以适应环境获取食物，从长时间来达到它的受益。

但实际上，我们说做（机器）决策智能的时候，包括将来讲的应用如互联网广告，已经广泛地应用到了。我之前做联合创始人的公司就是专门做强化学习用于互联网广告。除了强化学习，决策智能有其他的表现形式或数学表达，能够解决不一样的东西。

刚才有演讲者讲到了运筹优化的内容。运筹优化本质是个优化问题，就是我给定一个目标函数 f（x），它可以是知道的，也可以是不知道的。在不知道的情况下，我们叫它黑盒优化；在知道的情况下，我们叫它白盒优化。然后，我的目的是要找到决策 x，我选择自己的决策并最大化函数 f。这个函数可以是刚才说到的 utility 奖励函数，也可以是其他各种各样的函数。那么如果从这个角度来讲的话，它就有很广泛的用途。

比如其他演讲者所讲的电厂和 EDA 优化的问题。生物化学上，我们甚至可以用它来寻找抗体，就是用机器学习或黑盒优化的方法，帮助找到更合适的抗体。还有演讲者提到的 AutoML，它们本质上也是黑盒优化问题。

黑盒优化里面比较好的方法就是贝叶斯优化，比如我们做优化时允许去试错。我们找一些 x「喂」到 f 里面，然后去测试（给出 f 的值）。如果说我们的任务是找抗体的话，则允许做一些黑盒实验，看看化学反应如何。然后我们再去建一个对 f 了解的模型，叫做代理模型（surrogate model）。接着再创建一个采集函数 (acquisition function)，告诉我们下一个实验应该怎么做 (下一个测试的输入值 x 应该是什么)，然后无限循环往复，直到实现最优。

贝叶斯优化好处是什么？它从理论上保证能够找到全局最优。同时它也能减少做实验的次数，所以贝叶斯优化可以帮助我们在数据稀疏的情况下，去优化决策。

大约一年前，我带着华为团队一起做了一个贝叶斯优化算法，获得 NeurIPS 黑盒优化冠军，名字为河伯，该系统已经开源，被研究者广泛使用，该研究应用领域包括在 Auto ML、蛋白质设计、 MindSpore 超参数优化、机器学习系统里的 rate 超参数优化，此外还包括各种各样的实际场景应用。接下来我会介绍几个例子，我认为这是比强化学习更容易落地、更接地气的方法，因为这种方法对数据要求不高。

以上是我介绍的决策智能一些重点内容。那么决策智能难点在哪？刚才有演讲者讲了安全的知识，安全在决策智能中非常重要，我会稍微介绍一下最近的一些算法，然后我再讲一些因果分析的内容（对决策的可解释性提供了理论基础）。

大约十多年前，我刚去 UCL 的时候，对互联网搜索的问题很感兴趣。其中很关心搜索引擎的不确定性问题，比如用户使用百度搜索 iPhone 4 代，能搜索出结果。但是当用户搜索了一个困难的主题关键字，可能没有一个跟用户的需求相关的，那么用户就会不在用这个搜索引擎，改用其他的搜索方法。所以搜索引擎需要有个有效的方法避免以上问题出现。

我们该如何看待这个问题？其实就是最大化用户满意度。我们在 2009 年做过一套理论，参考了投资的一些原则，就是不要把所有的钱都投到同一个地方。为什么这样做？因为股票价值有高有低，之间此起彼伏，你需要多样化投资组合。同样的道理，你在做搜索推荐或者互联网广告时，不要把你认为用户相关的都展示出来，万一判断有错怎么办，所以你要多样化你的文件列表。当时在学术圈，大家都已经开始做多元化排序了，但其实没有给出一套理论，我们给出了一套理论，该理论告诉搜索引擎在什么时候多样化，多样化多少的的。SIGIR 对这个工作非常认可，去年授予了 test of time honorable mention: 十年、甚至十几年之后再去看这篇文章，还是非常有影响力的。我本身对这个工作还是非常自豪的。

安全和鲁棒
在工业互联网时代，需要做更加精细的决策，安全与风险是其中重要的部分。我之前带领了华为诺亚实验室伦敦团队，在 2022 年发表在机器学习会议 ICML 上的一篇文章（SAUTE RL）。几乎肯定（或以概率为一）的满足安全约束对于在现实应用中部署强化学习 (RL) 至关重要。例如，飞机着陆和起飞在理想情况下应该以概率 1 发生。我们团队通过引入安全增强的马尔可夫决策过程（MDP）来解决这个问题，其中通过将安全约束增强到状态空间并重塑目标来消除安全约束。团队证明了 “炒” （Saute）过的马科夫决策过程（ MDP）满足贝尔曼（Bellman）方程，并更接近于解决几乎肯定满足约束的安全强化学习。团队认为 Saute MDP 采用了一个不同角度对待安全决策问题。例如，新提出的方法具有即插即用的特性，即任何 RL 算法都可以 “炒”。此外，状态增强允许跨安全约束的策略泛化。最终表明，当约束满足非常重要时，Saute RL 算法可以超越其最先进的算法。在下图所示的实验中，可以 Saute RL 算法在一些极端的测试下，安全性仍然是绿色的，图中虚线表示 100% 安全。Saute RL 算法在一些安全性要求较高的场景广泛应用，比如电力、自动驾驶等。

这是我们做的一个实验，可以看到在一些 setting 极端策略下，我们的方法保证 100% 安全。不管从实验上、还是理论上我们都可以 100% 得到安全保障。如果用这些方法，我们在一些严格的安全性场景里，比如电力、自动驾驶等，我们就可以广泛地使用这些强化学习和优化决策的方法了。

另外一个更难的问题是如何保证模型训练安全。我们将类似的方法运用到训练中。训练过程中加入一个安全状态，它会记录历史上的操作是否安全，在学习的过程中可以根据安全状态选择安全的路径。

因果分析
下面介绍因果分析，刚才有人讲到数字孪生，这其中涉及模型和数据的关系。所谓数字孪生，本质就是对真实世界建模，如果仅凭自己想象建模，那结果和真是世界差别很大。同样的道理，假如你有数据，但数据不代表真实情况，数据在采样的情况下就存在偏差，用存在偏差的数据建立模型，显然不能真实地反映情况，导致模型和数据之间有差别。如果你用这些数据建立数字孪生去仿真、去学习，显然不准确。所以数字孪生的核心问题就是建立必须要让它与环境一致、与数据一致。举例来说，在推荐系统里面，我们可以去做推荐的仿真，可以去仿真数据，但是要强调的是仿真必须跟真实情况保持一致。

我认为 Judea Pearl 因果分析的研究很有意义，给我们提供了很好的理论基础。他提出的结构化的因果模型（structure causal model）对因果关系提供了一个系统的描述。从我个人理解来讲，如果将其与图模型或者主流的统计方法相比的话，主要区别在于增加了外生变量，这些外生变量对系统会造成改变。我们必须有一套理论去理解它，而不是假设它不存在，假如这些外生变量不存在，你就没有规则去完全消除这些偏差（ bias）的问题。只有对这些外生变量建模，模型才会有效。Judea Pearl 的一个思路很有意思，就是系统的介绍了干预和想象的操作。比如 A 和 B 经常在一起，当有 A 的时候，预测 B 的存在。但实际上 A 和 B 的存在可能是另外一个 confounding 干扰变量的影响， A 和 B 实际上没有任何内在的因果关系，他们只是关联（association）的关系。

第二个就是 DO 操作，就是去干预，假如改变某一个量，另外一个量会不会随之改变。如果我看到 A ，就说明看到 B，哪一天 A 消失了， B 是不是也消失了，还是 B 因为另外一个 confounding 的存在导致 B 一直存在，所以你可以通过此方法进行分析。

第三个是想象（imagine），你可以问 what if 问题，刚才我们在讲运筹优化的时候，会进行 what if 分析，问如果当初我们执行另外一个策略，会给我们带来什么。没有进行 what if 推论，就把一个策略执行到实际中是不科学的。所以，我们需要在仿真器里问「what if question」问题，即如果这样做结果会怎么样，是不是有更好的决策，这就是所谓的反事实（counterfactual），它实际没有出现，需要在脑子里进行想象，用数字孪生去想象，但必须保证 counterfactual 是无偏见的。所以，如果我们要做数字孪生，就必须解决 counterfactual 的问题。

举例来说，在智能推荐系统里，首要的问题是数据偏差问题，如下图标记的有用户 user （U）、推荐列表 recommendation list (R)、正例 positive items (S) 。一个物品 items 要被用户喜欢并且被观察到，必须满足两个条件，首先要被推荐，如果没有推荐，用户就看不到，所以必须和 R 有关系；同时要跟用户 U 有关系，就是用户可能喜欢、也可能不喜欢。同时喜欢并且被推荐了，那么这个 item 是被观察了 S，在数据里面它是有 bias 的，如果它不在推荐系统里面，但用户是喜欢的，这种情况下是观察不到的。如果你使用观察到的这些数据来构建仿真器，必然存在一个偏差项，是被推荐过去，只有被推荐过的东西你才会看见被仿真。但实际上还有那些没有被推荐，实际上用户可能喜欢的，所以你需要问 what if question，用户是不是喜欢，如果用户喜欢，你就推荐，如果用户不喜欢，你就不推荐。

我们需要构建一个所谓的数据产生模型 data impression model 和用户反馈模型 user feedback model 。外生变量是需要模型的，在一般的推荐系统里面，它是不存在建模问题的。图中的 beta 也是个外层变量，需要对它进行建模并估计。当出现新数据时，我们需要估计 alpha 、beta ，然后再去纠正当前状态，进行真正的仿真。

我们也做了一些理论分析，如果我们有这样的仿真系统，数据多事效果会更好。这就面临一个问题，有了数据以后，我是用数据来构建仿真器再去做决策，还是直接用数据做优化决策。方案是如果你有 inductive bias 归纳偏置，构建到这个模型里面，这样用仿真器才有意义。