伦敦大学学院计算机系教授汪军:决策大模型(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 伦敦大学学院计算机系教授汪军:决策大模型

小数据决策
然后我再讲一下贝叶斯优化。


我带领华为团队解决电子设计自动化 EDA 问题 时,我们用贝叶斯优化解决各种各样的 EDA 的问题。EDA 问题其实是一个离散优化 combination optimization 的问题,比如我们研究的一系列序列决策问题。我们在逻辑综合里面,想把整个的逻辑 数据转换成另一个 更实际的简化的逻辑实际,使它的逻辑功能完全不变,对于是否完全不变,我可以用 QoR 来横量它,QoR 值是多少,我是不知道的,我没有任何的数学表达,但是经过不断的试错,可以达到最优,但怎么提高试错效率?显然我就可以用刚才讲的贝叶斯黑盒优化,对 QoR 进行建模,然后去解决这个问题。


今年我们也发表了论文来阐述怎样用贝叶斯优化来做逻辑综合。顺便提一下,我们为华为团队做的研究达到 SOTA 水平,该研究在公开测试数据里名列前茅,所以贝叶斯优化为解决逻辑综合问题提供了一个比较好的思路。


我再举另外一个例子,我想设计一个抗体能够抗击抗原,这两种蛋白质会发生一些反应。这里我们就要找出氨基酸的排列次序及其形成的蛋白质,使得 Binding-Energy 结合能最小化。使用穷举的方法几乎是不可能的,因为可能性空间太大了。小数据决策就需要贝叶斯优化了。


另外,我们如何形成应用大模型和大数据的思路?我们组做了很多多智能体强化学习方向的研究。那么,智能交互相关的研究只能用在游戏上吗,是不是可以用到其他应用上?回答是肯定的。我们最近做了一个游戏场景的「AI 奥林匹克」系列竞赛,因为游戏场景可以放大决策中的关键问题,使我们能够找到其中的规律。我们的目的是通过游戏的方式弄清楚决策中的技术方法,以用到其他各种场景中。

这个「AI 奥林匹克」竞赛和其他仿真游戏的区别是什么呢?首先在目的上,我们做这个比赛是为了探究智能体泛化性,以用于实际场景。第二,在「AI 奥林匹克」竞赛中,智能体并不能获取全部信息,而是只提供部分信息,我们想知道系统如何解决问题。

我们只有把一个跨任务的,信息不完备的场景弄清楚,才能够解决一些实际问题,模型的泛化能力也就增强了。

我们在「AI 奥林匹克」系列竞赛中运用了多智能体人工智能的思路。关于「多智能体人工智能是不是只能用在游戏里,还是也能用于其他场景」这个问题,我们认为在多智能体场景下可以「重新制定(reformulate)」实际问题。比如在运筹优化里,包括经典的旅行推销员问题(TSP,travel salesman problem) 多智能体学习能发挥 跨任务的优势,也在 meta level 层面解决这个问题。

TSP 是一系列问题,这一系列问题是有共性的。我们要在 meta level 上找到这个共性,建模一个新的 TSP 问题,只需少量数据就能很快找到答案,进而对提出解决方案提供指导作用。


传统的优化算法只能解决一个 TSP 问题,对于第二个第三个等等 TSP 问题没有泛化性。第二,传统方法中能够提升模型能力的只有数据。解决第一个问题的数据可以和之后新添加的数据结合起来,让模型的能力进一步提高。因此这种方法是数据驱动的(data driven)。

我们用多智能体的方式,把数据驱动和 meta level 结合到 TSP server 里。简单来说,我会做一个 meta level 的 求解方法,然后有一个 Oracle 评价系统与之对抗。我让 求解方法 和评价系统 Oracle 之间就产生一个对于 TSP 问题的竞赛。显然我们可以用互相竞争的多智能体方法来解决这个问题,例如提供一个跨任务的求解方法。多智能体人工智能在 meta level 可以帮助解决一些运筹优化的重要问题。

我们发现这里存在一个趋势:从单一问题迁移到 多个任务(meta level) 后,我们可以很快地 pre-solve 预先解决新问题,这类似于 NLP 自然语言问题中预训练模型的概念。

去年,UC 伯克利考虑在决策智能中使用 transformer 大模型和一些称为离线学习「offline training」的方法,拉近了 NLP 自然语言和 CV 机器视觉的距离。offline 的意思是运用一些策略(policy)得到一些数据,然后完全抛开仿真器,直接拿数据进行有监督训练。

我们在此基础上又测试了多智能体。offline 训练能够达到的水平是有限的,因为数据有局限性。而 online 方法通过微调和添加数据能够不断改进训练效果。


使用 transformer 做决策的好处是什么?首先它的泛化性非常强,这一个模型几乎在所有任务上的效果都很好。以前每个任务都单独用一个模型,而现在一个模型就能解决所有任务。前段时间 DeepMind 发布了一个大模型,可以解决 CV、NLP 等任务。当然,DeepMind 的大模型不包括 Multi-Agent ,但这足以证明一个模型解决多个领域任务是大势所趋。我们应该创建一个在跨任务、联合 CV、NLP 的通用模型。


在预训练方面,我们认为多智能体训练可以用语言模型来做,把所有的智能体和决策都生成出来。因此,语言模型的方法可以直接迁移到多智能体上,以达到一个非常好的效果。

相关文章
|
机器学习/深度学习 存储 人工智能
TableAgent数据分析智能体——数据分析师的大模型
TableAgent数据分析智能体——数据分析师的大模型
|
Shell Linux Python
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案(一)
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案
7324 0
基于远程服务器安装配置Anaconda环境及创建python虚拟环境详细方案(一)
|
7月前
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
825 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
机器学习/深度学习 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
|
关系型数据库 PostgreSQL
【一文搞懂PGSQL】5. 流复制
PostgreSQL流复制架构支持多种常见配置,包括基本的主从复制、结合PGPool-II的读写分离以及使用repmgr实现高可用性。基础环境中,主节点与备用节点分别位于不同IP。配置涵盖创建复制用户、调整核心参数以支持流复制,并确保归档与日志功能正常工作。从节点需通过备份恢复并配置为待机模式,以实现数据同步。此外,还介绍了如何验证复制状态及手动切换主从节点的方法,以及同步复制参数的配置细节。
|
vr&ar 图形学
论文介绍:3D-SceneDreamer——基于文本驱动的3D场景生成技术
【5月更文挑战第2天】3D-SceneDreamer是一款文本驱动的3D场景生成工具,利用NeRF技术简化3D内容创作,通过文本描述创建室内及室外场景。该框架支持6-DOF摄像机轨迹,提高视角自由度。研究结合预训练的文本到图像模型解决3D数据稀缺问题,实现高质量、几何一致的场景生成。尽管面临文本描述精度和实际应用挑战,但该技术为3D场景生成带来显著进步。[论文链接](https://arxiv.org/pdf/2403.09439.pdf)
541 6
|
机器学习/深度学习 数据挖掘 数据处理
强化学习在数据分析中的应用:使用Python制定决策策略
【4月更文挑战第12天】本文介绍了使用Python进行强化学习以制定数据分析决策策略的方法。强化学习是通过智能体与环境交互获取奖励来制定决策的技术。Python在强化学习中有丰富库支持(如TensorFlow、PyTorch、Keras)、强大的数据处理能力和丰富的生态系统。基本流程包括环境构建(使用OpenAI Gym)、模型选择(如神经网络)、策略选择(Q-Learning等)、训练模型及评估模型。
394 3
|
机器学习/深度学习 测试技术 计算机视觉
注意力机制汇总,包括SE、CBAM、ECA等
注意力机制汇总,包括SE、CBAM、ECA等
1463 1
|
机器学习/深度学习 传感器 人工智能
伦敦大学学院计算机系教授汪军:决策大模型(1)
伦敦大学学院计算机系教授汪军:决策大模型
362 0
|
SQL 关系型数据库 数据库
PostgreSQL 服务器日志 pg_log
10.0版本PostgreSQL,存在三种日志 WAL日志,即重做日志,一般不可读 日志对应目录为 $PGDATA/pg_xlog 事务提交日志,记录的是事务的元数据 日志对应目录为 $PGDATA/pg_clog 数据库运行日志 日志对应目录为$PGDATA/pg_log 前两种日志,虽然仍然非常重要,但却是不可读的,我们日常使用不多。
7848 0

热门文章

最新文章

下一篇
oss云网关配置