NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?

简介: 我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。

为期一周的人工智能和机器学习领域顶级会议 NeurlPS 正在美国路易斯安那州新奥尔良市举办中。蚂蚁集团有 20 篇论文被本届会议收录,其中《Language

Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》是由蚂蚁基础智能技术部、消费金融技术部与芝加哥丰田工业大学、芝加哥大学合作完成。

论文作者简介:薛思乔是这篇论文的主要作者,也是蚂蚁集团高级算法专家,主要研究方向是生成式序列模型 (sequential modeling),他的研究成果曾多次发表于主流机器学习相关会议 (NeurIPS/ICML/AAAI)。最近一年团队的主要工作聚焦于大语言模型与时间序列的交叉方向,在 NeurIPS'23 发表了事件序列预测模型的持续学习方法 "PromptTPP" 以及利用大语言模型支持事件序列预测的方法 "LAMP" 两篇论文。

论文通讯作者介绍:梅洪源,美国丰田工业大学芝加哥分校 (Toyota Technological Institute at Chicago) 研究助理教授,2021 年获得约翰霍普金斯大学计算机系博士学位。主要研究方向包括大规模概率空间序列模型、机器人智能、自然语言处理等。至今已在 ICML,NeuIPS,NAACL 和 AAAI 等顶级国际会议发表论学术论文近 20 篇,其中部分论文有极高的引用率,得到了美国财富杂志 (Fortune Magazine) 和彭博科技 (TechAtBloomberg) 的报道。由于杰出的研究贡献,他获得了彭博数据科学博士奖学金、Jelinke 奖学金以及 Adobe Faculty Award 等项目的资助。

本文中,薛思乔会带大家了解论文《Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》的背景和主要研究成果,完整论文可点击阅读原文查看。

背景和动机

商业场景的事件序列(时间序列),通常带有一些文字信息,如图一所示,比如用户购买商品会伴随着文字点评记录,用户申赎基金后也可能会参与社区讨论。

以往我们通常的做法是对这些文字做编码到高纬度空间,然后通过某些方式并入主模型的架构中,然后再输出预测值。有了大语言模型(LLM) 后,我们希望可以直接利用其强大的文字理解和推理能力,来支持序列预测。这个方法更直接,随着LLM 理解能力的突飞猛进,这个方法很可能也更有效。我们在一篇被 NeurIPS'23 接收的文章 Language Model Can Improve Event Prediction by Few-shot Abductive Reasoning 中提出了新的架构 LAMP,实现了这个目标。

0108.1.png

图1:用户购买商品的点评序列示意图

方法

01 整体思路

LLM 的引入类似于推荐里面的检索和精排机制。在 Base model 的预测值基础上,利用 LLM 推理并且从历史序列中检索出 cause events,根据这些事件序列,重新再做一次精排,最终输出预测值。

0108.2.png

图2:整体思路示意图

02 模型架构

LAMP 架构可以分成三个部分:

Event Sequence Model:经典的序列模型,比如点过程模型、时序图谱模型等,对所有预测集合中的预测值(下文中的effect event)做一个打分。

LLM: 给一个 effect event, 推导出他的 cause event。因为LLM 生成的是虚拟的事件,所以要做一个模式匹配(text matching), 然后从真实的数据上找到真实的事件,重新拼成一个序列。

对上一步拼成的序列重新再做一次打分。
0108.3.png

03 Prompt 模版

0108.4.png

04 训练与预测

Event Sequence Model 和 Ranking Model 都是用经典方法单独训练的, LLM 直接调用接口,不做微调。训练与预测的细节见论文。论文原文:https://arxiv.org/abs/2305.16646

05 实验

我们在三个开源数据集,两个是时序图谱数据集 GDELT 和 ICEWS,一个是 推荐系统常用的 Amazon Review 序列数据。我们用Mean Rank 作为指标来衡量模型的性能。从 Base Model 的预测值中取出分数最高的M个,然后对这M个进行重排(第二步和第三步),我们看 ground truth event 的排名会不会更好 (Rank 数值会更低,比如从排名第8 到 排名第 2)。



LLM 我们测试了 GPT-3.0 和 GPT-3.5 两个选择。在消融实验的时候我们也测试了 Llama2,详见文章的实验部分。



从结果来看,不同的 Base Model 和 Ranking Model 组合下,GPT-3.5 都能提升最终的预测性能,GPT-3.0 效果相对一般。开源的 LLM 中 Llama2 也表现较好。

0108.5.png

0108.6.png

更多细节见论文的 section4 以及附录部分。论文原文: https://arxiv.org/abs/2305.16646

结论

我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。

EasyTPP GitHub:

https://github.com/ant-research/EasyTemporalPointProcess

相关文章
|
2月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
566 2
|
2月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
88 2
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
46 1
|
15天前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
77 26
|
18天前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
45 14
|
22天前
|
自然语言处理 算法
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
随着大型语言模型(LLM)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术因能引入新知识和减少幻觉而受到关注。然而,RAG对LLM推理能力的实际提升效果仍存争议。中国人民大学的一项研究表明,RAG虽能辅助LLM推理,但在处理含噪信息和深度推理时面临挑战。为此,研究团队提出了DPrompt tuning方法,旨在解决噪声问题并提升RAG性能。
44 12
|
17天前
|
缓存 自然语言处理 API
Ascend推理组件MindIE LLM
MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。
|
21天前
|
自然语言处理 资源调度 并行计算
从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
本文深入探讨了十种主流的大语言模型(LLM)服务引擎和工具,涵盖从轻量级本地部署到高性能企业级解决方案,详细分析了它们的技术特点、优势及局限性,旨在为研究人员和工程团队提供适合不同应用场景的技术方案。内容涉及WebLLM、LM Studio、Ollama、vLLM、LightLLM、OpenLLM、HuggingFace TGI、GPT4ALL、llama.cpp及Triton Inference Server与TensorRT-LLM等。
97 7
|
23天前
|
人工智能 自然语言处理 测试技术
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
38 5
|
2月前
|
监控 Kubernetes Python
Python 应用可观测重磅上线:解决 LLM 应用落地的“最后一公里”问题
为增强对 Python 应用,特别是 Python LLM 应用的可观测性,阿里云推出了 Python 探针,旨在解决 LLM 应用落地难、难落地等问题。助力企业落地 LLM。本文将从阿里云 Python 探针的接入步骤、产品能力、兼容性等方面展开介绍。并提供一个简单的 LLM 应用例子,方便测试。
154 14

热门文章

最新文章

下一篇
DataWorks