NeurIPS’23 Paper Digest | 如何把 LLM 的推理能力应用于事件序列预测?

简介: 我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。

为期一周的人工智能和机器学习领域顶级会议 NeurlPS 正在美国路易斯安那州新奥尔良市举办中。蚂蚁集团有 20 篇论文被本届会议收录,其中《Language

Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》是由蚂蚁基础智能技术部、消费金融技术部与芝加哥丰田工业大学、芝加哥大学合作完成。

论文作者简介:薛思乔是这篇论文的主要作者,也是蚂蚁集团高级算法专家,主要研究方向是生成式序列模型 (sequential modeling),他的研究成果曾多次发表于主流机器学习相关会议 (NeurIPS/ICML/AAAI)。最近一年团队的主要工作聚焦于大语言模型与时间序列的交叉方向,在 NeurIPS'23 发表了事件序列预测模型的持续学习方法 "PromptTPP" 以及利用大语言模型支持事件序列预测的方法 "LAMP" 两篇论文。

论文通讯作者介绍:梅洪源,美国丰田工业大学芝加哥分校 (Toyota Technological Institute at Chicago) 研究助理教授,2021 年获得约翰霍普金斯大学计算机系博士学位。主要研究方向包括大规模概率空间序列模型、机器人智能、自然语言处理等。至今已在 ICML,NeuIPS,NAACL 和 AAAI 等顶级国际会议发表论学术论文近 20 篇,其中部分论文有极高的引用率,得到了美国财富杂志 (Fortune Magazine) 和彭博科技 (TechAtBloomberg) 的报道。由于杰出的研究贡献,他获得了彭博数据科学博士奖学金、Jelinke 奖学金以及 Adobe Faculty Award 等项目的资助。

本文中,薛思乔会带大家了解论文《Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning》的背景和主要研究成果,完整论文可点击阅读原文查看。

背景和动机

商业场景的事件序列(时间序列),通常带有一些文字信息,如图一所示,比如用户购买商品会伴随着文字点评记录,用户申赎基金后也可能会参与社区讨论。

以往我们通常的做法是对这些文字做编码到高纬度空间,然后通过某些方式并入主模型的架构中,然后再输出预测值。有了大语言模型(LLM) 后,我们希望可以直接利用其强大的文字理解和推理能力,来支持序列预测。这个方法更直接,随着LLM 理解能力的突飞猛进,这个方法很可能也更有效。我们在一篇被 NeurIPS'23 接收的文章 Language Model Can Improve Event Prediction by Few-shot Abductive Reasoning 中提出了新的架构 LAMP,实现了这个目标。

0108.1.png

图1:用户购买商品的点评序列示意图

方法

01 整体思路

LLM 的引入类似于推荐里面的检索和精排机制。在 Base model 的预测值基础上,利用 LLM 推理并且从历史序列中检索出 cause events,根据这些事件序列,重新再做一次精排,最终输出预测值。

0108.2.png

图2:整体思路示意图

02 模型架构

LAMP 架构可以分成三个部分:

Event Sequence Model:经典的序列模型,比如点过程模型、时序图谱模型等,对所有预测集合中的预测值(下文中的effect event)做一个打分。

LLM: 给一个 effect event, 推导出他的 cause event。因为LLM 生成的是虚拟的事件,所以要做一个模式匹配(text matching), 然后从真实的数据上找到真实的事件,重新拼成一个序列。

对上一步拼成的序列重新再做一次打分。
0108.3.png

03 Prompt 模版

0108.4.png

04 训练与预测

Event Sequence Model 和 Ranking Model 都是用经典方法单独训练的, LLM 直接调用接口,不做微调。训练与预测的细节见论文。论文原文:https://arxiv.org/abs/2305.16646

05 实验

我们在三个开源数据集,两个是时序图谱数据集 GDELT 和 ICEWS,一个是 推荐系统常用的 Amazon Review 序列数据。我们用Mean Rank 作为指标来衡量模型的性能。从 Base Model 的预测值中取出分数最高的M个,然后对这M个进行重排(第二步和第三步),我们看 ground truth event 的排名会不会更好 (Rank 数值会更低,比如从排名第8 到 排名第 2)。



LLM 我们测试了 GPT-3.0 和 GPT-3.5 两个选择。在消融实验的时候我们也测试了 Llama2,详见文章的实验部分。



从结果来看,不同的 Base Model 和 Ranking Model 组合下,GPT-3.5 都能提升最终的预测性能,GPT-3.0 效果相对一般。开源的 LLM 中 Llama2 也表现较好。

0108.5.png

0108.6.png

更多细节见论文的 section4 以及附录部分。论文原文: https://arxiv.org/abs/2305.16646

结论

我们完成了首个把 LLM 推理能力引入事件序列领域的工作。代码、数据均已经开源,并将集成进开源库 EasyTPP。

EasyTPP GitHub:

https://github.com/ant-research/EasyTemporalPointProcess

相关文章
|
3月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
656 125
|
3月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
700 58
|
5月前
|
人工智能 监控 数据可视化
BISHENG下一代企业AI应用的“全能型“LLM软件
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
2月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
|
8月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
1492 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
3月前
|
机器学习/深度学习 人工智能 前端开发
解决推理能力瓶颈,用因果推理提升LLM智能决策
从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。
317 6
解决推理能力瓶颈,用因果推理提升LLM智能决策
|
2月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
|
8月前
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
356 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
12_机器翻译入门:多语言LLM应用
在全球化背景下,语言障碍一直是信息交流、商业合作和文化传播的重要阻碍。2025年,随着多语言大语言模型(LLM)技术的突破,机器翻译已经从简单的单词转换发展为能够理解上下文、处理复杂句式、适应文化差异的智能系统。本文将带您入门多语言LLM在机器翻译领域的应用,重点介绍使用mT5(多语言T5)模型实现英语到中文的翻译,并探讨文化适应等高级话题。
|
8月前
|
数据采集 算法 数据挖掘
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。
357 0
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用

热门文章

最新文章