计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26(上)+https://developer.aliyun.com/article/1628897
实验数据及实验效果:
- 数据集:文本摘要、问答和代码摘要任务的开源基准数据集。
- 实验结论:在这些任务上,与现有压缩技术相比,提出的方法在任务性能上提高了8% - 260%。
推荐阅读指数:★★★★☆
推荐理由:
这篇文章提出了一种创新的提示压缩方法,通过强化学习来优化大型语言模型的推理效率,对于希望在保持性能的同时减少计算成本的研究者和工程师来说,具有很高的参考价值。
4. LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models
Authors: Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das, Supriyo
Chakraborty, Stephen Rawls, Sambit Sahu, Milind Naphade
https://arxiv.org/abs/2409.13054
LLM外科手术:在大型语言模型中高效地忘却和编辑知识
摘要:
本文提出了一种名为LLM Surgery(外科手术)的框架,用于高效地修改大型语言模型(LLMs)的行为,通过优化一个包含三个部分的目标函数来实现:(1)对忘却数据集(问题和过时信息)执行反向梯度;(2)对更新数据集(新和更新的信息)执行梯度下降;(3)最小化保留数据集(一小部分未改变的文本)上的KL散度,确保预训练和修改后的模型输出之间的一致性。
研究背景:
LLMs在预训练过程中可能会嵌入过时或有问题的知识,需要一种方法来更新LLMs,使其保持相关性、准确性和合法性。
技术挑战:
- 如何在不从头开始重新训练的情况下,有效地从LLMs中忘却特定信息并整合新知识。
创新点:
- 提出了LLM Surgery框架,通过反向梯度和梯度下降以及KL散度最小化来实现知识的忘却和更新。
算法模型:
- LLM Surgery框架。
实验数据及实验效果:
- 数据集:使用Llama2-7B模型进行实验。
- 实验结论:LLM Surgery能够在忘却集上实现显著的忘却,在更新集上提高20%的准确率,并在保留集上保持性能。
推荐阅读指数:★★★★☆
推荐理由:
这篇文章提出了一种新颖的方法来更新大型语言模型中的知识,这对于确保模型的输出符合最新的数据和法律要求非常重要,对于LLMs的维护和更新具有实际应用价值。
5. Guided Profile Generation Improves Personalization with LLMs
Authors: Jiarui Zhang
https://arxiv.org/abs/2409.13093
引导式个人资料生成提高LLMs的个性化
摘要:
本文提出了一种名为Guided Profile Generation (GPG)的方法,旨在通过生成自然语言个人资料来增强大型语言模型(LLMs)在个性化任务中的表现。GPG通过引导式个人资料生成,使LLMs能够从个人上下文中提取重要且独特的特征,并将其转化为简洁、描述性的句子,从而更精确地定制生成内容以适应个体的独特习惯和偏好。
研究背景:
在个性化任务中,传统的个人资料建模技术依赖于大量数据集,这些资料往往需要额外的处理才能立即解释,并且可能限制了数据类型的多样性。
技术挑战:
- 如何在不牺牲准确性和效率的情况下,提高LLMs对原始个人上下文的解释能力。
创新点:
- 提出了GPG方法,通过引导式个人资料生成来增强LLMs的个性化能力。
算法模型:
- Guided Profile Generation (GPG)。
实验数据及实验效果:
- 数据集:亚马逊产品评论、LAMP-7(基于情感的推文集合)、PER-CHAT(Reddit上的开放式单轮对话数据集)。
- 实验结论:GPG在不同的任务中提高了LLMs的个性化能力,例如在预测个人偏好方面,与直接使用原始个人上下文相比,准确率提高了37%。
推荐阅读指数:
★★★★☆
推荐理由:
这篇文章提出了一种有效的方法来提高LLMs在个性化任务中的表现,通过生成描述性的个人资料来增强模型的个性化能力,对于希望利用LLMs进行个性化服务的研究者和开发者来说,具有很高的参考价值。
6. Are Large Language Models Good Essay Graders?
Authors: Anindita Kundu and Denilson Barbosa
https://arxiv.org/abs/2409.13120
大型语言模型是好的作文评分者吗?
摘要:
本文评估了大型语言模型(LLMs)在评估作文质量方面的有效性,特别关注它们与人工评分的一致性。研究比较了ChatGPT和Llama在自动作文评分(AES)任务中的表现,并考虑了零样本和少样本学习以及不同的提示方法。研究发现,与人工评分相比,LLMs通常给出较低的分数,并且分数之间的相关性不高。
研究背景:
自动作文评分(AES)是教育中自然语言处理(NLP)的一个关键应用,它使用基于计算机的评估系统自动评分学生生成的内容。
技术挑战:
LLMs在处理复杂任务时,如何与人类评分者保持一致性是一个挑战。
创新点:
- 提出了一种基于LLMs的AES方法。
- 比较了不同LLMs在AES任务中的表现。
算法模型:
- ChatGPT
- Llama
实验数据及效果:
- 使用ASAP数据集进行实验。
- 实验结果显示LLMs给出的分数与人工评分者给出的分数之间的相关性较低。
推荐阅读指数:
★★★☆☆
推荐理由: 对于研究LLMs在教育评估中的应用,对想要在教育领域使用LLM的朋友,可以参考下。
7. Exploring Scaling Laws for Local SGD in Large Language Model Training
Authors: Qiaozhi He, Xiaomin Zhuang, Zhihua Wu
https://arxiv.org/abs/2409.13198
探索大型语言模型训练中局部SGD的扩展规律
摘要:
本文研究了局部SGD在大型语言模型(LLM)训练中的扩展规律。研究表明,在相同的模型参数、数据集和计算资源条件下,局部SGD与传统方法相比具有竞争力。
研究背景:
LLMs的训练需要大规模的计算资源,这导致了对计算资源需求的快速增长。
技术挑战:
如何在计算资源有限的情况下,有效地训练大型语言模型。
创新点:
- 提出了局部SGD在LLM训练中的扩展规律。
- 探索了在多集群设置和边缘计算环境中应用局部SGD。
算法模型:
- 局部SGD
实验数据及效果:
- 使用SlimPajama和C4数据集进行实验。
- 实验结果表明局部SGD在多集群环境中是可行的。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何高效训练大型语言模型,这篇文章提供了重要的见解。
8. CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance
Authors: Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, ubo Chen, Kang Liu,
Jun Zhao
https://arxiv.org/abs/2409.13202
CITI: 在不牺牲通用性能的情况下增强大型语言模型的工具使用能力
摘要:
本文提出了一种方法,通过检查模型组件的隐藏表示变化和梯度重要性分数,来解决LLMs在工具使用准确性和泛化能力上的权衡问题。
研究背景:
LLMs在理解和生成文本方面表现出色,但在与真实世界交互方面存在局限性。
技术挑战:
如何在不损害模型通用性能的情况下,增强LLMs的工具使用能力。
创新点:
- 提出了一种基于组件重要性的Tool-utilizing能力注入方法(CITI)。
算法模型:
- Mixture-Of-LoRA (MOLoRA)
实验数据及效果:
- 在API-Bank和ToolAlpaca数据集上进行实验。
- 实验结果表明CITI方法在提高工具使用能力的同时,保持了模型的通用性能。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何增强LLMs的工具使用能力,这篇文章提供了有价值的方法。
9. Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks
Authors: Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao
https://arxiv.org/abs/2409.13203
代码: https://github.com/Xnhyacinth/NesyCD.
神经符号协作蒸馏:推进小型语言模型在复杂推理任务中的应用
摘要:
本文提出了一种新颖的知识蒸馏方法,用于学习大型语言模型(LLMs)的复杂推理能力。
研究背景:
复杂推理任务对于小型语言模型(SLMs)来说具有挑战性,因为这些任务不仅需要一般认知能力,还需要专业知识。
技术挑战:
如何在保持模型大小不变的情况下,提高SLMs在复杂推理任务中的性能。
创新点:
- 提出了一种结合神经网络和符号知识库的协作蒸馏方法。
算法模型:
- 神经符号协作蒸馏(NesyCD)
实验数据及效果:
- 在多个数据集上进行实验,包括BBH、GSM8K、AGIEval和ARC。
- 实验结果表明NesyCD显著提高了SLMs在复杂推理任务中的性能。
推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何提高小型语言模型在复杂推理任务中的性能,这篇文章提供了创新的方法。
10. Large Language Model Should Understand Pinyin for Chinese ASR Error Correction
Authors: Yuang Li, Xiaosong Qiao, Xiaofeng Zhao, Huan Zhao, Wei Tang, Min
Zhang, Hao Yang
https://arxiv.org/abs/2409.13262
大型语言模型应理解拼音以纠正中文ASR错误
摘要:
本文提出了一种利用拼音增强的生成性错误纠正(PY-GEC)方法,通过多任务训练提高LLMs在中文自动语音识别(ASR)错误纠正中的性能。
研究背景:
ASR系统在处理普通话时,由于发音和书面形式之间没有直接联系,因此纠正错误具有挑战性。
技术挑战:
如何利用LLMs提高中文ASR错误纠正的准确性。
创新点:
- 提出了一种结合拼音特征的LLMs训练方法。
算法模型:
- PY-GEC
实验数据及效果:
- 在Aishell-1和Common Voice数据集上进行实验。
- 实验结果表明,结合拼音特征的方法在字符错误率(CER)和实体召回方面均优于仅使用文本的方法。
推荐阅读指数:
★★★☆☆
推荐理由:
对于研究如何利用LLMs改进中文ASR错误纠正,这篇文章提供了有价值的见解和方法。
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。