计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-21(上)+https://developer.aliyun.com/article/1628858
摘要
本文评估了经过微调的小型语言模型(SLM)在创意小说写作能力,并将其与人类以及两种大型语言模型(LLM):GPT-3.5和GPT-4o的表现进行了比较。评估包括两个实验:(i)人类评估,其中读者对模型生成的故事与人类写的故事进行评分;(ii)定性的语言分析,比较不同模型生成故事的文本特征。在第一个实验中,我们要求68名参与者对模型和人类生成的短篇故事进行评分,评分维度包括语法正确性、相关性、创造力和吸引力。BART Large在大多数方面超越了人类作者,除了创造力,其总体得分为2.11,而人类文本为1.85,提高了14%。在第二个实验中,定性分析揭示了尽管GPT-4o展现出近乎完美的内外一致性,但它倾向于产生更可预测的叙事,只有3%的故事被视为新颖。相比之下,BART的故事中有15%被认为是新颖的,表明尽管模型尺寸较小,但其创造力更高。本研究提供了模型大小和微调如何影响创意写作任务中创造力、流畅性和一致性的定量和定性见解。
创新点
- 对比了小型语言模型(SLM)与人类以及大型语言模型(LLM)在创意写作任务中的表现。
- 通过人类评估和定性语言分析,提供了对SLM在创意写作中能力的深入理解。
- 揭示了模型大小可能与创意写作中的创造性存在权衡,即大型模型可能为了一致性和流畅性牺牲创造性。
算法模型
- BART Large:作为SLM的代表,用于生成电影概要。
- GPT-3.5 和 GPT-4o:作为LLM的代表,用于生成电影概要。
实验效果
- 在人类评估实验中,BART Large在可读性、易理解性、相关性和吸引力方面超越了人类作者,总体得分提高了14%。
- 在定性分析中,GPT-4o在内外一致性方面表现更好,但创造性较低,只有3%的故事被视为新颖。
- BART Large在创造性方面表现更好,有15%的故事被认为是新颖的。
推荐阅读指数:
★★★☆☆
推荐理由
- 本文提供了对小型语言模型在创意写作任务中能力的实证研究,对于理解SLM与LLM在创意任务中的优劣具有重要意义。
- 研究结果对于自然语言处理领域的研究人员和开发者具有启发性,尤其是在考虑模型选择和应用场景时。
- 通过对比SLM和LLM,本文为未来在创意写作和其他需要创造性的AI任务中提供了新的研究方向和可能性。
6. RUIE: Retrieval-based Unified Information Extraction using Large Language Model
Authors: Xincheng Liao, Junwen Duan, Yixi Huang, Jianxin Wang
RUIE: 基于检索的统一信息提取使用大型语言模型
摘要
统一信息提取(UIE)的目标是使用单一模型或框架完成所有信息提取任务。以往的研究主要集中在通过构建数据集对大型语言模型(LLMs)进行指令调优,但这些方法需要大量的计算资源,并且在未见任务上的泛化能力有限。为了解决这些限制,我们提出了RUIE(基于检索的统一信息提取),一个利用上下文学习使模型能够快速泛化同时降低计算成本的框架。RUIE的关键挑战是为LLMs选择最有益的示例来有效处理多样化的信息提取任务。为了实现这一点,我们整合了LLMs对排名候选示例的偏好,并设计了一个关键词增强的奖励模型来捕捉查询和示例之间的细粒度关系。然后,我们通过对比学习和知识蒸馏训练了一个双编码器检索器用于UIE。据我们所知,RUIE是第一个可训练的UIE检索框架。在8个未见数据集上的实验结果表明,RUIE在泛化到未见任务上的有效性,与指令调优方法相比,平均F1分数提高了19.22%,与其他检索器相比提高了3.13%。进一步分析证实了RUIE对不同大小的LLMs的适应性及其关键组件的重要性。
创新点
- 提出了RUIE框架,利用上下文学习来减少计算成本,同时实现快速泛化到未见任务。
- 提出了一种新颖的示例选择机制,结合了LLMs的偏好对候选示例进行排名,并使用关键词增强的奖励模型来捕捉查询和示例之间的细粒度关系。
- RUIE展示了出色的适应性,有效处理多样化的信息提取任务(NER、RE、EE),并与不同大小的LLMs兼容,作为UIE任务的通用插件。
算法模型
RUIE框架包括以下关键组件:
- LLM偏好评分:使用LLM对候选示例进行评分,以选择与输入查询最匹配的示例。
- 关键词增强奖励模型:通过在输入文本中添加特殊标签来增强关键词,并使用交叉编码器来训练,以捕捉查询和示例之间的细粒度信息。
- UIE检索器训练:基于双编码器的检索器,使用对比学习和知识蒸馏进行训练。
实验效果
- 在8个未见数据集上的实验结果显示,RUIE在泛化到未见任务上的有效性,与指令调优方法相比,平均F1分数提高了19.22%,与其他检索器相比提高了3.13%。
- RUIE在NER、RE、ED和EAE任务上均取得了最佳性能,证明了其在信息提取任务中的有效性。
- 通过消融研究,证实了关键词增强和LLM偏好在检索器训练过程中的重要性。
推荐阅读指数:
★★★☆☆
推荐理由
- 本文提出了一个创新的RUIE框架,它通过检索和上下文学习来提高信息提取任务的性能,这对于自然语言处理领域的研究人员和实践者来说是非常有价值的。
- RUIE框架的设计理念和实验结果为如何利用大型语言模型进行有效信息提取提供了新的视角和方法。
- 论文还讨论了RUIE在不同任务和不同大小的LLMs上的适应性,这为未来在多样化的信息提取任务中的应用提供了可能性。
7. Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation
Authors: Chunliang Tao, Xiaojing Fan, Yahe Yang
利用大型语言模型进行API交互:一个用于分类和合成数据生成的框架
摘要
随着大型语言模型(LLMs)在自然语言处理方面的进步,人们越来越有兴趣利用它们的能力来简化软件交互。本文提出了一个新颖的系统,该系统集成了LLMs,用于将自然语言输入分类为相应的API调用,并自动化创建针对特定API功能的样本数据集。通过将自然语言命令分类,我们的系统允许用户通过简单的输入调用复杂的软件功能,提高了交互效率并降低了软件使用的门槛。我们的数据集生成方法还使得不同LLMs在分类API调用方面的有效性和系统性评估成为可能,为开发者或商业所有者提供了一个实用的工具,以评估LLMs在定制API管理中的适用性。我们在几种著名的LLMs上进行了实验,使用为各种API功能生成的样本数据集。结果显示,GPT-4实现了高达0.996的分类准确率,而LLaMA-3-8B的表现则远不如,仅为0.759。这些发现突出了LLMs在API管理和验证我们系统在指导模型测试和选择方面的潜力。
创新点
- 提出了一个集成LLMs的系统,用于将自然语言输入分类为API调用,并自动化生成针对特定API功能的样本数据集。
- 通过自然语言命令的分类,使得用户可以通过简单的输入来调用复杂的软件功能,提高了交互效率并降低了软件使用的门槛。
- 提出了一个数据集生成框架,用于系统性地评估不同LLMs在API分类任务中的性能。
算法模型
- API检索系统:一个自动化流程,用于处理用户查询,确保每个查询都被正确分类并传递给适当的API函数。
- 数据集生成管道:使用批量提示生成合成查询,模拟与API的真实用户交互,并为评估LLMs提供高质量的数据集。
实验效果
- 在六种API模块上的实验结果显示,GPT-4在模块级别分类准确率(MLC-Acc)和功能级别分类准确率(FLC-Acc)上均表现最佳,分别为0.992和0.996。
- LLaMA3-70B紧随其后,整体MLC-Acc为0.964,平均FLC-Acc为0.990。
- Gemini-1.5也表现出色,整体MLC-Acc为0.957,平均FLC-Acc为0.981。
- GPT-3.5-turbo和较小模型(如GPT-4o-mini和LLaMA3-8B)在复杂模块中的准确性显著下降。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出了一个创新的框架,利用LLMs来简化API交互,这对于希望利用自然语言处理技术来改进软件系统的研究人员和开发者来说非常有价值。
- 实验结果表明,LLMs在API分类任务中具有很高的潜力,尤其是在使用大型模型如GPT-4时。
- 论文还提供了一个数据集生成方法,这对于评估和选择适合特定API管理任务的LLMs非常有用。
- 尽管研究结果令人鼓舞,但论文也指出了在资源受限的环境中使用大型LLMs的局限性,并提出了未来研究的方向,这为相关领域的进一步研究提供了思路。
8. Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing
Authors: Wenyuan Zhang, Jiawei Sheng, Shuaiyi Nie, Zefeng Zhang, Xinghua Zhang,
Yongquan He, Tingwen Liu
揭示大型语言模型在角色扮演中检测角色知识错误的挑战
摘要
本文评估了经过微调的小型语言模型(SLM)在创意小说写作能力,并将其与人类以及两种大型语言模型(LLM):GPT-3.5和GPT-4o的表现进行了比较。评估包括两个实验:(i)人类评估,其中读者对模型生成的故事与人类写的故事进行评分;(ii)定性的语言分析,比较不同模型生成故事的文本特征。在第一个实验中,我们要求68名参与者对模型和人类生成的短篇故事进行评分,评分维度包括语法正确性、相关性、创造力和吸引力。BART Large在大多数方面超越了人类作者,除了创造力,其总体得分为2.11,而人类文本为1.85,提高了14%。在第二个实验中,定性分析揭示了尽管GPT-4o展现出近乎完美的内外一致性,但它倾向于产生更可预测的叙事,只有3%的故事被视为新颖。相比之下,BART的故事中有15%被认为是新颖的,表明尽管模型尺寸较小,但其创造力更高。本研究提供了模型大小和微调如何影响创意写作任务中创造力、流畅性和一致性的定量和定性见解。
创新点
- 提出了一个评估框架,用于评估LLMs在角色扮演中检测已知知识错误(KKE)和未知知识错误(UKE)的能力。
- 构建了一个探测数据集,用于模拟在自动化语料库构建过程中可能出现的错误查询。
- 提出了一种基于代理的推理方法,自我回忆和自我怀疑(S2RD),以提高LLMs检测错误角色知识的能力。
算法模型
- 自我回忆(Self-Recollection):LLMs不直接回答问题,而是回忆与查询间接相关的知识,模拟人类回忆关键记忆线索的行为。
- 自我怀疑(Self-Doubt):鼓励LLMs专注于检测不正确的行为,通过自我检查帮助LLMs理解角色知识边界。
实验效果
- 在68名参与者的人类评估实验中,BART Large在大多数方面超越了人类作者,总体得分提高了14%。
- 在定性分析中,GPT-4o在内部和外部一致性方面表现近乎完美,但只有3%的故事被视为新颖。
- BART Large生成的故事中有15%被认为是新颖的,表明其创造力更高。
- S2RD方法有效地提高了LLMs检测错误角色知识的能力,但KKE仍然是一个需要持续关注的挑战。
推荐阅读指数:
★★★★☆
推荐理由
- 本文针对LLMs在角色扮演中的知识错误检测能力进行了深入研究,对于理解LLMs在创意写作任务中的表现具有重要意义。
- 通过构建探测数据集和提出S2RD方法,本文为提高LLMs在角色扮演中的准确性和可靠性提供了新的视角和方法。
9. Enabling Real-Time Conversations with Minimal Training Costs
Authors: Wang Xu, Shuo Wang, Weilin Zhao, Xu Han, Yukun Yan, Yudi Zhang, Zhe Tao, Zhiyuan Liu, Wanxiang Che
以最小的训练成本实现实时对话
摘要
大型语言模型(LLMs)通过对话交互提高了人类的工作效率。传统的基于回合制的LLM驱动的对话系统,在生成回复时无法实现实时交互。为了解决这一限制,研究人员提出了双工模型,这些模型可以动态适应用户输入,促进实时交互反馈。然而,这些方法通常需要大量的计算资源来获得能力。为了减少开销,本文提出了一种新的双工解码方法,通过最小的额外训练增强LLMs的双工能力。具体来说,我们的方法采用对话中查询和响应的并行解码,有效实现了信道分隔多路复用解码策略。实验结果表明,我们提出的方法显著提高了用户与AI交互的自然性和类人性,同时训练成本极低。
创新点
- 提出了一种新的双工解码方法(DUO),通过并行解码对话中的查询和响应,实现信道分隔多路复用解码策略。
- 引入了两个状态标记来指示是否应处理查询,以此来优化模型对新输入的响应。
- 与现有的双工模型相比,DUO方法在保持原有模型能力的同时,只需极小的额外训练即可实现双工能力。
算法模型
- 并行解码:模型在每个时间步长接收新的输入令牌,同时自回归地生成输出令牌,从而建立新的输入通道。
- 信道转换:使用状态标记来指示用户查询的状态,模型根据这些标记决定是否响应新的输入。
- 数据集构建:从DuplexUltraChat构建数据集,通过添加状态标记来指示是否应响应查询。
实验效果
- 人类评估:在响应性、类人性、忠实度和事实性四个方面,MiniCPMDuo相较于MiniCPM-Duplex展现出更优越的性能。
- 标准基准测试:MiniCPMDuo在多个标准基准测试中与MiniCPM-Duplex和MiniCPM相比,展现出可比的结果,同时在训练数据需求上显著减少。
重要数据与结论
- MiniCPMDuo在400步训练后,仅需25分钟,而MiniCPM-Duplex需要36小时的训练时间。
- 在人类评估中,MiniCPMDuo在响应性和类人性方面优于MiniCPM-Duplex。
- 在标准基准测试中,MiniCPMDuo与MiniCPM-Duplex相比,在大多数测试中表现相当或更好。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出的DUO方法在减少训练成本的同时,有效提升了对话系统的实时交互能力,对于希望在资源受限的情况下提升对话系统性能的研究者和开发者来说,具有很高的参考价值。
- 论文详细阐述了算法的创新点和实验验证,为实时对话系统的研究提供了新的视角和方法。
10. LLMs + Persona-Plug = Personalized LLMs
Authors: Jiongnan Liu, Yutao Zhu, Shuting Wang, Xiaochi Wei, Erxue Min, Yu Lu,
Shuaiqiang Wang, Dawei Yin, Zhicheng Dou
LLMs + Persona-Plug = 个性化的LLMs
摘要
个性化在众多语言任务和应用中扮演着至关重要的角色,因为即使需求相同的用户,也可能基于个人兴趣偏好不同的输出。这促进了各种个性化方法的发展,旨在使大型语言模型(LLMs)能够生成与用户偏好一致的定制化输出。一些方法涉及为每个用户微调一个独特的个性化LLM,这对广泛应用来说成本过高。另一种方法通过检索用户的相关历史文本作为示例,以即插即用的方式引入个性化信息。然而,基于检索的策略可能会破坏用户历史的连续性,并且无法捕获用户的整体风格和模式,导致次优性能。为了解决这些挑战,我们提出了一个新颖的个性化LLM模型,PPlug。它通过轻量级的插件用户嵌入模块为每个个体构建特定于用户的嵌入,通过将此嵌入附加到任务输入,LLMs能更好地理解和捕获用户习惯和偏好,从而在不调整自身参数的情况下产生更个性化的输出。在语言模型个性化(LaMP)基准的各种任务上的广泛实验表明,我们提出的模型显著优于现有的个性化LLM方法。
创新点
- 提出了PPlug模型,通过轻量级的插件用户嵌入模块为每个用户构建特定的嵌入,以即插即用的方式实现个性化。
- 引入输入感知的个人聚合器,根据当前任务输入的相关性动态构建个人嵌入。
- 与为每个用户微调特定LLM的方法相比,PPlug模型遵循即插即用范式,不增加LLM的额外参数。
- 与基于检索的LLM相比,PPlug能够捕获用户的整体模式和偏好,从而实现更好的个性化性能。
算法模型
- 用户行为编码器:将用户的历史行为编码成密集向量。
- 输入感知的个人聚合器:根据当前输入的相关性,动态地为每个历史行为分配权重,合成个人嵌入。
- PPlug模型:将获得的个人嵌入直接附加到当前输入,指导固定LLM生成个性化的输出。
实验效果
- 在LaMP基准的六个任务中,PPlug模型在五个任务上都取得了最佳性能,显示出其在个性化任务上的优越性。
- 与最佳基线模型相比,PPlug在大多数任务中的相对改进幅度从1.4%到35.8%不等。
- 特别是在电影标签任务和推文释义任务中,PPlug的性能提升更为显著。
重要数据与结论
- PPlug模型在LaMP-1准确度上达到了68.0%,在LaMP-2准确度上达到了56.5%,在LaMP-3的MAE上达到了0.231,在LaMP-4的ROUGE-1上达到了21.6%,在LaMP-5的ROUGE-1上达到了48.7%,在LaMP-7的ROUGE-1上达到了53.4%。
推荐阅读指数:
★★★★☆
推荐理由
- 本文提出的PPlug模型在个性化LLM领域提供了一种新颖且有效的解决方案,通过轻量级的用户嵌入模块实现个性化,具有较高的实用价值和研究意义。
- 论文在LaMP基准测试中取得了显著的性能提升,证明了其方法的有效性,对于希望在个性化推荐、对话系统等领域应用LLM的研究者和工程师来说,具有很好的参考价值。