计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13(上)+https://developer.aliyun.com/article/1628808
实验效果
- 初始准确性:CAELF与GPT-4o在初始评分准确性方面相当。
- 交互准确性:在与学生的一轮互动后,CAELF的准确性显著优于基线模型。
- 保持真理:CAELF在保持正确评估方面的成功率为80%-90%,而基线模型的成功率低于40%。
- 承认错误:CAELF在纠正初始错误的成功率上比基线模型高出10%-20%。
- 人类评估:CAELF在可读性、事实准确性、自我调节和未来改进等反馈质量方面均优于基线模型。
结论
CAELF通过结合多智能体辩论和计算论证,有效地提高了LLM在教育环境中提供交互式反馈的能力。实验结果表明,CAELF在初始评分准确性、交互评分准确性以及推理和一致性维护方面均优于现有技术。此外,人类评估结果也证实了CAELF在提供高质量反馈方面的有效性。这项工作展示了CAELF在交互式学习环境中的应用潜力,为解决传统教育中交互式反馈的局限提供了新的思路。
6. What is the Role of Small Models in the LLM Era: A Survey
Authors: Lihu Chen and Ga"el Varoquaux
综述: 在大型语言模型时代,小型模型的角色是什么?
摘要
随着大型语言模型(LLMs)在推进通用人工智能(AGI)方面取得显著进展,模型规模的增加导致了计算成本和能源消耗的指数级增长,这使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时,小型模型(SMs)在实际应用中经常被使用,尽管它们的重要性目前被低估。本文系统地从两个关键角度——合作和竞争——审视了LLMs和SMs之间的关系。我们希望这项调查能为从业者提供有价值的见解,促进对小型模型贡献的更深层次理解,并促进计算资源的更有效利用。
创新点
- 合作与竞争视角:首次系统地从合作和竞争的角度分析了在大型语言模型时代小型模型的角色。
- 多维度评估:通过准确性、泛化性、效率和可解释性等关键维度对LLMs和SMs进行了全面的比较。
- 实际应用分析:结合实际应用场景,探讨了小型模型在特定任务和受限环境中的优势和应用潜力。
算法模型
- 合作框架:提出了一个框架,展示了LLMs和SMs如何在数据策划、弱到强范式、高效推理、评估LLMs、领域适应、检索增强生成和基于提示的学习等方面进行合作。
- 竞争分析:分析了在计算受限环境、特定任务环境和需要高可解释性的环境中,小型模型相比大型模型的优势。
实验效果
- 数据策划:小型模型可以通过数据选择和重加权来提高LLMs的性能。
- 弱到强范式:使用小型模型作为监督器来微调大型模型,可以在保持性能的同时减少计算资源的需求。
- 高效推理:通过模型级联和模型路由,可以优化推理过程,减少成本和提高速度。
- 评估LLMs:小型模型可以自动评估由LLMs生成的文本,提供多角度的评估。
- 领域适应:小型模型可以通过白盒和黑盒适应方法来调整LLMs,以适应特定领域。
- 检索增强生成:小型模型作为检索器,可以增强LLMs在特定任务上的表现。
- 基于提示的学习:小型模型可以增强提示,从而提升LLMs的性能。
结论
文章总结了小型模型在大型语言模型时代的角色,强调了它们在合作和竞争中的潜力和价值。通过系统地分析和比较,文章揭示了小型模型在资源优化和特定任务中的显著优势,为未来在这一领域的研究提供了方向。尽管LLMs在性能上具有优势,但SMs在可访问性、简单性、低成本和互操作性方面具有明显优势,这使得它们在多种应用场景中仍然是一个重要的选择。
7. Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency
Authors: Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan
超越独立同分布:从指令交互和依赖的角度优化指令学习
摘要
文章探讨了如何有效选择和整合各种指令数据集以微调大型语言模型(LLMs)。以往的研究主要关注选择单个高质量的指令,但忽略了不同类别指令之间的交互和依赖关系,导致选择策略并非最优。此外,这些交互模式的本质尚未被充分探索,更不用说根据它们来优化指令集了。为了填补这些空白,本文系统地研究了不同类别指令之间的交互和依赖模式,并使用基于线性规划的方法优化了指令集,同时使用指令依赖分类指导的课程学习来优化SFT(Supervised Fine-Tuning)的学习模式。实验结果表明,与强基线相比,在广泛采用的基准测试上取得了改进的性能。
创新点
- 指令交互和依赖模式的系统研究:首次系统地分析了不同类别指令之间的交互和依赖模式。
- 基于相关性的指令集优化:提出了一种基于效应等价的线性规划方法来优化不同类别指令的比例。
- 指令依赖分类指导的课程学习:提出了一种新的课程学习方法,根据指令依赖分类来安排学习不同类别指令的顺序。
- 实验验证:通过实验验证了所提方法在多个LLMs上的有效性,并在广泛认可的基准测试上取得了改进的性能。
算法模型
- 自动标记系统:构建了一个自动标记系统为指令分配标签,描述完成该指令所需的详细能力和知识。
- 因果干预分析:通过添加或移除具有特定标签的指令,观察LLM性能的变化,从而诱导出相关性和依赖模式。
- 效应等价系数:用于量化不同类别指令之间的相关性,基于此系数优化指令集的比例。
- 依赖分类指导的课程学习:根据指令依赖分类,调整SFT过程中不同类别指令的学习顺序。
实验效果
- 性能提升:在包含10,000、20,000和50,000指令的指令集上,与基于质量得分的方法相比,所提出的方法在不同大小的指令集上均显示出一致的性能提升。
- 重要数据:
- 在10,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.11和0.14。
- 在50,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.26和0.33。
- 结论:实验结果支持了分析方法和诱导的指令交互模式的合理性,并证明了考虑指令交互和依赖关系进行指令集优化的有效性。
结论
文章通过系统地研究不同类别指令之间的交互和依赖模式,并提出了相应的优化方法,有效地提高了LLMs在指令学习中的性能。这些发现不仅揭示了指令数据内在的相关性和依赖性,而且为如何优化指令集提供了有价值的见解,有助于推动LLMs在教育和其它领域的应用。
8. Native vs Non-Native Language Prompting: A Comparative Analysis
Authors: Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra
Bendou, Maram Hasanain, Firoj Alam
母语与非母语提示:一项比较分析
摘要
大型语言模型(LLMs)在包括标准自然语言处理(NLP)任务在内的不同领域表现出显著的能力。为了从LLMs中获取知识,提示(prompts)起着关键作用,它们由自然语言指令组成。大多数开源和闭源的LLMs都是基于可用的标记和未标记资源(如文本、图像、音频和视频等数字内容)进行训练的,因此这些模型对高资源语言有更好的了解,但在低资源语言上则表现不佳。由于提示在理解LLMs的能力中起着至关重要的作用,因此用于提示的语言仍然是一个重要的研究问题。尽管在这一领域已有显著研究,但仍然有限,对中低资源语言的探索更少。在本研究中,我们调查了11个不同的NLP任务和12个不同的阿拉伯语数据集(9.7K数据点)上不同提示策略(母语与非母语)的影响。我们总共进行了197次实验,涉及3个LLMs、12个数据集和3种提示策略。我们的发现表明,平均而言,非母语提示的表现最好,其次是混合提示和母语提示。
创新点
- 多语言提示策略比较:研究了母语(阿拉伯语)与非母语(英语)提示对LLMs性能的影响,这是在中低资源语言环境下的一个重要研究领域。
- 广泛的实验设计:涵盖了11个不同的NLP任务和12个不同的阿拉伯语数据集,进行了197次实验,包括3个LLMs和3种提示策略。
- 深入分析:不仅比较了不同提示语言的效果,还探讨了零样本和少样本学习环境下的性能差异。
算法模型
- LLMs选择:使用了包括GPT-4o、Llama-3.1-8b和Jais-13b-chat在内的多个商业和开源模型。
- 提示策略:定义了三种不同的提示结构:母语提示、非母语提示和混合提示。
- 提示技术:采用了零样本学习和少样本学习(3-shot)技术。
- 后处理:为每个模型、提示、提示技术和数据集设计了特定的后处理函数,以从LLMs的原始输出中提取所需的信息。
实验效果
- 性能提升:非母语提示在大多数情况下表现最佳,混合提示次之,母语提示在某些情况下表现不佳。
- 重要数据:
- 在零样本设置中,非母语提示平均表现最好。
- 在少样本设置中,非母语提示同样表现最佳,尤其是在GPT-4o模型中。
- 对于没有训练数据的新任务,零样本设置是理想的解决方案,非母语提示在所有模型中表现更好。
- GPT-4o在所有提示设置中表现最佳。
- 结论:非母语提示通常能更好地引导模型理解上下文,从而在跨语言的任务中实现更高的性能。
结论
本研究调查了不同提示结构(母语、非母语和混合)对于从各种商业和开源模型中获取所需输出(下游NLP任务的标签)的重要性。实验结果表明,非母语提示在多种设置中表现更好,这可能与模型在训练过程中对主导语言(英语)的更强能力有关。未来的工作可能包括使用指令遵循数据集进行微调,以创建特定领域的专业模型。
9. Understanding Knowledge Drift in LLMs through Misinformation
Authors: Alina Fastowski and Gjergji Kasneci
通过错误信息理解大型语言模型中的知识漂移
摘要
本文主要分析了在问答场景中,当遇到错误信息时,最先进的大型语言模型(LLMs)对事实不准确信息的敏感性。这种敏感性可能导致所谓的知识漂移现象,这显著削弱了这些模型的可信度。研究者通过熵、困惑度和令牌概率等指标评估了模型回答的事实性和不确定性。实验结果显示,当模型由于暴露于错误信息而错误回答问题时,其不确定性可能增加高达56.6%。同时,重复暴露于相同的错误信息可以再次降低模型的不确定性(与未受污染的提示回答相比降低了52.8%),这可能操纵了模型的原始知识信念,引入了与其原始知识的漂移。这些发现为LLMs的鲁棒性和对抗性输入的脆弱性提供了见解,为开发更可靠的LLM应用铺平了道路。
创新点
- 知识漂移分析:首次系统地分析了LLMs在遇到错误信息时内部知识结构的变化,即知识漂移。
- 不确定性评估:通过熵、困惑度和令牌概率等指标来评估LLMs在面对错误信息时的不确定性变化。
- 错误信息影响:研究了错误信息对LLMs性能和不确定性估计的影响,发现重复暴露于错误信息可以减少模型的不确定性,表明模型可能被操纵。
算法模型
- 不确定性度量:使用熵、困惑度和令牌概率来量化模型的不确定性。
- 实验设计:在TriviaQA数据集上进行实验,测试LLMs在面对正确和错误信息时的表现。
- 信息注入:通过在问题提示中注入错误信息和随机信息,来观察模型响应的变化。
实验效果
- 不确定性增加:当模型由于错误信息而错误回答问题时,不确定性增加了高达56.6%。
- 重复暴露影响:重复暴露于相同的错误信息可以降低模型的不确定性(与未受污染的提示相比降低了52.8%)。
- 模型表现:实验涉及的模型包括GPT-4o、GPT-3.5、LLaMA-2-13B和Mistral-7B,结果显示所有模型在面对错误信息时都表现出了知识漂移的现象。
结论
研究揭示了LLMs在处理错误信息时可能出现的知识漂移现象,强调了在设计和部署LLM应用时考虑其对错误信息的敏感性的重要性。研究结果表明,错误信息可以显著影响模型的不确定性和事实准确性,这对于提高LLMs在关键应用中的鲁棒性和可信度具有重要意义。
推荐阅读指数
★★★★☆
推荐理由:这篇文章对于理解大型语言模型在面对错误信息时的行为和内部知识结构的变化具有重要意义。它不仅提供了对现有LLMs潜在脆弱性的深入分析,还为未来如何提高模型的鲁棒性和可信度提供了有价值的见解。适合对自然语言处理、机器学习以及人工智能安全性感兴趣的研究人员和从业者阅读。
9. Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model
Authors: Daehee Kim, Deokhyung Kang, Sangwon Ryu, Gary Geunbae Lee
使用大型语言模型合成无本体的通用领域知识图谱到文本生成数据集
摘要
知识图谱到文本(G2T)生成任务旨在将知识图谱的三元组形式(主体、谓语、客体)转化为自然语言文本。预训练语言模型(PLMs)的最新进展在G2T性能上取得了显著提升,但其有效性依赖于具有精确图-文本对齐的数据集。然而,高质量、通用领域G2T生成数据集的稀缺限制了通用领域G2T生成研究的进展。为了解决这一问题,我们介绍了Wikipedia OntologyFree Graph-text数据集(WikiOFGraph),这是一个新的大型G2T数据集,它利用大型语言模型(LLM)和Data-QuestEval的新方法生成。我们的新数据集包含585万通用领域图-文本对,不依赖外部本体,提供了高图-文本一致性。实验结果表明,针对WikiOFGraph进行微调的PLM在各种评估指标上优于其他数据集上训练的模型。我们的方法被证明是生成高质量G2T数据的可扩展和有效解决方案,显著推进了G2T生成领域。
创新点
- 无本体的数据集生成:提出了一种新方法,利用大型语言模型(LLM)和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。
- 高图-文本一致性:新数据集在不依赖外部本体的情况下,提供了高一致性的图-文本对。
- 大规模数据集:生成了包含585万通用领域图-文本对的数据集,覆盖了整个Wikipedia的内容。
算法模型
- 数据集生成方法:通过LLM从Wikipedia文本中提取图表示,然后使用Data-QuestEval进行数据筛选,确保图-文本对的一致性。
- 图提取:使用LLM从给定句子中提取图表示,通过人工选择的例子引导LLM进行图表示的提取。
- 数据筛选:利用Data-QuestEval对生成的图-文本对进行筛选,确保数据的高质量。
实验效果
- 性能提升:在WikiOFGraph数据集上微调的PLM在多个评估指标上优于其他数据集上训练的模型。
- 重要数据:
- 在GenWiki测试集上,WikiOFGraph微调的模型在BLEU、METEOR、ROUGE-L和BERTScore-F1等指标上均优于其他数据集。
- 在WikiOFGraph测试集上,微调的模型在所有评估指标上均表现出显著的性能提升。
结论
研究介绍了WikiOFGraph数据集,这是一个大规模的通用领域G2T数据集,通过LLM和Data-QuestEval生成,不依赖外部本体。实验结果表明,该数据集在多个评估指标上能够提升PLM的性能。此外,通过额外的实验和案例研究,证明了Data-QuestEval筛选在确保图-文本一致性方面的有效性。
推荐阅读指数
★★★★☆
推荐理由:这篇文章提出了一种创新的方法,通过结合LLM和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。该方法不仅提高了数据集的质量和一致性,而且生成的数据集规模大,覆盖了广泛的领域,对于推动G2T生成领域的研究具有重要意义。适合对自然语言处理、知识图谱和数据生成感兴趣的研究人员和从业者阅读。
10. Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem
Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian
M"oller, Vera Schmitt
交叉精炼:通过协同学习改进自然语言解释生成
摘要
本文介绍了一种名为CROSS-REFINE的方法,旨在通过模仿人类的学习过程来改善大型语言模型(LLM)生成的自然语言解释(NLE)。CROSS-REFINE通过使用两个LLM,一个作为生成器(generator),另一个作为批评者(critic),来迭代提升解释的质量。生成器首先输出一个初步的NLE,然后根据批评者提供的反馈和建议进行优化。这种方法不需要任何监督训练数据或额外的训练。通过在三个自然语言处理(NLP)任务上的自动和人类评估来验证CROSS-REFINE的有效性,结果表明CROSS-REFINE在多个方面优于SELF-REFINE方法,并且能够在不太强大的LLM上有效工作。
创新点
- 协同学习机制:CROSS-REFINE通过两个LLM的协同工作,模拟人类的学习过程,其中生成器和批评者相互提供反馈和建议。
- 无需额外训练:与需要额外训练数据的方法不同,CROSS-REFINE不需要任何监督训练数据或额外训练。
- 跨语言评估:CROSS-REFINE在英语和德语的双语数据集上进行了评估,显示了其跨语言的适用性。
算法模型
CROSS-REFINE的核心是两个LLM的协同工作:
- 生成器:负责生成初步的NLE。
- 批评者:提供对生成器输出的反馈和改进建议。
- 交叉精炼过程:生成器利用批评者的反馈和建议来优化其初步解释。
实验效果
- 自动评估:使用BLEURT、BARTScore和TIGERScore等自动化指标进行评估,CROSS-REFINE在ECQA和eSNLI数据集上的表现优于SELF-REFINE。
- 人类评估:通过用户研究,CROSS-REFINE在忠实度、连贯性和洞察力方面的表现优于SELF-REFINE。
- 重要数据与结论:
- 在HealthFC数据集上,CROSS-REFINE在生成德语解释方面比SELF-REFINE更有效。
- CROSS-REFINE在需要特定领域知识的医疗领域表现不佳,但在“自我CROSS-REFINE”设置中表现优于SELF-REFINE。
推荐阅读指数
★★★★☆
推荐理由:
- 对于自然语言处理和机器学习领域的研究人员和实践者,CROSS-REFINE提供了一种创新的方法来改进LLM生成的解释。
- 论文详细介绍了方法的动机、设计和实验验证,对于理解当前LLM在解释生成方面的能力和限制非常有帮助。
- 跨语言评估的部分为多语言NLP任务提供了有价值的见解。
扣分理由:
- 尽管在特定领域(如医疗)的表现有待提高,但整体上该方法在多个任务上显示出了显著的改进,因此扣掉一分。哈哈,另外一个原因是文章也比较长,看完不容易~~~
备注
原创文章同步发表CSDN与知乎平台,内容仅供学习使用。 – by 夜空流星(sp-fyf-2024)