计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13(下)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13(下)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-13(上)+https://developer.aliyun.com/article/1628808


实验效果

  • 初始准确性:CAELF与GPT-4o在初始评分准确性方面相当。
  • 交互准确性:在与学生的一轮互动后,CAELF的准确性显著优于基线模型。
  • 保持真理:CAELF在保持正确评估方面的成功率为80%-90%,而基线模型的成功率低于40%。
  • 承认错误:CAELF在纠正初始错误的成功率上比基线模型高出10%-20%。
  • 人类评估:CAELF在可读性、事实准确性、自我调节和未来改进等反馈质量方面均优于基线模型。

结论

CAELF通过结合多智能体辩论和计算论证,有效地提高了LLM在教育环境中提供交互式反馈的能力。实验结果表明,CAELF在初始评分准确性、交互评分准确性以及推理和一致性维护方面均优于现有技术。此外,人类评估结果也证实了CAELF在提供高质量反馈方面的有效性。这项工作展示了CAELF在交互式学习环境中的应用潜力,为解决传统教育中交互式反馈的局限提供了新的思路。

6. What is the Role of Small Models in the LLM Era: A Survey

Authors: Lihu Chen and Ga"el Varoquaux

综述: 在大型语言模型时代,小型模型的角色是什么?

摘要

随着大型语言模型(LLMs)在推进通用人工智能(AGI)方面取得显著进展,模型规模的增加导致了计算成本和能源消耗的指数级增长,这使得这些模型对于资源有限的学术研究人员和企业来说不切实际。与此同时,小型模型(SMs)在实际应用中经常被使用,尽管它们的重要性目前被低估。本文系统地从两个关键角度——合作和竞争——审视了LLMs和SMs之间的关系。我们希望这项调查能为从业者提供有价值的见解,促进对小型模型贡献的更深层次理解,并促进计算资源的更有效利用。

创新点

  1. 合作与竞争视角:首次系统地从合作和竞争的角度分析了在大型语言模型时代小型模型的角色。
  2. 多维度评估:通过准确性、泛化性、效率和可解释性等关键维度对LLMs和SMs进行了全面的比较。
  3. 实际应用分析:结合实际应用场景,探讨了小型模型在特定任务和受限环境中的优势和应用潜力。

算法模型

  • 合作框架:提出了一个框架,展示了LLMs和SMs如何在数据策划、弱到强范式、高效推理、评估LLMs、领域适应、检索增强生成和基于提示的学习等方面进行合作。
  • 竞争分析:分析了在计算受限环境、特定任务环境和需要高可解释性的环境中,小型模型相比大型模型的优势。

实验效果

  • 数据策划:小型模型可以通过数据选择和重加权来提高LLMs的性能。
  • 弱到强范式:使用小型模型作为监督器来微调大型模型,可以在保持性能的同时减少计算资源的需求。
  • 高效推理:通过模型级联和模型路由,可以优化推理过程,减少成本和提高速度。
  • 评估LLMs:小型模型可以自动评估由LLMs生成的文本,提供多角度的评估。
  • 领域适应:小型模型可以通过白盒和黑盒适应方法来调整LLMs,以适应特定领域。
  • 检索增强生成:小型模型作为检索器,可以增强LLMs在特定任务上的表现。
  • 基于提示的学习:小型模型可以增强提示,从而提升LLMs的性能。

结论

文章总结了小型模型在大型语言模型时代的角色,强调了它们在合作和竞争中的潜力和价值。通过系统地分析和比较,文章揭示了小型模型在资源优化和特定任务中的显著优势,为未来在这一领域的研究提供了方向。尽管LLMs在性能上具有优势,但SMs在可访问性、简单性、低成本和互操作性方面具有明显优势,这使得它们在多种应用场景中仍然是一个重要的选择。

7. Beyond IID: Optimizing Instruction Learning from the Perspective of Instruction Interaction and Dependency

Authors: Hanyu Zhao, Li Du, Yiming Ju, Chengwei Wu, Tengfei Pan

超越独立同分布:从指令交互和依赖的角度优化指令学习

摘要

文章探讨了如何有效选择和整合各种指令数据集以微调大型语言模型(LLMs)。以往的研究主要关注选择单个高质量的指令,但忽略了不同类别指令之间的交互和依赖关系,导致选择策略并非最优。此外,这些交互模式的本质尚未被充分探索,更不用说根据它们来优化指令集了。为了填补这些空白,本文系统地研究了不同类别指令之间的交互和依赖模式,并使用基于线性规划的方法优化了指令集,同时使用指令依赖分类指导的课程学习来优化SFT(Supervised Fine-Tuning)的学习模式。实验结果表明,与强基线相比,在广泛采用的基准测试上取得了改进的性能。

创新点

  1. 指令交互和依赖模式的系统研究:首次系统地分析了不同类别指令之间的交互和依赖模式。
  2. 基于相关性的指令集优化:提出了一种基于效应等价的线性规划方法来优化不同类别指令的比例。
  3. 指令依赖分类指导的课程学习:提出了一种新的课程学习方法,根据指令依赖分类来安排学习不同类别指令的顺序。
  4. 实验验证:通过实验验证了所提方法在多个LLMs上的有效性,并在广泛认可的基准测试上取得了改进的性能。

算法模型

  • 自动标记系统:构建了一个自动标记系统为指令分配标签,描述完成该指令所需的详细能力和知识。
  • 因果干预分析:通过添加或移除具有特定标签的指令,观察LLM性能的变化,从而诱导出相关性和依赖模式。
  • 效应等价系数:用于量化不同类别指令之间的相关性,基于此系数优化指令集的比例。
  • 依赖分类指导的课程学习:根据指令依赖分类,调整SFT过程中不同类别指令的学习顺序。

实验效果

  • 性能提升:在包含10,000、20,000和50,000指令的指令集上,与基于质量得分的方法相比,所提出的方法在不同大小的指令集上均显示出一致的性能提升。
  • 重要数据
  • 在10,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.11和0.14。
  • 在50,000指令集上,EE-CPO方法相比DEITA方法在MT-Bench和AlpacaEval 2.0基准测试上分别提升了0.26和0.33。
  • 结论:实验结果支持了分析方法和诱导的指令交互模式的合理性,并证明了考虑指令交互和依赖关系进行指令集优化的有效性。

结论

文章通过系统地研究不同类别指令之间的交互和依赖模式,并提出了相应的优化方法,有效地提高了LLMs在指令学习中的性能。这些发现不仅揭示了指令数据内在的相关性和依赖性,而且为如何优化指令集提供了有价值的见解,有助于推动LLMs在教育和其它领域的应用。

8. Native vs Non-Native Language Prompting: A Comparative Analysis

Authors: Mohamed Bayan Kmainasi, Rakif Khan, Ali Ezzat Shahroor, Boushra

Bendou, Maram Hasanain, Firoj Alam

母语与非母语提示:一项比较分析

摘要

大型语言模型(LLMs)在包括标准自然语言处理(NLP)任务在内的不同领域表现出显著的能力。为了从LLMs中获取知识,提示(prompts)起着关键作用,它们由自然语言指令组成。大多数开源和闭源的LLMs都是基于可用的标记和未标记资源(如文本、图像、音频和视频等数字内容)进行训练的,因此这些模型对高资源语言有更好的了解,但在低资源语言上则表现不佳。由于提示在理解LLMs的能力中起着至关重要的作用,因此用于提示的语言仍然是一个重要的研究问题。尽管在这一领域已有显著研究,但仍然有限,对中低资源语言的探索更少。在本研究中,我们调查了11个不同的NLP任务和12个不同的阿拉伯语数据集(9.7K数据点)上不同提示策略(母语与非母语)的影响。我们总共进行了197次实验,涉及3个LLMs、12个数据集和3种提示策略。我们的发现表明,平均而言,非母语提示的表现最好,其次是混合提示和母语提示。

创新点

  1. 多语言提示策略比较:研究了母语(阿拉伯语)与非母语(英语)提示对LLMs性能的影响,这是在中低资源语言环境下的一个重要研究领域。
  2. 广泛的实验设计:涵盖了11个不同的NLP任务和12个不同的阿拉伯语数据集,进行了197次实验,包括3个LLMs和3种提示策略。
  3. 深入分析:不仅比较了不同提示语言的效果,还探讨了零样本和少样本学习环境下的性能差异。

算法模型

  • LLMs选择:使用了包括GPT-4o、Llama-3.1-8b和Jais-13b-chat在内的多个商业和开源模型。
  • 提示策略:定义了三种不同的提示结构:母语提示、非母语提示和混合提示。
  • 提示技术:采用了零样本学习和少样本学习(3-shot)技术。
  • 后处理:为每个模型、提示、提示技术和数据集设计了特定的后处理函数,以从LLMs的原始输出中提取所需的信息。

实验效果

  • 性能提升:非母语提示在大多数情况下表现最佳,混合提示次之,母语提示在某些情况下表现不佳。
  • 重要数据
  • 在零样本设置中,非母语提示平均表现最好。
  • 在少样本设置中,非母语提示同样表现最佳,尤其是在GPT-4o模型中。
  • 对于没有训练数据的新任务,零样本设置是理想的解决方案,非母语提示在所有模型中表现更好。
  • GPT-4o在所有提示设置中表现最佳。
  • 结论:非母语提示通常能更好地引导模型理解上下文,从而在跨语言的任务中实现更高的性能。

结论

本研究调查了不同提示结构(母语、非母语和混合)对于从各种商业和开源模型中获取所需输出(下游NLP任务的标签)的重要性。实验结果表明,非母语提示在多种设置中表现更好,这可能与模型在训练过程中对主导语言(英语)的更强能力有关。未来的工作可能包括使用指令遵循数据集进行微调,以创建特定领域的专业模型。

9. Understanding Knowledge Drift in LLMs through Misinformation

Authors: Alina Fastowski and Gjergji Kasneci

通过错误信息理解大型语言模型中的知识漂移

摘要

本文主要分析了在问答场景中,当遇到错误信息时,最先进的大型语言模型(LLMs)对事实不准确信息的敏感性。这种敏感性可能导致所谓的知识漂移现象,这显著削弱了这些模型的可信度。研究者通过熵、困惑度和令牌概率等指标评估了模型回答的事实性和不确定性。实验结果显示,当模型由于暴露于错误信息而错误回答问题时,其不确定性可能增加高达56.6%。同时,重复暴露于相同的错误信息可以再次降低模型的不确定性(与未受污染的提示回答相比降低了52.8%),这可能操纵了模型的原始知识信念,引入了与其原始知识的漂移。这些发现为LLMs的鲁棒性和对抗性输入的脆弱性提供了见解,为开发更可靠的LLM应用铺平了道路。

创新点

  1. 知识漂移分析:首次系统地分析了LLMs在遇到错误信息时内部知识结构的变化,即知识漂移。
  2. 不确定性评估:通过熵、困惑度和令牌概率等指标来评估LLMs在面对错误信息时的不确定性变化。
  3. 错误信息影响:研究了错误信息对LLMs性能和不确定性估计的影响,发现重复暴露于错误信息可以减少模型的不确定性,表明模型可能被操纵。

算法模型

  • 不确定性度量:使用熵、困惑度和令牌概率来量化模型的不确定性。
  • 实验设计:在TriviaQA数据集上进行实验,测试LLMs在面对正确和错误信息时的表现。
  • 信息注入:通过在问题提示中注入错误信息和随机信息,来观察模型响应的变化。

实验效果

  • 不确定性增加:当模型由于错误信息而错误回答问题时,不确定性增加了高达56.6%。
  • 重复暴露影响:重复暴露于相同的错误信息可以降低模型的不确定性(与未受污染的提示相比降低了52.8%)。
  • 模型表现:实验涉及的模型包括GPT-4o、GPT-3.5、LLaMA-2-13B和Mistral-7B,结果显示所有模型在面对错误信息时都表现出了知识漂移的现象。

结论

研究揭示了LLMs在处理错误信息时可能出现的知识漂移现象,强调了在设计和部署LLM应用时考虑其对错误信息的敏感性的重要性。研究结果表明,错误信息可以显著影响模型的不确定性和事实准确性,这对于提高LLMs在关键应用中的鲁棒性和可信度具有重要意义。

推荐阅读指数

★★★★☆

推荐理由:这篇文章对于理解大型语言模型在面对错误信息时的行为和内部知识结构的变化具有重要意义。它不仅提供了对现有LLMs潜在脆弱性的深入分析,还为未来如何提高模型的鲁棒性和可信度提供了有价值的见解。适合对自然语言处理、机器学习以及人工智能安全性感兴趣的研究人员和从业者阅读。

9. Ontology-Free General-Domain Knowledge Graph-to-Text Generation Dataset Synthesis using Large Language Model

Authors: Daehee Kim, Deokhyung Kang, Sangwon Ryu, Gary Geunbae Lee

使用大型语言模型合成无本体的通用领域知识图谱到文本生成数据集

摘要

知识图谱到文本(G2T)生成任务旨在将知识图谱的三元组形式(主体、谓语、客体)转化为自然语言文本。预训练语言模型(PLMs)的最新进展在G2T性能上取得了显著提升,但其有效性依赖于具有精确图-文本对齐的数据集。然而,高质量、通用领域G2T生成数据集的稀缺限制了通用领域G2T生成研究的进展。为了解决这一问题,我们介绍了Wikipedia OntologyFree Graph-text数据集(WikiOFGraph),这是一个新的大型G2T数据集,它利用大型语言模型(LLM)和Data-QuestEval的新方法生成。我们的新数据集包含585万通用领域图-文本对,不依赖外部本体,提供了高图-文本一致性。实验结果表明,针对WikiOFGraph进行微调的PLM在各种评估指标上优于其他数据集上训练的模型。我们的方法被证明是生成高质量G2T数据的可扩展和有效解决方案,显著推进了G2T生成领域。

创新点

  1. 无本体的数据集生成:提出了一种新方法,利用大型语言模型(LLM)和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。
  2. 高图-文本一致性:新数据集在不依赖外部本体的情况下,提供了高一致性的图-文本对。
  3. 大规模数据集:生成了包含585万通用领域图-文本对的数据集,覆盖了整个Wikipedia的内容。

算法模型

  • 数据集生成方法:通过LLM从Wikipedia文本中提取图表示,然后使用Data-QuestEval进行数据筛选,确保图-文本对的一致性。
  • 图提取:使用LLM从给定句子中提取图表示,通过人工选择的例子引导LLM进行图表示的提取。
  • 数据筛选:利用Data-QuestEval对生成的图-文本对进行筛选,确保数据的高质量。

实验效果

  • 性能提升:在WikiOFGraph数据集上微调的PLM在多个评估指标上优于其他数据集上训练的模型。
  • 重要数据
  • 在GenWiki测试集上,WikiOFGraph微调的模型在BLEU、METEOR、ROUGE-L和BERTScore-F1等指标上均优于其他数据集。
  • 在WikiOFGraph测试集上,微调的模型在所有评估指标上均表现出显著的性能提升。

结论

研究介绍了WikiOFGraph数据集,这是一个大规模的通用领域G2T数据集,通过LLM和Data-QuestEval生成,不依赖外部本体。实验结果表明,该数据集在多个评估指标上能够提升PLM的性能。此外,通过额外的实验和案例研究,证明了Data-QuestEval筛选在确保图-文本一致性方面的有效性。

推荐阅读指数

★★★★☆

推荐理由:这篇文章提出了一种创新的方法,通过结合LLM和Data-QuestEval来生成无本体的通用领域知识图谱到文本的数据集。该方法不仅提高了数据集的质量和一致性,而且生成的数据集规模大,覆盖了广泛的领域,对于推动G2T生成领域的研究具有重要意义。适合对自然语言处理、知识图谱和数据生成感兴趣的研究人员和从业者阅读。

10. Cross-Refine: Improving Natural Language Explanation Generation by Learning in Tandem

Authors: Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian

M"oller, Vera Schmitt

交叉精炼:通过协同学习改进自然语言解释生成

摘要

本文介绍了一种名为CROSS-REFINE的方法,旨在通过模仿人类的学习过程来改善大型语言模型(LLM)生成的自然语言解释(NLE)。CROSS-REFINE通过使用两个LLM,一个作为生成器(generator),另一个作为批评者(critic),来迭代提升解释的质量。生成器首先输出一个初步的NLE,然后根据批评者提供的反馈和建议进行优化。这种方法不需要任何监督训练数据或额外的训练。通过在三个自然语言处理(NLP)任务上的自动和人类评估来验证CROSS-REFINE的有效性,结果表明CROSS-REFINE在多个方面优于SELF-REFINE方法,并且能够在不太强大的LLM上有效工作。

创新点

  1. 协同学习机制:CROSS-REFINE通过两个LLM的协同工作,模拟人类的学习过程,其中生成器和批评者相互提供反馈和建议。
  2. 无需额外训练:与需要额外训练数据的方法不同,CROSS-REFINE不需要任何监督训练数据或额外训练。
  3. 跨语言评估:CROSS-REFINE在英语和德语的双语数据集上进行了评估,显示了其跨语言的适用性。

算法模型

CROSS-REFINE的核心是两个LLM的协同工作:

  • 生成器:负责生成初步的NLE。
  • 批评者:提供对生成器输出的反馈和改进建议。
  • 交叉精炼过程:生成器利用批评者的反馈和建议来优化其初步解释。

实验效果

  • 自动评估:使用BLEURT、BARTScore和TIGERScore等自动化指标进行评估,CROSS-REFINE在ECQA和eSNLI数据集上的表现优于SELF-REFINE。
  • 人类评估:通过用户研究,CROSS-REFINE在忠实度、连贯性和洞察力方面的表现优于SELF-REFINE。
  • 重要数据与结论
  • 在HealthFC数据集上,CROSS-REFINE在生成德语解释方面比SELF-REFINE更有效。
  • CROSS-REFINE在需要特定领域知识的医疗领域表现不佳,但在“自我CROSS-REFINE”设置中表现优于SELF-REFINE。

推荐阅读指数

★★★★☆

推荐理由

  • 对于自然语言处理和机器学习领域的研究人员和实践者,CROSS-REFINE提供了一种创新的方法来改进LLM生成的解释。
  • 论文详细介绍了方法的动机、设计和实验验证,对于理解当前LLM在解释生成方面的能力和限制非常有帮助。
  • 跨语言评估的部分为多语言NLP任务提供了有价值的见解。

扣分理由

  • 尽管在特定领域(如医疗)的表现有待提高,但整体上该方法在多个任务上显示出了显著的改进,因此扣掉一分。哈哈,另外一个原因是文章也比较长,看完不容易~~~

备注

原创文章同步发表CSDN与知乎平台,内容仅供学习使用。 – by 夜空流星(sp-fyf-2024)


目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
32 7
|
5天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
4天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
20 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
16 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
4天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
16 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
22 1
|
20天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
47 6
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
19天前
|
人工智能 算法 自动驾驶
人工智能的伦理困境:技术发展与社会责任的平衡
在人工智能(AI)技术飞速发展的今天,我们面临着一个前所未有的伦理困境。本文将探讨AI技术带来的挑战,以及如何在技术创新与社会责任之间找到平衡点。我们将从隐私保护、就业影响、算法偏见等方面进行分析,并提出相应的解决方案。
|
20天前
|
人工智能 算法
人工智能浪潮中的伦理困境:我们如何确保技术的道德发展?
【10月更文挑战第22天】在人工智能(AI)技术的迅猛发展中,伴随着巨大的潜力和便利性,也出现了众多伦理问题。从数据隐私到算法偏见,再到自动化带来的失业问题,AI的每一步进步都在考验着人类社会的道德底线。本文将探讨AI技术发展中的主要伦理问题,并讨论如何通过制定标准、教育和跨学科合作来确保AI技术的道德发展。