计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-06

1. A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization

Authors: Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk and Jiliang Tang

https://arxiv.org/abs/2410.02165

一个由大型语言模型驱动的自动评分框架,具有人类水平的指导方针优化

摘要:

文章提出了一个名为GradeOpt的统一多代理自动短答案评分(ASAG)框架,该框架利用大型语言模型(LLMs)作为评分员对开放性简答题(SAGs)进行评分。GradeOpt框架通过自我反思机制自动优化原始评分指南,以提高评分准确性和与人类评分员的行为一致性。通过在教育内容知识(PCK)和内容知识(CK)问题上的实验,证明了GradeOpt在评分准确性和与人类评分员行为一致性方面相较于现有基线模型的优越性能。

研究背景:

在教育分析(LA)中,开放式简答题(SAGs)被广泛认为是提供对学习者反应更深入了解的有力工具。然而,SAGs在实践中常常因为评分工作量大和评估不一致性而面临挑战。随着自然语言处理(NLP)技术的进步,自动短答案评分(ASAG)提供了一个有希望的解决方案。但是,现有的ASAG算法通常在泛化能力上受限,并且往往是针对特定问题定制的。

问题与挑战:

现有的ASAG算法在泛化到不同类型的问题上存在困难,并且依赖于大量标注样本。此外,深度学习模型在样本数量有限时容易过拟合,并且其“黑箱”特性限制了它们的应用。

如何解决:

文章提出了一个多代理ASAG框架,通过迭代反射机制自动优化评分指南。框架包括三个基于LLM的代理:评分员(Grader)、反射器(Reflector)和提炼器(Refiner),它们协同工作以提高训练数据集上的分类准确性。

创新点:

  • 提出了一个统一的多代理ASAG框架,利用LLMs进行评分。
  • 引入了反射器和提炼器代理,通过自我反思自动优化评分指南。
  • 实现了一个迭代优化过程,通过错误反馈改进评分规则。
  • 提出了一种基于错误反馈的测试时适应性训练方法。

算法模型:

GradeOpt框架包括训练阶段和测试时适应阶段。在训练阶段,通过多代理系统协同预测评分、识别错误并提出规则修改建议来优化评分指南。在测试时适应阶段,系统首先对一小批未标记的答案样本执行分布外(OOD)测试,然后根据需要进行测试时训练。

实验效果:

实验结果表明,GradeOpt在评分准确性和与人类评分员行为一致性方面均优于现有基线模型。例如,在PCK和CK问题上,GradeOpt的平均Cohen’s Kappa值达到了0.85,而其他模型如RoBERTa和SBERT的平均值分别为0.65和0.35。

算法代码:

推荐阅读指数:

8/10

推荐理由:

这篇文章提出了一个创新的自动评分框架,可以显著减轻教育工作者的评分负担,并提供一致和准确的评分。

2. General Preference Modeling with Preference Representations for Aligning Language Models

Authors: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu

https://arxiv.org/abs/2410.02197

用于语言模型对齐的偏好表示的通用偏好建模

摘要:

文章提出了一种新的方法来对齐基础模型与人类价值观,通过捕捉复杂的人类偏好结构。传统奖励建模方法,如布拉德利-特里(Bradley-Terry, BT)奖励模型,在表达能力上存在限制,尤其是在处理非传递性偏好时。尽管监督对偏好模型(PairPM)可以表达一般偏好,但它们的实现高度特定,并且由于比较多个响应时的二次查询复杂度,导致计算成本高昂。文章介绍了偏好表示学习,一种将响应嵌入到潜在空间中以有效捕捉复杂偏好结构的方法,实现了线性查询复杂度。此外,提出了基于偏好分数的通用偏好优化(General Preference Optimization, GPO),它将基于人类反馈的强化学习泛化。实验结果显示,所提出的通用偏好表示模型(General Preference representation model, GPM)在RewardBench基准测试中的表现超过了BT奖励模型达5.6%,并且在有效建模循环偏好方面的表现相当于随机猜测。此外,在AlpacaEval2.0和MT-Bench等下游任务的评估中,与GPO和我们的通用偏好模型一起进行的语言模型后训练,显示出显著的性能提升。

研究背景:

对齐语言模型与人类意图和价值观对于改进文本生成和增强决策制定策略至关重要。现有方法通常依赖于奖励建模,但这些方法在处理复杂或非传递性人类偏好时面临挑战。

问题与挑战:

现有的偏好模型在表达能力和计算效率方面存在挑战,尤其是在处理复杂的人类偏好时。

如何解决:

文章提出了一种新的偏好表示学习方法,通过将响应嵌入到潜在空间中来捕捉复杂的偏好结构,并通过偏好分数的通用偏好优化来实现语言模型的对齐。

创新点:

  • 提出了一种新的偏好表示学习方法,通过嵌入技术捕捉偏好结构。
  • 提出了通用偏好优化(GPO),一种新的基于偏好分数的优化方法。
  • 实现了与BT模型相比在基准测试中的性能提升,以及在处理循环偏好方面的有效性。

算法模型:

文章提出的通用偏好表示模型(GPM)通过在潜在空间中建模偏好来实现偏好概率的高效计算。此外,文章还提出了一种基于偏好分数的优化方法,用于在训练过程中优化语言模型。

实验效果:

在RewardBench基准测试中,GPM在多个任务上的表现超过了BT模型,性能提升最高达5.6%。在AlpacaEval2.0和MT-Bench等下游任务中,使用GPM进行后训练的语言模型显示出显著的性能提升。

推荐阅读指数:

9/10

推荐理由:

这篇文章提出了一种创新的方法来对齐语言模型与人类偏好,这对于自然语言处理和机器学习领域的研究者来说是非常有价值的。

3. GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning

Authors: Jiale Fu, Yaqing Wang, Simeng Han, Jiaming Fan, Chen Si, Xu Yang

https://arxiv.org/abs/2410.02203

GRAPHIC:一种用于多步推理的基于图的上下文示例检索模型

摘要:

文章提出了一种名为GraphIC的新方法,它利用基于图的推理过程表示,结合贝叶斯网络(BNs)来选择上下文示例(In-Context Examples, ICEs),以提高大型语言模型(LLMs)在多步推理任务中的性能。GraphIC通过图结构过滤掉与推理过程无关的浅层语义信息,同时保留核心推理结构。贝叶斯网络特别适合于多步推理任务,因为它们能够捕捉推理步骤之间的依赖性和进展。实验结果表明,GraphIC在数学推理、代码生成和逻辑推理等任务中,无论是在有效性还是效率方面,都优于无需训练和需要训练的模型。

研究背景:

在上下文学习(In-Context Learning, ICL)中,通过在输入中直接包含几个示例,可以使大型语言模型(LLMs)泛化到新任务,而无需更新参数。然而,ICL的有效性在很大程度上依赖于所选择的示例。

问题与挑战:

传统的基于文本的嵌入方法在选择示例时常常是不够的,因为它们主要关注语义级别的相似性,这在需要多步推理的任务中会带来显著的局限性。

如何解决:

文章提出了GraphIC方法,它通过图表示法来改进示例的检索过程,从而更好地对齐于任务的推理过程。

创新点:

  • 提出了“思想图”(thought graph)的概念,用于模拟认知过程中的推理步骤。
  • 利用贝叶斯网络来模拟思想图,并估计与查询问题推理过程相关的概率密度。
  • 通过个性化的PageRank机制来模拟人类在复杂问题解决过程中经常回顾初始假设的认知倾向。

算法模型:

GraphIC模型包括以下关键步骤:

  1. 生成候选示例和查询问题的“思想图”。
  2. 使用贝叶斯网络来模拟每个思想图,并估计相关参数。
  3. 选择参数化思想模式的示例,以最大化查询问题思想图上的概率密度。

实验效果:

在包括数学推理、代码生成和逻辑推理在内的四种多步推理任务中,GraphIC在无需训练的情况下,性能超过了其他需要训练和不需要训练的基线模型。

推荐阅读指数:

8/10

推荐理由:

这篇文章提出了一个创新的方法来改进大型语言模型在多步推理任务中的性能,这对于自然语言处理和人工智能领域的研究人员来说是非常有价值的。

4. CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning

Authors: Huimu Yu, Xing Wu, Weidong Yin, Debing Zhang, Songlin Hu

https://arxiv.org/abs/2410.02229

CodePMP:面向大型语言模型推理的可扩展偏好模型预训练

摘要:

文章提出了CodePMP,这是一个可扩展的偏好模型预训练(PMP)流程,它利用来自公开高质量源代码的大量合成代码-偏好对来增强大型语言模型(LLMs)的推理能力。CodePMP通过在大规模合成代码-偏好对上预训练偏好模型来提高奖励模型(RM)微调的效率。在数学推理任务(GSM8K、MATH)和逻辑推理任务(ReClor、LogiQA2.0)上的评估表明,CodePMP显著提高了LLMs的推理性能,并突出了可扩展偏好模型预训练在有效奖励建模中的重要性。

研究背景:

大型语言模型(LLMs)在自然语言理解和生成方面取得了显著进展,但增强LLMs的推理能力,特别是通过人类反馈的强化学习(RLHF),由于高质量偏好数据的稀缺性,仍然具有挑战性。

问题与挑战:

现有的基于人类反馈的奖励模型(RM)预训练方法依赖于公开来源的大规模偏好数据,但这些数据对于推理任务来说往往不够丰富,且手动注释这些数据成本高昂。

如何解决:

CodePMP通过从GitHub等平台上可用的大量源代码生成合成的偏好对来解决这个问题。这些代码数据经过处理,生成用于偏好模型预训练的数据集。

创新点:

  • 提出了一种新颖的偏好模型预训练方法,使用代码数据来提高LLMs在推理任务中的表现。
  • 展示了CodePMP在多个推理任务中的有效性,包括数学和逻辑推理。
  • 证明了CodePMP在提高奖励模型微调准确性和Best-of-N性能方面的显著改进。

算法模型:

CodePMP利用两个不同能力的代码语言模型(CodeLLMs)生成代码片段,一个生成高质量(被选择)的响应,另一个生成较差的(被拒绝)响应。这些<被选择,被拒绝>对形成了预训练数据集,用于预训练偏好模型。

实验效果:

实验结果显示,在数学推理和逻辑推理任务上,CodePMP预训练的模型在RM准确性和Best-of-N性能方面均优于直接微调的RM。

推荐阅读指数:

7/10

推荐理由:

这篇文章提出了一种创新的方法来提高大型语言模型在复杂推理任务中的性能。CodePMP通过利用代码数据来预训练偏好模型,减少了对人工注释数据的依赖,同时提高了模型在推理任务中的样本效率和性能。这对于自然语言处理和人工智能领域的研究人员来说是非常有价值的。

5. SEAL: SEmantic-Augmented Imitation Learning via Language Model

Authors: Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong, Yize Chen

https://arxiv.org/abs/2410.02231

SEAL:通过语言模型进行语义增强的模仿学习

摘要:

文章介绍了SEAL,这是一个新颖的框架,利用大型语言模型(LLMs)强大的语义和世界知识来指定子目标空间,并在没有任务层次结构先验知识的情况下,将状态预先标记为语义有意义的子目标表示。SEAL采用了双编码器结构,结合了监督的LLM引导的子目标学习和无监督的向量量化(VQ)以获得更强大的子目标表示。此外,SEAL还结合了一个过渡增强的低级规划器,以更好地适应子目标转换。实验表明,SEAL在小专家数据集和复杂长时序任务的设置中,性能超过了现有的分层模仿学习(HIL)方法和基于LLM的规划方法。

研究背景:

层次化模仿学习(HIL)是一种有前景的方法,用于处理长时序决策任务。然而,由于缺乏详细的监督标签用于子目标学习,以及依赖于成百上千的专家演示,这使得HIL成为一个挑战。

问题与挑战:

现有的基于文本的嵌入选择方法主要关注捕获语义级别的相似性,这在需要多步推理的任务中遇到显著局限性。此外,这些方法在从专家轨迹中学习子目标时面临挑战,因为这些轨迹通常没有明确的标签。

如何解决:

SEAL框架通过使用LLM生成的高级计划来辅助子目标学习和策略训练,从而解决了这些挑战。SEAL利用LLM从完整的任务语言指令中提取子目标,并使用这些子目标作为训练高层次子目标编码器的监督标签。

创新点:

  • 提出了一种新颖的利用预训练LLM来生成高级计划并提供语义有意义的子目标表示的方法。
  • 引入了双编码器结构,结合了监督的LLM基础子目标学习和无监督的VQ表示,以提高子目标学习的可靠性和鲁棒性。
  • 设计了一个过渡增强的低级策略代理,通过为子目标转换点分配更高的权重来强调这些状态的重要性。

算法模型:

SEAL框架包括一个高层次的子目标编码器和一个低层次的策略代理,它们通过最小化损失函数来共同训练。SEAL使用LLM来指导子目标学习,并结合无监督的VQ来提高子目标表示的鲁棒性。

实验效果:

在KeyDoor和Grid-World任务中的实验结果表明,SEAL在小专家数据集和复杂长时序任务中的表现优于多种现有的HIL方法。SEAL在成功完成任务方面展现了更高的成功率和子目标完成率。

推荐阅读指数:

8/10

推荐理由

这篇文章提出了一种创新的方法,通过结合LLM的强大语义理解能力来增强模仿学习,特别是在处理需要多步推理的复杂任务方面。SEAL框架的提出为长时序决策任务提供了一种有效的解决方案,值得一读。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 人机交互
图形学领域的研究热点会给人工智能带来哪些挑战和机遇?
图形学中的一些研究热点,如 3D 模型生成与重建,需要大量的 3D 数据来训练模型,但 3D 数据的获取往往比 2D 图像数据更困难、成本更高。而且,3D 数据的多样性和复杂性也使得数据的标注和预处理工作更加繁琐,这对人工智能的数据处理能力提出了更高要求。例如,在训练一个能够生成高精度 3D 人体模型的人工智能模型时,需要大量不同姿态、不同体型的 3D 人体扫描数据,而这些数据的采集和整理是一项艰巨的任务.
|
8天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
9天前
|
机器学习/深度学习 人工智能 数据可视化
人工智能在图形学领域的研究热点有哪些?
AIGC:通过生成对抗网络(GAN)、变分自编码器(VAE)及其变体等技术,能够根据用户输入的文字描述、草图等生成高质量、高分辨率的图像,在艺术创作、游戏开发、广告设计等领域应用广泛。如OpenAI的DALL-E、Stable Diffusion等模型,可生成风格各异、内容丰富的图像,为创作者提供灵感和素材.
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
46 2
|
29天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
36 0
|
3天前
|
人工智能 算法 安全
人工智能在医疗诊断中的应用与前景####
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战以及未来的发展趋势。随着科技的不断进步,AI技术正逐步渗透到医疗行业的各个环节,尤其在提高诊断准确性和效率方面展现出巨大潜力。通过分析当前AI在医学影像分析、疾病预测、个性化治疗方案制定等方面的实际应用案例,我们可以预见到一个更加智能化、精准化的医疗服务体系正在形成。然而,数据隐私保护、算法透明度及伦理问题仍是制约其进一步发展的关键因素。本文还将讨论这些挑战的可能解决方案,并对AI如何更好地服务于人类健康事业提出展望。 ####
|
3天前
|
机器学习/深度学习 人工智能 算法
人工智能在医疗诊断中的应用与挑战
本文探讨了人工智能(AI)在医疗诊断领域的应用及其面临的挑战。随着技术的不断进步,AI已经在医学影像分析、疾病预测和个性化治疗等方面展现出巨大潜力。然而,数据隐私、算法透明度以及临床整合等问题仍然是亟待解决的关键问题。本文旨在通过分析当前AI技术在医疗诊断中的具体应用案例,探讨其带来的优势和潜在风险,并提出相应的解决策略,以期为未来AI在医疗领域的深入应用提供参考。
23 3
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能在教育领域的应用与挑战
随着科技的不断进步,人工智能(AI)技术已经深入到社会的各个领域,其中教育领域尤为突出。本文旨在探讨人工智能在教育领域的应用现状、面临的挑战以及未来的发展趋势。通过分析AI技术如何改变传统教学模式,提高教育质量和效率,同时指出其在实际应用中可能遇到的问题和挑战,为未来教育的发展提供参考。
22 2
|
3天前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
|
8天前
|
机器学习/深度学习 人工智能 搜索推荐
深度探索人工智能在医疗影像诊断中的应用与挑战####
本文深入剖析了人工智能(AI)技术,特别是深度学习算法在医疗影像诊断领域的创新应用,探讨其如何重塑传统诊断流程,提升诊断效率与准确性。同时,文章也客观分析了当前AI医疗影像面临的主要挑战,包括数据隐私、模型解释性及临床整合难题,并展望了未来发展趋势。 ####