计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-03(上)+https://developer.aliyun.com/article/1628932
实验效果
- 用户研究:通过调查问卷收集了70名参与者对AI代表在不同场景中的接受程度。
- LLM基评估:使用LLM生成的对话上下文对AI代表进行了评估,包括被动和主动自我披露场景。
- 结果:所提出的AI代表在保护隐私和对话适当性方面表现更好。
重要数据与结论
- 用户研究:显示了用户对AI代表在不同社交关系和任务场景中的接受程度。
- LLM基评估:所提出的AI代表在被动对话中的隐私保护和上下文一致性方面得分更高。
- 主动自我披露策略:所提出的AI代表能够采用与用户偏好更一致的自我披露策略。
推荐阅读指数
★★★★☆
推荐理由
这篇文章探讨了AI代表在需要平衡隐私保护和信息披露的社交互动中的挑战,并提出了一个创新的解决方案。
3. Digital Twin Ecosystem for Oncology Clinical Operations
Authors: Himanshu Pandey, Akhil Amod, Shivang, Kshitij Jaggi, Ruchi Garg, Abheet Jain, Vinayak Tantia
https://arxiv.org/abs/2409.17650
数字孪生生态系统在肿瘤临床操作中的应用
摘要
人工智能(AI)和大型语言模型(LLMs)在医疗保健领域,特别是在临床应用中具有革命性的前景。与此同时,数字孪生技术通过模拟复杂系统来增强患者护理,已逐渐受到关注。尽管在实验性临床环境中取得了进展,但AI和数字孪生在简化临床操作方面的潜力基本上还未被开发。本文介绍了一个专门设计的用于增强肿瘤临床操作的新型数字孪生框架。我们提出了将多个专门的数字孪生集成,例如医学必要性孪生、护理导航孪生和临床历史孪生,以提高工作流程效率,并根据患者的独特数据个性化护理。此外,通过综合多个数据源并将其与国家综合癌症网络(NCCN)指南对齐,我们创建了一个动态的癌症护理路径——一个不断发展的知识库,使这些数字孪生能够提供精确、定制的临床建议。
研究背景
提供最佳的肿瘤护理面临着许多挑战,这使得医疗保健提供者在决策变得复杂。尽管电子健康记录(EHRs)包含大量的患者数据,但通常没有用户友好的工具可以轻松访问患者的完整治疗和药物历史。这种缺乏可访问性使得提供者难以审查过去的治疗,并对未来的护理做出明智的决策。此外,将患者的特定状况与国家综合癌症网络(NCCN)指南对齐构成了另一个挑战。
问题与挑战
尽管EHRs包含大量患者数据,但缺乏易于访问患者完整治疗和药物历史的用户友好工具。此外,将患者的具体情况与NCCN指南个性化对齐也是一个挑战。
如何解决
提出了一个数字孪生框架,通过集成多个专门的数字孪生,如医学必要性孪生、护理导航孪生和临床历史孪生,来增强工作流程效率和个性化护理。
创新点
- 数字孪生框架:提出了一个专门设计的用于增强肿瘤临床操作的新型数字孪生框架。
- 癌症护理路径:创建了一个动态的癌症护理路径,作为一个不断发展的知识库,使数字孪生能够提供精确、定制的临床建议。
- 多模态输入和先进的机器学习技术:利用多模态数据输入和先进的机器学习技术,为复杂的临床决策提供支持。
算法模型
- 癌症护理路径:作为知识图谱或决策树,概述了癌症患者的理想护理流程。
- 数字孪生框架:定义了数字孪生的结构和功能,包括各种能力和输入以及它们与其他代理的交互和协作。
实验效果
- 医学必要性孪生:在自动化确定医学必要性方面实现了86%的准确率。
- 临床历史孪生:通过从患者的EHR中提取结构化和非结构化数据,以清晰的时间序列方式呈现,帮助医疗保健提供者快速、高效地解释护理进展。
重要数据与结论
数字孪生生态系统通过提供先进的数据分析、临床指南和实时决策支持,帮助提高患者护理质量。这些数字孪生形成一个协作系统,在患者的治疗的每个阶段支持医疗保健提供者做出明智的、基于证据的决策。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一个创新的数字孪生框架,用于优化肿瘤临床操作。通过结合AI、LLMs和数字孪生技术,为医疗保健提供者提供了一个强大的工具,以改善患者护理和临床决策过程。对于对AI在医疗保健应用、特别是肿瘤学领域感兴趣的研究人员和实践者来说,这是一篇值得阅读的文章。
4. Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy
Authors: Owen Henkel, Hannah Horne-Robinson, Maria Dyshel, Nabil Ch, Baptiste Moreau-Pernet, Ralph Abood
https://arxiv.org/abs/2409.17904
在数学评估中学会喜欢边缘情况:使用AMMORE数据集和思维链提示来提高评分准确性
摘要
本文介绍了AMMORE数据集,这是一个包含53,000个数学开放性问题-答案对的新数据集,来自Rori,这是一个在非洲多个国家被学生使用的在线学习平台。文章进行了两个实验来评估大型语言模型(LLM)在评分特别具有挑战性的学生答案方面的使用情况。AMMORE数据集支持各种潜在分析,并为研究学生在未被充分研究的现实世界教育环境中的数学习得提供了重要资源。在实验1中,我们使用了多种LLM驱动的方法,包括零样本、少样本和思维链提示,来评分规则基础分类器无法准确评分的1%学生答案。我们发现,表现最好的方法——思维链提示——准确评分了92%的这些边缘情况,有效地将整体准确率从98.7%提高到99.9%。在实验2中,我们旨在更好地理解提高评分准确性的后果有效性,通过将最佳表现的LLM基础方法生成的评分传递给贝叶斯知识追踪(BKT)模型,该模型估计学生对特定课程的掌握情况。我们发现,模型在单个问题级别的相对适度的准确性提高可以导致对学生掌握的估计发生显著变化。目前用于评分学生答案的基于规则的分类器在完成的课程中错误分类了6.9%的学生的掌握状态,而使用LLM思维链方法,这一错误分类率降低到了2.6%的学生。总体而言,这些发现表明LLM可以成为K-12数学教育中评分开放性问题的一个有价值工具,可能有助于鼓励在形成性评估中更广泛地采用开放性问题。
研究背景
形成性评估和反馈是学习过程中至关重要的组成部分,它们使得学生和教育者能够在课内外调整方法以最大化学习效果。封闭性问题,如选择题和是非题,在形成性评估中常用,它们的优点在于评分效率高,可以提供即时反馈。然而,它们也存在一些缺点,比如学生可能依赖于考试策略、可能缺乏表面效度,以及生成多个答案选项的复杂性。相比之下,开放式和简答题需要学生用自己的话来回答,通常用几句话。许多研究者认为,开放式问题减少了考试策略的影响,具有更大的表面效度,并且可能更适合评估正在评估的技能的某些子过程。
问题与挑战
开放式问题的评分过程可能非常耗费资源和昂贵,这限制了它们的广泛使用。虽然教育者可能更喜欢他们可以从开放式问题中学生回答中获得的信息类型,但繁琐的评分过程可能会给教育者带来沉重负担,并可能影响反馈的质量,这可能会限制学生对主题的理解和批判性参与。
如何解决
文章提出了一个基于LLM的方法,特别是思维链提示,来提高对开放式数学问题答案的评分准确性。
创新点
- AMMORE数据集:提供了一个新的数据集,包含非洲西部地区学生对中学数学问题的回答。
- 思维链提示:使用LLM进行评分时采用思维链提示,提高了对边缘情况的评分准确性。
算法模型
- LLM基础方法:包括零样本、少样本和思维链提示。
- 贝叶斯知识追踪(BKT)模型:用于估计学生对特定课程的掌握情况。
实验效果
- 实验1:思维链提示方法准确评分了92%的边缘情况,将整体准确率从98.7%提高到99.9%。
- 实验2:使用LLM思维链方法,学生掌握状态的错误分类率从6.9%降低到了2.6%。
重要数据与结论
通过提高模型在单个问题级别的准确性,可以显著改变对学生掌握的估计。LLM基础的评分可以鼓励在形成性评估中更广泛地采用开放式问题。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一个新的数据集和基于LLM的评分方法,对于希望在教育评估中使用LLM的研究者和实践者来说,提供了有价值的见解和工具。此外,文章还探讨了提高评分准确性对于学生学习成果评估的重要性,这对于智能辅导系统(ITS)的设计者尤其重要。
5. Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles
Authors: Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan
https://arxiv.org/abs/2409.18014
代码: https://anonymous.4open.science/r/Role-RL.
Role-RL: 在线长上下文处理中,通过角色强化学习为不同的LLMs分配最佳角色
摘要
长上下文处理的大型语言模型(LLMs)由于其实现复杂性、训练效率和数据稀疏性而面临挑战。文章提出了一种新的范式——在线长上下文处理(OLP),用于处理无限长度的文档,这通常出现在各种流媒体的信息接收和组织中,如自动化新闻报道、直播电商和病毒式短视频。此外,文章还开发了角色强化学习(Role-RL),以根据它们的真实表现自动将不同的LLMs部署到OLP管道中的相应角色。通过在OLP-MINI数据集上的广泛实验,发现带有Role-RL框架的OLP在平均召回率达到93.2%的同时,节省了79.4%的LLM成本。
研究背景
大型语言模型(LLMs)已成为提高生产效率和推进对人类语言理解的关键工具。随着计算语言学的显著进步,越来越多的LLMs迅速成为研究的前沿。然而,与此相关的问题也变得更加突出,即选择最适合给定任务的LLM。不同的LLMs由于训练数据集的差异,在性能、成本和响应延迟方面各有优劣。
问题与挑战
选择最适合特定任务的LLM是一个挑战,因为不同的LLM在对话QA任务、代码生成任务、比较推理任务以及个性方面有不同的表现。此外,处理流媒体无限长度的长上下文也是一个挑战,尤其是在需要实时输出的场景中。
如何解决
文章提出了在线长上下文处理(OLP)管道和角色强化学习(Role-RL)框架,以优化不同LLMs在长上下文处理中的作用。
创新点
- 在线长上下文处理(OLP):提出了一个新的处理无限长度文档的范式。
- 角色强化学习(Role-RL):开发了一种自动部署不同LLMs到其各自角色的方法,以提高整体性能。
算法模型
- OLP管道:包含六个明确定义的角色(主题查找器、主题定位器、关系检查器、内容组织器、格式检查器和块分割器),它们协同工作以从无限长度的上下文中提取有用信息。
- Role-RL框架:由LLM池、LLM咨询委员会和由强化学习驱动的角色管理器组成,根据LLM的实际表现自动分配不同LLMs的角色。
实验效果
- 召回率:在OLP-MINI数据集上,平均召回率达到93.2%。
- LLM成本节省:通过Role-RL框架,LLM成本节省了79.4%。
重要数据与结论
Role-RL框架通过强化学习过程,根据LLM的输出正确性、API成本和响应延迟来计算每个LLM获得的奖励,并据此放置合适的LLMs以提高整个系统的性能。实验结果表明,该框架在提高召回率和降低成本方面取得了显著效果。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一种新颖的方法来优化LLMs在长上下文处理任务中的应用,特别是在流媒体领域。通过结合在线长上下文处理和角色强化学习,文章不仅解决了长文本处理的挑战,还提高了LLMs的使用效率和成本效益。这对于希望在自然语言处理领域应用LLMs的研究者和实践者来说,提供了有价值的见解和工具。
6. Compositional Hardness of Code in Large Language Models – A Probabilistic Perspective
Authors: Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua
https://arxiv.org/abs/2409.18028
大型语言模型中的代码组合难度 - 概率视角
摘要
在复杂分析任务(如代码生成)中,通常的做法是在整个模型的上下文窗口内对整个任务的解决方案进行采样。先前的工作表明,在模型的上下文中进行子任务分解(思维链),有助于解决这类任务。在本文中,我们指出了LLMs在同一个上下文窗口内执行多个子任务的能力存在局限性——即在上下文中组合的难度,这表明了在多智能体系统中分布式地分解问题的优势。组合的难度通过一个生成复杂度度量来量化,即至少采样一个正确解决方案所需的LLM生成次数。我们发现,在相同上下文中解决组合问题与在多个代理之间分配它的生成复杂度之间存在差距,并且随着解决方案长度的增加,这种差距呈指数级增长。我们从理论和实证两方面证明了我们的结果。
研究背景
大型语言模型(LLMs)在许多领域(如广泛的问题回答、写作辅助、教学等)已成为非常有效的问题解决工具。然而,它们的分析技能,如编码能力,发展缓慢。尽管LLMs在理论上可以通过子任务分解来解决任意复杂的分析问题,但在实践中,它们将受到有效上下文长度的限制。
问题与挑战
尽管理论上可能,但一些任务需要LLM进行任意长的链式思考才能解决。此外,LLMs在处理长上下文任务时面临挑战,尤其是在需要实时输出的场景中。
如何解决
文章提出了一种在线长上下文处理(OLP)管道和角色强化学习(Role-RL)框架,以优化不同LLMs在长上下文处理中的作用。
创新点
- 链式思考的局限性:指出了LLMs在同一个上下文窗口内执行多个子任务的能力存在局限性。
- 多智能体系统的优势:提出在多智能体系统中分布式地分解问题,可以提高解决问题的效率。
算法模型
- 生成复杂度度量:通过至少采样一个正确解决方案所需的LLM生成次数来量化组合的难度。
- 角色强化学习(Role-RL):通过强化学习自动部署不同LLMs到其各自角色的方法。
实验效果
- 召回率:在OLP-MINI数据集上,平均召回率达到93.2%。
- LLM成本节省:通过Role-RL框架,LLM成本节省了79.4%。
重要数据与结论
实验结果表明,在相同上下文中解决组合问题与在多个代理之间分配它的生成复杂度之间存在差距,并且随着解决方案长度的增加,这种差距呈指数级增长。
推荐阅读指数
★★★★☆
推荐理由
这篇文章从理论和实证两方面探讨了LLMs在处理长上下文任务时的挑战,并提出了一种新颖的多智能体系统方法来提高解决问题的效率。这对于希望在自然语言处理领域应用LLMs的研究者和实践者来说,提供了有价值的见解和工具。
7. REAL: Response Embedding-based Alignment for LLMs
Authors: Honggen Zhang, Igor Molybog, June Zhang, Xufeng Zhao
https://arxiv.org/abs/2409.17169
REAL: 基于响应嵌入的对齐方法用于大型语言模型
摘要
本文提出了一种策略,通过从一组AI生成的响应中选择最具信息量的响应对进行标注,从而为直接偏好优化(DPO)采样高质量训练数据集。实验结果表明,选择不相似的响应对可以增强LLMs的直接对齐,同时减少继承的标注错误。研究还发现,专注于不太相似的对可以提高LLM对齐的效率,节省多达65%的标注工作。
研究背景
大型语言模型(LLMs)在经过大规模数据集预训练后,虽然能够生成各种问题的答案和解决方案,但也可能生成对人类无用或有害的内容。为了优化LLMs,需要进一步的训练步骤来使它们的响应与人类偏好对齐。
问题与挑战
现有的算法,如直接偏好优化(DPO),依赖于根据人类反馈排序的AI生成响应对。标注过程是AI对齐流程中最劳动密集和成本最高的部分,提高其效率将对AI发展产生显著影响。
如何解决
作者提出了一种新的方法,通过有效选择数据来增强DPO学习。该方法专注于在D中选择最信息丰富的样本子集进行训练。通过实验,作者发现选择不相似的响应对在多个指标上比其他方法(如随机选择或相似对)有更好的效果。
创新点
- 强调了在LLM训练中句子嵌入的重要性。
- 引入了高效的响应对选择策略,以获取高质量的数据。
- 实验表明,与人类偏好对齐更好的响应对在嵌入空间中是不相似的。
算法模型
- 直接偏好优化(DPO):一种通过微调LLM来隐式奖励模型的方法。
- 响应嵌入:使用基于余弦相似度的嵌入空间来选择响应对。
实验效果
- Anthropic HH-RLHF数据集:通过选择“easy”子集进行训练,得到了比其他子集(如“random”和“hard”)更好的损失和边际值。
- SHP2数据集:使用“centroid”子集进行训练,得到了最好的效果,表明使用中心点和“easy”数据训练模型可以提高模型的安全性和有用性。
重要数据与结论
- 在Anthropic HH-RLHF数据集上,使用“easy”子集训练的模型在损失和边际值上表现更好。
- 在SHP2数据集上,“centroid”子集训练的模型在损失和边际值上表现最好。
推荐阅读指数
★★★★☆
推荐理由
这篇文章提出了一种新的数据选择策略,用于提高大型语言模型与人类偏好对齐的效率。
8. Cross-Domain Content Generation with Domain-Specific Small Language Models
Authors: Ankit Maloo Abhinav Garg
https://arxiv.org/abs/2409.17171
跨域内容生成与特定领域小型语言模型
摘要
本研究探索了如何使小型语言模型能够针对两个不同领域(故事和食谱)生成连贯且相关的内容。研究发现,为每个数据集定制的分词器可以显著提高内容生成质量。尝试使用低秩适应(LoRA)或标准微调来适应单个模型至两个领域并未得到实质性结果,常常无法产生有意义的输出。此外,不冻结现有权重的全微调会导致灾难性遗忘。为克服这些挑战,我们采用了仅用额外参数训练的知识扩展策略。这种方法使模型能够在请求时生成故事和食谱,有效处理多个领域,同时避免灾难性遗忘。
研究背景
随着大规模语言模型的发展,如GPT-3和GPT-4,这些模型在不同领域的文本生成方面表现出色,但它们的高计算需求和资源密集型训练过程对许多应用来说存在实际限制。因此,研究者们对更小、更高效的模型产生了兴趣,这些模型能够在不需要大量计算资源的情况下执行特定任务。
问题与挑战
从不同的数据集生成特定领域的内容面临几个挑战,包括确保模型可以根据输入提示区分不同领域并相应产生相关内容,以及小型模型容易受到灾难性遗忘的影响。
如何解决
研究中采用了知识扩展策略:仅通过新增参数进行训练,不改变现有层的权重。这种方法允许模型在不擦除先前学习的信息的情况下学习新的领域特定知识。
创新点
- 展示了小型语言模型在特定领域数据集上的有效个体建模。
- 通过为特定数据集定制的分词器显著提高了文本生成质量。
- 分析了传统微调方法在小型模型多领域设置中的局限性。
- 提出了一种通过新增层来扩展知识的方法,有效使模型处理多个领域而不遗忘先前学习的信息。
算法模型
- 模型架构:基于Llama-2架构,针对两个数据集分别训练的模型。
- 知识扩展策略:在现有模型基础上增加新层,以适应新的数据集。
实验效果
- 定量评估:
- TinyStories LM:上下文长度350个token,最终损失0.7,困惑度2.01。
- Recipes LM:上下文长度350个token,最终损失0.77,困惑度2.15。
- 组合模型(22M参数):最终损失0.83,困惑度2.29,任务检测准确率94%。
- 组合模型(220M参数):最终损失0.71,困惑度2.03,任务检测准确率86%。
- 定性评估:
- TinyStories LM:连贯性4.7/5,相关性4.5/5,创造性4.6/5。
- Recipes LM:准确性4.8/5,结构性4.6/5,完整性4.5/5。
- 组合模型(22M参数):故事连贯性4.3/5,食谱结构性4.4/5,任务适当性93%。
重要数据与结论
小型语言模型通过定制分词器和知识扩展策略可以有效生成两个不同领域的内容,同时避免灾难性遗忘。
推荐阅读指数
★★★★☆
推荐理由
这篇文章为小型语言模型在处理多领域内容生成方面提供了有价值的见解和方法,特别是对于资源有限的环境。
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。