计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05(上)+https://developer.aliyun.com/article/1628937


问题与挑战

尽管LLMs在许多应用中得到扩展,但它们在处理信息时存在某些盲点,显著影响其性能。尤其是这些模型如何在上下文中处理信息并检索相关数据以解决手头任务,这仍然是一个研究的活跃领域。

如何解决

文章通过实验发现,在需要跨子图信息查找的任务中,模型性能不仅因为基于绝对位置的“迷失在中间”效应而下降,而且还受到上下文中信息片段之间相对距离的影响,即“迷失在远距离”现象。

创新点

  • 提出了“迷失在远距离”现象,区分于之前研究中提出的“迷失在中间”现象。
  • 证明了在图任务中,模型性能不仅受信息绝对位置的影响,还受到信息之间相对距离的影响。
  • 在不同的图编码算法和各种公开可用的LLMs上验证了这一现象,表明这是当前架构的一个普遍限制。

算法模型

文章中没有明确提出新的算法模型,而是使用了现有的三个大型语言模型:Llama-3-8B、Llama-3-70B和GPT-4,并采用了不同的图编码技术来表示图结构。

实验效果

  • 在图任务中,模型的准确性随着节点连接之间的距离增加而显著下降。
  • 在“共同连接”任务中,当相关信息在上下文中的距离增加时,模型性能下降。
  • 在“相似性”任务中,需要进行多次交叉引用操作,性能下降更为明显。
  • 实验结果表明,即使控制了相关信息的绝对位置,模型性能仍然受到“迷失在远距离”现象的影响。

重要数据与结论

  • 在“共同连接”任务中,当两个节点的共同连接信息之间的距离增加时,模型的准确性显著下降。
  • 在“相似性”任务中,模型需要执行两次共同连接任务和一次比较任务,性能下降更为明显。
  • 模型准确性可能因为“迷失在远距离”现象而下降高达6倍。

推荐阅读指数

★★★★☆

推荐理由

这篇文章对于理解大型语言模型在处理图结构数据时的局限性具有重要意义。它揭示了在复杂任务中,信息的相对位置对模型性能有显著影响,这对于设计更好的图算法和改进LLMs的上下文处理能力具有启发作用。

3. Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics

Authors: Yuan Zhou, Peng Zhang, Mengya Song, Alice Zheng, Yiwen Lu, Zhiheng

Liu, Yong Chen, Zhaohan Xi

https://arxiv.org/abs/2410.02026

ZODIAC:用于多代理诊断的心脏病专家级LLM框架

摘要

大型语言模型(LLMs)在医疗保健领域取得了显著进展,但它们在特定临床实践中的专业程度仍存在显著差距,限制了它们在现实世界诊断中的应用。在本项工作中,我们介绍了ZODIAC,这是一个具有心脏病专家级专业水平的LLM驱动框架,旨在让LLMs参与心脏诊断。ZODIAC通过从患者数据中提取临床相关特征、检测显著心律失常并生成初步报告来协助心脏病专家,这些报告随后由心脏病专家进行审查和完善。为了达到心脏病专家级的专业水平,ZODIAC建立在多代理协作框架上,能够处理患者的多种数据。每个LLM代理都使用心脏病专家判定的真实患者数据进行微调,增强了模型的专业水平。ZODIAC通过了独立心脏病专家的严格临床验证,并在八个指标上进行了评估,这些指标衡量了临床效果并解决了安全问题。结果显示,ZODIAC的表现优于行业领先的模型,包括OpenAI的GPT-4o、Meta的Llama-3.1-405B和Google的Gemini-pro,以及像Microsoft的BioGPT这样的医疗专家LLM。ZODIAC展示了专业LLM在医疗保健中的变革潜力,通过提供满足医疗实践严格要求的特定领域解决方案。值得注意的是,ZODIAC已成功集成到心电图(ECG)设备中,这代表了将LLMs嵌入到软件即医疗设备(SaMD)中的日益增长的趋势。

研究背景

随着技术不断革新医疗保健领域,人工智能(AI)已成为医疗设备中的关键组成部分,推动了临床实践中数字健康的发展。在最有前景的AI进展中,大型语言模型(LLMs)在数字健康中开辟了新的可能性。随着人类般的对话技巧和广泛的预训练知识,LLMs越来越多地被行业领导者作为临床支持工具采用,发展成为专门的临床代理。

问题与挑战

尽管取得了这些进展,将LLMs整合到现实世界的医疗保健实践中仍处于初期阶段,它们在专业性方面存在显著差距。弥合这些差距至关重要,尤其是在部署受FDA软件即医疗设备(SaMD)法规管辖的医疗保健环境中。

如何解决

本研究旨在解决将LLMs与心脏学领域的SaMD实践对齐的挑战,专注于心电图(ECGs)的临床发现和解释。我们介绍了ZODIAC,这是一个旨在实现心脏病专家级专业性的LLM驱动的多代理框架。

创新点

  • 多代理协作框架:ZODIAC利用多个LLM代理分析多模态患者数据,包括表格格式的临床指标和图像格式的ECG追踪。
  • 数据驱动的专业主义:ZODIAC建立在真实世界的数据之上,包括来自诊所的患者数据、心脏病专家判定的文本和临床实践指南。
  • 技术驱动的专业主义:ZODIAC的技术设计符合心脏病专家级的诊断实践。

算法模型

ZODIAC由三个代理组成:

  1. 指标到发现代理(θM2F):一个表格到文本的LLM,从表格指标(M)中提取关键特征,同时结合B中的患者生物统计数据生成临床发现。
  2. 追踪到发现代理(θT2F):一个图像到文本的LLM,从ECG追踪(T)中识别关键因素,整合B中的相关信息,并产生临床发现。
  3. 发现到解释代理(θF2I):一个基于文本的LLM,将两个代理的发现(F)综合起来,应用临床指南(G),生成解释(I)。

实验效果

  • 临床验证:ZODIAC通过与独立心脏病专家的合作进行了严格的临床验证,评估了其在八个指标上的临床效果和安全性。
  • 性能比较:ZODIAC在所有评估指标上均优于其他领先的LLMs,包括GPT-4o、Gemini-Pro、Llama-3.1-405B和BioGPT等。

重要数据与结论

  • ZODIAC在准确性、完整性、组织性、可理解性和简洁性等临床领域指标上均优于其他模型。
  • 在安全性领域,ZODIAC在一致性、无幻觉和无偏见等指标上也展现出卓越的性能。

推荐阅读指数

★★★★★

推荐理由

这篇文章介绍了一个创新的LLM框架ZODIAC,它在心脏诊断领域达到了心脏病专家的专业水平。ZODIAC的成功展示了LLM在医疗保健领域的巨大潜力,特别是在提高临床诊断的效率和准确性方面。此外,ZODIAC的多代理架构和严格的临床验证过程为未来LLM在医疗领域的应用提供了宝贵的经验和模式。

4. Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments

Authors: Amogh Mannekote, Adam Davies, Jina Kang, Kristy Elizabeth Boyer

https://arxiv.org/abs/2410.02110

LLMs能否可靠地模拟人类学习者行为?开放式学习环境的仿真授权框架

摘要

模拟学习者行为有助于在部署前对开放式交互式学习环境进行压力测试,并原型化新的适应性调整。尽管最近的研究表明,使用大型语言模型(LLMs)模拟人类行为具有潜力,但此类方法由于关键限制尚未超越初步的概念验证阶段。首先,LLMs对微小的提示变化非常敏感,这让人怀疑它们在没有广泛的提示工程的情况下能否泛化到新场景。此外,表面上成功的结果往往是不可靠的,要么是因为领域专家无意中引导LLMs产生预期结果,导致自我实现的预言;要么是因为LLM在其训练数据中遇到了非常相似的场景,这意味着模型可能不是在模拟行为,而是在复述记忆内容。为了应对这些挑战,我们提出了HYP-MIX,一个仿真授权框架,允许专家通过结合关于学习者行为的可测试假设来开发和评估仿真。在物理学习环境中测试此框架时,我们发现GPT-4 Turbo即使在底层学习者模型发生变化时也能保持校准行为,为LLMs能够用于模拟开放式交互式学习环境中的真实行为提供了第一个证据,这是有用LLM行为仿真的先决条件。

研究背景

开放式交互式学习环境提供了独特的教育价值,提供了可定制和动态的空间,让学习者可以探索、实验和构建知识。然而,开发这些环境是具有挑战性的,它不仅需要创建教学内容,还需要为知识水平和心理特征各异的学习者适应学习体验的机制。

问题与挑战

开发这些环境需要一个迭代过程,在理论最佳实践与实际需求之间不断进行平衡。此外,开发仿真在冷启动阶段是具有挑战性的,因为在新环境中缺乏真实学习者数据。这种稀缺性阻止了纯粹的数据驱动方法,需要依赖于类似研究的日志数据、学习科学理论的预测、教师经验和专家直觉。

如何解决

文章提出了HYP-MIX框架,通过结合关于学习者行为的可测试假设来创建和评估仿真。该框架允许专家开发和评估仿真,同时提供了一种平衡的专家知识和自动化推理的集成。

创新点

  • HYP-MIX框架:提供了一个系统化的仿真授权框架,用于将专家知识整合到基于LLM的学习者行为仿真中。
  • 边际分布假设(MDHyps):作为仿真评估和创作的基础,提供了一个明确的、统计上关于仿真在新仿真场景中的鲁棒性和泛化能力的定义。

算法模型

HYP-MIX框架的核心是MDHyps,它关注于一个学习者特征与特定行为之间的概率分布关系。这些假设可以在多次仿真运行中通过分析结果分布进行测试。

实验效果

  • 在HypoOrbits环境中,GPT-4 Turbo在底层学习者模型发生变化时仍能保持校准行为。
  • 在18种情况下,有16种情况GPT-4 Turbo能够泛化到新的学习者模型和特征,而无需重新校准。

重要数据与结论

  • GPT-4 Turbo在大多数情况下能够保持对学习者行为的模拟校准,表明LLMs有潜力用于行为仿真。
  • 该研究为使用MDHyps作为仿真创作的单位提供了基础,并为未来扩展到更复杂的环境和学习者特征奠定了基础。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一个创新的框架,用于在开放式学习环境中模拟学习者行为。研究结果表明,现有的LLMs有可能被用于模拟真实行为,这对于教育技术的发展和智能辅导系统的创建具有重要意义。

5. From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities

Authors: Wanpeng Zhang, Zilong Xie, Yicheng Feng, Yijiang Li, Xingrun Xing,

Sipeng Zheng, Zongqing Lu

https://arxiv.org/abs/2410.02155

从像素到标记:在量化视觉模态上应用字节对编码

摘要

多模态大型语言模型(MLLMs)在整合视觉和文本信息方面取得了显著进展,但它们通常难以有效地对齐这些模态。我们介绍了一种新颖的图像标记器,通过将字节对编码(BPE)原理应用于视觉数据,从而弥合了这一差距。与传统方法不同,我们的方法直接将结构先验信息纳入图像标记,这类似于文本大型语言模型中成功的标记策略。这种创新方法使Transformer模型能够更有效地跨模态学习和推理。通过理论分析和广泛的实验,我们证明了我们的BPE图像标记器显著增强了MLLMs的多模态理解能力,即使是在有限的训练数据下。我们的方法不仅提高了各种基准测试的性能,还显示出有希望的可扩展性,可能为更有效和强大的多模态基础模型铺平了道路。

研究背景

多模态大型语言模型(MLLMs)的发展取得了显著进展,但这些多模态基础模型通常分别对不同模态进行建模,并采用许多模态特定的设计,如专门的编码器和解码器。这种方法虽然允许训练数据与这些模态特定设计很好地对齐,但在实现对多模态信息的统一理解方面常常遇到困难。

问题与挑战

现有的MLLMs在处理视觉数据时,往往需要依赖于专门的解码器来解释编码器提供的嵌入,这导致LLMs需要重新学习如何解释标记嵌入,从而难以与这些模态对齐。

如何解决

文章提出了一种新的学习范式,通过使用新颖的BPE图像标记器对多模态数据的统一表示进行标记化,使Transformer模型能够更好地理解图像数据。

创新点

  • BPE图像标记器:首次提出显式地对多模态数据进行标记化的MLLM学习新范式。
  • 理论分析:提供了为何这种学习范式能带来好处的理论分析,并提供了相应的实验验证。
  • 算法设计:设计了训练BPE图像标记器的算法,并训练了带有此标记器的MLLM。

算法模型

  • 图像表示和量化:将图像表示为一系列图像块的集合,使用向量量化(VQ)将这些图像块量化。
  • BPE图像标记器:将量化后的图像转换为一系列标记ID。
  • 单字模型:定义了给定标记序列的概率。
  • 多模态大型语言模型(MLLM):定义了一个能够处理文本和图像数据的概率模型。

实验效果

  • VQAv2:视觉问题回答
  • MMBench:多模态理解
  • MME:多模态评估
  • POPE:对象幻觉评估
  • VizWiz:针对视力障碍用户的视觉问题回答

实验结果表明,BPE图像标记器显著提高了MLLMs的多模态理解能力,甚至在有限的训练数据下也实现了性能提升。

重要数据与结论

  • 两阶段训练:先进行图像理解预训练(PT),然后进行全参数微调(SFT)。
  • 数据扩展:通过增加训练数据量,模型性能持续提升,显示出方法的可扩展性。
  • 词汇量影响:BPE词汇量的大小对模型性能有显著影响,适中的词汇量(如8K)最有利于学习。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种新的多模态数据标记化方法,通过将字节对编码(BPE)应用于图像数据,显著提高了多模态大型语言模型的性能。该方法不仅提高了模型在多个基准测试中的性能,还显示出良好的可扩展性,为未来构建更强大的多模态基础模型提供了新的思路。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
16 2
|
1天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
7 0
|
14天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
1天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
9天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
4天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
5天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。
|
7天前
|
机器学习/深度学习 算法 5G
基于BP神经网络的CoSaMP信道估计算法matlab性能仿真,对比LS,OMP,MOMP,CoSaMP
本文介绍了基于Matlab 2022a的几种信道估计算法仿真,包括LS、OMP、NOMP、CoSaMP及改进的BP神经网络CoSaMP算法。各算法针对毫米波MIMO信道进行了性能评估,通过对比不同信噪比下的均方误差(MSE),展示了各自的优势与局限性。其中,BP神经网络改进的CoSaMP算法在低信噪比条件下表现尤为突出,能够有效提高信道估计精度。
20 2
|
16天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
该算法结合了遗传算法(GA)与分组卷积神经网络(GroupCNN),利用GA优化GroupCNN的网络结构和超参数,提升时间序列预测精度与效率。遗传算法通过模拟自然选择过程中的选择、交叉和变异操作寻找最优解;分组卷积则有效减少了计算成本和参数数量。本项目使用MATLAB2022A实现,并提供完整代码及视频教程。注意:展示图含水印,完整程序运行无水印。
|
15天前
|
算法 决策智能
基于禁忌搜索算法的VRP问题求解matlab仿真,带GUI界面,可设置参数
该程序基于禁忌搜索算法求解车辆路径问题(VRP),使用MATLAB2022a版本实现,并带有GUI界面。用户可通过界面设置参数并查看结果。禁忌搜索算法通过迭代改进当前解,并利用记忆机制避免陷入局部最优。程序包含初始化、定义邻域结构、设置禁忌列表等步骤,最终输出最优路径和相关数据图表。