计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(上)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20

1. Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation

Authors: Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta

Bhattacharya, 'Alvaro Fern’andez Garc’ia, Kailana Baker-Matsuoka, Sheryl

Mathew, Lori L. Holt, Fernando De la Torre

使用大型语言模型进行自然对话中的参与度预测的多模态融合

摘要

本文通过使用可穿戴计算设备(即“智能眼镜”),在自然对话中分析个体的非言语行为,以预测二人互动中的参与度。研究的目的是检测对话中的不感兴趣或困惑的迹象,以期提高对人类交流的理解,并在专业环境中促进更有效的协作,通过富有同情心的虚拟互动提供更好的心理健康支持,并增强沟通障碍者的可及性。研究收集了34名参与者在非正式对话中的多模态数据,并引入了一种使用大型语言模型(LLMs)的新融合策略,将多种行为模态整合到“多模态记录”中,用于行为推理任务。该方法即使在初步实施中也显示出与成熟融合技术相当的性能,显示出进一步研究和优化的潜力。

创新点

  • 提出了一种新颖的数据集,包含使用Pupil Invisible智能眼镜记录的自然、非剧本化的对话。
  • 引入了一种新的融合策略,使用大型语言模型(LLMs)作为推理引擎,将行为度量融合到多模态文本表示中。

算法模型

  • 使用了智能眼镜中的传感器(如场景摄像头、眼动追踪摄像头、麦克风和惯性测量单元)来捕捉人类行为。
  • 通过大型语言模型(如GPT-4)来模拟参与者,并回答会话结束时的参与度问卷,以此作为预测参与度的手段。

实验效果

  • 该方法在预测参与度方面达到了与成熟融合技术相当的性能。
  • 在预测具体回答和情感维度(如情感价值和唤醒度)方面,模型显示出与人类参与者回答的中等程度一致性。

推荐阅读指数

★★★★☆

推荐理由

这篇文章在多模态学习和情感计算领域提供了新的视角,特别是在使用大型语言模型来理解和预测人类行为方面。它不仅提出了一个新的数据集,而且还展示了一种创新的方法来分析和利用这些数据,对于希望在自然语言处理和人机交互领域进行创新的研究者来说,这是一篇值得阅读的文章。

2. Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison

Authors: Judy Hanwen Shen, Archit Sharma, Jun Qin

走向以数据为中心的RLHF:偏好数据集比较的简单指标

摘要

本文讨论了如何通过人类反馈进行强化学习(RLHF)来调整语言模型以符合人类偏好。理想情况下,应该为每个下游应用精心收集和定制偏好数据。然而,实践中,通常使用少数公开的偏好数据集来训练RLHF的奖励模型。尽管新的偏好数据集不断被引入,但目前还没有系统的努力来衡量和比较这些数据集。本文从规模、标签噪声和信息内容三个角度系统地研究偏好数据集,并提出了针对这些角度的具体指标,以更好地理解偏好数据集。

创新点

  • 提出了一种新的数据为中心的方法来比较和理解偏好数据集。
  • 引入了有效样本大小、噪声不变性和信息内容三个新的度量指标。
  • 通过实验验证了这些度量指标与后续奖励模型性能之间的联系。

算法模型

  • 研究了四个公开的偏好数据集:Anthropic Helpful-Harmless (HH-RLHF)、Ultrafeedback (ULTRAFEEDBACK)、LMSYS Arena Preferences (LMSYS) 和 PKU-SafeRLHF (SAFERLHF)。
  • 使用了不同大小的预训练模型来训练奖励模型,包括350百万、10亿和70亿参数的模型。
  • 采用了标准的奖励模型训练目标函数,并通过引入标签噪声来研究模型的鲁棒性。

实验效果

  • 通过实验发现,更大的数据集并不总是比更小但与任务更相关的数据集更好。
  • 所有研究的偏好数据集都显示出极高的噪声不变性,即使在30-40%的标签被翻转时,性能也保持不变。
  • 偏好数据集中响应对的相似性分布差异很大,使用高信息或响应对差异性较大的训练样本的性能提升取决于底层奖励模型。

推荐阅读指数

★★★★☆

推荐理由

这篇文章为理解和改进用于人类反馈强化学习的偏好数据集提供了新的视角和工具。

3. Automatic Control With Human-Like Reasoning: Exploring Language Model Embodied Air Traffic Agents

Authors: Justas Andriu\v{s}kevi\v{c}ius, Junzi Sun

具有类人推理能力的自动控制:探索语言模型体现的空中交通代理

摘要:

本文探讨了在空管领域中应用大型语言模型(LLM)作为体现代理的可能性,这些代理能够自动解决空中交通冲突并提供类似人类的决策解释。研究的主要组成部分包括基础的大型语言模型、允许代理与模拟器交互的工具,以及一个新概念——经验库。经验库是一个向量数据库,存储代理从与模拟器和语言模型的交互中学到的综合知识。研究评估了基于语言模型的代理在解决空中交通冲突中的有效性,并详细讨论了采用类人推理能力辅助空中交通管制员的方法的局限性和潜力。

创新点:

  • 提出了一种新的方法,使用大型语言模型作为体现代理来解决空中交通冲突。
  • 引入了“经验库”这一概念,这是一个存储代理从模拟交互中学习到的知识的向量数据库。
  • 展示了代理能够提供人类水平的文本解释,说明交通情况和冲突解决策略。

算法模型:

  • 使用了基础的大型语言模型,如Llama3:7B、Llama3:70B、Mixtral 8x7b、gemma2:9b-it和GPT-4o。
  • 开发了与BlueSky模拟器交互的工具,包括获取所有飞机信息、获取冲突信息、持续监控、发送命令和搜索经验库等。
  • 设计了单一代理和多代理系统,以及一个由规划者、执行者和验证者组成的复杂系统。

实验效果:

  • 在120个不同的冲突场景中测试了不同配置的代理,包括两种和四种飞机的冲突。
  • 最佳配置(使用GPT-4o模型和经验库的单一代理)能够解决几乎所有的冲突场景,成功率达到99%。
  • 多代理系统在解决冲突方面也表现出色,即使是开源的Llama3:70B模型也表现出了高成功率。

推荐阅读指数

★★★★☆

推荐理由

这篇文章在将大型语言模型应用于空中交通管理领域方面提供了创新的思路和方法。它不仅展示了语言模型在理解和生成类似人类文本方面的潜力,还探索了如何将这些模型转化为能够在复杂环境中进行决策的智能代理。此外,通过引入经验库的概念,文章还为如何利用历史数据来提高代理性能提供了有价值的见解。

4. ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework

Authors: Jiahao Yuan, Zixiang Di, Zhiqing Cui, Guisong Yang, Usman Naseem

ReflectDiffu:通过强化学习-扩散框架在情感-意图传染与模仿之间进行反思,以生成同理心响应

摘要:

本文提出了一个名为ReflectDiffu的轻量级框架,用于生成富有同理心的响应。该框架结合了情感传染和意图模仿,通过一个反思机制来增强情感表达,并使用情感推理掩码来识别关键的情感元素。此外,它在强化学习过程中整合了意图模仿,以在扩散过程中进行精细化调整。通过探索-采样-纠正机制,ReflectDiffu能够将情感决策转化为精确的意图行动,从而解决由于情感误识别导致的同理心响应错位问题。通过反思,该框架将情感状态映射到意图上,显著提高了响应的同理心和灵活性。全面的实验表明,ReflectDiffu在相关性、可控性和信息丰富度方面超越了现有模型,并且在自动和人类评估中都取得了最先进的结果。

创新点:

  • 提出了ReflectDiffu框架,该框架利用情感传染和意图模仿来生成同理心响应。
  • 引入了“意图两次”机制,即探索-采样-纠正过程,以最小化由情感误识别引起的同理心响应错位。
  • 利用大型语言模型(LLMs)扩展了情感推理、情感预测、意图预测和同理心对话生成的多任务数据集。

算法模型:

  • 情感传染编码器:增强了情感推理注释器,以改善语义理解。
  • 理性响应生成解码器:通过意图探索-采样-纠正机制,模仿人类反思式对话行为,增强同理心。
  • 多任务学习:结合了情感原因掩码、情感预测、意图预测和同理心对话生成的任务。

实验效果:

  • 在EMPATHETICDIALOGUES数据集上进行了评估,与多个基线模型相比,ReflectDiffu在相关性、可控性和信息丰富度方面表现更好。
  • 在自动评估中,ReflectDiffu在BLEU-1、BLEU-2、BLEU-3、BLEU-4、BARTScore、情感准确度、意图准确度、Distinct-1、Distinct-2和Perplexity等指标上均优于现有模型。
  • 在人类评估中,ReflectDiffu在同理心、相关性和流畅性方面均优于基线模型。

推荐阅读指数

★★★★☆

推荐理由:

这篇文章提出了一个创新的框架,用于生成具有同理心的对话响应。它通过结合情感理解和意图预测,提高了对话系统的自然性和人性化。此外,该研究在自动和人类评估中都显示出了显著的性能提升,对于希望在对话系统、情感计算和人工智能领域进行创新的研究者来说,这是一篇值得阅读的文章。

5. Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases

Authors: Mercy Asiedu, Nenad Tomasev, Chintan Ghate, Tiya Tiyasirichokchai, Awa

Dieng, Oluwatosin Akande, Geoffrey Siwo, Steve Adudans, Sylvanus Aitkins,

Odianosen Ehiakhamen, Katherine Heller

针对热带和传染病分类的大型语言模型的情境评估

摘要

本文探讨了大型语言模型(LLMs)在医疗问答中的潜力,尤其是在热带和传染病领域的应用。研究团队基于开源的热带和传染病(TRINDs)数据集,扩展了包含人口统计学和语义临床信息的11000多个提示。通过系统实验,研究了上下文信息(如人口统计学、地理位置、性别、风险因素)对LLM响应的益处。此外,开发了一个名为TRINDs-LM的原型工具,用于展示上下文如何影响LLM在健康领域的输出。

创新点

  1. 扩展了现有的TRINDs数据集,增加了人口统计学和语义临床信息。
  2. 对一般和专业医疗LLMs进行了比较,并与人类专家的评估结果进行了对比。
  3. 通过不同上下文和反事实位置的评估,理解了LLM性能的影响。
  4. 开发了TRINDs-LM工具,为研究者提供了一个平台,用于研究上下文如何影响LLM在健康领域的输出。

算法模型

  • 使用了两个基线模型:Gemini Ultra(通用大型语言模型)和MedLM Medium(专门针对健康领域的LLM)。
  • 通过提供指令和示例来引导模型输出,进行了提示调整(prompt-tuning)。
  • 开发了自动化评分器,通过LLM来确定输出的准确性。

实验效果

  • Gemini Ultra在原始临床角色上的准确率为61.5%,而MedLM为47.9%。
  • 在包含症状、位置和风险因素的完整角色中,模型表现最佳。
  • 在反事实输入(如不同地理位置、种族、性别)的测试中,模型性能略有下降,但整体趋势稳定。
  • 通过多样本提示调整,模型在不同人群、地点和问题风格上的表现有所提高。

推荐阅读指数

★★☆☆☆

推荐理由

  • 跨学科价值:该研究结合了医学、公共卫生和人工智能领域,对于希望了解如何将LLM应用于医疗诊断的研究人员和实践者具有吸引力。
  • 数据集扩展:通过扩展数据集,该研究为未来在热带和传染病领域的LLM研究提供了更丰富的资源。
  • 工具开发:TRINDs-LM工具的开发为研究人员提供了一个实用的平台,用于进一步探索和验证LLM在医疗领域的应用。
  • 实际应用潜力:研究结果表明,通过适当的上下文信息和模型调整,LLMs在医疗诊断中的准确性和适用性可以得到显著提升,这对于医疗资源有限的地区尤其有价值。


计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(下)+


目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能技术介绍
【10月更文挑战第14天】 人工智能技术介绍
|
1天前
|
机器学习/深度学习 人工智能 供应链
探索未来技术前沿:人工智能与区块链的融合创新
【10月更文挑战第14天】 探索未来技术前沿:人工智能与区块链的融合创新
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
17 2
|
2天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
7 0
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
11 0
|
15天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
2天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
10天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
5天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
6天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。