计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20（上）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20

1. Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation

Authors: Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta

Bhattacharya, 'Alvaro Fern’andez Garc’ia, Kailana Baker-Matsuoka, Sheryl

Mathew, Lori L. Holt, Fernando De la Torre

使用大型语言模型进行自然对话中的参与度预测的多模态融合

摘要：

本文通过使用可穿戴计算设备（即“智能眼镜”），在自然对话中分析个体的非言语行为，以预测二人互动中的参与度。研究的目的是检测对话中的不感兴趣或困惑的迹象，以期提高对人类交流的理解，并在专业环境中促进更有效的协作，通过富有同情心的虚拟互动提供更好的心理健康支持，并增强沟通障碍者的可及性。研究收集了34名参与者在非正式对话中的多模态数据，并引入了一种使用大型语言模型（LLMs）的新融合策略，将多种行为模态整合到“多模态记录”中，用于行为推理任务。该方法即使在初步实施中也显示出与成熟融合技术相当的性能，显示出进一步研究和优化的潜力。

创新点：

提出了一种新颖的数据集，包含使用Pupil Invisible智能眼镜记录的自然、非剧本化的对话。
引入了一种新的融合策略，使用大型语言模型（LLMs）作为推理引擎，将行为度量融合到多模态文本表示中。

算法模型：

使用了智能眼镜中的传感器（如场景摄像头、眼动追踪摄像头、麦克风和惯性测量单元）来捕捉人类行为。
通过大型语言模型（如GPT-4）来模拟参与者，并回答会话结束时的参与度问卷，以此作为预测参与度的手段。

实验效果：

该方法在预测参与度方面达到了与成熟融合技术相当的性能。
在预测具体回答和情感维度（如情感价值和唤醒度）方面，模型显示出与人类参与者回答的中等程度一致性。

推荐阅读指数：

★★★★☆

推荐理由：

这篇文章在多模态学习和情感计算领域提供了新的视角，特别是在使用大型语言模型来理解和预测人类行为方面。它不仅提出了一个新的数据集，而且还展示了一种创新的方法来分析和利用这些数据，对于希望在自然语言处理和人机交互领域进行创新的研究者来说，这是一篇值得阅读的文章。

2. Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison

Authors: Judy Hanwen Shen, Archit Sharma, Jun Qin

走向以数据为中心的RLHF：偏好数据集比较的简单指标

摘要：

本文讨论了如何通过人类反馈进行强化学习（RLHF）来调整语言模型以符合人类偏好。理想情况下，应该为每个下游应用精心收集和定制偏好数据。然而，实践中，通常使用少数公开的偏好数据集来训练RLHF的奖励模型。尽管新的偏好数据集不断被引入，但目前还没有系统的努力来衡量和比较这些数据集。本文从规模、标签噪声和信息内容三个角度系统地研究偏好数据集，并提出了针对这些角度的具体指标，以更好地理解偏好数据集。

创新点：

提出了一种新的数据为中心的方法来比较和理解偏好数据集。
引入了有效样本大小、噪声不变性和信息内容三个新的度量指标。
通过实验验证了这些度量指标与后续奖励模型性能之间的联系。

算法模型：

研究了四个公开的偏好数据集：Anthropic Helpful-Harmless (HH-RLHF)、Ultrafeedback (ULTRAFEEDBACK)、LMSYS Arena Preferences (LMSYS) 和 PKU-SafeRLHF (SAFERLHF)。
使用了不同大小的预训练模型来训练奖励模型，包括350百万、10亿和70亿参数的模型。
采用了标准的奖励模型训练目标函数，并通过引入标签噪声来研究模型的鲁棒性。

实验效果：

通过实验发现，更大的数据集并不总是比更小但与任务更相关的数据集更好。
所有研究的偏好数据集都显示出极高的噪声不变性，即使在30-40%的标签被翻转时，性能也保持不变。
偏好数据集中响应对的相似性分布差异很大，使用高信息或响应对差异性较大的训练样本的性能提升取决于底层奖励模型。

推荐阅读指数：

★★★★☆

推荐理由：

这篇文章为理解和改进用于人类反馈强化学习的偏好数据集提供了新的视角和工具。

3. Automatic Control With Human-Like Reasoning: Exploring Language Model Embodied Air Traffic Agents

Authors: Justas Andriu\v{s}kevi\v{c}ius, Junzi Sun

具有类人推理能力的自动控制：探索语言模型体现的空中交通代理

摘要：

本文探讨了在空管领域中应用大型语言模型（LLM）作为体现代理的可能性，这些代理能够自动解决空中交通冲突并提供类似人类的决策解释。研究的主要组成部分包括基础的大型语言模型、允许代理与模拟器交互的工具，以及一个新概念——经验库。经验库是一个向量数据库，存储代理从与模拟器和语言模型的交互中学到的综合知识。研究评估了基于语言模型的代理在解决空中交通冲突中的有效性，并详细讨论了采用类人推理能力辅助空中交通管制员的方法的局限性和潜力。

创新点：

提出了一种新的方法，使用大型语言模型作为体现代理来解决空中交通冲突。
引入了“经验库”这一概念，这是一个存储代理从模拟交互中学习到的知识的向量数据库。
展示了代理能够提供人类水平的文本解释，说明交通情况和冲突解决策略。

算法模型：

使用了基础的大型语言模型，如Llama3:7B、Llama3:70B、Mixtral 8x7b、gemma2:9b-it和GPT-4o。
开发了与BlueSky模拟器交互的工具，包括获取所有飞机信息、获取冲突信息、持续监控、发送命令和搜索经验库等。
设计了单一代理和多代理系统，以及一个由规划者、执行者和验证者组成的复杂系统。

实验效果：

在120个不同的冲突场景中测试了不同配置的代理，包括两种和四种飞机的冲突。
最佳配置（使用GPT-4o模型和经验库的单一代理）能够解决几乎所有的冲突场景，成功率达到99%。
多代理系统在解决冲突方面也表现出色，即使是开源的Llama3:70B模型也表现出了高成功率。

推荐阅读指数：

★★★★☆

推荐理由：

这篇文章在将大型语言模型应用于空中交通管理领域方面提供了创新的思路和方法。它不仅展示了语言模型在理解和生成类似人类文本方面的潜力，还探索了如何将这些模型转化为能够在复杂环境中进行决策的智能代理。此外，通过引入经验库的概念，文章还为如何利用历史数据来提高代理性能提供了有价值的见解。

4. ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework

Authors: Jiahao Yuan, Zixiang Di, Zhiqing Cui, Guisong Yang, Usman Naseem

ReflectDiffu：通过强化学习-扩散框架在情感-意图传染与模仿之间进行反思，以生成同理心响应

摘要：

本文提出了一个名为ReflectDiffu的轻量级框架，用于生成富有同理心的响应。该框架结合了情感传染和意图模仿，通过一个反思机制来增强情感表达，并使用情感推理掩码来识别关键的情感元素。此外，它在强化学习过程中整合了意图模仿，以在扩散过程中进行精细化调整。通过探索-采样-纠正机制，ReflectDiffu能够将情感决策转化为精确的意图行动，从而解决由于情感误识别导致的同理心响应错位问题。通过反思，该框架将情感状态映射到意图上，显著提高了响应的同理心和灵活性。全面的实验表明，ReflectDiffu在相关性、可控性和信息丰富度方面超越了现有模型，并且在自动和人类评估中都取得了最先进的结果。

创新点：

提出了ReflectDiffu框架，该框架利用情感传染和意图模仿来生成同理心响应。
引入了“意图两次”机制，即探索-采样-纠正过程，以最小化由情感误识别引起的同理心响应错位。
利用大型语言模型（LLMs）扩展了情感推理、情感预测、意图预测和同理心对话生成的多任务数据集。

算法模型：

情感传染编码器：增强了情感推理注释器，以改善语义理解。
理性响应生成解码器：通过意图探索-采样-纠正机制，模仿人类反思式对话行为，增强同理心。
多任务学习：结合了情感原因掩码、情感预测、意图预测和同理心对话生成的任务。

实验效果：

在EMPATHETICDIALOGUES数据集上进行了评估，与多个基线模型相比，ReflectDiffu在相关性、可控性和信息丰富度方面表现更好。
在自动评估中，ReflectDiffu在BLEU-1、BLEU-2、BLEU-3、BLEU-4、BARTScore、情感准确度、意图准确度、Distinct-1、Distinct-2和Perplexity等指标上均优于现有模型。
在人类评估中，ReflectDiffu在同理心、相关性和流畅性方面均优于基线模型。

推荐阅读指数：

★★★★☆

推荐理由：

这篇文章提出了一个创新的框架，用于生成具有同理心的对话响应。它通过结合情感理解和意图预测，提高了对话系统的自然性和人性化。此外，该研究在自动和人类评估中都显示出了显著的性能提升，对于希望在对话系统、情感计算和人工智能领域进行创新的研究者来说，这是一篇值得阅读的文章。

5. Contextual Evaluation of Large Language Models for Classifying Tropical and Infectious Diseases

Authors: Mercy Asiedu, Nenad Tomasev, Chintan Ghate, Tiya Tiyasirichokchai, Awa

Dieng, Oluwatosin Akande, Geoffrey Siwo, Steve Adudans, Sylvanus Aitkins,

Odianosen Ehiakhamen, Katherine Heller

针对热带和传染病分类的大型语言模型的情境评估

摘要

本文探讨了大型语言模型（LLMs）在医疗问答中的潜力，尤其是在热带和传染病领域的应用。研究团队基于开源的热带和传染病（TRINDs）数据集，扩展了包含人口统计学和语义临床信息的11000多个提示。通过系统实验，研究了上下文信息（如人口统计学、地理位置、性别、风险因素）对LLM响应的益处。此外，开发了一个名为TRINDs-LM的原型工具，用于展示上下文如何影响LLM在健康领域的输出。

创新点

扩展了现有的TRINDs数据集，增加了人口统计学和语义临床信息。
对一般和专业医疗LLMs进行了比较，并与人类专家的评估结果进行了对比。
通过不同上下文和反事实位置的评估，理解了LLM性能的影响。
开发了TRINDs-LM工具，为研究者提供了一个平台，用于研究上下文如何影响LLM在健康领域的输出。

算法模型

使用了两个基线模型：Gemini Ultra（通用大型语言模型）和MedLM Medium（专门针对健康领域的LLM）。
通过提供指令和示例来引导模型输出，进行了提示调整（prompt-tuning）。
开发了自动化评分器，通过LLM来确定输出的准确性。

实验效果

Gemini Ultra在原始临床角色上的准确率为61.5%，而MedLM为47.9%。
在包含症状、位置和风险因素的完整角色中，模型表现最佳。
在反事实输入（如不同地理位置、种族、性别）的测试中，模型性能略有下降，但整体趋势稳定。
通过多样本提示调整，模型在不同人群、地点和问题风格上的表现有所提高。

推荐阅读指数：

★★☆☆☆

推荐理由

跨学科价值：该研究结合了医学、公共卫生和人工智能领域，对于希望了解如何将LLM应用于医疗诊断的研究人员和实践者具有吸引力。
数据集扩展：通过扩展数据集，该研究为未来在热带和传染病领域的LLM研究提供了更丰富的资源。
工具开发：TRINDs-LM工具的开发为研究人员提供了一个实用的平台，用于进一步探索和验证LLM在医疗领域的应用。
实际应用潜力：研究结果表明，通过适当的上下文信息和模型调整，LLMs在医疗诊断中的准确性和适用性可以得到显著提升，这对于医疗资源有限的地区尤其有价值。

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20（下）+

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20（上）