1. Evaluation of Large Language Models for Summarization Tasks in the Medical Domain: A Narrative Review
E Croxford, Y Gao, N Pellegrino, KK Wong, G Wills… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18170
大型语言模型在医学领域摘要任务的评估:一项叙述性综述
摘要
本文是一篇叙述性综述,旨在评估大型语言模型(LLMs)在临床摘要任务中的当前评估状态,并提出未来的方向,以解决专家人工评估的资源限制问题。
研究背景
大型语言模型(LLMs)在自然语言生成(NLG)领域取得了显著进展,尤其在医疗领域,LLMs有助于减轻医疗保健提供者的文档负担。然而,医学的高风险性质要求对LLMs的性能进行可靠评估,这仍然是一个挑战。
问题与挑战
在医学等高风险环境中应用LLMs的一个主要挑战是确保它们的性能得到可靠评估。现有的评估指标(如n-gram重叠和语义分数)对于医学领域的细微需求来说是不够的。
如何解决
文章提出了使用LLMs作为评估工具的概念,通过指令调整和强化学习与人类反馈(RLHF)的方法,使LLMs能够更精确地遵循评估标准。
创新点
- LLM作为评估者:提出使用LLMs作为人类专家评估的补充,通过模拟人类评估者的行为来进行评估。
- 指令调整:通过指令工程来调整LLMs,使其能够执行特定任务。
- 参数高效微调:使用量化和低秩适配器来微调模型,以嵌入任务特定知识。
算法模型
- BERTScore:用于评估文本生成质量的度量。
- 直接偏好优化(DPO):一种基于人类偏好的直接优化方法,用于微调LLMs。
实验效果
文章没有提供具体的实验数据,因为它是一篇叙述性回顾,而不是实验性研究。它讨论了评估LLMs的不同方法,并提出了未来研究的方向。
推荐阅读指数
7/10
推荐理由
这篇文章为理解LLMs在医学摘要任务中的评估挑战提供了全面的视角,并探讨了如何通过LLMs本身来改进评估过程。
2. Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing
HI Ashqar, A Jaber, TI Alhadidi, M Elhenawy - arXiv preprint arXiv:2409.18286, 2024
https://arxiv.org/abs/2409.18286
使用多模态大型语言模型(MLLMs)推进交通系统中的目标检测:一项全面回顾和实证测试
摘要
本研究旨在全面回顾和实证评估多模态大型语言模型(MLLMs)和大型视觉模型(VLMs)在交通系统目标检测中的应用。研究首先提供了MLLMs在交通应用中的潜在优势的背景,并回顾了先前研究中当前MLLM技术的有效性和局限性。然后提供了交通应用中端到端目标检测的分类法和未来方向的概述。在此基础之上,提出了对三个实际交通问题的MLLMs进行实证分析,包括道路安全属性提取、安全关键事件检测和热图像视觉推理。研究结果提供了对MLLM性能的详细评估,揭示了其优势和改进领域。
研究背景
目标检测在交通领域变得越来越重要,因为它对交通安全、效率至关重要。MLLMs代表了一种突破性进展,作为具有多模态数据处理能力的AI模型,能够处理和分析来自多个来源的数据,包括文本、图像、视频和传感器数据。
在这里插入图片描述
问题与挑战
现有的目标检测技术在效率和准确性方面存在局限性。特别是在复杂场景中,这些方法可能效率低下或缺乏必要的准确性。此外,传统目标检测算法通常使用水平边界框来标记图像中的物体,可能会导致准确性问题,并包含过多的背景信息。
如何解决
研究提出了使用MLLMs进行目标检测的方法,这些模型能够处理不同类型的数据,如图像、视频和文本,开辟了提高目标检测准确性和上下文感知的新途径。
创新点
- 多模态数据处理:MLLMs能够处理包括文本、图像、视频和传感器数据在内的多种数据类型。
- 零样本和少样本学习:MLLMs即使在训练数据不足的情况下也能表现出色,减少了对大量标注数据集的依赖。
- 实时推荐:MLLMs能够提供实时建议,提高了交通系统的效率和安全性。
算法模型
- MLLMs/VLMs:使用诸如GPT-4和Vision Transformer模型等大型语言模型进行目标检测。
- 零样本学习:在没有明确训练的情况下,利用MLLMs的基础知识和理解来生成准确的响应。
实验效果
- 道路安全属性提取:在11个选定的iRAP标准中,模型在8个属性上的准确度超过80%。
- 安全关键事件检测:Gemini-pro-vision 1.0在视频输入配置中表现优于其他配置,整体性能指标为74.67%。
- 热图像视觉推理:Gemini 1.0 Pro Vision在自行车、汽车和摩托车检测方面优于GPT-4 Vision Preview,而GPT-4 Vision Preview在行人检测方面表现更好。
推荐阅读指数
8/10
推荐理由
这篇文章为理解MLLMs在交通领域目标检测中的应用提供了全面的视角,并探讨了如何通过多模态数据流的集成来提高目标检测能力。对于对自然语言处理和计算机视觉领域感兴趣的研究人员和实践者来说,这是一篇值得阅读的文章。
3. Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
Y Chen, X Yue, X Gao, C Zhang, LF D’Haro, RT Tan… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.18680
超越单一音频:推进音频大型语言模型中的多音频处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-07(下)+https://developer.aliyun.com/article/1628945