计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19(上)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19

1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen

SAM4MLLM: 增强多模态大型语言模型以进行指代表达式分割

摘要:

本文介绍了一种创新方法SAM4MLLM,它将Segment Anything Model (SAM)与多模态大型语言模型(MLLMs)相结合,用于像素级感知任务。该方法使MLLMs能够学习像素级位置信息,而无需对现有模型架构进行大量修改或添加专门的标记。通过基于询问的方法,可以有效地找到SAM进行分割的提示点。该方法结合了详细的视觉信息和大型语言模型的强大表达能力,以统一的基于语言的方式进行,无需额外的计算开销。在公共基准测试上的实验结果证明了该方法的有效性。

创新点:

  1. 提出了一种简单的解决方案,通过不改变MLLM模型架构、引入新标记或使用额外损失函数,增强MLLM对像素级细节的理解。
  2. 引入了一种新的方法,通过主动查询语言系统来获取SAM的提示点线索。
  3. 在各种RES基准测试中,包括RES数据集、GRES和ReasonSeg,验证了SAM4MLLM的有效性,并展示了其在处理复杂像素感知任务中的优越性能。

算法模型:

SAM4MLLM方法通过将MLLMs与SAM无缝集成来增强MLLM的视觉能力。它采用了一种简单的策略,将像素级信息引入训练数据集,而不改变原始MLLM架构。该方法使用文本交叉熵损失进行训练,与流行的LLMs使用的相同。此外,提出了两种解决方案来获取SAM的提示点:直接生成提示点的Prompt-Point Generation (PPG)和通过查询-回答机制间接获取提示点的Proactive Query of Prompt-Points (PQPP)。

实验效果:

  • 在refCOCO数据集上,SAM4MLLM-PQPP在val和testB上分别达到了77.1和80.9的准确率,超过了大多数最近的基于LLM的方法。
  • 在gRefCOCO数据集上,SAM4MLLM-PQPP在Test Set B上达到了70.54的准确率,略低于GSVA但优于其他7B模型。
  • 在ReasonSeg数据集上,SAM4MLLM-PQPP在val上达到了46.7的准确率,优于LISA-7B和其他方法。
  • 在VQA数据集上,使用SAM4MLLM微调后,模型的VQA得分从78.2提高到了78.7。

推荐阅读指数: ★★★★★

推荐理由:

这篇论文提出了一种创新的方法,通过结合SAM和MLLMs来处理指代表达式分割任务。该方法在保持模型简单性的同时,显著提高了分割的准确性,且在多个基准测试上都取得了优异的性能。此外,该研究还探索了如何有效地结合不同模型的优势来解决复杂的多模态问题,这对于计算机视觉和自然语言处理领域的研究人员和实践者来说都是极具价值的。

2. Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports

Authors: Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese

使用开放权重大型语言模型和检索增强生成进行诊断报告中自动化结构化数据提取:方法和参数评估

摘要:

目的:开发并评估一个自动化系统,利用开放权重大型语言模型(LMs)和检索增强生成(RAG),从非结构化的放射学和病理学报告中提取结构化临床信息,并评估模型配置变量对提取性能的影响。

方法和材料:研究使用了两个数据集:7,294份放射学报告,标注了脑肿瘤报告和数据系统(BT-RADS)评分,以及2,154份病理学报告,标注了异柠檬酸脱氢酶(IDH)突变状态。开发了一个自动化流程,用于基准测试各种LMs和RAG配置的性能。系统评估了模型大小、量化、提示策略、输出格式化和推理参数的影响。

结果:最佳性能模型在从放射学报告中提取BT-RADS评分的准确率超过98%,在从病理学报告中提取IDH突变状态的准确率超过90%。表现最好的模型是医学微调的llama3。较大、更新和领域微调的模型持续优于旧的和较小的模型。模型量化对性能影响最小。少量提示显著提高了准确性。RAG提高了复杂病理报告的性能,但对较短的放射学报告没有提高。

结论:开放LMs展示了从非结构化临床报告中自动提取结构化临床数据的显著潜力,具有本地隐私保护应用的前景。模型选择、提示工程和使用标注数据的半自动优化对于最佳性能至关重要。这些方法可能足够可靠,可供研究工作流程中实际使用,突出了医疗数据提取中人机协作的潜力。

创新点:

  1. 利用开放权重的大型语言模型和检索增强生成(RAG)来自动化从非结构化医疗报告中提取结构化数据。
  2. 系统地评估了模型大小、量化、提示策略、输出格式化和推理参数对提取性能的影响。
  3. 通过少量提示和领域特定的微调,显著提高了模型在特定医疗数据提取任务中的准确性。

算法模型:

研究中使用了多种开放权重的大型语言模型(LMs),包括不同大小、量化水平、训练数据、发布日期和医学微调的模型,如Llama3、openbiollm Llama3、Llama2和Medllama2等。此外,研究还探索了RAG在提高复杂病理报告提取性能方面的潜力。

实验效果:

  • 在放射学报告数据集上,最佳模型(openbiollm-llama3 70B Q_4)达到了98.68%的准确率。
  • 在病理学报告数据集上,最佳模型(openbiollm-llama-3 70B Q_4)达到了90.02%的准确率。
  • 较大、更新和领域微调的模型在提取任务中表现更佳。
  • 模型量化对性能的影响不显著。
  • 少量提示显著提高了模型的准确性。

推荐阅读指数: ★★★☆☆

推荐理由:

这篇论文针对医疗报告中结构化数据的自动化提取提出了一种创新方法,通过细致的实验评估了多种模型配置对性能的影响。研究结果对于医疗领域的数据管理和分析具有重要的实际应用价值,尤其是在提高数据处理效率和准确性方面。此外,论文还探讨了人机协作在医疗数据处理中的潜力,为未来相关技术的发展提供了有价值的参考。

3. Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian

Authors: Anna Glazkova and Dmitry Morozov

探索针对俄语关键短语选择的微调生成模型:以俄语科学文本为例

摘要:

关键短语选择在学术文本领域扮演着核心角色,有助于有效信息检索、摘要和索引。本研究探索了如何将微调的基于生成器的变换器模型应用于俄语科学文本中的关键短语选择任务。实验涉及四种不同的生成模型,包括ruT5、ruGPT、mT5和mBART,并在领域内和跨领域设置中评估了它们的性能。实验在来自数学与计算机科学、历史、医学和语言学四个领域的俄语科学摘要文本上进行。使用生成模型,尤其是mBART,在领域内性能上(在BERTScore上高达4.9%,在ROUGE-1上高达9.0%,在F1分数上高达12.2%)超过了俄语的三个关键短语提取基线。尽管跨领域使用的结果显著较低,但在某些情况下仍显示出超越基线性能的能力,突显了在该研究领域进一步探索和改进的潜力。

创新点:

  1. 将微调的生成器变换器模型应用于俄语科学文本的关键短语选择任务。
  2. 在领域内和跨领域设置中对模型进行了系统评估,探索了不同模型在特定语言和领域中的应用效果。
  3. 特别关注了mBART模型在关键短语生成任务中的性能,发现其在领域内设置中表现尤为出色。

算法模型:

研究中使用了四种预训练的基于变换器的模型:ruT5、ruGPT、mT5和mBART。这些模型在训练集上进行了微调,以生成关键短语。输入文本的处理方式根据模型的不同而有所差异,例如ruGPT使用了特殊的标记来指示关键短语的开始和结束。生成模型没有限制生成关键短语的数量,而是由模型自行确定每个文本的最佳关键短语数量。

实验效果:

  • 在领域内设置中,mBART模型在所有考虑的领域中均获得了最佳性能,BERTScore、ROUGE-1和F1分数均有所提高。
  • 在跨领域设置中,尽管性能普遍下降,但mBART在大多数领域中的BERTScore和F1分数仍然超过了基线结果。
  • 实验结果表明,生成模型能够产生原文本中未明确提及的关键短语,且无需人为设置关键短语的数量和长度限制。

推荐阅读指数: ★★★★☆

推荐理由:

这篇论文针对俄语科学文本的关键短语选择任务,提供了一种新颖的基于深度学习的解决方案。研究结果表明,通过微调的生成模型,尤其是mBART,能够在关键短语生成任务中取得显著的性能提升。这对于自然语言处理领域的研究人员和实践者来说,尤其是在处理非英语文本时,提供了有价值的参考。此外,论文还探讨了跨领域应用的挑战和潜力,为未来在这一领域的研究提供了方向。

4. Improving Multi-candidate Speculative Decoding

Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato

改进多候选推测性解码


计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(下)+https://developer.aliyun.com/article/1628801

目录
相关文章
|
22天前
|
机器学习/深度学习 人工智能 算法
量子计算算法:超越经典计算机的边界
【10月更文挑战第30天】量子计算基于量子力学原理,通过量子比特和量子门实现超越经典计算机的计算能力。本文探讨量子计算的基本原理、核心算法及其在密码学、化学、优化问题和机器学习等领域的应用前景,并讨论当前面临的挑战与未来发展方向。
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
46 2
|
29天前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
36 0
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-17
56 0
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
8天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
10天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
10天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
|
10天前
|
机器学习/深度学习 算法 5G
基于MIMO系统的SDR-AltMin混合预编码算法matlab性能仿真
基于MIMO系统的SDR-AltMin混合预编码算法通过结合半定松弛和交替最小化技术,优化大规模MIMO系统的预编码矩阵,提高信号质量。Matlab 2022a仿真结果显示,该算法能有效提升系统性能并降低计算复杂度。核心程序包括预编码和接收矩阵的设计,以及不同信噪比下的性能评估。
26 3