计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19(上)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19(上)

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19

1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen

SAM4MLLM: 增强多模态大型语言模型以进行指代表达式分割

摘要:

本文介绍了一种创新方法SAM4MLLM,它将Segment Anything Model (SAM)与多模态大型语言模型(MLLMs)相结合,用于像素级感知任务。该方法使MLLMs能够学习像素级位置信息,而无需对现有模型架构进行大量修改或添加专门的标记。通过基于询问的方法,可以有效地找到SAM进行分割的提示点。该方法结合了详细的视觉信息和大型语言模型的强大表达能力,以统一的基于语言的方式进行,无需额外的计算开销。在公共基准测试上的实验结果证明了该方法的有效性。

创新点:

  1. 提出了一种简单的解决方案,通过不改变MLLM模型架构、引入新标记或使用额外损失函数,增强MLLM对像素级细节的理解。
  2. 引入了一种新的方法,通过主动查询语言系统来获取SAM的提示点线索。
  3. 在各种RES基准测试中,包括RES数据集、GRES和ReasonSeg,验证了SAM4MLLM的有效性,并展示了其在处理复杂像素感知任务中的优越性能。

算法模型:

SAM4MLLM方法通过将MLLMs与SAM无缝集成来增强MLLM的视觉能力。它采用了一种简单的策略,将像素级信息引入训练数据集,而不改变原始MLLM架构。该方法使用文本交叉熵损失进行训练,与流行的LLMs使用的相同。此外,提出了两种解决方案来获取SAM的提示点:直接生成提示点的Prompt-Point Generation (PPG)和通过查询-回答机制间接获取提示点的Proactive Query of Prompt-Points (PQPP)。

实验效果:

  • 在refCOCO数据集上,SAM4MLLM-PQPP在val和testB上分别达到了77.1和80.9的准确率,超过了大多数最近的基于LLM的方法。
  • 在gRefCOCO数据集上,SAM4MLLM-PQPP在Test Set B上达到了70.54的准确率,略低于GSVA但优于其他7B模型。
  • 在ReasonSeg数据集上,SAM4MLLM-PQPP在val上达到了46.7的准确率,优于LISA-7B和其他方法。
  • 在VQA数据集上,使用SAM4MLLM微调后,模型的VQA得分从78.2提高到了78.7。

推荐阅读指数: ★★★★★

推荐理由:

这篇论文提出了一种创新的方法,通过结合SAM和MLLMs来处理指代表达式分割任务。该方法在保持模型简单性的同时,显著提高了分割的准确性,且在多个基准测试上都取得了优异的性能。此外,该研究还探索了如何有效地结合不同模型的优势来解决复杂的多模态问题,这对于计算机视觉和自然语言处理领域的研究人员和实践者来说都是极具价值的。

2. Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports

Authors: Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese

使用开放权重大型语言模型和检索增强生成进行诊断报告中自动化结构化数据提取:方法和参数评估

摘要:

目的:开发并评估一个自动化系统,利用开放权重大型语言模型(LMs)和检索增强生成(RAG),从非结构化的放射学和病理学报告中提取结构化临床信息,并评估模型配置变量对提取性能的影响。

方法和材料:研究使用了两个数据集:7,294份放射学报告,标注了脑肿瘤报告和数据系统(BT-RADS)评分,以及2,154份病理学报告,标注了异柠檬酸脱氢酶(IDH)突变状态。开发了一个自动化流程,用于基准测试各种LMs和RAG配置的性能。系统评估了模型大小、量化、提示策略、输出格式化和推理参数的影响。

结果:最佳性能模型在从放射学报告中提取BT-RADS评分的准确率超过98%,在从病理学报告中提取IDH突变状态的准确率超过90%。表现最好的模型是医学微调的llama3。较大、更新和领域微调的模型持续优于旧的和较小的模型。模型量化对性能影响最小。少量提示显著提高了准确性。RAG提高了复杂病理报告的性能,但对较短的放射学报告没有提高。

结论:开放LMs展示了从非结构化临床报告中自动提取结构化临床数据的显著潜力,具有本地隐私保护应用的前景。模型选择、提示工程和使用标注数据的半自动优化对于最佳性能至关重要。这些方法可能足够可靠,可供研究工作流程中实际使用,突出了医疗数据提取中人机协作的潜力。

创新点:

  1. 利用开放权重的大型语言模型和检索增强生成(RAG)来自动化从非结构化医疗报告中提取结构化数据。
  2. 系统地评估了模型大小、量化、提示策略、输出格式化和推理参数对提取性能的影响。
  3. 通过少量提示和领域特定的微调,显著提高了模型在特定医疗数据提取任务中的准确性。

算法模型:

研究中使用了多种开放权重的大型语言模型(LMs),包括不同大小、量化水平、训练数据、发布日期和医学微调的模型,如Llama3、openbiollm Llama3、Llama2和Medllama2等。此外,研究还探索了RAG在提高复杂病理报告提取性能方面的潜力。

实验效果:

  • 在放射学报告数据集上,最佳模型(openbiollm-llama3 70B Q_4)达到了98.68%的准确率。
  • 在病理学报告数据集上,最佳模型(openbiollm-llama-3 70B Q_4)达到了90.02%的准确率。
  • 较大、更新和领域微调的模型在提取任务中表现更佳。
  • 模型量化对性能的影响不显著。
  • 少量提示显著提高了模型的准确性。

推荐阅读指数: ★★★☆☆

推荐理由:

这篇论文针对医疗报告中结构化数据的自动化提取提出了一种创新方法,通过细致的实验评估了多种模型配置对性能的影响。研究结果对于医疗领域的数据管理和分析具有重要的实际应用价值,尤其是在提高数据处理效率和准确性方面。此外,论文还探讨了人机协作在医疗数据处理中的潜力,为未来相关技术的发展提供了有价值的参考。

3. Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian

Authors: Anna Glazkova and Dmitry Morozov

探索针对俄语关键短语选择的微调生成模型:以俄语科学文本为例

摘要:

关键短语选择在学术文本领域扮演着核心角色,有助于有效信息检索、摘要和索引。本研究探索了如何将微调的基于生成器的变换器模型应用于俄语科学文本中的关键短语选择任务。实验涉及四种不同的生成模型,包括ruT5、ruGPT、mT5和mBART,并在领域内和跨领域设置中评估了它们的性能。实验在来自数学与计算机科学、历史、医学和语言学四个领域的俄语科学摘要文本上进行。使用生成模型,尤其是mBART,在领域内性能上(在BERTScore上高达4.9%,在ROUGE-1上高达9.0%,在F1分数上高达12.2%)超过了俄语的三个关键短语提取基线。尽管跨领域使用的结果显著较低,但在某些情况下仍显示出超越基线性能的能力,突显了在该研究领域进一步探索和改进的潜力。

创新点:

  1. 将微调的生成器变换器模型应用于俄语科学文本的关键短语选择任务。
  2. 在领域内和跨领域设置中对模型进行了系统评估,探索了不同模型在特定语言和领域中的应用效果。
  3. 特别关注了mBART模型在关键短语生成任务中的性能,发现其在领域内设置中表现尤为出色。

算法模型:

研究中使用了四种预训练的基于变换器的模型:ruT5、ruGPT、mT5和mBART。这些模型在训练集上进行了微调,以生成关键短语。输入文本的处理方式根据模型的不同而有所差异,例如ruGPT使用了特殊的标记来指示关键短语的开始和结束。生成模型没有限制生成关键短语的数量,而是由模型自行确定每个文本的最佳关键短语数量。

实验效果:

  • 在领域内设置中,mBART模型在所有考虑的领域中均获得了最佳性能,BERTScore、ROUGE-1和F1分数均有所提高。
  • 在跨领域设置中,尽管性能普遍下降,但mBART在大多数领域中的BERTScore和F1分数仍然超过了基线结果。
  • 实验结果表明,生成模型能够产生原文本中未明确提及的关键短语,且无需人为设置关键短语的数量和长度限制。

推荐阅读指数: ★★★★☆

推荐理由:

这篇论文针对俄语科学文本的关键短语选择任务,提供了一种新颖的基于深度学习的解决方案。研究结果表明,通过微调的生成模型,尤其是mBART,能够在关键短语生成任务中取得显著的性能提升。这对于自然语言处理领域的研究人员和实践者来说,尤其是在处理非英语文本时,提供了有价值的参考。此外,论文还探讨了跨领域应用的挑战和潜力,为未来在这一领域的研究提供了方向。

4. Improving Multi-candidate Speculative Decoding

Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato

改进多候选推测性解码


计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20(下)+https://developer.aliyun.com/article/1628801

目录
相关文章
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
54 7
|
21天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
23天前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
19天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
69 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
67 1
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
65 6
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
1月前
|
人工智能 算法 自动驾驶
人工智能的伦理困境:技术发展与社会责任的平衡
在人工智能(AI)技术飞速发展的今天,我们面临着一个前所未有的伦理困境。本文将探讨AI技术带来的挑战,以及如何在技术创新与社会责任之间找到平衡点。我们将从隐私保护、就业影响、算法偏见等方面进行分析,并提出相应的解决方案。