计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)+https://developer.aliyun.com/article/1628909


7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran

Zhang, Ming Zhou, Yu Liu, Yu Qiao

https://arxiv.org/abs/2409.15806

CLSP: 用于代理状态表示的高保真对比语言状态预训练

摘要

随着人工智能的快速发展,多模态学习已成为一个重要的研究领域。对于智能代理来说,状态是传递精确信息的关键方式,与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此,状态模态的表示仍然发展不足。为此,我们提出了一种高保真对比语言状态预训练(CLSP)方法,它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说,我们首先设计了一个基于分类的预训练任务,以训练具有粗粒度信息的编码器。接下来,我们构建了状态和语言描述的数据对,利用预训练的编码器初始化CLSP编码器。然后,我们部署对比学习来训练CLSP编码器,以有效地表示精确的状态信息。此外,我们使用随机傅里叶特征(RFF)方法增强数值信息的表示,以实现高保真映射。广泛的实验表明,我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。

研究背景

在构建人工智能泛在智能和具身智能的关键技术中,多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术,模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上,但在复杂的具身AI环境中,代理的状态通常包含对决策至关重要的丰富信息,因此准确表示和理解状态是至关重要的。

问题与挑战

  • 如何从复杂的标量值中提取有用的表示是一个挑战。
  • 学习到的表示与原始标量对应的精度往往较低,这限制了在后续任务中的可用性。

创新点

  • 高保真对比学习:提出一种新颖的框架,通过对比学习进一步改善状态编码器的表示能力。
  • 随机傅里叶特征:使用RFF方法来提高标量值的表示精度。
  • 多模态语言模型:设计了一个大型多模态模型,基于学习到的状态编码器和预训练的语言模型来理解状态信息。

算法模型

CLSP模型有三个步骤:

  1. 基于分类的预训练:通过分类任务预训练编码器,获得粗粒度的信息。
  2. 基于对比的表示学习:使用对比学习进一步训练编码器,以更好地对齐状态和文本描述。
  3. 在多模态LLM和RL任务中的应用:将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。

实验效果

  • 文本状态检索:在不同的数据集上,CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
  • 强化学习导航任务:在RL导航任务中,使用CLSP编码的目标状态嵌入与基线相比,学习速度更快,最终收敛值更高。
  • 多模态大型语言模型理解:在多模态LLM任务中,通过生成的语言输出,模型能够将输入状态转换为语言表达。

推荐阅读指数:★★★★☆

推荐理由:这篇文章在多模态学习领域提出了一种新颖的状态表示方法,通过对比学习和随机傅里叶特征提高了状态信息的表示精度,对于资源受限的应用场景具有重要意义。此外,文章通过详尽的实验和消融研究验证了方法的有效性,对相关领域的研究者来说,这是一篇值得一读的论文。

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy

and Mohammed E. Fouda

https://arxiv.org/abs/2409.15687

文章分析总结

文章标题翻译

原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES

翻译: 大型语言模型在精神疾病评估中的全面评估

摘要

本研究对大型语言模型(LLMs)在精神健康任务中的应用进行了全面评估,特别是在社交媒体数据的背景下。研究探讨了各种LLMs(包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等)在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本(ZS)和少样本(FS)能力。评估涵盖了从20亿到4000多亿参数的33个模型,并使用了9种主要的提示模板。关键发现表明,像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色,某些数据集上的准确率达到85%。此外,提示工程在提高模型性能方面发挥了关键作用。例如,当从我们的第一种二元提示过渡到更结构化的提示时,某些模型的准确性显著提高。值得注意的是,Mixtral 8x22b模型的准确性提高了20%以上,而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中,FS学习显著提高了模型的准确性,突出了复杂评估中上下文示例的重要性。特别是,Phi-3-mini模型的性能有了显著提升,平衡准确率(BA)提高了6.80%以上,平均绝对误差(MAE)从ZS学习到FS学习时降低了近1.3。此外,在精神医学知识评估任务中,较新的模型通常优于旧的、较大的模型,Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望,但分析也发现了一些挑战,包括跨数据集的性能变化以及需要谨慎的提示工程。此外,使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外,许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能,因为它们倾向于不回应可能敏感的查询。

研究背景

随着人工智能(AI)在精神卫生领域的迅速发展,提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%,影响着全球2.8亿人,并导致约70.3万人死于自杀。在美国,预计到2040年,精神卫生不平等的累积成本将达到14万亿美元。

问题与挑战

  • 如何准确地从社交媒体帖子中检测和评估精神健康障碍。
  • 需要谨慎的提示工程来提高模型性能。
  • 使用大型模型的高成本。
  • 社交媒体数据的质量限制。

创新点

  • 对多种LLMs在精神健康任务上进行了全面评估。
  • 探索了零样本和少样本学习能力。
  • 强调了提示工程在提高模型性能中的关键作用。
  • 在障碍严重程度评估中,展示了FS学习的重要性。

算法模型

  • 二元障碍检测:使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。
  • 障碍严重程度评估:使用零样本和少样本学习方法评估用户的精神障碍严重程度。
  • 精神医学知识评估:测试LLMs对基本精神医学概念的知识,通过多项选择问题进行评估。

实验效果

  • 二元障碍检测:GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。
  • 障碍严重程度评估:FS学习显著提高了模型的准确性,Phi-3-mini模型的平衡准确率提高了6.80%以上,平均绝对误差降低了近1.3。
  • 精神医学知识评估:Llama 3.1 405b的准确率达到了91.2%。

推荐阅读指数:

★★★★☆

推荐理由:这篇文章对大型语言模型在精神健康领域的应用进行了全面的评估,提供了宝贵的见解和数据。 跨学科研究应用。

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

Authors: Adil Bahaj and Mounir Ghogho

https://arxiv.org/abs/2409.15815

AsthmaBot:用于哮喘患者支持的多模态、多语言检索增强生成系统

摘要

全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家,获得即时医疗护理的机会尤其有限,这就需要自动化的支持系统。大型语言模型(LLMs)在通用自然语言处理和问答方面取得了进步,但它们可能会产生事实上不正确的回答(即幻觉)。通过整合策划的文档,检索增强生成系统可以提高大型语言模型的性能,并减少幻觉的发生。我们介绍了AsthmaBot,一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面,整合了不同的数据模态(文本、图像、视频),使其能够为更广泛的公众提供服务。

研究背景

过去几十年中,全球哮喘患病率上升,这不仅仅是由于遗传因素,主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡,主要是由于缺乏即时和适当的医疗护理。然而,许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的,这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。

问题与挑战

  • 哮喘患者在获取及时医疗信息方面的挑战。
  • 大型语言模型(LLMs)在提供医疗信息时可能会产生幻觉(即生成听起来合理但事实上不正确的回答)。
  • 现有系统大多只提供文本信息,缺乏多模态能力。
  • LLMs存在语言偏见,限制了它们在非英语语言中生成信息的质量。

创新点

  • 开发了AsthmaBot,一个多语言、多模态的检索增强生成系统,用于提供哮喘患者支持。
  • 通过整合策划的文档、视频和图像,为哮喘相关问题提供基于最新和策划的列表的答案。
  • AsthmaBot的界面整合了不同的数据模态,包括文本、图像和视频,以更直观和互动的方式提供信息。

算法模型

AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型(LLM),前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成(RAG)技术,结合文档集合、检索算法和骨干LLMs。

实验效果

  • 在多语言(英语、阿拉伯语、法语)和多模态(文本、图像、视频)的环境下,与没有使用RAG的基线相比,AsthmaBot在回答问题方面表现更好。
  • 实验结果表明,将查询翻译成英语,然后使用英语提示模型,比使用查询的本地语言获得的结果更丰富。

推荐阅读指数:★★★★☆

推荐理由:这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot,用于支持哮喘患者。该系统通过整合策划的文档、视频和图像,提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解,对于自然语言处理和医疗信息检索领域的研究者和从业者来说,这是一篇值得一读的论文。

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul

Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar

https://arxiv.org/abs/2409.15867

通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解

摘要

标准操作程序(SOP)是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而,当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说,上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法,以进一步提高模型在SOP生成方面的能力。

研究背景

视频-语言模型是一类新兴的大型基础模型,吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记,然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务(如视频摘要)上取得了显著成功,但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如,大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。

问题与挑战

  • 如何从视觉输入中自动化地生成准确的SOP。
  • 如何提高视频-语言模型在低层次工作流理解方面的能力。

创新点

  • 提出了一种新的上下文集成学习方法(ICE),通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。
  • 通过多模态上下文集成学习,使模型能够从超出其上下文窗口限制的更多示例中学习,同时具有正则化效果。

算法模型

ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序(SOP)文本标签。然后,同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后,另一个视频-语言模型处理测试视频以及伪标签作为先验,以生成SOP的最终预测。

实验效果

  • 在WONDERBREAD基准测试的"Gold Demo"子集中,使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%,而基线模型的召回率为78.13%。
  • Gemini-1.5-flash模型在应用ICE后,在召回率方面实现了9.22%的提升。
  • ICE方法显著优于多数投票"Ensemble"方法,突出了在SOP生成中使用多模态训练样本的必要性。

    代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble

推荐阅读指数:★★★★☆

推荐理由:这篇文章探讨了如何利用上下文集成学习来提高视频-语言模型在SOP生成任务中的表现,这对于自动化业务流程和提高工作效率具有重要意义。文章的实验结果表明,所提出的ICE方法能够有效提升模型的预测性能,对于自然语言处理和计算机视觉领域的研究人员来说,这是一篇值得关注的论文。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与深度学习:探索未来技术的无限可能
在21世纪,人工智能(AI)和深度学习已经成为推动科技进步的重要力量。本文将深入探讨这两种技术的基本概念、发展历程以及它们如何共同塑造未来的科技景观。我们将分析人工智能的最新趋势,包括自然语言处理、计算机视觉和强化学习,并讨论这些技术在现实世界中的应用。此外,我们还将探讨深度学习的工作原理,包括神经网络、卷积神经网络(CNN)和循环神经网络(RNN),并分析这些模型如何帮助解决复杂的问题。通过本文,读者将对人工智能和深度学习有更深入的了解,并能够预见这些技术将如何继续影响我们的世界。
35 7
|
6天前
|
人工智能 自然语言处理 自动驾驶
技术与人性:探索人工智能伦理的边界####
本文深入探讨了人工智能技术飞速发展背景下,伴随而来的伦理挑战与社会责任。不同于传统摘要直接概述内容,本文摘要旨在引发读者对AI伦理问题的关注,通过提出而非解答的方式,激发对文章主题的兴趣。在智能机器逐渐融入人类生活的每一个角落时,我们如何确保技术的善意使用,保护个人隐私,避免偏见与歧视,成为亟待解决的关键议题。 ####
|
4天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
25 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
21 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
5天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
25 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
深度探索人工智能中的自然语言处理技术#### 一、
【10月更文挑战第28天】 本文旨在深入剖析人工智能领域中的自然语言处理(NLP)技术,探讨其发展历程、核心算法、应用现状及未来趋势。通过详尽的技术解读与实例分析,揭示NLP在智能交互、信息检索、内容理解等方面的变革性作用,为读者提供一幅NLP技术的全景图。 #### 二、
25 1
|
21天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
47 6
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的无限可能:技术前沿与应用实践
【10月更文挑战第23天】探索人工智能的无限可能:技术前沿与应用实践
|
20天前
|
人工智能 算法 自动驾驶
人工智能的伦理困境:技术发展与社会责任的平衡
在人工智能(AI)技术飞速发展的今天,我们面临着一个前所未有的伦理困境。本文将探讨AI技术带来的挑战,以及如何在技术创新与社会责任之间找到平衡点。我们将从隐私保护、就业影响、算法偏见等方面进行分析,并提出相应的解决方案。
|
21天前
|
人工智能 算法
人工智能浪潮中的伦理困境:我们如何确保技术的道德发展?
【10月更文挑战第22天】在人工智能(AI)技术的迅猛发展中,伴随着巨大的潜力和便利性,也出现了众多伦理问题。从数据隐私到算法偏见,再到自动化带来的失业问题,AI的每一步进步都在考验着人类社会的道德底线。本文将探讨AI技术发展中的主要伦理问题,并讨论如何通过制定标准、教育和跨学科合作来确保AI技术的道德发展。