计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)

简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)+https://developer.aliyun.com/article/1628909


7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran

Zhang, Ming Zhou, Yu Liu, Yu Qiao

https://arxiv.org/abs/2409.15806

CLSP: 用于代理状态表示的高保真对比语言状态预训练

摘要

随着人工智能的快速发展,多模态学习已成为一个重要的研究领域。对于智能代理来说,状态是传递精确信息的关键方式,与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此,状态模态的表示仍然发展不足。为此,我们提出了一种高保真对比语言状态预训练(CLSP)方法,它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说,我们首先设计了一个基于分类的预训练任务,以训练具有粗粒度信息的编码器。接下来,我们构建了状态和语言描述的数据对,利用预训练的编码器初始化CLSP编码器。然后,我们部署对比学习来训练CLSP编码器,以有效地表示精确的状态信息。此外,我们使用随机傅里叶特征(RFF)方法增强数值信息的表示,以实现高保真映射。广泛的实验表明,我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。

研究背景

在构建人工智能泛在智能和具身智能的关键技术中,多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术,模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上,但在复杂的具身AI环境中,代理的状态通常包含对决策至关重要的丰富信息,因此准确表示和理解状态是至关重要的。

问题与挑战

  • 如何从复杂的标量值中提取有用的表示是一个挑战。
  • 学习到的表示与原始标量对应的精度往往较低,这限制了在后续任务中的可用性。

创新点

  • 高保真对比学习:提出一种新颖的框架,通过对比学习进一步改善状态编码器的表示能力。
  • 随机傅里叶特征:使用RFF方法来提高标量值的表示精度。
  • 多模态语言模型:设计了一个大型多模态模型,基于学习到的状态编码器和预训练的语言模型来理解状态信息。

算法模型

CLSP模型有三个步骤:

  1. 基于分类的预训练:通过分类任务预训练编码器,获得粗粒度的信息。
  2. 基于对比的表示学习:使用对比学习进一步训练编码器,以更好地对齐状态和文本描述。
  3. 在多模态LLM和RL任务中的应用:将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。

实验效果

  • 文本状态检索:在不同的数据集上,CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
  • 强化学习导航任务:在RL导航任务中,使用CLSP编码的目标状态嵌入与基线相比,学习速度更快,最终收敛值更高。
  • 多模态大型语言模型理解:在多模态LLM任务中,通过生成的语言输出,模型能够将输入状态转换为语言表达。

推荐阅读指数:★★★★☆

推荐理由:这篇文章在多模态学习领域提出了一种新颖的状态表示方法,通过对比学习和随机傅里叶特征提高了状态信息的表示精度,对于资源受限的应用场景具有重要意义。此外,文章通过详尽的实验和消融研究验证了方法的有效性,对相关领域的研究者来说,这是一篇值得一读的论文。

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy

and Mohammed E. Fouda

https://arxiv.org/abs/2409.15687

文章分析总结

文章标题翻译

原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES

翻译: 大型语言模型在精神疾病评估中的全面评估

摘要

本研究对大型语言模型(LLMs)在精神健康任务中的应用进行了全面评估,特别是在社交媒体数据的背景下。研究探讨了各种LLMs(包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等)在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本(ZS)和少样本(FS)能力。评估涵盖了从20亿到4000多亿参数的33个模型,并使用了9种主要的提示模板。关键发现表明,像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色,某些数据集上的准确率达到85%。此外,提示工程在提高模型性能方面发挥了关键作用。例如,当从我们的第一种二元提示过渡到更结构化的提示时,某些模型的准确性显著提高。值得注意的是,Mixtral 8x22b模型的准确性提高了20%以上,而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中,FS学习显著提高了模型的准确性,突出了复杂评估中上下文示例的重要性。特别是,Phi-3-mini模型的性能有了显著提升,平衡准确率(BA)提高了6.80%以上,平均绝对误差(MAE)从ZS学习到FS学习时降低了近1.3。此外,在精神医学知识评估任务中,较新的模型通常优于旧的、较大的模型,Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望,但分析也发现了一些挑战,包括跨数据集的性能变化以及需要谨慎的提示工程。此外,使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外,许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能,因为它们倾向于不回应可能敏感的查询。

研究背景

随着人工智能(AI)在精神卫生领域的迅速发展,提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%,影响着全球2.8亿人,并导致约70.3万人死于自杀。在美国,预计到2040年,精神卫生不平等的累积成本将达到14万亿美元。

问题与挑战

  • 如何准确地从社交媒体帖子中检测和评估精神健康障碍。
  • 需要谨慎的提示工程来提高模型性能。
  • 使用大型模型的高成本。
  • 社交媒体数据的质量限制。

创新点

  • 对多种LLMs在精神健康任务上进行了全面评估。
  • 探索了零样本和少样本学习能力。
  • 强调了提示工程在提高模型性能中的关键作用。
  • 在障碍严重程度评估中,展示了FS学习的重要性。

算法模型

  • 二元障碍检测:使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。
  • 障碍严重程度评估:使用零样本和少样本学习方法评估用户的精神障碍严重程度。
  • 精神医学知识评估:测试LLMs对基本精神医学概念的知识,通过多项选择问题进行评估。

实验效果

  • 二元障碍检测:GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。
  • 障碍严重程度评估:FS学习显著提高了模型的准确性,Phi-3-mini模型的平衡准确率提高了6.80%以上,平均绝对误差降低了近1.3。
  • 精神医学知识评估:Llama 3.1 405b的准确率达到了91.2%。

推荐阅读指数:

★★★★☆

推荐理由:这篇文章对大型语言模型在精神健康领域的应用进行了全面的评估,提供了宝贵的见解和数据。 跨学科研究应用。

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

Authors: Adil Bahaj and Mounir Ghogho

https://arxiv.org/abs/2409.15815

AsthmaBot:用于哮喘患者支持的多模态、多语言检索增强生成系统

摘要

全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家,获得即时医疗护理的机会尤其有限,这就需要自动化的支持系统。大型语言模型(LLMs)在通用自然语言处理和问答方面取得了进步,但它们可能会产生事实上不正确的回答(即幻觉)。通过整合策划的文档,检索增强生成系统可以提高大型语言模型的性能,并减少幻觉的发生。我们介绍了AsthmaBot,一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面,整合了不同的数据模态(文本、图像、视频),使其能够为更广泛的公众提供服务。

研究背景

过去几十年中,全球哮喘患病率上升,这不仅仅是由于遗传因素,主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡,主要是由于缺乏即时和适当的医疗护理。然而,许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的,这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。

问题与挑战

  • 哮喘患者在获取及时医疗信息方面的挑战。
  • 大型语言模型(LLMs)在提供医疗信息时可能会产生幻觉(即生成听起来合理但事实上不正确的回答)。
  • 现有系统大多只提供文本信息,缺乏多模态能力。
  • LLMs存在语言偏见,限制了它们在非英语语言中生成信息的质量。

创新点

  • 开发了AsthmaBot,一个多语言、多模态的检索增强生成系统,用于提供哮喘患者支持。
  • 通过整合策划的文档、视频和图像,为哮喘相关问题提供基于最新和策划的列表的答案。
  • AsthmaBot的界面整合了不同的数据模态,包括文本、图像和视频,以更直观和互动的方式提供信息。

算法模型

AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型(LLM),前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成(RAG)技术,结合文档集合、检索算法和骨干LLMs。

实验效果

  • 在多语言(英语、阿拉伯语、法语)和多模态(文本、图像、视频)的环境下,与没有使用RAG的基线相比,AsthmaBot在回答问题方面表现更好。
  • 实验结果表明,将查询翻译成英语,然后使用英语提示模型,比使用查询的本地语言获得的结果更丰富。

推荐阅读指数:★★★★☆

推荐理由:这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot,用于支持哮喘患者。该系统通过整合策划的文档、视频和图像,提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解,对于自然语言处理和医疗信息检索领域的研究者和从业者来说,这是一篇值得一读的论文。

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul

Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar

https://arxiv.org/abs/2409.15867

通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解

摘要

标准操作程序(SOP)是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而,当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说,上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法,以进一步提高模型在SOP生成方面的能力。

研究背景

视频-语言模型是一类新兴的大型基础模型,吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记,然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务(如视频摘要)上取得了显著成功,但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如,大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。

问题与挑战

  • 如何从视觉输入中自动化地生成准确的SOP。
  • 如何提高视频-语言模型在低层次工作流理解方面的能力。

创新点

  • 提出了一种新的上下文集成学习方法(ICE),通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。
  • 通过多模态上下文集成学习,使模型能够从超出其上下文窗口限制的更多示例中学习,同时具有正则化效果。

算法模型

ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序(SOP)文本标签。然后,同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后,另一个视频-语言模型处理测试视频以及伪标签作为先验,以生成SOP的最终预测。

实验效果

  • 在WONDERBREAD基准测试的"Gold Demo"子集中,使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%,而基线模型的召回率为78.13%。
  • Gemini-1.5-flash模型在应用ICE后,在召回率方面实现了9.22%的提升。
  • ICE方法显著优于多数投票"Ensemble"方法,突出了在SOP生成中使用多模态训练样本的必要性。

    代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble

推荐阅读指数:★★★★☆

推荐理由:这篇文章探讨了如何利用上下文集成学习来提高视频-语言模型在SOP生成任务中的表现,这对于自动化业务流程和提高工作效率具有重要意义。文章的实验结果表明,所提出的ICE方法能够有效提升模型的预测性能,对于自然语言处理和计算机视觉领域的研究人员来说,这是一篇值得关注的论文。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
打赏
0
0
0
0
16
分享
相关文章
人工智能技术的探讨
人工智能的概念,人工智能的发展,人工智能的各种学派,人工智能的应用领域
48 4
基于 C# 深度优先搜索算法的局域网集中管理软件技术剖析
现代化办公环境中,局域网集中管理软件是保障企业网络高效运行、实现资源合理分配以及强化信息安全管控的核心工具。此类软件需应对复杂的网络拓扑结构、海量的设备信息及多样化的用户操作,而数据结构与算法正是支撑其强大功能的基石。本文将深入剖析深度优先搜索(Depth-First Search,DFS)算法,并结合 C# 语言特性,详细阐述其在局域网集中管理软件中的应用与实现。
49 3
生成式人工智能认证(GAI认证)与标准化进程协同发展及就业市场赋能研究
本文探讨生成式人工智能认证(GAI认证)在人工智能标准化进程中的重要性,分析其对就业市场的积极影响及未来发展趋势。GAI认证不仅是个人AI能力的权威认可,还推动行业标准化与技术创新。文章指出,随着技术融合加速和应用场景拓展,GAI认证标准需不断完善,以应对技术更新、数据安全等挑战,为AI健康发展贡献力量。
推动人工智能技术和产业变革,啥是核心驱动力?生成式人工智能认证(GAI认证)揭秘答案
人工智能(AI)正以前所未有的速度重塑世界,其发展离不开领军人才与创新生态的支持。文章探讨了AI领军人才的核心特质及培养路径,强调构建产学研深度融合的创新生态,并通过教育变革与GAI认证提升全民AI素养,为技术与产业变革提供持续动力。这不仅是推动社会高质量发展的关键,也为个人与企业带来了更多机遇。
生成式人工智能的价值回归:重塑技术、社会与个体的发展轨迹
生成式人工智能(Generative AI)正以前所未有的速度重塑社会面貌。它从单一决策工具转变为创造性生产力引擎,推动知识生产、艺术创作与科学研究的发展。同时,其广泛应用引发社会生产力和生产关系的深刻变革,带来就业结构变化与社会公平挑战。此外,生成式AI还面临伦理法律问题,如透明性、责任归属及知识产权等。培生公司推出的生成式AI认证项目,旨在培养专业人才,促进技术与人文融合,助力技术可持续发展。总体而言,生成式AI正从工具属性向赋能属性升华,成为推动社会进步的新引擎。
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。
65 10
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
|
14天前
|
基于 Python 哈希表算法的局域网网络监控工具:实现高效数据管理的核心技术
在当下数字化办公的环境中,局域网网络监控工具已成为保障企业网络安全、确保其高效运行的核心手段。此类工具通过对网络数据的收集、分析与管理,赋予企业实时洞察网络活动的能力。而在其运行机制背后,数据结构与算法发挥着关键作用。本文聚焦于 PHP 语言中的哈希表算法,深入探究其在局域网网络监控工具中的应用方式及所具备的优势。
48 7
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
242 4
|
25天前
|
基于 Python 迪杰斯特拉算法的局域网计算机监控技术探究
信息技术高速演进的当下,局域网计算机监控对于保障企业网络安全、优化资源配置以及提升整体运行效能具有关键意义。通过实时监测网络状态、追踪计算机活动,企业得以及时察觉潜在风险并采取相应举措。在这一复杂的监控体系背后,数据结构与算法发挥着不可或缺的作用。本文将聚焦于迪杰斯特拉(Dijkstra)算法,深入探究其在局域网计算机监控中的应用,并借助 Python 代码示例予以详细阐释。
44 6
解析局域网内控制电脑机制:基于 Go 语言链表算法的隐秘通信技术探究
数字化办公与物联网蓬勃发展的时代背景下,局域网内计算机控制已成为提升工作效率、达成设备协同管理的重要途径。无论是企业远程办公时的设备统一调度,还是智能家居系统中多设备间的联动控制,高效的数据传输与管理机制均构成实现局域网内计算机控制功能的核心要素。本文将深入探究 Go 语言中的链表数据结构,剖析其在局域网内计算机控制过程中,如何达成数据的有序存储与高效传输,并通过完整的 Go 语言代码示例展示其应用流程。
25 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等