计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（下）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）+https://developer.aliyun.com/article/1628909、

7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

Authors: Fuxian Huang, Qi Zhang, Shaopeng Zhai, Jie Wang, Tianyi Zhang, Haoran

Zhang, Ming Zhou, Yu Liu, Yu Qiao

CLSP: 用于代理状态表示的高保真对比语言状态预训练

摘要

随着人工智能的快速发展，多模态学习已成为一个重要的研究领域。对于智能代理来说，状态是传递精确信息的关键方式，与图像、视频和语言等常见模态一样重要。这在强化学习和多模态大型语言模型的广泛应用中变得尤为明显。尽管如此，状态模态的表示仍然发展不足。为此，我们提出了一种高保真对比语言状态预训练（CLSP）方法，它可以准确地将状态信息编码成强化学习和多模态大型语言模型的通用表示。具体来说，我们首先设计了一个基于分类的预训练任务，以训练具有粗粒度信息的编码器。接下来，我们构建了状态和语言描述的数据对，利用预训练的编码器初始化CLSP编码器。然后，我们部署对比学习来训练CLSP编码器，以有效地表示精确的状态信息。此外，我们使用随机傅里叶特征（RFF）方法增强数值信息的表示，以实现高保真映射。广泛的实验表明，我们的表示在文本状态检索、强化学习导航任务和多模态大型语言模型理解方面具有优越的精度和泛化能力。

研究背景

在构建人工智能泛在智能和具身智能的关键技术中，多模态数据理解受到了越来越多的关注。作为理解多模态数据的关键技术，模态表示将数据编码到潜在的向量空间中以表达信息。当前对多模态数据的研究主要集中在语言、图像、视频和音频数据上，但在复杂的具身AI环境中，代理的状态通常包含对决策至关重要的丰富信息，因此准确表示和理解状态是至关重要的。

问题与挑战

如何从复杂的标量值中提取有用的表示是一个挑战。
学习到的表示与原始标量对应的精度往往较低，这限制了在后续任务中的可用性。

创新点

高保真对比学习：提出一种新颖的框架，通过对比学习进一步改善状态编码器的表示能力。
随机傅里叶特征：使用RFF方法来提高标量值的表示精度。
多模态语言模型：设计了一个大型多模态模型，基于学习到的状态编码器和预训练的语言模型来理解状态信息。

算法模型

CLSP模型有三个步骤：

基于分类的预训练：通过分类任务预训练编码器，获得粗粒度的信息。
基于对比的表示学习：使用对比学习进一步训练编码器，以更好地对齐状态和文本描述。
在多模态LLM和RL任务中的应用：将学习到的CLSP编码器应用于多模态LLM任务和RL导航任务。

实验效果

文本状态检索：在不同的数据集上，CLSP在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
强化学习导航任务：在RL导航任务中，使用CLSP编码的目标状态嵌入与基线相比，学习速度更快，最终收敛值更高。
多模态大型语言模型理解：在多模态LLM任务中，通过生成的语言输出，模型能够将输入状态转换为语言表达。

推荐阅读指数：★★★★☆

推荐理由：这篇文章在多模态学习领域提出了一种新颖的状态表示方法，通过对比学习和随机傅里叶特征提高了状态信息的表示精度，对于资源受限的应用场景具有重要意义。此外，文章通过详尽的实验和消融研究验证了方法的有效性，对相关领域的研究者来说，这是一篇值得一读的论文。

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy

and Mohammed E. Fouda

https://arxiv.org/abs/2409.15687

文章分析总结

文章标题翻译

原文标题: A COMPREHENSIVE EVALUATION OF LARGE LANGUAGE MODELS ON MENTAL ILLNESSES

翻译: 大型语言模型在精神疾病评估中的全面评估

摘要

本研究对大型语言模型（LLMs）在精神健康任务中的应用进行了全面评估，特别是在社交媒体数据的背景下。研究探讨了各种LLMs（包括GPT-4、Llama 3、Claude、Gemma、Gemini、Phi-3等）在二元障碍检测、障碍严重程度评估和精神医学知识评估等任务上的零样本（ZS）和少样本（FS）能力。评估涵盖了从20亿到4000多亿参数的33个模型，并使用了9种主要的提示模板。关键发现表明，像GPT-4和Llama 3这样的模型在二元障碍检测中表现出色，某些数据集上的准确率达到85%。此外，提示工程在提高模型性能方面发挥了关键作用。例如，当从我们的第一种二元提示过渡到更结构化的提示时，某些模型的准确性显著提高。值得注意的是，Mixtral 8x22b模型的准确性提高了20%以上，而Gemma 7b的性能也有了类似的提升。在障碍严重程度评估任务中，FS学习显著提高了模型的准确性，突出了复杂评估中上下文示例的重要性。特别是，Phi-3-mini模型的性能有了显著提升，平衡准确率（BA）提高了6.80%以上，平均绝对误差（MAE）从ZS学习到FS学习时降低了近1.3。此外，在精神医学知识评估任务中，较新的模型通常优于旧的、较大的模型，Llama 3.1 405b的准确率达到了91.2%。尽管结果充满希望，但分析也发现了一些挑战，包括跨数据集的性能变化以及需要谨慎的提示工程。此外，使用大型模型的高成本和社交媒体数据质量的限制也带来了挑战。此外，许多LLM提供商实施的伦理保护阻碍了准确评估它们的性能，因为它们倾向于不回应可能敏感的查询。

研究背景

随着人工智能（AI）在精神卫生领域的迅速发展，提出了创新的解决方案来应对全球精神疾病负担的增长。精神疾病在全球疾病负担中占比5.1%，影响着全球2.8亿人，并导致约70.3万人死于自杀。在美国，预计到2040年，精神卫生不平等的累积成本将达到14万亿美元。

问题与挑战

如何准确地从社交媒体帖子中检测和评估精神健康障碍。
需要谨慎的提示工程来提高模型性能。
使用大型模型的高成本。
社交媒体数据的质量限制。

创新点

对多种LLMs在精神健康任务上进行了全面评估。
探索了零样本和少样本学习能力。
强调了提示工程在提高模型性能中的关键作用。
在障碍严重程度评估中，展示了FS学习的重要性。

算法模型

二元障碍检测：使用零样本学习方法检测社交媒体用户是否表现出特定的精神障碍。
障碍严重程度评估：使用零样本和少样本学习方法评估用户的精神障碍严重程度。
精神医学知识评估：测试LLMs对基本精神医学概念的知识，通过多项选择问题进行评估。

实验效果

二元障碍检测：GPT-4和Llama 3等模型在某些数据集上的准确率达到85%。
障碍严重程度评估：FS学习显著提高了模型的准确性，Phi-3-mini模型的平衡准确率提高了6.80%以上，平均绝对误差降低了近1.3。
精神医学知识评估：Llama 3.1 405b的准确率达到了91.2%。

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

Authors: Adil Bahaj and Mounir Ghogho

https://arxiv.org/abs/2409.15815

AsthmaBot：用于哮喘患者支持的多模态、多语言检索增强生成系统

摘要

全球哮喘患病率由于环境和生活方式因素而上升。在发展中国家，获得即时医疗护理的机会尤其有限，这就需要自动化的支持系统。大型语言模型（LLMs）在通用自然语言处理和问答方面取得了进步，但它们可能会产生事实上不正确的回答（即幻觉）。通过整合策划的文档，检索增强生成系统可以提高大型语言模型的性能，并减少幻觉的发生。我们介绍了AsthmaBot，一个用于哮喘支持的多语言、多模态检索增强生成系统。对哮喘相关问题的评估显示了AsthmaBot的有效性。AsthmaBot具有交互式和直观的界面，整合了不同的数据模态（文本、图像、视频），使其能够为更广泛的公众提供服务。

研究背景

过去几十年中，全球哮喘患病率上升，这不仅仅是由于遗传因素，主要是由于环境和生活方式风险因素的影响。哮喘每年导致数千人死亡，主要是由于缺乏即时和适当的医疗护理。然而，许多哮喘相关死亡是可以通过家庭疗法、锻炼、治疗和行动计划来预防的，这些方法可以通过避免触发因素或采用缓解疗法来帮助减轻哮喘患者的症状。

问题与挑战

哮喘患者在获取及时医疗信息方面的挑战。
大型语言模型（LLMs）在提供医疗信息时可能会产生幻觉（即生成听起来合理但事实上不正确的回答）。
现有系统大多只提供文本信息，缺乏多模态能力。
LLMs存在语言偏见，限制了它们在非英语语言中生成信息的质量。

创新点

开发了AsthmaBot，一个多语言、多模态的检索增强生成系统，用于提供哮喘患者支持。
通过整合策划的文档、视频和图像，为哮喘相关问题提供基于最新和策划的列表的答案。
AsthmaBot的界面整合了不同的数据模态，包括文本、图像和视频，以更直观和互动的方式提供信息。

算法模型

AsthmaBot后端是一个多模态、多语言检索增强生成的大型语言模型（LLM），前端是一个聊天机器人形式的界面。AsthmaBot使用检索增强生成（RAG）技术，结合文档集合、检索算法和骨干LLMs。

实验效果

在多语言（英语、阿拉伯语、法语）和多模态（文本、图像、视频）的环境下，与没有使用RAG的基线相比，AsthmaBot在回答问题方面表现更好。
实验结果表明，将查询翻译成英语，然后使用英语提示模型，比使用查询的本地语言获得的结果更丰富。

推荐阅读指数：★★★★☆

推荐理由：这篇文章介绍了一个创新的多模态、多语言系统AsthmaBot，用于支持哮喘患者。该系统通过整合策划的文档、视频和图像，提高了提供医疗信息的准确性和可靠性。AsthmaBot的设计和实现为解决LLMs在医疗领域应用中的挑战提供了有价值的见解，对于自然语言处理和医疗信息检索领域的研究者和从业者来说，这是一篇值得一读的论文。

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

Authors: Moucheng Xu and Evangelos Chatzaroulas and Luc McCutcheon and Abdul

Ahad and Hamzah Azeem and Janusz Marecki and Ammar Anwar

https://arxiv.org/abs/2409.15867

通过上下文集成提高视频-语言模型对人类示范的低层次工作流理解

摘要

标准操作程序（SOP）是基于视频演示的商业软件工作流的逐步书面指南。SOP是实现端到端软件工作流自动化的关键一步。手动创建SOP可能非常耗时。最近在大型视频-语言模型方面的进展为通过分析人类示范的记录来自动化SOP生成提供了可能性。然而，当前的大型视频-语言模型在零样本SOP生成方面面临挑战。我们探索了使用视频-语言模型进行SOP生成的上下文学习。我们报告说，上下文学习有时可以帮助视频-语言模型进行SOP生成。然后我们提出了一种上下文集成学习方法，以进一步提高模型在SOP生成方面的能力。

研究背景

视频-语言模型是一类新兴的大型基础模型，吸引了越来越多的研究兴趣。这些模型通常预训练一个视觉编码器将视觉输入投影成标记，然后由大型语言模型使用这些标记来解释视觉信号以及文本指令。尽管在视频理解的高级任务（如视频摘要）上取得了显著成功，但当前的视频-语言模型在处理更复杂的任务时仍面临挑战。例如，大多数现有模型无法处理长视频或多个短视频。另一个挑战是它们在复杂的低层次视频理解方面的不足。

问题与挑战

如何从视觉输入中自动化地生成准确的SOP。
如何提高视频-语言模型在低层次工作流理解方面的能力。

创新点

提出了一种新的上下文集成学习方法（ICE），通过使用伪标签来增强视频-语言模型在SOP生成方面的表现。
通过多模态上下文集成学习，使模型能够从超出其上下文窗口限制的更多示例中学习，同时具有正则化效果。

算法模型

ICE学习流程首先将多个视频-语言模型应用于不同批次的训练视频及其标准操作程序（SOP）文本标签。然后，同样的微调视频-语言模型为测试视频的SOP创建伪标签。最后，另一个视频-语言模型处理测试视频以及伪标签作为先验，以生成SOP的最终预测。

实验效果

在WONDERBREAD基准测试的"Gold Demo"子集中，使用ICE方法的GPT-4o-mini模型在召回率方面达到了84.79%，而基线模型的召回率为78.13%。
Gemini-1.5-flash模型在应用ICE后，在召回率方面实现了9.22%的提升。
ICE方法显著优于多数投票"Ensemble"方法，突出了在SOP生成中使用多模态训练样本的必要性。

代码链接: https://github.com/moucheng2017/SOP-LVM-ICL-Ensemble

推荐阅读指数：★★★★☆

推荐理由：这篇文章探讨了如何利用上下文集成学习来提高视频-语言模型在SOP生成任务中的表现，这对于自动化业务流程和提高工作效率具有重要意义。文章的实验结果表明，所提出的ICE方法能够有效提升模型的预测性能，对于自然语言处理和计算机视觉领域的研究人员来说，这是一篇值得关注的论文。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习，计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（下）

7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

文章分析总结

文章标题翻译

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

后记

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（下）

7. CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

8. A Comprehensive Evaluation of Large Language Models on Mental Illnesses

文章分析总结

文章标题翻译

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

9. AsthmaBot: Multi-modal, Multi-Lingual Retrieval Augmented Generation For Asthma Patient Support

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

10. In-Context Ensemble Improves Video-Language Models for Low-Level Workflow Understanding from Human Demonstrations

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

后记

热门文章

最新文章

相关课程

相关电子书