计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(上)+https://developer.aliyun.com/article/1628908
4. SEAL: Suite for Evaluating API-use of LLMs
Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty
https://arxiv.org/abs/2409.15523
SEAL:用于评估大型语言模型API使用的工具套件
摘要
大型语言模型(LLMs)在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试(如ToolBench和APIGen)用于评估LLMs的API使用能力,但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL,这是一个端到端的测试平台,用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准,集成了用于测试API检索和规划的代理系统,并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。
研究背景
LLMs在许多语言任务中表现出色,但在需要实时访问特定信息(如当前事件、计算或网络搜索)的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力,使它们能够执行专业任务并获取最新知识,动态适应用户需求。
问题与挑战
现有的API使用基准测试存在一些关键问题,包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。
创新点
- 提出了SEAL,一个全面的测试平台,用于评估LLMs在工具使用,特别是多样化的现实世界APIs中的表现。
- SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统,提供了一个健壮的评估流程。
- 为了解决实时API的不稳定性,开发了一个由GPT-4驱动的API模拟器,并引入了缓存机制来实现更确定性的评价。
算法模型
SEAL基于AutoGen框架构建了一个灵活的代理系统,允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。
实验效果
- 数据: 使用ToolBench和APIGen基准进行评估。
- 结论: 随着API池的扩大,API检索和调用的准确性有所下降,但最终响应的通过率变化不大。这表明随着API数量的增加,任务变得更加具有挑战性。
推荐阅读指数:
★★★★☆
- 推荐理由: SEAL为评估LLMs在现实世界API交互中的性能提供了一个全面和标准化的框架。
5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling
Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar
https://arxiv.org/abs/2409.15626
定性洞察工具(QualIT):大型语言模型增强的主题建模
摘要
主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而,大多数主题建模方法(例如潜在狄利克雷分配(LDA))难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法,它显著提高了主题一致性,从而为基准测试建立了新的标准。在本文中,我们提出了一种新的方法,Qualitative Insights Tool (QualIT),它将大型语言模型(LLMs)与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力,通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法,并展示了与基线主题建模技术相比,在主题一致性和主题多样性方面的显著改进。
研究背景
主题建模是自然语言处理(NLP)中用于从非结构化文本数据(如社交媒体帖子、新闻文章或客户反馈)中提取潜在主题结构的技术。传统的主题建模技术(例如LDA)存在一些局限性,例如单词袋模型的局限性和必须指定聚类数量,它们还依赖于预定义的规则和模式,难以捕捉自然语言中固有的上下文细微差别和歧义。
问题与挑战
现有的基于聚类的主题建模方法(如BERTopic)存在局限性,例如单词表示过载或每篇文本只能生成一个主题。此外,这些方法可能需要领域特定的知识或微调才能达到可接受的性能。
创新点
- 提出了QualIT,一种将预训练的LLMs与聚类技术整合的新方法,以系统地解决两种方法的局限性,并从自由文本数据中生成更细致和可解释的主题表示。
- 结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力,可以革新主题建模,提供强大而富有洞察力的方法来分析大规模文本响应。
算法模型
QualIT包括多个步骤来生成主题,然后用于确定文档的子主题。三个关键步骤是:
- 关键短语提取:使用LLM提取代表各个文档的关键短语。
- 幻觉检查:计算每个短语的一致性得分,以确保提取的关键短语的可靠性。
- 聚类:使用K-Means聚类算法对关键短语进行分组,每组代表具有相似语义内容的文档集合。
实验效果
- 数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。
- 结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上,QualIT达到了70%的主题一致性(基准模型分别为65%和57%)和95.5%的主题多样性(基准模型分别为85%和72%)。
推荐阅读指数:
★★★★☆
- 推荐理由: QualIT通过结合LLMs和聚类技术,提供了一种强大的新方法来分析和理解大规模文本数据中的主题。这项工作为文本分析、主题建模和定性研究领域带来了新的视角和工具,对于希望利用LLMs进行深入文本分析的研究者和实践者来说,这篇文章提供了有价值的见解和方法。
6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning
Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui,
Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu
Huang, Qifan Wang, Dongfang Liu
https://arxiv.org/abs/2409.15657
M2PT:用于零样本指令学习的多模态提示调整
摘要
本文介绍了一种新的多模态提示调整方法(M2PT),用于对多模态大型语言模型(MLLMs)进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中,促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明,M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。
创新点
- 多模态提示调整:首次提出将视觉和文本提示结合用于微调,以提高模型对多模态任务的适应能力。
- 跨模态交互:通过在不同模态的提示之间设计交互,增强了模型对多模态信息的理解和处理能力。
- 参数高效:M2PT仅调整模型的极小部分参数,大幅减少了训练成本,同时保持了优越的性能。
算法模型
M2PT模型的核心在于三个方面的创新设计:
- 视觉提示(Visual Prompt):在视觉编码器的每一层中嵌入可学习的参数(软提示),以更好地捕捉视觉输入的语义内容。
- 文本提示(Textual Prompt):在语言模型(LLM)中引入文本提示,以捕捉文本模式并影响LLM内部的表示。
- 跨模态交互层:引入一个可调的交互层,以增强视觉编码器提取的特征与文本表示之间的对齐。
实验效果
- 准确率:在多个数据集上,M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
- 结论:M2PT在零样本指令学习任务中展现了强大的性能,同时大幅度减少了参数调整的数量,实现了计算效率和整体效果的平衡。
推荐阅读指数:★★★★☆
推荐理由:M2PT通过创新的多模态提示调整策略,在保持性能的同时显著减少了参数数量,对于资源受限的应用场景具有重要意义。
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)+https://developer.aliyun.com/article/1628910