计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(中)

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(上)+https://developer.aliyun.com/article/1628908


4. SEAL: Suite for Evaluating API-use of LLMs

Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty

https://arxiv.org/abs/2409.15523

SEAL:用于评估大型语言模型API使用的工具套件

摘要

大型语言模型(LLMs)在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试(如ToolBench和APIGen)用于评估LLMs的API使用能力,但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL,这是一个端到端的测试平台,用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准,集成了用于测试API检索和规划的代理系统,并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。

研究背景

LLMs在许多语言任务中表现出色,但在需要实时访问特定信息(如当前事件、计算或网络搜索)的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力,使它们能够执行专业任务并获取最新知识,动态适应用户需求。

问题与挑战

现有的API使用基准测试存在一些关键问题,包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。

创新点

  • 提出了SEAL,一个全面的测试平台,用于评估LLMs在工具使用,特别是多样化的现实世界APIs中的表现。
  • SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统,提供了一个健壮的评估流程。
  • 为了解决实时API的不稳定性,开发了一个由GPT-4驱动的API模拟器,并引入了缓存机制来实现更确定性的评价。

算法模型

SEAL基于AutoGen框架构建了一个灵活的代理系统,允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。

实验效果

  • 数据: 使用ToolBench和APIGen基准进行评估。
  • 结论: 随着API池的扩大,API检索和调用的准确性有所下降,但最终响应的通过率变化不大。这表明随着API数量的增加,任务变得更加具有挑战性。

推荐阅读指数:

★★★★☆

  • 推荐理由: SEAL为评估LLMs在现实世界API交互中的性能提供了一个全面和标准化的框架。

5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling

Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar

https://arxiv.org/abs/2409.15626

定性洞察工具(QualIT):大型语言模型增强的主题建模

摘要

主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而,大多数主题建模方法(例如潜在狄利克雷分配(LDA))难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法,它显著提高了主题一致性,从而为基准测试建立了新的标准。在本文中,我们提出了一种新的方法,Qualitative Insights Tool (QualIT),它将大型语言模型(LLMs)与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力,通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法,并展示了与基线主题建模技术相比,在主题一致性和主题多样性方面的显著改进。

研究背景

主题建模是自然语言处理(NLP)中用于从非结构化文本数据(如社交媒体帖子、新闻文章或客户反馈)中提取潜在主题结构的技术。传统的主题建模技术(例如LDA)存在一些局限性,例如单词袋模型的局限性和必须指定聚类数量,它们还依赖于预定义的规则和模式,难以捕捉自然语言中固有的上下文细微差别和歧义。

问题与挑战

现有的基于聚类的主题建模方法(如BERTopic)存在局限性,例如单词表示过载或每篇文本只能生成一个主题。此外,这些方法可能需要领域特定的知识或微调才能达到可接受的性能。

创新点

  • 提出了QualIT,一种将预训练的LLMs与聚类技术整合的新方法,以系统地解决两种方法的局限性,并从自由文本数据中生成更细致和可解释的主题表示。
  • 结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力,可以革新主题建模,提供强大而富有洞察力的方法来分析大规模文本响应。

算法模型

QualIT包括多个步骤来生成主题,然后用于确定文档的子主题。三个关键步骤是:

  1. 关键短语提取:使用LLM提取代表各个文档的关键短语。
  2. 幻觉检查:计算每个短语的一致性得分,以确保提取的关键短语的可靠性。
  3. 聚类:使用K-Means聚类算法对关键短语进行分组,每组代表具有相似语义内容的文档集合。

实验效果

  • 数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。
  • 结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上,QualIT达到了70%的主题一致性(基准模型分别为65%和57%)和95.5%的主题多样性(基准模型分别为85%和72%)。

推荐阅读指数:

★★★★☆

  • 推荐理由: QualIT通过结合LLMs和聚类技术,提供了一种强大的新方法来分析和理解大规模文本数据中的主题。这项工作为文本分析、主题建模和定性研究领域带来了新的视角和工具,对于希望利用LLMs进行深入文本分析的研究者和实践者来说,这篇文章提供了有价值的见解和方法。

6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui,

Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu

Huang, Qifan Wang, Dongfang Liu

https://arxiv.org/abs/2409.15657

M2PT:用于零样本指令学习的多模态提示调整

摘要

本文介绍了一种新的多模态提示调整方法(M2PT),用于对多模态大型语言模型(MLLMs)进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中,促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明,M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。

创新点

  • 多模态提示调整:首次提出将视觉和文本提示结合用于微调,以提高模型对多模态任务的适应能力。
  • 跨模态交互:通过在不同模态的提示之间设计交互,增强了模型对多模态信息的理解和处理能力。
  • 参数高效:M2PT仅调整模型的极小部分参数,大幅减少了训练成本,同时保持了优越的性能。

算法模型

M2PT模型的核心在于三个方面的创新设计:

  1. 视觉提示(Visual Prompt):在视觉编码器的每一层中嵌入可学习的参数(软提示),以更好地捕捉视觉输入的语义内容。
  2. 文本提示(Textual Prompt):在语言模型(LLM)中引入文本提示,以捕捉文本模式并影响LLM内部的表示。
  3. 跨模态交互层:引入一个可调的交互层,以增强视觉编码器提取的特征与文本表示之间的对齐。

实验效果

  • 准确率:在多个数据集上,M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
  • 结论:M2PT在零样本指令学习任务中展现了强大的性能,同时大幅度减少了参数调整的数量,实现了计算效率和整体效果的平衡。

推荐阅读指数:★★★★☆

推荐理由:M2PT通过创新的多模态提示调整策略,在保持性能的同时显著减少了参数数量,对于资源受限的应用场景具有重要意义。


计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28(下)+https://developer.aliyun.com/article/1628910

目录
相关文章
|
24天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
87 4
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
1月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
310 55
|
8天前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
42 13
|
1月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
202 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解人工智能中的深度学习技术及其最新进展
深入理解人工智能中的深度学习技术及其最新进展
318 33
|
1月前
|
监控 算法 安全
解锁企业计算机监控的关键:基于 Go 语言的精准洞察算法
企业计算机监控在数字化浪潮下至关重要,旨在保障信息资产安全与高效运营。利用Go语言的并发编程和系统交互能力,通过进程监控、网络行为分析及应用程序使用记录等手段,实时掌握计算机运行状态。具体实现包括获取进程信息、解析网络数据包、记录应用使用时长等,确保企业信息安全合规,提升工作效率。本文转载自:[VIPShare](https://www.vipshare.com)。
33 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深入探讨人工智能中的深度学习技术##
在本文中,我们将深入探讨深度学习技术的原理、应用以及未来的发展趋势。通过分析神经网络的基本结构和工作原理,揭示深度学习如何在图像识别、自然语言处理等领域取得突破性进展。同时,我们还将讨论当前面临的挑战和未来的研究方向,为读者提供全面的技术洞察。 ##
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与未来医疗:AI技术在疾病诊断中的应用前景####
本文探讨了人工智能(AI)在现代医疗领域,尤其是疾病诊断方面的应用潜力和前景。随着技术的不断进步,AI正逐渐改变传统医疗模式,提高诊断的准确性和效率。通过分析当前的技术趋势、具体案例以及面临的挑战,本文旨在为读者提供一个全面的视角,理解AI如何塑造未来医疗的面貌。 ####
|
26天前
|
机器学习/深度学习 人工智能 运维
人工智能在事件管理中的应用
人工智能在事件管理中的应用
79 21