魔搭社区推出ModelScope-Agent开发框架,打造属于你的智能体

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭社区推出适配开源大语言模型(LLM)的AI Agent(智能体)开发框架ModelScope-Agent。

导读


魔搭社区推出适配开源大语言模型(LLM)的AI Agent(智能体)开发框架ModelScope-Agent。借助ModelScope-Agent,所有开发者都可基于开源 LLM 搭建属于自己的智能体应用,最大限度释放想象力和创造力!

开源地址:https://github.com/modelscope/modelscope-agent/



技术解析


ModelScope-Agent框架是如何设计的


ModelScope-Agent是一个通用的、可定制的Agent框架,用于实际应用程序,其基于开源的大语言模型 (LLMs) 作为核心,包含记忆控制、工具使用等模块。开源 LLM 主要负责任务规划、调度以及回复生成;记忆控制模块,主要包含知识检索以及 prompt (提示词)管理;工具使用模块,包含工具库以及工具检索和工具可定制化。具有以下特点:


可定制且功能全面的框架:提供可定制的引擎设计,涵盖了数据收集、工具检索、工具注册、存储管理、定制模型训练和实际应用等功能,可用于快速实现实际场景中的应用。


开源LLMs作为核心组件:支持在 ModelScope 社区的多个开源LLMs上进行模型训练,开放大规模中英文工具指令微调数据集。


多样化且全面的API:以统一的方式实现AI模型API和常见的功能API的无缝集成,同时通过调用魔搭社区上开源的文本向量模型,打造API 工具检索引擎,直接根据用户指令检索相关的工具,更便捷易用


ModelScope-Agent框架是如何执行的

ModelScope-Agent 的工作原理是,把目标拆分成更小的任务,然后一项一项完成。首先,开源 LLM 进行规划调度、调用对应的 API;其次,ModelScope-Agent 执行对应的 API,然后把执行的结果返回给开源 LLM;最后,开源 LLM 最终整理一段回复反馈给用户。


比如,当用户请求“写一个简短故事,并用女声朗读”时,ModelScope-Agent 会展示整个任务规划过程,先通过工具检索检索相关的语音合成工具,然后由 LLM 生成一段故事;接着调用语音生成模型,生成语音并用女声念出;不需要用户配置当前请求可能需要调用到的工具。


ModelScope-Agent框架配套训练数据和模型

除了ModelScope-Agent框架之外,我们还开源了配套的中英文大规模工具指令调用数据集MSAgent-Bench和基于Qwen-7B优化的MSAgent-Qwen-7B模型


MSAgent-Bench:https://modelscope.cn/datasets/damo/MSAgent-Bench/summary

MSAgent-Qwen-7B:https://modelscope.cn/models/damo/MSAgent-Qwen-7B/summary


环境配置


本文在ModelScope的Notebook的环境(这里以PAI-DSW为例)配置下运行 (可单卡运行, 显存要求24G)


1、进入github 下载demo文件:https://github.com/modelscope/modelscope-agent/blob/master/demo/demo_qwen_agent.ipynb


2、进入ModelScope首页:modelscope.cn,进入我的Notebook


3、选择GPU环境,进入PAI-DSW在线开发环境


4、上传下载的demo 文件(demo_qwen_agent.ipynb)



ModelScope-Agent实践操作


通过ModelScope-Agent实现搭建魔搭GPT,调用AI模型工具。也可零代码直接体验魔搭GPT创空间(https://modelscope.cn/studios/damo/ModelScopeGPT/summary


1、拉取ModelScope-Agent代码并安装相关依赖


2、配置config文件,ModelScope token和构建API工具检索引擎


3、中枢大模型启动


4、Agent构建和使用,依赖之前构建好的大模型,工具list,工具检索和记忆模块


注册新增工具


1、拉取ModelScope-Agent代码后,进入modelscope_agent/tools里,通过代码层面新增工具custom_tool.py文件,配置API需要的:description,name和parameters;同时增加调用方式,可以选用local_call和remote_call两种


2、配置环境和大模型部署参考上个章节的2、3步


3、将注册的新工具构建list,并且增加到Agent构建过程


4、agen.run() 输入query,测试工具可以正常调用对应API



5、agent会自动调用对应的API,并返回执行结果给大模型,大模型返回回复




未来规划


未来,ModelScope-Agent 会接入更多的开源大模型,以及开放更多基于魔搭 Agent 开发的应用,供开发者直接使用,包括客户服务 Agent、个人助理 Agent、story Agent、Motion Agent、multi-Agent(多模态 Agent) 等等,也鼓励 AI 开发者将魔搭 Agent灵活应用于工业制造、游戏开发、智能互联等各个行业。

相关文章
|
14天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
104 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
15天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
75 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
18天前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
47 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
23天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
73 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
22天前
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
37 7
|
1月前
|
存储 人工智能 算法
卷起来!让智能体评估智能体,Meta发布Agent-as-a-Judge
Meta(原Facebook)提出了一种名为Agent-as-a-Judge的框架,用于评估智能体的性能。该框架包含八个模块,通过构建项目结构图、定位相关文件、读取多格式数据、搜索和检索信息、询问要求满足情况、存储历史判断、以及规划下一步行动,有效提升了评估的准确性和稳定性。实验结果显示,Agent-as-a-Judge在处理复杂任务依赖关系方面优于大型语言模型,但在资源消耗和潜在偏见方面仍面临挑战。
39 1
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
117 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
11天前
|
机器学习/深度学习 人工智能 算法
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
Meta Motivo 是 Meta 公司推出的 AI 模型,旨在控制数字智能体的全身动作,提升元宇宙体验的真实性。该模型通过无监督强化学习算法,能够实现零样本学习、行为模仿与生成、多任务泛化等功能,适用于机器人控制、虚拟助手、游戏角色动画等多个应用场景。
41 4
Meta Motivo:Meta 推出能够控制数字智能体动作的 AI 模型,提升元宇宙互动体验的真实性
|
1月前
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
136 13
AI经营|多Agent择优生成商品标题
|
1月前
|
人工智能 自然语言处理 搜索推荐
🤖【多Agent大爆炸】——灵活调用与实践指南,解锁AI协作新技能!
本文深入探讨了单Agent与多Agent在不同场景下的应用及优势,通过实例讲解多Agent如何实现高效协作,涵盖智能物流、教育、医疗等多个领域的实际应用,旨在帮助开发者掌握多Agent系统的调用与实践技巧。
103 5

热门文章

最新文章