先来看看最终效果:
本案例基于阿里巴巴公益的真实素材,展示如何通过阿里云百炼平台构建一个具备多模态检索能力的智能体。该智能体能够理解用户关于公益活动、宣传片等问题的自然语言查询,并从文档库和视频库中精准定位相关内容,以图文结合的方式呈现答案。
素材数据:
准备工作
注册并登录阿里云百炼平台
访问 阿里云百炼官网,使用阿里云账号登录。
熟悉界面布局
了解核心组件
大模型(LLM - Large Language Model)
作用:智能体的核心推理引擎,负责理解用户意图、生成自然语言响应、进行逻辑推理等。
支持模型:通义千问(Qwen)系列(如 Qwen-Max、Qwen-Plus、Qwen-Turbo)、第三方模型(部分场景支持)。
示例:用户问"帮我写一封请假邮件",LLM 负责生成符合语境的邮件正文。
技能(Tools)
作用:赋予智能体与外部世界交互的能力,扩展其"行动力"。
类型:
- 内置工具:如获取当前时间、执行简单计算、网络搜索(需授权)。
- 自定义工具:通过 OpenAPI 规范注册企业内部 API(如查询订单、调用 CRM、访问数据库)。
工作机制:
- LLM 根据用户请求判断是否需要调用工具。
- 自动解析工具参数并发起调用。
- 将工具返回结果注入上下文,供后续推理使用。
示例:用户说"查一下我昨天的订单状态",智能体调用"订单查询 API"获取数据后回复。
记忆(Memory)
作用:管理对话历史与长期知识,实现上下文连贯性和个性化服务。
类型:
- 短期记忆(对话上下文):自动保存最近 N 轮对话,用于维持多轮交互。
- 长期记忆(向量知识库):将企业文档、FAQ、产品手册等嵌入为向量,支持语义检索(RAG)。
配置:设置上下文窗口长度。
示例:用户先问"公司年假政策?",后问"那我能休几天?",智能体结合前文和个人信息作答。
提示词模板(Prompt Template)
作用:结构化引导 LLM 行为,提升输出稳定性与准确性。
功能:
- 支持变量插值(如
{{user_input}},{{tool_result}}) - 定义角色(Role)、任务目标、输出格式
- 可复用、可版本管理
示例:
你是一位热情且专业的志愿者数据助手,能够根据用户上传的知识库,搜索合适的内容并构建回答。你的任务是帮助用户快速找到他们需要的信息,并提供准确、有用的回答。
创建应用
提示词拟写(System Prompt)
# 角色 你是一位热情且专业的志愿者数据助手,能够根据用户上传的知识库,搜索合适的内容并构建回答。你的任务是帮助用户快速找到他们需要的信息,并提供准确、有用的回答。 ## 技能 ### 技能 1: 理解用户需求 - 深入理解用户的查询意图和需求。 - 如果用户的需求不明确,可以通过进一步提问来获取更多信息。 ### 技能 2: 搜索和筛选信息 - 使用知识库中的内容,搜索与用户查询相关的信息。 - 根据用户的查询,筛选出最相关的数据和信息。 ### 技能 3: 构建回答 - 根据搜索到的信息,构建一个清晰、准确且有条理的回答。 - 确保回答中包含所有必要的信息,并且易于理解。 ### 技能 4: 提供附加信息 - 如果用户需要更多相关信息,可以继续从知识库中搜索并提供。 - 在回答中引用知识库中的具体来源,以增加可信度。 ## 约束 - 只使用用户上传的知识库中的信息进行搜索和构建回答。 - 不得提供知识库之外的信息或个人意见。 - 所有回答必须基于知识库中的数据,确保信息的准确性和可靠性。 - 回答时保持客观和中立,避免任何偏见或误导性信息。 ## 知识库 - 用户上传的知识库内容将用于搜索和构建回答。请确保在回答时引用具体的来源。 @memory@ ## 示例 - 用户询问:"请问关于公司财务报表的相关规定有哪些?" - 你可以从知识库中搜索相关的财务报表规定,并构建一个详细的回答,包括主要条款和具体要求。 通过以上技能和约束,你将能够高效地帮助用户找到他们需要的信息,并提供高质量的回答。
创建知识库
创建文档知识库 - 阿里巴巴公益
选择图文并茂回答
图文并茂回答,当用户提问涉及包含插图的文档内容时,系统会从原始文档中提取图片及其语义摘要,并由大模型根据问题相关性自主判断是否在回答中插入对应图片,从而实现图文混排的回复效果。
选择类目,上传文件
设置索引
阿里云百炼知识库的索引设置主要包括以下几类参数,其含义如下:
- DenseSimilarityTopK:向量检索 Top K,控制语义相似度召回数量,范围 [0–100],默认 50
- SparseSimilarityTopK:关键词检索 Top K,控制精确关键词匹配召回数量,范围 [0–100],默认 50
- RerankMinScore:排序模型输出的最低分数阈值,仅高于此分的切片才会被最终召回,取值范围 [0–1]
创建音视频知识库 - Alibaba 公益短片
音视频知识库适用于以语音或视频内容为核心载体、需通过自然语言实现语义检索与精准定位的高价值知识沉淀场景。
上传视频
在智能体中添加知识库
大模型选择:根据不同用途选择不同大模型
测试对话
用户输入:"2025年阿里巴巴公益做了哪些很有意义的公益活动?"
用户输入:"阿里巴巴的公益宣传片也很有创意,解读一下。"
应用场景延展
这个智能体架构不仅限于公益领域,还可广泛应用于:
- 企业知识中枢:整合产品手册、培训资料、FAQ,打造员工自助问答机器人
- 客户服务升级:基于历史工单和技术文档,实现精准故障诊断与建议
- 教育资料库:将课件、讲座视频转化为可检索的学习助手
- 合规审计支持:快速定位政策法规、内部制度中的关键条款
立即体验:访问 阿里云百炼官网 创建你的专属智能体,让组织知识真正"活"起来。
作品欢迎提交作品至仓库,增加作品影响力,一起开源建设,优秀作品会加入官方案例集,获得额外奖励
https://github.com/ModelStudioAI/modelstudioai.github.io/issues/new
总仓库地址,获取更多技能加持,赢胜比赛!https://github.com/modelstudioai
阿里云OPC创新助力计划:单客最高 100万等额 Token补贴、1V1技术陪跑、直通阿里云产品生态、品牌曝光加持、融资与创业空间对接等五大维度权益,加速AI原生新业态的繁荣发展。前往官网:https://opc.aliyun.com/ 申领至高百万等额Token补贴。