阿里云百炼之RAG算法能力分享会来喽|速来围观~

简介: 阿里云百炼是基于通义大模型、行业大模型以及三方大模型的一站式大模型开发平台。提供完整的模型训练工具和全链路开发套件,预置丰富的应用插件,提供便捷的集成方式,结合企业专属数据和API,帮企业高效完成大模型应用构建。RAG检索增强应用是在通义千问-Max大模型基础之上,专项增强「基于知识检索的大模型生成能力」,支持基于结构化/非结构化内容的文字生成场景。

2024年1月,在知乎课堂直播间中,阿里云-飞天实验室-算法专家余海洋分享了大模型服务平台中RAG算法能力建设分享。在直播中分别从五个方面介绍了RAG检索能力:

  1. 易用:结合企业知识库快速创建大模型应用
  2. RAG-预置开箱即用大模型应用
  3. 企业知识搜索增强
  4. 文档问答算法流程
  5. 文档解析技术
  6. 难点

下面我们通过观看下方视频进一步探索RAG检索增强问答的奥秘吧👇~

常见问题

小编汇总了直播间中提到的问题及回答,请查看下方内容了解哦👇

1、对于我自己定义的插件或函数,assistant-api是如何理解插件或函数的参数,并使用他们的?

答:自定义API插件是可以理解的,会遵循协议,传给大模型,让大模型进行理解。对于函数而言,大模型会学习传入的参数信息,会返回完整的结果。


2、agent和assistant-api的最大区别是什么?

答:调整插件模型、基于上下文的理解,用户可以自己去开发,而assistant-api是可以提供各种类,方便调优。


3、直播中讲解的版本,预计什么时间发布上线?

答:当前版本已经上线,可以登陆阿里云百炼管理后台进行体验。


4、RAG模型版本的更新迭代时间大概是多久?

答:本身基础能力比较强,对于检索能力也是持续迭代,迭代时间比较快,没有固定周期。


5、阿里云百炼是通义千问plus版?

答:阿里云云百炼是一个提供模型的平台,包含通义千问系列的模型。


6、构建好这个模型服务之后,可以生成Api供自己的业务代码调用吗?

答:可以的,阿里云百炼提供API服务,详情:https://help.aliyun.com/document_detail/2712191.html.


7、后面还会支持更多模型吗?

答:会的,后面可支持的版本会多样化。


8、应用广场后面会上架哪些应用,三方应用可以上架么?有什么要求吗?

答:可以的,具体上架要求需要跟我方商务同学进一步沟通。


9、插件中心会提供保密吗?

答:支持数据、API参数传输加密,其他的诉求可以沟通。


10、RAG在哪些领域都得到了应用,展开说说?

答:RAG模型凭借其强大的检索与生成能力,在问答系统、对话系统、文本摘要、知识图谱构建与推理、教育与培训、客户服务、新闻与内容创作以及智能搜索与推荐等多个领域均展现出广泛的应用潜力和价值。


RAG检索增强操作指南

通过视频学习了模型调优的概念、使用说明与相关实践案例的指引。那让我们登录阿里云百炼控制台,小试牛刀一下!

一般来讲,体验RAG检索增强应用有三个主要过程,包括:

  • 数据准备:提前准备让RAG检索的文档内容;
  • 创建RAG检索增强应用:需要手动创建RAG检索增强应用,开启检索范围;
  • 应用测试:最后需要验证模型检索的程度情况。

第一步:上传企业数据文档

企业知识库目前支持OSS和向量数据库存储,其中需要先进行账号授权,详细授权操作步骤请参考文档:https://help.aliyun.com/document_detail/2586437.html进行配置。此处不再重复。

路径:首次上传文件,点击上传企业知识按钮,进入上传文件页面。

选择需要模型学习的文件,上传后点击确认导入等待上传状态。

说明

  • 若文件上传的格式为pdf、doc、docx时,每次最多只能上传20个文件且单个文件小于100M,文档页数低于100页。
  • 若上传的格式为Excel时,每次最多只能上传20个文件,且单个文件小于100M,文档内容小于1000行数据。
  • 具体导入说明可以在上传页面中查看详情。


老用户必看,新用户可忽略

阿里云百炼提供两个默认ES向量数据库,按照知识库名称分类对比能力:

  • 默认知识库:近期新上线的能力,检索效果相对较好,但上传的文件没有预览功能;
  • 默认:最先支持的能力,检索效果一般,但上传的文件有预览功能;(2024年3月15日以后开通的阿里云百炼用户则没有该选项)

您可以按照对比按需选择。

状态目前包括:导入中、导入完成、导入失败;当状态为导入完成时即可用于模型测试验证

当上传的文档为Excel时,需要先下载预置的文件模板,按照模板的提示填充内容后再上传文件。

知识标签

可以通过设置标签的方式将上传的文档进行分类,最多支持设置50个标签。在文档问答检索中,也可以通过标签的方式进行检索。

点击新增标签,输入标签名称点击确定。

点击已经上传文档的编辑按钮,选择标签后点击保存,文档标签设置完成。

可以通过设置标签类型,实现指定大模型的检索知识范围

批量管理

支持批量管理标签和批量删除文档功能。

第二步:创建RAG检索增强应用

路径:应用广场--点击RAG检索增强应用模板下方的创建应用按钮--输入应用名称后,点击确定。

image.png

选择模型,配置检索知识范围后,点击创建完成。

image.png

此时创建完成的应用,可以在我的应用中查看。

image.png

第三步:测试

应用体验中心测试

一共有两种方式完成测试体验,分别包括:

路径1:点击我的应用--新建应用下方的测试按钮,可以进入测试窗;

image.png

路径2:点击应用体验中心--选择新建的RAG检索增强应用进行测试。

image.png

测试示例:

prompt:民法典第一条内容

模型回复:第一条  【立法目的】为了保护民事主体的合法权益,调整民事关系,维护社会和经济秩序,适应中国特色社会主义发展要求,弘扬社会主义核心价值观,根据宪法,制定本法。


tips可以指定模型返回答案的来源信息。

image.png

答案来源于我上传的文档内容:

image.png


API接口测试

路径:点击我的应用--RAG检索增强应用下方的调用按钮,根据API接口文档进行体验:https://help.aliyun.com/document_detail/2712180.html

image.png


以上就是RAG检索增强应用的完整体验流程啦,您是否也一起跟着练习了呢?在练习过程中是否有需要反馈我们进行优化或者改善的呢?快在下方留言区中告诉我吧~


今天的分享内容就到此结束啦,是不是又get了新技能!下期想了解什么内容也可以在评论区进行互动哦,有机会获

得精美礼品哦~就酱啾咪(* ̄︶ ̄)


相关实践学习
如何快速体验知识检索增强应用
在应用广场中您可以挑选智能体API应用、官方预置完整工程链路的知识检索增强(RAG)应用、流程编排应用,以及官方最佳实践的写作应用妙笔等,通过应用快速将通义千问系列等大语言模型能力接入到业务解决方案中。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
存储 算法 Python
火箭般的提升!学会Python并查集,让你的算法能力飞跃新高度!
【7月更文挑战第17天】并查集,高效解决集合合并查询问题,常用于图的连通性判断。Python实现关键包含查找和合并操作。初始化时,元素各自为集合。查找使用路径压缩优化,合并则可选按秩策略保持平衡。例如,检测无向图环路,遍历边,若并查集发现边两端已在同一集合,则存在环。掌握并查集,提升算法能力,助你在问题解决中一飞冲天!动手实践,成为算法达人!
56 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4月前
|
人工智能 自然语言处理 算法
昆仑万维携手南洋理工大学抢发Q*算法:百倍提升7B模型推理能力
【7月更文挑战第4天】昆仑万维与南洋理工大学推出Q*算法,大幅提升7B规模语言模型的推理效能。Q*通过学习Q值模型优化LLMs的多步推理,减少错误,无需微调,已在多个数据集上展示出显著优于传统方法的效果。尽管面临简化复杂性和效率挑战,这一创新为LLM推理能力提升带来重大突破。[论文链接:](https://arxiv.org/abs/2406.14283)**
47 1
|
5月前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
6月前
|
人工智能 监控 算法
阿里云PAI-EAS算法服务挑战赛:开启AI新时代
阿里云PAI-EAS算法服务挑战赛:开启AI新时代
471 1
|
6月前
|
算法 开发工具 Android开发
AliCloudDenoise算法助力阿里云视频云实时会议进入超清音质时代
阿里云音视频通信RTC(Real-Time Communication)是覆盖在全球范围内的实时音视频开发平台。依托核心音视频编解码、信道传输、网络调度等技术,为您提供高可用、高品质、超低延时的音视频通信服务。除核心功能的提供外,阿里云音视频通信RTC SDK还以插件的形式提供多种增值服务,AliCloudDenoise算法插件即是其中一种。该算法插件可以将噪声滤除,提升语音质量和可懂度,为在线会议、在线教育等实时通信场景提供卓越的语音体验。
245 1
|
6月前
|
算法 开发工具 Android开发
AliCloudDenoise算法助力阿里云视频云实时会议进入超清音质时代
阿里云音视频通信RTC(Real-Time Communication)是覆盖在全球范围内的实时音视频开发平台。依托核心音视频编解码、信道传输、网络调度等技术,为您提供高可用、高品质、超低延时的音视频通信服务。除核心功能的提供外,阿里云音视频通信RTC SDK还以插件的形式提供多种增值服务,AliCloudDenoise算法插件即是其中一种。该算法插件可以将噪声滤除,提升语音质量和可懂度,为在线会议、在线教育等实时通信场景提供卓越的语音体验。