PAI+Hologres基于大模型搭建企业级知识库

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文为您介绍如何通过计算巢服务,一键完成Hologres与大规模问答知识库所需的硬件资源与软件资源部署,快速完成企业级问答知识库的搭建。

本文为您介绍如何通过计算巢服务,一键完成Hologres与大规模问答知识库所需的硬件资源与软件资源部署,快速完成企业级问答知识库的搭建。

背景信息

  • Hologres是阿里巴巴自研一站式实时数仓产品,不仅支持海量数据多维分析(OLAP)、高并发低延迟的在线数据服务(Serving),还与达摩院自研高性能向量计算软件库Proxima深度整合,支持高性能、低延时、简单易用的向量计算能力。关于Proxima在Hologres中的应用,请参见Proxima向量计算

  • PAI-EAS是阿里云的模型在线服务平台,支持用户将模型一键部署为在线推理服务或AI-Web应用,可以一键部署LLM推理、AIGC等热门服务应用。PAI-EAS适用于实时推理、近实时异步推理等多种AI推理场景,具备Serverless自动扩缩容和完整运维监控体系能力。详情请参见EAS产品架构

  • LangChain是一个开源框架,可以将大模型、向量数据库、定制语料结合,高效完成专属问答知识库的搭建。Hologres现已被LangChain作为向量数据库集成,详情请参见LangChain-Hologres。

  • 计算巢服务是一个开放给服务商和用户的服务管理PaaS平台,为服务商和用户提供了高效、便捷、安全的服务使用体验,服务商能更好地在阿里云上部署、交付和管理服务,用户能集中管理在阿里云上订阅的各类服务商提供的服务。通过计算巢,可以一键完成问答知识库所需的硬件资源拉起与软件资源部署。计算巢服务详情介绍,请参见什么是计算巢服务
    推荐产品:实时数仓Hologres(原交互式分析)

前提条件

若您使用RAM用户进行知识库搭建,请确认RAM用户已具备相应的权限。需要的权限和授权方式,请参见为用户侧RAM用户(子账号)授权

创建计算巢服务实例

1、访问计算巢服务市场页面,选择Hologres+PAI一键部署企业级问答知识库,并单击正式创建。
2、在创建服务实例页面,配置以下参数。

image.png

3、单击下一步:确认订单,在订单确认页面,确认依赖检查信息和授权信息,然后单击立即创建。

服务实例创建成功之后,在服务实例管理列表查看已创建的服务实例状态。

使用知识库

1、配置并连接知识库。

a、访问服务实例管理页面,单击已部署的实例ID,进入服务实例详情页面。

b、在实例信息区域,单击endpoint,进入Hologres+大模型WebUI。

image.png

c、在Hologres+大模型WebUI的设置页签,配置以下参数。

image.png

  • User:阿里云账号或RAM用户的AccessKey ID。您可以进入AccessKey管理页面获取AccessKey ID。

  • Password:AccessKey ID对应的AccessKey Secret。您可以进入AccessKey管理页面获取AccessKey Secret。

说明
Embedding模型、模型在线服务PAI-EAS连接信息与计算巢部署的Hologres实例的VPC Host、Port、Database(默认为:chatbot)信息已配置,无需修改。

d、单击连接Hologres。

在连接信息中返回连接Hologres成功内容,即说明连接成功。

在上传页签,选择您的专属语料数据文件,然后单击上传。本文以语料示例文件为例。

2、上传完成后在状态区域,返回成功上传 1 个文件 [ example_data.txt, ] ! 内容,即说明上传成功。

image.png

3、在聊天页签,配置问题反馈相关参数。

image.png

4、在提问框中输入您的问题,并单击提交。
image.png

说明
您可以进一步使用PAI-EAS部署的大模型的调用信息,将知识库接入实际业务场景进行使用,例如:接入钉钉聊天群聊,详情请参见使用Hologres和大模型免费定制专属聊天机器人。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
目录
相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
83 2
|
26天前
|
机器人
1024 云上见 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建 “文旅领域知识问答机器人” 领精美计时器
1024 云上见 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建 “文旅领域知识问答机器人” 领精美计时器
80 3
|
26天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
1月前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
【10月更文挑战第6天】如何使用机器学习模型来自动化评估数据质量?
|
5天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
2天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
11 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
6天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
19 1
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
47 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
15天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
52 1
|
18天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?

热门文章

最新文章