秒级开通,仅60元/月,即刻畅享私域知识库+LLM智能问答系统

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
简介: chatGPT等LLM发展如火如荼,但实际使用中,时常出现胡说八道的问题。究其原因,是因为LLM存在知识茧房短板:模型一旦训练完成,对于数据样本外的知识知之甚少,在涉及企业私域知识等场景的问答效果不佳。由此,业界通常使用知识库+LLM方式来解决。部署LLM需要GPU,成本高昂。鉴于此,阿里云Lindorm多模数据库推出了智能问答体验版,秒级开通,仅60元/月。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

Lindorm AIGC体验版购买链接:https://common-buy.aliyun.com/?commodityCode=hitsdb_aigcsharepre_public_cn

大模型在企业应用中的问题

随着chatGPT的惊艳表现,在智能问答等场景迅速迎来火爆应用。企业、科研机构等纷纷入场,引发了全球LLM大战,各种各样的LLM如雨后春笋般涌现。然而,随着应用的不断深入,大家发现不论是哪家的LLM,给出的答案,时常出现胡说八道的问题。究其原因,LLM是采用大量数据样本做训练,模型一旦训练完成,对于数据样本外的知识一无所知,我们给这个现象取个非常形象的名字:知识茧房。LLM的知识如同局限在所训练的数据样本中,类似被包裹在一个茧房里面一样。由于缺乏茧房之外的知识,所以面对需要这些知识的问题,则问答效果欠佳,甚至驴唇不对马嘴。

      以企业构建智能问答系统为例,通用的LLM通常是缺乏企业私域知识的,在涉及私域知识的问答中,很难取得很好的效果。而如果用私域数据,训练一个企业独有的LLM,成本过高,动辄数百万美金,且需要专业技术团队。另一方面,企业的私域数据通常是很有限的数据,做微调训练,很难出效果。更有效便捷的处理方式是,将企业私域数据通过文本处理、分割、向量化等步骤,加工成企业知识库。结合语义检索和LLM,便可构建一个高效、智能、精准的问答系统。相比传统问答系统,该系统具备更高的智能化和自适应性,更加适合企业的实际需求,不仅可以实现基本的问答功能,还能够对问题进行智能化分析和推理,提供更加精准和全面的答案,而且具备LLM的知识概括、推断、转换、扩展等能力。

       笔者做了一个测试:采用清华大学的开源ChatGLM-6B搭建一套智能问答系统。输入一个简单问题:请介绍阿里云RDS数据库。此问题还并非完全是私域知识问题,因为阿里云RDS数据库在公网上已发布了一些资料。看问答表现,右上图是未叠加私域数据的答案,存在明显错误,如:

  • 阿里云RDS的产品名称里不应该出现"amazon"。
  • 阿里云数据库没有名字为“Oracle”、“DB Manager”和“DB Designer”等服务。

右下图是仅灌入一篇产品文档构建成知识库,相同问题,使用相同的LLM,答案精准,且更简洁专业。

如何构建企业知识库

企业知识库是企业私域知识问答系统的核心部分,它包含了企业的专属知识和最新信息,这些是通用大模型在训练时无法获取的信息。LLM结合知识库,可破解“知识茧房”困局。

企业的原始数据通常以PDF、docx、文本等格式存在,将这些数据加工成企业知识库,通常需要如下步骤:

  1. 数据工程师准备好私域源数据(文档、图片、JSON、SQL等)。
  2. 对源数据做预处理,统一转换成文本格式。
  3. 引入或开发文本分割算法,将文本分割成text chucks。
  4. 引入或开发文本转向量算法,将text chucks转换成向量,即所谓的embedding过程。
  5. 将转换后的向量,及对应的数据存放到向量数据库。
  6. 部署和维护一套向量数据库。
  7. 用户输入查询问题。
  8. 引入或开发合法合规校验系统,校验用户问题的合规性。
  9. 将查询问题转换成向量。
  10. 调用向量数据库查询接口,做语义检索。
  11. 返回检索到的topK关联内容。
  12. 用户将topK内容以及查询问题,填入到prompt模板。
  13. 部署LLM。输入prompt给LLM,LLM返回答案。

      此外,若要上线生产,还需考虑:

  • 知识库数据新增和更新的处理。
  • 文本分割、embedding等算法的引入,结合业务进行优化。
  • 要提高检索知识库的准确率,往往需要结合向量检索和传统基于关键词的文本检索,即所谓的多路召回。
  • LLM大模型的部署、维护。
  • CPU/GPU机器的资源管理,资源扩缩容等。
  • 监控告警;系统HA,灾备;权限管理;数据加密;安全审计等。

      设计这套系统,至少需要如下几大能力:

  • 需要一款数据存储系统,除了存放企业知识库原始语料外,还涉及用户信息、对话记录、配置信息等数据的处理,要求该系统支持处理结构化和非结构化数据。
  • 需要具备数据订阅,流处理能力,用于知识库的全量数据、增量数据、数据更新的持续加工。
  • 需要同时具备向量检索和全文检索能力的数据库。
  • 知识库数据加工能力:具备文本预处理、文本分割、文本及问题的向量化转换等功能,并且能将全套数据加工流程做统一编排。对外提供标准接口,供应用开发者便捷使用。

使用Lindorm轻松构建企业专属智能问答系统

面向未来,AI无疑会成为数据处理,价值挖掘中重要的一环。阿里云数据库在知识库+LLM 上也早有布局:1、提供企业级向量数据库能力,如 ADB PG、RDS PG 、PolarDB PG 等。2、 Lindorm提供多模数据处理能力和AI数据服务平台。其设计理念是:提供一个开放的平台,支持一键式导入用户所需的AI模型,无缝融合到数据加工流程中,实现数据价值创新。仅需一个平台,即可实现数据存储、增删改查、数据订阅、向量检索、全文检索、AI挖掘等全流程。

在智能问答场景,使用Lindorm AI数据服务平台,可以一站式完成企业知识库和LLM服务的搭建,构建一套企业专属智能问答系统。

构建“企业知识库”

基于Lindorm提供宽表、流处理、向量检索、全文检索等能力,提供如下功能,实现企业知识库数据流自动加工和编排能力。

  • 向量、文本、文件等多模态数据的统一存储。
  • 内置“文本切片”和embedding算法,并支持替换,可导入用户自己的算法。
  • 自动完成文本分割、embedding和向量入库的整套数据流服务。
  • 提供向量检索、全文检索、标量(标签)检索等多路召回能力。
  • 支持文本更新,自动实现知识库的更新。

构建LLM大模型服务

Lindorm内置AI编排引擎,帮助用户快速部署或者对接LLM服务:

  • 用户导入AI模型(chatGLM、Stable Diffusion等)或用户自有模型。也可对接外部LLM,比如通义千问等。
  • GPU、CPU等底层资源的管理和调度。
  • 收到用户问题后,自动检索企业知识库。
  • 结合用户问题及相关企业知识,构造prompt并完成大模型调用。

       综上所述,基于Lindorm AI数据服务平台,可便捷构建知识库全自动加工方案,用户仅需导入企业私域知识的文本数据,就能实现企业私域知识智能问答,文本切割、向量转换、向量存取、语义检索等功能平台自动化完成。具体方案如下:

  • 向量即服务(开箱即用),用户仅需两步就可便捷构建和使用企业私域知识智能问答:
  1. 导入私域数据,建好AI模型。
  2. 输入问题,得到答案。

如下工作,由平台自动完成:


  • 知识库全自动加工:数据存取、文本分割、向量转换、索引构建、流处理等数据加工流程全自动完成。
  • 支持全量、增量数据持续导入,支持数据更新。
  • 系统自动完成查询问题向量转换、语义检索。并将问题和语义检索得到的topK关联内容,填入prompt,调用LLM得到答案,返回给用户。
  • 向量数据库、LLM等组件自动化部署。
  • 提供便捷的SQL开发接口,零AI基础也可即刻上手,方便应用开发。如:
  • 导入数据,直接在表中insert即可:insert into doc_table (id,doc_field)  values('1','阿里云Lindorm多模数据库,提供宽表、时序、文件、搜索等多种数据模型,支持毫秒级在线数据处理、海量数据低成本存储和分析。 ');
  • 查询问题,也仅需一条select语句:select ai_infer('rqa_model', '请介绍Lindorm数据库');
  • 部署和创建AI模型等操作,也均只需简单的SQL语句即可完成。


  • 算法模型:
  • 默认提供text2vec等开源算法,用户可根据业务需求导入自定义算法。
  • 支持从modelscope和HuggingFace平台导入算法模型。
  • 支持导入阿里集团及客户自己的算法模型。
  • 向量数据库:Lindorm自带向量存储、向量检索、全文检索和多路召回能力,支持十亿级别向量。
  • 部署形态:支持公共云部署,可打造客户专有LLM环境,专网专用,数据不外泄(Your data is your data)。
  • 兼容主流LLM:通义千问、chatGLM等,满足客户个性化、多样性需求。
  • 异构算力管理和调度:CPU、GPU算力统一提供、统一管理,弹性扩缩。
  • 企业级特性:传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新,模型在线更新。

秒级开通,60元/月,即刻体验私域知识+LLM的智能问答系统

纸上得来终觉浅,绝知此事要躬行。部署LLM需要GPU,而GPU的成本高,在云上申请一张可部署LLM的入门级GPU一个月就要数千元。鉴于此,Lindorm推出了智能问答体验版,首月仅需60元,平均一天仅两元钱。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

开通方法:秒级开通具备私域知识+LLM的智能问答系统。

  1. 登录Lindorm产品购买页,按需选择购买时长等配置后,点击“立即购买”。

  1. 完成支付后。登录Lindorm产品控制台,在杭州地域查看开通的实例,进入实例的“AI引擎”页签,即可使用。系统提供预制的Lindorm知识库等示例模型,可直接用于体验。也支持用户导入自己的知识文本,构建自己的私域知识库+LLM智能问答服务。


在Lindorm上玩转更多AI模型

      AI时代已来临,Lindorm致力于普惠AI,让AI服务数据,让数据产生价值,与用户共同探索智慧世界。Lindorm AI数据服务平台是一个开放的平台,可管理GPU、CPU、存储等异构资源,提供AI推理服务,即支持用户从modelscope和HuggingFace平台导入开源模型,也支持用户导入自己训练的模型。基于Lindorm不仅可以快速构建“专属智能问答系统”,也可导入Stable Diffusion,快速部署“文生图”服务,开通及使用指导详见:如何搭建文生图 AIGC 业务

此外,包括阿里集团开发的文搜图、图搜图等AI模型,均支持在Lindorm AI数据服务平台上使用,并方便的构建完整数据加工流程,便捷的开发应用。更多示例请参考:https://help.aliyun.com/document_detail/2401803.html


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
存储 算法 调度
探索AIOS:LLM智能代理操作系统的未来
【4月更文挑战第5天】AIOS是一种创新的LLM智能代理操作系统,旨在解决资源分配、上下文维护和异构代理集成的挑战。它将OS作为代理的“大脑”,采用模块化设计优化LLM功能,包括代理调度、上下文管理、内存和存储管理。AIOS提供并发执行、工具集成及访问控制,提升效率和安全性。其SDK加速应用开发,开源特性促进研究合作。尽管有调度优化、上下文管理效率和安全性的改进空间,AIOS为智能代理的发展开辟了新途径。
240 11
探索AIOS:LLM智能代理操作系统的未来
|
2月前
|
存储 人工智能 机器人
使用CLIP和LLM构建多模态RAG系统
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。
349 0
|
9月前
|
自然语言处理 搜索推荐 开发者
SmartArXiv——基于OpenSearch LLM智能问答版构建的智能学术论文助手正式发布
本文介绍智能学术论文助手SmartArxiv的架构、应用场景和产品功能。
1842 1
|
2月前
|
存储 人工智能 自然语言处理
OpenSearch LLM智能问答版全新升级
阿里云OpenSearch LLM智能问答版近期全新升级,新增最新版开源大模型、多模态模型、切片策略升级等产品能力。
1884 1
|
2月前
|
弹性计算 自然语言处理 开发工具
通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统
|
2月前
|
存储 安全 机器人
【LLM】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
【5月更文挑战第13天】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
78 1
|
2月前
|
自然语言处理 API 数据安全/隐私保护
通过阿里云Milvus和通义千问快速构建基于专属知识库的问答系统
本文展示了如何使用阿里云向量检索 Milvus 版和灵积(Dashscope)提供的通用千问大模型能力,快速构建一个基于专属知识库的问答系统。在示例中,我们通过接入灵积的通义千问 API 及文本嵌入(Embedding)API 来实现 LLM 大模型的相关功能。
通过阿里云Milvus和通义千问快速构建基于专属知识库的问答系统
|
2月前
|
自然语言处理 算法 搜索推荐
基于LLM(Large Language Model,大语言模型)的智能问答系统
基于LLM(Large Language Model,大语言模型)的智能问答系统
370 6
|
2月前
|
开发框架 前端开发 机器人
从模型到前端,你应该知道的LLM生态系统指南
LLM在在2023年发展的风生水起,一个围绕LLM的庞大生态系统正在形成,本文通过介绍这个生态系统的核心组成部分,来详细整理LLM的发展。
293 2
|
2月前
|
Linux 异构计算 Docker
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答
QAnything本地知识库问答系统:基于检索增强生成式应用(RAG)两阶段检索、支持海量数据、跨语种问答

热门文章

最新文章