秒级开通，仅60元/月，即刻畅享私域知识库+LLM智能问答系统-阿里云开发者社区

秒级开通，仅60元/月，即刻畅享私域知识库+LLM智能问答系统

2023-09-05 567

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群版 2核4GB 100GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

简介： chatGPT等LLM发展如火如荼，但实际使用中，时常出现胡说八道的问题。究其原因，是因为LLM存在知识茧房短板：模型一旦训练完成，对于数据样本外的知识知之甚少，在涉及企业私域知识等场景的问答效果不佳。由此，业界通常使用知识库+LLM方式来解决。部署LLM需要GPU，成本高昂。鉴于此，阿里云Lindorm多模数据库推出了智能问答体验版，秒级开通，仅60元/月。支持用户直接上传知识库文件，便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群：35977898。参与功能试用和讨论。

Lindorm AIGC体验版购买链接：https://common-buy.aliyun.com/?commodityCode=hitsdb_aigcsharepre_public_cn

大模型在企业应用中的问题

随着chatGPT的惊艳表现，在智能问答等场景迅速迎来火爆应用。企业、科研机构等纷纷入场，引发了全球LLM大战，各种各样的LLM如雨后春笋般涌现。然而，随着应用的不断深入，大家发现不论是哪家的LLM，给出的答案，时常出现胡说八道的问题。究其原因，LLM是采用大量数据样本做训练，模型一旦训练完成，对于数据样本外的知识一无所知，我们给这个现象取个非常形象的名字：知识茧房。LLM的知识如同局限在所训练的数据样本中，类似被包裹在一个茧房里面一样。由于缺乏茧房之外的知识，所以面对需要这些知识的问题，则问答效果欠佳，甚至驴唇不对马嘴。

以企业构建智能问答系统为例，通用的LLM通常是缺乏企业私域知识的，在涉及私域知识的问答中，很难取得很好的效果。而如果用私域数据，训练一个企业独有的LLM，成本过高，动辄数百万美金，且需要专业技术团队。另一方面，企业的私域数据通常是很有限的数据，做微调训练，很难出效果。更有效便捷的处理方式是，将企业私域数据通过文本处理、分割、向量化等步骤，加工成企业知识库。结合语义检索和LLM，便可构建一个高效、智能、精准的问答系统。相比传统问答系统，该系统具备更高的智能化和自适应性，更加适合企业的实际需求，不仅可以实现基本的问答功能，还能够对问题进行智能化分析和推理，提供更加精准和全面的答案，而且具备LLM的知识概括、推断、转换、扩展等能力。

笔者做了一个测试：采用清华大学的开源ChatGLM-6B搭建一套智能问答系统。输入一个简单问题：请介绍阿里云RDS数据库。此问题还并非完全是私域知识问题，因为阿里云RDS数据库在公网上已发布了一些资料。看问答表现，右上图是未叠加私域数据的答案，存在明显错误，如：

阿里云RDS的产品名称里不应该出现"amazon"。
阿里云数据库没有名字为“Oracle”、“DB Manager”和“DB Designer”等服务。

右下图是仅灌入一篇产品文档构建成知识库，相同问题，使用相同的LLM，答案精准，且更简洁专业。

如何构建企业知识库

企业知识库是企业私域知识问答系统的核心部分，它包含了企业的专属知识和最新信息，这些是通用大模型在训练时无法获取的信息。LLM结合知识库，可破解“知识茧房”困局。

企业的原始数据通常以PDF、docx、文本等格式存在，将这些数据加工成企业知识库，通常需要如下步骤：

数据工程师准备好私域源数据（文档、图片、JSON、SQL等）。
对源数据做预处理，统一转换成文本格式。
引入或开发文本分割算法，将文本分割成text chucks。
引入或开发文本转向量算法，将text chucks转换成向量，即所谓的embedding过程。
将转换后的向量，及对应的数据存放到向量数据库。
部署和维护一套向量数据库。
用户输入查询问题。
引入或开发合法合规校验系统，校验用户问题的合规性。
将查询问题转换成向量。
调用向量数据库查询接口，做语义检索。
返回检索到的topK关联内容。
用户将topK内容以及查询问题，填入到prompt模板。
部署LLM。输入prompt给LLM，LLM返回答案。

此外，若要上线生产，还需考虑：

知识库数据新增和更新的处理。

文本分割、embedding等算法的引入，结合业务进行优化。
要提高检索知识库的准确率，往往需要结合向量检索和传统基于关键词的文本检索，即所谓的多路召回。
LLM大模型的部署、维护。
CPU/GPU机器的资源管理，资源扩缩容等。
监控告警；系统HA，灾备；权限管理；数据加密；安全审计等。

设计这套系统，至少需要如下几大能力：

需要一款数据存储系统，除了存放企业知识库原始语料外，还涉及用户信息、对话记录、配置信息等数据的处理，要求该系统支持处理结构化和非结构化数据。

需要具备数据订阅，流处理能力，用于知识库的全量数据、增量数据、数据更新的持续加工。
需要同时具备向量检索和全文检索能力的数据库。
知识库数据加工能力：具备文本预处理、文本分割、文本及问题的向量化转换等功能，并且能将全套数据加工流程做统一编排。对外提供标准接口，供应用开发者便捷使用。

使用Lindorm轻松构建企业专属智能问答系统

面向未来，AI无疑会成为数据处理，价值挖掘中重要的一环。阿里云数据库在知识库+LLM 上也早有布局：1、提供企业级向量数据库能力，如 ADB PG、RDS PG 、PolarDB PG 等。2、 Lindorm提供多模数据处理能力和AI数据服务平台。其设计理念是：提供一个开放的平台，支持一键式导入用户所需的AI模型，无缝融合到数据加工流程中，实现数据价值创新。仅需一个平台，即可实现数据存储、增删改查、数据订阅、向量检索、全文检索、AI挖掘等全流程。

在智能问答场景，使用Lindorm AI数据服务平台，可以一站式完成企业知识库和LLM服务的搭建，构建一套企业专属智能问答系统。

构建“企业知识库”

基于Lindorm提供宽表、流处理、向量检索、全文检索等能力，提供如下功能，实现企业知识库数据流自动加工和编排能力。

向量、文本、文件等多模态数据的统一存储。

内置“文本切片”和embedding算法，并支持替换，可导入用户自己的算法。
自动完成文本分割、embedding和向量入库的整套数据流服务。
提供向量检索、全文检索、标量(标签)检索等多路召回能力。
支持文本更新，自动实现知识库的更新。

构建LLM大模型服务

Lindorm内置AI编排引擎，帮助用户快速部署或者对接LLM服务：

用户导入AI模型(chatGLM、Stable Diffusion等)或用户自有模型。也可对接外部LLM，比如通义千问等。

GPU、CPU等底层资源的管理和调度。
收到用户问题后，自动检索企业知识库。
结合用户问题及相关企业知识，构造prompt并完成大模型调用。

综上所述，基于Lindorm AI数据服务平台，可便捷构建知识库全自动加工方案，用户仅需导入企业私域知识的文本数据，就能实现企业私域知识智能问答，文本切割、向量转换、向量存取、语义检索等功能平台自动化完成。具体方案如下：

向量即服务（开箱即用），用户仅需两步就可便捷构建和使用企业私域知识智能问答：

导入私域数据，建好AI模型。
输入问题，得到答案。

如下工作，由平台自动完成：

知识库全自动加工：数据存取、文本分割、向量转换、索引构建、流处理等数据加工流程全自动完成。
支持全量、增量数据持续导入，支持数据更新。
系统自动完成查询问题向量转换、语义检索。并将问题和语义检索得到的topK关联内容，填入prompt，调用LLM得到答案，返回给用户。
向量数据库、LLM等组件自动化部署。
提供便捷的SQL开发接口，零AI基础也可即刻上手，方便应用开发。如：
导入数据，直接在表中insert即可：insert into doc_table (id,doc_field) values('1','阿里云Lindorm多模数据库，提供宽表、时序、文件、搜索等多种数据模型，支持毫秒级在线数据处理、海量数据低成本存储和分析。 ')；
查询问题，也仅需一条select语句：select ai_infer('rqa_model', '请介绍Lindorm数据库');
部署和创建AI模型等操作，也均只需简单的SQL语句即可完成。

算法模型：

默认提供text2vec等开源算法，用户可根据业务需求导入自定义算法。
支持从modelscope和HuggingFace平台导入算法模型。
支持导入阿里集团及客户自己的算法模型。

向量数据库：Lindorm自带向量存储、向量检索、全文检索和多路召回能力，支持十亿级别向量。
部署形态：支持公共云部署，可打造客户专有LLM环境，专网专用，数据不外泄（Your data is your data）。
兼容主流LLM：通义千问、chatGLM等，满足客户个性化、多样性需求。
异构算力管理和调度：CPU、GPU算力统一提供、统一管理，弹性扩缩。
企业级特性：传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能，保障数据安全，保障系统高可用。版本在线更新，模型在线更新。

秒级开通，60元/月，即刻体验私域知识+LLM的智能问答系统

纸上得来终觉浅，绝知此事要躬行。部署LLM需要GPU，而GPU的成本高，在云上申请一张可部署LLM的入门级GPU一个月就要数千元。鉴于此，Lindorm推出了智能问答体验版，首月仅需60元，平均一天仅两元钱。支持用户直接上传知识库文件，便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群：35977898。参与功能试用和讨论。

开通方法：秒级开通具备私域知识+LLM的智能问答系统。

登录Lindorm产品购买页，按需选择购买时长等配置后，点击“立即购买”。

完成支付后。登录Lindorm产品控制台，在杭州地域查看开通的实例，进入实例的“AI引擎”页签，即可使用。系统提供预制的Lindorm知识库等示例模型，可直接用于体验。也支持用户导入自己的知识文本，构建自己的私域知识库+LLM智能问答服务。

在Lindorm上玩转更多AI模型

AI时代已来临，Lindorm致力于普惠AI，让AI服务数据，让数据产生价值，与用户共同探索智慧世界。Lindorm AI数据服务平台是一个开放的平台，可管理GPU、CPU、存储等异构资源，提供AI推理服务，即支持用户从modelscope和HuggingFace平台导入开源模型，也支持用户导入自己训练的模型。基于Lindorm不仅可以快速构建“专属智能问答系统”，也可导入Stable Diffusion，快速部署“文生图”服务，开通及使用指导详见：如何搭建文生图 AIGC 业务。

此外，包括阿里集团开发的文搜图、图搜图等AI模型，均支持在Lindorm AI数据服务平台上使用，并方便的构建完整数据加工流程，便捷的开发应用。更多示例请参考：https://help.aliyun.com/document_detail/2401803.html

秒级开通，仅60元/月，即刻畅享私域知识库+LLM智能问答系统

大模型在企业应用中的问题

如何构建企业知识库

使用Lindorm轻松构建企业专属智能问答系统

秒级开通，60元/月，即刻体验私域知识+LLM的智能问答系统

在Lindorm上玩转更多AI模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景