秒级开通,仅60元/月,即刻畅享私域知识库+LLM智能问答系统

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: chatGPT等LLM发展如火如荼,但实际使用中,时常出现胡说八道的问题。究其原因,是因为LLM存在知识茧房短板:模型一旦训练完成,对于数据样本外的知识知之甚少,在涉及企业私域知识等场景的问答效果不佳。由此,业界通常使用知识库+LLM方式来解决。部署LLM需要GPU,成本高昂。鉴于此,阿里云Lindorm多模数据库推出了智能问答体验版,秒级开通,仅60元/月。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

Lindorm AIGC体验版购买链接:https://common-buy.aliyun.com/?commodityCode=hitsdb_aigcsharepre_public_cn

大模型在企业应用中的问题

随着chatGPT的惊艳表现,在智能问答等场景迅速迎来火爆应用。企业、科研机构等纷纷入场,引发了全球LLM大战,各种各样的LLM如雨后春笋般涌现。然而,随着应用的不断深入,大家发现不论是哪家的LLM,给出的答案,时常出现胡说八道的问题。究其原因,LLM是采用大量数据样本做训练,模型一旦训练完成,对于数据样本外的知识一无所知,我们给这个现象取个非常形象的名字:知识茧房。LLM的知识如同局限在所训练的数据样本中,类似被包裹在一个茧房里面一样。由于缺乏茧房之外的知识,所以面对需要这些知识的问题,则问答效果欠佳,甚至驴唇不对马嘴。

      以企业构建智能问答系统为例,通用的LLM通常是缺乏企业私域知识的,在涉及私域知识的问答中,很难取得很好的效果。而如果用私域数据,训练一个企业独有的LLM,成本过高,动辄数百万美金,且需要专业技术团队。另一方面,企业的私域数据通常是很有限的数据,做微调训练,很难出效果。更有效便捷的处理方式是,将企业私域数据通过文本处理、分割、向量化等步骤,加工成企业知识库。结合语义检索和LLM,便可构建一个高效、智能、精准的问答系统。相比传统问答系统,该系统具备更高的智能化和自适应性,更加适合企业的实际需求,不仅可以实现基本的问答功能,还能够对问题进行智能化分析和推理,提供更加精准和全面的答案,而且具备LLM的知识概括、推断、转换、扩展等能力。

       笔者做了一个测试:采用清华大学的开源ChatGLM-6B搭建一套智能问答系统。输入一个简单问题:请介绍阿里云RDS数据库。此问题还并非完全是私域知识问题,因为阿里云RDS数据库在公网上已发布了一些资料。看问答表现,右上图是未叠加私域数据的答案,存在明显错误,如:

  • 阿里云RDS的产品名称里不应该出现"amazon"。
  • 阿里云数据库没有名字为“Oracle”、“DB Manager”和“DB Designer”等服务。

右下图是仅灌入一篇产品文档构建成知识库,相同问题,使用相同的LLM,答案精准,且更简洁专业。

如何构建企业知识库

企业知识库是企业私域知识问答系统的核心部分,它包含了企业的专属知识和最新信息,这些是通用大模型在训练时无法获取的信息。LLM结合知识库,可破解“知识茧房”困局。

企业的原始数据通常以PDF、docx、文本等格式存在,将这些数据加工成企业知识库,通常需要如下步骤:

  1. 数据工程师准备好私域源数据(文档、图片、JSON、SQL等)。
  2. 对源数据做预处理,统一转换成文本格式。
  3. 引入或开发文本分割算法,将文本分割成text chucks。
  4. 引入或开发文本转向量算法,将text chucks转换成向量,即所谓的embedding过程。
  5. 将转换后的向量,及对应的数据存放到向量数据库。
  6. 部署和维护一套向量数据库。
  7. 用户输入查询问题。
  8. 引入或开发合法合规校验系统,校验用户问题的合规性。
  9. 将查询问题转换成向量。
  10. 调用向量数据库查询接口,做语义检索。
  11. 返回检索到的topK关联内容。
  12. 用户将topK内容以及查询问题,填入到prompt模板。
  13. 部署LLM。输入prompt给LLM,LLM返回答案。

      此外,若要上线生产,还需考虑:

  • 知识库数据新增和更新的处理。
  • 文本分割、embedding等算法的引入,结合业务进行优化。
  • 要提高检索知识库的准确率,往往需要结合向量检索和传统基于关键词的文本检索,即所谓的多路召回。
  • LLM大模型的部署、维护。
  • CPU/GPU机器的资源管理,资源扩缩容等。
  • 监控告警;系统HA,灾备;权限管理;数据加密;安全审计等。

      设计这套系统,至少需要如下几大能力:

  • 需要一款数据存储系统,除了存放企业知识库原始语料外,还涉及用户信息、对话记录、配置信息等数据的处理,要求该系统支持处理结构化和非结构化数据。
  • 需要具备数据订阅,流处理能力,用于知识库的全量数据、增量数据、数据更新的持续加工。
  • 需要同时具备向量检索和全文检索能力的数据库。
  • 知识库数据加工能力:具备文本预处理、文本分割、文本及问题的向量化转换等功能,并且能将全套数据加工流程做统一编排。对外提供标准接口,供应用开发者便捷使用。

使用Lindorm轻松构建企业专属智能问答系统

面向未来,AI无疑会成为数据处理,价值挖掘中重要的一环。阿里云数据库在知识库+LLM 上也早有布局:1、提供企业级向量数据库能力,如 ADB PG、RDS PG 、PolarDB PG 等。2、 Lindorm提供多模数据处理能力和AI数据服务平台。其设计理念是:提供一个开放的平台,支持一键式导入用户所需的AI模型,无缝融合到数据加工流程中,实现数据价值创新。仅需一个平台,即可实现数据存储、增删改查、数据订阅、向量检索、全文检索、AI挖掘等全流程。

在智能问答场景,使用Lindorm AI数据服务平台,可以一站式完成企业知识库和LLM服务的搭建,构建一套企业专属智能问答系统。

构建“企业知识库”

基于Lindorm提供宽表、流处理、向量检索、全文检索等能力,提供如下功能,实现企业知识库数据流自动加工和编排能力。

  • 向量、文本、文件等多模态数据的统一存储。
  • 内置“文本切片”和embedding算法,并支持替换,可导入用户自己的算法。
  • 自动完成文本分割、embedding和向量入库的整套数据流服务。
  • 提供向量检索、全文检索、标量(标签)检索等多路召回能力。
  • 支持文本更新,自动实现知识库的更新。

构建LLM大模型服务

Lindorm内置AI编排引擎,帮助用户快速部署或者对接LLM服务:

  • 用户导入AI模型(chatGLM、Stable Diffusion等)或用户自有模型。也可对接外部LLM,比如通义千问等。
  • GPU、CPU等底层资源的管理和调度。
  • 收到用户问题后,自动检索企业知识库。
  • 结合用户问题及相关企业知识,构造prompt并完成大模型调用。

       综上所述,基于Lindorm AI数据服务平台,可便捷构建知识库全自动加工方案,用户仅需导入企业私域知识的文本数据,就能实现企业私域知识智能问答,文本切割、向量转换、向量存取、语义检索等功能平台自动化完成。具体方案如下:

  • 向量即服务(开箱即用),用户仅需两步就可便捷构建和使用企业私域知识智能问答:
  1. 导入私域数据,建好AI模型。
  2. 输入问题,得到答案。

如下工作,由平台自动完成:


  • 知识库全自动加工:数据存取、文本分割、向量转换、索引构建、流处理等数据加工流程全自动完成。
  • 支持全量、增量数据持续导入,支持数据更新。
  • 系统自动完成查询问题向量转换、语义检索。并将问题和语义检索得到的topK关联内容,填入prompt,调用LLM得到答案,返回给用户。
  • 向量数据库、LLM等组件自动化部署。
  • 提供便捷的SQL开发接口,零AI基础也可即刻上手,方便应用开发。如:
  • 导入数据,直接在表中insert即可:insert into doc_table (id,doc_field)  values('1','阿里云Lindorm多模数据库,提供宽表、时序、文件、搜索等多种数据模型,支持毫秒级在线数据处理、海量数据低成本存储和分析。 ');
  • 查询问题,也仅需一条select语句:select ai_infer('rqa_model', '请介绍Lindorm数据库');
  • 部署和创建AI模型等操作,也均只需简单的SQL语句即可完成。


  • 算法模型:
  • 默认提供text2vec等开源算法,用户可根据业务需求导入自定义算法。
  • 支持从modelscope和HuggingFace平台导入算法模型。
  • 支持导入阿里集团及客户自己的算法模型。
  • 向量数据库:Lindorm自带向量存储、向量检索、全文检索和多路召回能力,支持十亿级别向量。
  • 部署形态:支持公共云部署,可打造客户专有LLM环境,专网专用,数据不外泄(Your data is your data)。
  • 兼容主流LLM:通义千问、chatGLM等,满足客户个性化、多样性需求。
  • 异构算力管理和调度:CPU、GPU算力统一提供、统一管理,弹性扩缩。
  • 企业级特性:传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新,模型在线更新。

秒级开通,60元/月,即刻体验私域知识+LLM的智能问答系统

纸上得来终觉浅,绝知此事要躬行。部署LLM需要GPU,而GPU的成本高,在云上申请一张可部署LLM的入门级GPU一个月就要数千元。鉴于此,Lindorm推出了智能问答体验版,首月仅需60元,平均一天仅两元钱。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

开通方法:秒级开通具备私域知识+LLM的智能问答系统。

  1. 登录Lindorm产品购买页,按需选择购买时长等配置后,点击“立即购买”。

  1. 完成支付后。登录Lindorm产品控制台,在杭州地域查看开通的实例,进入实例的“AI引擎”页签,即可使用。系统提供预制的Lindorm知识库等示例模型,可直接用于体验。也支持用户导入自己的知识文本,构建自己的私域知识库+LLM智能问答服务。


在Lindorm上玩转更多AI模型

      AI时代已来临,Lindorm致力于普惠AI,让AI服务数据,让数据产生价值,与用户共同探索智慧世界。Lindorm AI数据服务平台是一个开放的平台,可管理GPU、CPU、存储等异构资源,提供AI推理服务,即支持用户从modelscope和HuggingFace平台导入开源模型,也支持用户导入自己训练的模型。基于Lindorm不仅可以快速构建“专属智能问答系统”,也可导入Stable Diffusion,快速部署“文生图”服务,开通及使用指导详见:如何搭建文生图 AIGC 业务

此外,包括阿里集团开发的文搜图、图搜图等AI模型,均支持在Lindorm AI数据服务平台上使用,并方便的构建完整数据加工流程,便捷的开发应用。更多示例请参考:https://help.aliyun.com/document_detail/2401803.html


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
5月前
|
人工智能 自然语言处理 知识图谱
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
Yuxi-Know是一个结合大模型RAG知识库与知识图谱技术的智能问答平台,支持多格式文档处理和复杂知识关系查询,具备多模型适配和智能体拓展能力。
1085 55
Yuxi-Know:开源智能问答系统,基于大模型RAG与知识图谱技术快速构建知识库
|
4月前
|
人工智能 安全 API
不到100行代码,实现一个简易通用智能LLM Agent
本文将分享如何使用不到 100 行的 Python 代码,实现一个具备通用智能潜力的简易 LLM Agent。你将看到整个实现过程——从核心原理、提示(Prompt)调优、工具接口设计到主循环交互,并获得完整复现代码的详细讲解。
1019 101
不到100行代码,实现一个简易通用智能LLM Agent
|
5月前
|
存储 人工智能 自然语言处理
RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库
本文由镜舟科技解决方案架构师石强与StarRocks TSC Member赵恒联合撰写,围绕RAG(检索增强生成)技术展开,结合DeepSeek和StarRocks构建智能问答系统。RAG通过外部知识检索与AI生成相结合,解决大模型知识静态、易编造信息的问题。文章详细介绍了系统组成、操作流程及优化方法,包括DeepSeek部署、StarRocks向量索引配置、知识存储与提取等环节,并通过代码示例演示了从文本向量化到生成回答的完整过程。最后,加入RAG机制后,系统性能显著提升,支持企业级知识库与智能客服场景。文中还提供了Web可视化界面实现方案,助力开发者快速上手。
|
28天前
|
人工智能 监控 算法
构建时序感知的智能RAG系统:让AI自动处理动态数据并实时更新知识库
本文系统构建了一个基于时序管理的智能体架构,旨在应对动态知识库(如财务报告、技术文档)在问答任务中的演进与不确定性。通过六层设计(语义分块、原子事实提取、实体解析、时序失效处理、知识图构建、优化知识库),实现了从原始文档到结构化、时间感知知识库的转化。该架构支持RAG和多智能体系统,提升了推理逻辑性与准确性,并通过LangGraph实现自动化工作流,强化了对持续更新信息的处理能力。
163 4
|
6月前
|
存储 人工智能 自然语言处理
智能系统的知识库管理技术
本方案聚焦智能系统的知识库管理,深度融合AI技术与精细化流程控制。通过多模态数据统一存储,实现文本、语音、图像等全格式兼容与智能解析;构建全流程内容管理体系,涵盖创建、审核、更新环节,确保信息精准可靠;提供智能标签分类、版本追溯功能,支持秒级定位与历史对比;采用语义检索技术,打破数据孤岛,助力企业高效利用与优化知识资产,保障安全存储及持续增值。
292 1
|
6月前
|
存储 人工智能 搜索推荐
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
WiseMindAI 是一款由 Chris 开发的 AI 智能学习助手,支持数据完全本地化存储,确保用户隐私安全。它兼容多种文档格式(如 PDF、Markdown 等),并提供 AI 文档总结、智能笔记、沉浸式翻译、知识卡片生成等功能。此外,WiseMindAI 支持 10+ 大语言模型和自定义 AI 插件,适用于 Windows 和 Mac 平台,支持简体中文、繁体中文及英文。
511 74
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
|
5月前
|
人工智能 中间件 程序员
LLM 不断提升智能下限,MCP 不断提升创意上限
LLM 是大脑,MCP 是手脚。LLM 不断提升智能下限,MCP 不断提升创意上限。所有的应用和软件都会被 AI 改造,将向所有的应用和软件都会被 MCP 改造的新范式演进。
285 25
|
5月前
|
存储 人工智能 监控
通过Milvus和Langchain快速构建基于百炼大模型的LLM问答系统
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
5月前
|
人工智能 数据可视化 关系型数据库
23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!
FastGPT 是一个基于大语言模型的智能知识库平台,提供开箱即用的数据处理、RAG检索和可视化AI工作流编排能力,让你无需编写代码就能轻松构建复杂的问答系统!
297 1
|
6月前
|
人工智能 自然语言处理 前端开发
【AI落地应用实战】大模型加速器2.0:基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统
本文探讨了私有知识库问答系统的难点及解决方案,重点分析了企业知识管理中的痛点,如信息孤岛、知识传承依赖个人经验等问题。同时,介绍了IntFinQ这款知识管理工具的核心特点和实践体验,包括智能问答、深度概括与多维数据分析等功能。文章还详细描述了IntFinQ的本地化部署过程,展示了其从文档解析到知识应用的完整技术闭环,特别是自研TextIn ParseX引擎和ACGE模型的优势。最后总结了该工具对企业和开发者的价值,强调其在提升知识管理效率方面的潜力。