秒级开通,仅60元/月,即刻畅享私域知识库+LLM智能问答系统

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: chatGPT等LLM发展如火如荼,但实际使用中,时常出现胡说八道的问题。究其原因,是因为LLM存在知识茧房短板:模型一旦训练完成,对于数据样本外的知识知之甚少,在涉及企业私域知识等场景的问答效果不佳。由此,业界通常使用知识库+LLM方式来解决。部署LLM需要GPU,成本高昂。鉴于此,阿里云Lindorm多模数据库推出了智能问答体验版,秒级开通,仅60元/月。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

Lindorm AIGC体验版购买链接:https://common-buy.aliyun.com/?commodityCode=hitsdb_aigcsharepre_public_cn

大模型在企业应用中的问题

随着chatGPT的惊艳表现,在智能问答等场景迅速迎来火爆应用。企业、科研机构等纷纷入场,引发了全球LLM大战,各种各样的LLM如雨后春笋般涌现。然而,随着应用的不断深入,大家发现不论是哪家的LLM,给出的答案,时常出现胡说八道的问题。究其原因,LLM是采用大量数据样本做训练,模型一旦训练完成,对于数据样本外的知识一无所知,我们给这个现象取个非常形象的名字:知识茧房。LLM的知识如同局限在所训练的数据样本中,类似被包裹在一个茧房里面一样。由于缺乏茧房之外的知识,所以面对需要这些知识的问题,则问答效果欠佳,甚至驴唇不对马嘴。

      以企业构建智能问答系统为例,通用的LLM通常是缺乏企业私域知识的,在涉及私域知识的问答中,很难取得很好的效果。而如果用私域数据,训练一个企业独有的LLM,成本过高,动辄数百万美金,且需要专业技术团队。另一方面,企业的私域数据通常是很有限的数据,做微调训练,很难出效果。更有效便捷的处理方式是,将企业私域数据通过文本处理、分割、向量化等步骤,加工成企业知识库。结合语义检索和LLM,便可构建一个高效、智能、精准的问答系统。相比传统问答系统,该系统具备更高的智能化和自适应性,更加适合企业的实际需求,不仅可以实现基本的问答功能,还能够对问题进行智能化分析和推理,提供更加精准和全面的答案,而且具备LLM的知识概括、推断、转换、扩展等能力。

       笔者做了一个测试:采用清华大学的开源ChatGLM-6B搭建一套智能问答系统。输入一个简单问题:请介绍阿里云RDS数据库。此问题还并非完全是私域知识问题,因为阿里云RDS数据库在公网上已发布了一些资料。看问答表现,右上图是未叠加私域数据的答案,存在明显错误,如:

  • 阿里云RDS的产品名称里不应该出现"amazon"。
  • 阿里云数据库没有名字为“Oracle”、“DB Manager”和“DB Designer”等服务。

右下图是仅灌入一篇产品文档构建成知识库,相同问题,使用相同的LLM,答案精准,且更简洁专业。

如何构建企业知识库

企业知识库是企业私域知识问答系统的核心部分,它包含了企业的专属知识和最新信息,这些是通用大模型在训练时无法获取的信息。LLM结合知识库,可破解“知识茧房”困局。

企业的原始数据通常以PDF、docx、文本等格式存在,将这些数据加工成企业知识库,通常需要如下步骤:

  1. 数据工程师准备好私域源数据(文档、图片、JSON、SQL等)。
  2. 对源数据做预处理,统一转换成文本格式。
  3. 引入或开发文本分割算法,将文本分割成text chucks。
  4. 引入或开发文本转向量算法,将text chucks转换成向量,即所谓的embedding过程。
  5. 将转换后的向量,及对应的数据存放到向量数据库。
  6. 部署和维护一套向量数据库。
  7. 用户输入查询问题。
  8. 引入或开发合法合规校验系统,校验用户问题的合规性。
  9. 将查询问题转换成向量。
  10. 调用向量数据库查询接口,做语义检索。
  11. 返回检索到的topK关联内容。
  12. 用户将topK内容以及查询问题,填入到prompt模板。
  13. 部署LLM。输入prompt给LLM,LLM返回答案。

      此外,若要上线生产,还需考虑:

  • 知识库数据新增和更新的处理。
  • 文本分割、embedding等算法的引入,结合业务进行优化。
  • 要提高检索知识库的准确率,往往需要结合向量检索和传统基于关键词的文本检索,即所谓的多路召回。
  • LLM大模型的部署、维护。
  • CPU/GPU机器的资源管理,资源扩缩容等。
  • 监控告警;系统HA,灾备;权限管理;数据加密;安全审计等。

      设计这套系统,至少需要如下几大能力:

  • 需要一款数据存储系统,除了存放企业知识库原始语料外,还涉及用户信息、对话记录、配置信息等数据的处理,要求该系统支持处理结构化和非结构化数据。
  • 需要具备数据订阅,流处理能力,用于知识库的全量数据、增量数据、数据更新的持续加工。
  • 需要同时具备向量检索和全文检索能力的数据库。
  • 知识库数据加工能力:具备文本预处理、文本分割、文本及问题的向量化转换等功能,并且能将全套数据加工流程做统一编排。对外提供标准接口,供应用开发者便捷使用。

使用Lindorm轻松构建企业专属智能问答系统

面向未来,AI无疑会成为数据处理,价值挖掘中重要的一环。阿里云数据库在知识库+LLM 上也早有布局:1、提供企业级向量数据库能力,如 ADB PG、RDS PG 、PolarDB PG 等。2、 Lindorm提供多模数据处理能力和AI数据服务平台。其设计理念是:提供一个开放的平台,支持一键式导入用户所需的AI模型,无缝融合到数据加工流程中,实现数据价值创新。仅需一个平台,即可实现数据存储、增删改查、数据订阅、向量检索、全文检索、AI挖掘等全流程。

在智能问答场景,使用Lindorm AI数据服务平台,可以一站式完成企业知识库和LLM服务的搭建,构建一套企业专属智能问答系统。

构建“企业知识库”

基于Lindorm提供宽表、流处理、向量检索、全文检索等能力,提供如下功能,实现企业知识库数据流自动加工和编排能力。

  • 向量、文本、文件等多模态数据的统一存储。
  • 内置“文本切片”和embedding算法,并支持替换,可导入用户自己的算法。
  • 自动完成文本分割、embedding和向量入库的整套数据流服务。
  • 提供向量检索、全文检索、标量(标签)检索等多路召回能力。
  • 支持文本更新,自动实现知识库的更新。

构建LLM大模型服务

Lindorm内置AI编排引擎,帮助用户快速部署或者对接LLM服务:

  • 用户导入AI模型(chatGLM、Stable Diffusion等)或用户自有模型。也可对接外部LLM,比如通义千问等。
  • GPU、CPU等底层资源的管理和调度。
  • 收到用户问题后,自动检索企业知识库。
  • 结合用户问题及相关企业知识,构造prompt并完成大模型调用。

       综上所述,基于Lindorm AI数据服务平台,可便捷构建知识库全自动加工方案,用户仅需导入企业私域知识的文本数据,就能实现企业私域知识智能问答,文本切割、向量转换、向量存取、语义检索等功能平台自动化完成。具体方案如下:

  • 向量即服务(开箱即用),用户仅需两步就可便捷构建和使用企业私域知识智能问答:
  1. 导入私域数据,建好AI模型。
  2. 输入问题,得到答案。

如下工作,由平台自动完成:


  • 知识库全自动加工:数据存取、文本分割、向量转换、索引构建、流处理等数据加工流程全自动完成。
  • 支持全量、增量数据持续导入,支持数据更新。
  • 系统自动完成查询问题向量转换、语义检索。并将问题和语义检索得到的topK关联内容,填入prompt,调用LLM得到答案,返回给用户。
  • 向量数据库、LLM等组件自动化部署。
  • 提供便捷的SQL开发接口,零AI基础也可即刻上手,方便应用开发。如:
  • 导入数据,直接在表中insert即可:insert into doc_table (id,doc_field)  values('1','阿里云Lindorm多模数据库,提供宽表、时序、文件、搜索等多种数据模型,支持毫秒级在线数据处理、海量数据低成本存储和分析。 ');
  • 查询问题,也仅需一条select语句:select ai_infer('rqa_model', '请介绍Lindorm数据库');
  • 部署和创建AI模型等操作,也均只需简单的SQL语句即可完成。


  • 算法模型:
  • 默认提供text2vec等开源算法,用户可根据业务需求导入自定义算法。
  • 支持从modelscope和HuggingFace平台导入算法模型。
  • 支持导入阿里集团及客户自己的算法模型。
  • 向量数据库:Lindorm自带向量存储、向量检索、全文检索和多路召回能力,支持十亿级别向量。
  • 部署形态:支持公共云部署,可打造客户专有LLM环境,专网专用,数据不外泄(Your data is your data)。
  • 兼容主流LLM:通义千问、chatGLM等,满足客户个性化、多样性需求。
  • 异构算力管理和调度:CPU、GPU算力统一提供、统一管理,弹性扩缩。
  • 企业级特性:传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新,模型在线更新。

秒级开通,60元/月,即刻体验私域知识+LLM的智能问答系统

纸上得来终觉浅,绝知此事要躬行。部署LLM需要GPU,而GPU的成本高,在云上申请一张可部署LLM的入门级GPU一个月就要数千元。鉴于此,Lindorm推出了智能问答体验版,首月仅需60元,平均一天仅两元钱。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。

开通方法:秒级开通具备私域知识+LLM的智能问答系统。

  1. 登录Lindorm产品购买页,按需选择购买时长等配置后,点击“立即购买”。

  1. 完成支付后。登录Lindorm产品控制台,在杭州地域查看开通的实例,进入实例的“AI引擎”页签,即可使用。系统提供预制的Lindorm知识库等示例模型,可直接用于体验。也支持用户导入自己的知识文本,构建自己的私域知识库+LLM智能问答服务。


在Lindorm上玩转更多AI模型

      AI时代已来临,Lindorm致力于普惠AI,让AI服务数据,让数据产生价值,与用户共同探索智慧世界。Lindorm AI数据服务平台是一个开放的平台,可管理GPU、CPU、存储等异构资源,提供AI推理服务,即支持用户从modelscope和HuggingFace平台导入开源模型,也支持用户导入自己训练的模型。基于Lindorm不仅可以快速构建“专属智能问答系统”,也可导入Stable Diffusion,快速部署“文生图”服务,开通及使用指导详见:如何搭建文生图 AIGC 业务

此外,包括阿里集团开发的文搜图、图搜图等AI模型,均支持在Lindorm AI数据服务平台上使用,并方便的构建完整数据加工流程,便捷的开发应用。更多示例请参考:https://help.aliyun.com/document_detail/2401803.html


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第17天】近日,谷歌、DeepMind等四大机构联合发布论文,展示大型语言模型(LLMs)在数学问题解决上的显著进步。通过引入元认知知识,研究人员开发了提示引导的交互程序,使LLMs能为数学问题分配合理技能标签并进行语义聚类。实验结果显示,GPT-4在GSM8K和MATH数据集上的准确性分别提升了11.6%和7.52%,展现出巨大潜力。这一成果不仅为AI领域提供了新思路,也为数学教育带来了启示。
25 4
|
12天前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
14天前
|
存储 人工智能 算法
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库
为了帮助更多人掌握大模型技术,尼恩和他的团队编写了《LLM大模型学习圣经》系列文档,包括《从0到1吃透Transformer技术底座》、《从0到1精通RAG架构,基于LLM+RAG构建生产级企业知识库》和《从0到1吃透大模型的顶级架构》。这些文档不仅系统地讲解了大模型的核心技术,还提供了实战案例和配套视频,帮助读者快速上手。
精通RAG架构:从0到1,基于LLM+RAG构建生产级企业知识库
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
【10月更文挑战第16天】最新研究显示,大型语言模型(LLMs)在数学问题解决上取得显著进展。谷歌、DeepMind等机构的研究人员通过引入元认知知识,使LLMs能更好地理解和解决数学问题,其在GSM8K和MATH数据集上的准确率分别提升了11.6%和7.52%。这一成果不仅为AI领域开辟了新路径,也为数学教育带来了新的可能性。
28 3
|
9天前
|
机器学习/深度学习 数据采集 人工智能
文档智能和检索增强生成(RAG)——构建LLM知识库
本次体验活动聚焦于文档智能与检索增强生成(RAG)结合构建的LLM知识库,重点测试了文档内容清洗、向量化、问答召回及Prompt提供上下文信息的能力。结果显示,系统在自动化处理、处理效率和准确性方面表现出色,但在特定行业术语识别、自定义向量化选项、复杂问题处理和Prompt模板丰富度等方面仍有提升空间。
39 0
|
14天前
|
存储 安全 机器人
MemoryScope:为LLM聊天机器人配备的长期记忆系统
如何选择合适的方法构建自己的智能体助理呢?这里向您介绍强大、低延迟、安全可控的MemoryScope开源项目。
|
15天前
|
机器学习/深度学习 数据采集 人工智能
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
大模型体验报告:阿里云文档智能 & RAG结合构建LLM知识库
|
6月前
|
存储 人工智能 自然语言处理
OpenSearch LLM智能问答版全新升级
阿里云OpenSearch LLM智能问答版近期全新升级,新增最新版开源大模型、多模态模型、切片策略升级等产品能力。
2041 2
|
3月前
|
前端开发 Linux API
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
【8月更文挑战第3天】无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
|
4月前
|
索引 Cloud Native
云原生数据仓库问题之精确匹配查询如何解决
云原生数据仓库问题之精确匹配查询如何解决
50 0