Lindorm AIGC体验版购买链接:https://common-buy.aliyun.com/?commodityCode=hitsdb_aigcsharepre_public_cn
大模型在企业应用中的问题
随着chatGPT的惊艳表现,在智能问答等场景迅速迎来火爆应用。企业、科研机构等纷纷入场,引发了全球LLM大战,各种各样的LLM如雨后春笋般涌现。然而,随着应用的不断深入,大家发现不论是哪家的LLM,给出的答案,时常出现胡说八道的问题。究其原因,LLM是采用大量数据样本做训练,模型一旦训练完成,对于数据样本外的知识一无所知,我们给这个现象取个非常形象的名字:知识茧房。LLM的知识如同局限在所训练的数据样本中,类似被包裹在一个茧房里面一样。由于缺乏茧房之外的知识,所以面对需要这些知识的问题,则问答效果欠佳,甚至驴唇不对马嘴。
以企业构建智能问答系统为例,通用的LLM通常是缺乏企业私域知识的,在涉及私域知识的问答中,很难取得很好的效果。而如果用私域数据,训练一个企业独有的LLM,成本过高,动辄数百万美金,且需要专业技术团队。另一方面,企业的私域数据通常是很有限的数据,做微调训练,很难出效果。更有效便捷的处理方式是,将企业私域数据通过文本处理、分割、向量化等步骤,加工成企业知识库。结合语义检索和LLM,便可构建一个高效、智能、精准的问答系统。相比传统问答系统,该系统具备更高的智能化和自适应性,更加适合企业的实际需求,不仅可以实现基本的问答功能,还能够对问题进行智能化分析和推理,提供更加精准和全面的答案,而且具备LLM的知识概括、推断、转换、扩展等能力。
笔者做了一个测试:采用清华大学的开源ChatGLM-6B搭建一套智能问答系统。输入一个简单问题:请介绍阿里云RDS数据库。此问题还并非完全是私域知识问题,因为阿里云RDS数据库在公网上已发布了一些资料。看问答表现,右上图是未叠加私域数据的答案,存在明显错误,如:
- 阿里云RDS的产品名称里不应该出现"amazon"。
- 阿里云数据库没有名字为“Oracle”、“DB Manager”和“DB Designer”等服务。
右下图是仅灌入一篇产品文档构建成知识库,相同问题,使用相同的LLM,答案精准,且更简洁专业。
如何构建企业知识库
企业知识库是企业私域知识问答系统的核心部分,它包含了企业的专属知识和最新信息,这些是通用大模型在训练时无法获取的信息。LLM结合知识库,可破解“知识茧房”困局。
企业的原始数据通常以PDF、docx、文本等格式存在,将这些数据加工成企业知识库,通常需要如下步骤:
- 数据工程师准备好私域源数据(文档、图片、JSON、SQL等)。
- 对源数据做预处理,统一转换成文本格式。
- 引入或开发文本分割算法,将文本分割成text chucks。
- 引入或开发文本转向量算法,将text chucks转换成向量,即所谓的embedding过程。
- 将转换后的向量,及对应的数据存放到向量数据库。
- 部署和维护一套向量数据库。
- 用户输入查询问题。
- 引入或开发合法合规校验系统,校验用户问题的合规性。
- 将查询问题转换成向量。
- 调用向量数据库查询接口,做语义检索。
- 返回检索到的topK关联内容。
- 用户将topK内容以及查询问题,填入到prompt模板。
- 部署LLM。输入prompt给LLM,LLM返回答案。
此外,若要上线生产,还需考虑:
- 知识库数据新增和更新的处理。
- 文本分割、embedding等算法的引入,结合业务进行优化。
- 要提高检索知识库的准确率,往往需要结合向量检索和传统基于关键词的文本检索,即所谓的多路召回。
- LLM大模型的部署、维护。
- CPU/GPU机器的资源管理,资源扩缩容等。
- 监控告警;系统HA,灾备;权限管理;数据加密;安全审计等。
设计这套系统,至少需要如下几大能力:
- 需要一款数据存储系统,除了存放企业知识库原始语料外,还涉及用户信息、对话记录、配置信息等数据的处理,要求该系统支持处理结构化和非结构化数据。
- 需要具备数据订阅,流处理能力,用于知识库的全量数据、增量数据、数据更新的持续加工。
- 需要同时具备向量检索和全文检索能力的数据库。
- 知识库数据加工能力:具备文本预处理、文本分割、文本及问题的向量化转换等功能,并且能将全套数据加工流程做统一编排。对外提供标准接口,供应用开发者便捷使用。
使用Lindorm轻松构建企业专属智能问答系统
面向未来,AI无疑会成为数据处理,价值挖掘中重要的一环。阿里云数据库在知识库+LLM 上也早有布局:1、提供企业级向量数据库能力,如 ADB PG、RDS PG 、PolarDB PG 等。2、 Lindorm提供多模数据处理能力和AI数据服务平台。其设计理念是:提供一个开放的平台,支持一键式导入用户所需的AI模型,无缝融合到数据加工流程中,实现数据价值创新。仅需一个平台,即可实现数据存储、增删改查、数据订阅、向量检索、全文检索、AI挖掘等全流程。
在智能问答场景,使用Lindorm AI数据服务平台,可以一站式完成企业知识库和LLM服务的搭建,构建一套企业专属智能问答系统。
构建“企业知识库”
基于Lindorm提供宽表、流处理、向量检索、全文检索等能力,提供如下功能,实现企业知识库数据流自动加工和编排能力。
- 向量、文本、文件等多模态数据的统一存储。
- 内置“文本切片”和embedding算法,并支持替换,可导入用户自己的算法。
- 自动完成文本分割、embedding和向量入库的整套数据流服务。
- 提供向量检索、全文检索、标量(标签)检索等多路召回能力。
- 支持文本更新,自动实现知识库的更新。
构建LLM大模型服务
Lindorm内置AI编排引擎,帮助用户快速部署或者对接LLM服务:
- 用户导入AI模型(chatGLM、Stable Diffusion等)或用户自有模型。也可对接外部LLM,比如通义千问等。
- GPU、CPU等底层资源的管理和调度。
- 收到用户问题后,自动检索企业知识库。
- 结合用户问题及相关企业知识,构造prompt并完成大模型调用。
综上所述,基于Lindorm AI数据服务平台,可便捷构建知识库全自动加工方案,用户仅需导入企业私域知识的文本数据,就能实现企业私域知识智能问答,文本切割、向量转换、向量存取、语义检索等功能平台自动化完成。具体方案如下:
- 向量即服务(开箱即用),用户仅需两步就可便捷构建和使用企业私域知识智能问答:
- 导入私域数据,建好AI模型。
- 输入问题,得到答案。
如下工作,由平台自动完成:
- 知识库全自动加工:数据存取、文本分割、向量转换、索引构建、流处理等数据加工流程全自动完成。
- 支持全量、增量数据持续导入,支持数据更新。
- 系统自动完成查询问题向量转换、语义检索。并将问题和语义检索得到的topK关联内容,填入prompt,调用LLM得到答案,返回给用户。
- 向量数据库、LLM等组件自动化部署。
- 提供便捷的SQL开发接口,零AI基础也可即刻上手,方便应用开发。如:
- 导入数据,直接在表中insert即可:insert into doc_table (id,doc_field) values('1','阿里云Lindorm多模数据库,提供宽表、时序、文件、搜索等多种数据模型,支持毫秒级在线数据处理、海量数据低成本存储和分析。 ');
- 查询问题,也仅需一条select语句:select ai_infer('rqa_model', '请介绍Lindorm数据库');
- 部署和创建AI模型等操作,也均只需简单的SQL语句即可完成。
- 算法模型:
- 默认提供text2vec等开源算法,用户可根据业务需求导入自定义算法。
- 支持从modelscope和HuggingFace平台导入算法模型。
- 支持导入阿里集团及客户自己的算法模型。
- 向量数据库:Lindorm自带向量存储、向量检索、全文检索和多路召回能力,支持十亿级别向量。
- 部署形态:支持公共云部署,可打造客户专有LLM环境,专网专用,数据不外泄(Your data is your data)。
- 兼容主流LLM:通义千问、chatGLM等,满足客户个性化、多样性需求。
- 异构算力管理和调度:CPU、GPU算力统一提供、统一管理,弹性扩缩。
- 企业级特性:传输加密、安全审计、权限管理、HA、灾备、在线弹性扩缩、监控告警等丰富的企业级功能,保障数据安全,保障系统高可用。版本在线更新,模型在线更新。
秒级开通,60元/月,即刻体验私域知识+LLM的智能问答系统
纸上得来终觉浅,绝知此事要躬行。部署LLM需要GPU,而GPU的成本高,在云上申请一张可部署LLM的入门级GPU一个月就要数千元。鉴于此,Lindorm推出了智能问答体验版,首月仅需60元,平均一天仅两元钱。支持用户直接上传知识库文件,便捷构建具备私域知识+LLM的智能问答系统。欢迎加入钉钉群:35977898。参与功能试用和讨论。
开通方法:秒级开通具备私域知识+LLM的智能问答系统。
- 登录Lindorm产品购买页,按需选择购买时长等配置后,点击“立即购买”。
- 完成支付后。登录Lindorm产品控制台,在杭州地域查看开通的实例,进入实例的“AI引擎”页签,即可使用。系统提供预制的Lindorm知识库等示例模型,可直接用于体验。也支持用户导入自己的知识文本,构建自己的私域知识库+LLM智能问答服务。
在Lindorm上玩转更多AI模型
AI时代已来临,Lindorm致力于普惠AI,让AI服务数据,让数据产生价值,与用户共同探索智慧世界。Lindorm AI数据服务平台是一个开放的平台,可管理GPU、CPU、存储等异构资源,提供AI推理服务,即支持用户从modelscope和HuggingFace平台导入开源模型,也支持用户导入自己训练的模型。基于Lindorm不仅可以快速构建“专属智能问答系统”,也可导入Stable Diffusion,快速部署“文生图”服务,开通及使用指导详见:如何搭建文生图 AIGC 业务 。
此外,包括阿里集团开发的文搜图、图搜图等AI模型,均支持在Lindorm AI数据服务平台上使用,并方便的构建完整数据加工流程,便捷的开发应用。更多示例请参考:https://help.aliyun.com/document_detail/2401803.html