导 语
本文为数据库「拥抱Data+AI」系列连载第5篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。
本篇文章结合钉钉AI助理的实际场景应用,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,实现人人都有自己的专属数据分析师,大幅提高数据查询及分析效率。
1公司及业务介绍
钉钉是一款由阿里巴巴集团推出的企业级通讯工具,旨在为企业提供一个高效、安全的移动办公平台。它提供了多种功能,如即时通讯、视频会议、文件管理、考勤打卡等,帮助企业实现跨部门、跨地域的协同办公。在以“我的超级助理”为主题的钉钉7.5产品发布会上,正式发布了基于70万家企业需求共创的AI助理产品,该产品的发布进一步推动降低了AI的使用门槛,让人人都能轻松创建自己的AI助理。
钉钉AI助理的智能问数功能,在接入业务数据后可以跨越多个应用场景,查询和分析销售、差旅、人事等方面的经营数据。用户可以基于自己在钉钉沉淀的数据进行自由提问,官方预置的指令中心帮助用户低门槛快速上手正确的提问方式。通过对话式数据AI,结合知识图谱、自然语言理解等能力,智能问数为企业用户提供智能问答、智能推荐、预警归因等功能,帮助用户方便快捷地查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属数据分析师,大幅提高数据查询及分析的效率。
AI助理智能问数场景
2 DMS+AnayticDB支持智能问数场景
向量召回提升模型输出准确率
在智能问数场景中,如何在问答过程中准确定位实体(如分公司名称、部门名称、专有名词等)是一个难点问题。比如,管理者通过自然语言输入“帮我查看华东区域xx产品第三季度业绩”,华东区域到底包含哪些分公司呢?又比如“查看产品部Q1绩效”,产品部在该企业内部全称是产品设计及管理部。又比如产品SKU在企业内部有特殊代号,大模型无法识别这些特殊的代号。总体而言,结合企业专属数据提供贴近企业需求的AI服务难度是非常大的。
因此,通过AnayticDB for PostgreSQL向量检索引擎对10亿+核心企业实体(企业名称、部门名称、员工名称、专有名词等)实现向量化,针对企业用户随意输入的问题通过向量检索召回最准确的企业实体,然后再结合大模型提供智能问答、智能问数等服务,大大提升了AI助理对实体的识别和大模型准确率。
构建企业专属实体知识库
大模型虽然能解答普适性的问题,但在一些垂直领域上无法覆盖企业专属知识以及无法保障数据更新时效性,导致大模型应用在企业中落地困难。企业可采用 DMS+AnayticDB for PostgreSQL 向量检索引擎构建企业专属知识库,对结构化、半结构化和非结构化数据通过 Embedding 向量化后存储到 AnayticDB for PostgreSQL 中。结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等大模型应用中。构建企业专属大模型知识库的步骤大致如下:
1)数据预处理:在向量化之前需要对非结构化的文档、图片进行预处理,包括文档/图片解析、切块,预处理的质量会对问答召回和准确率有非常大的影响。
2)Embedding: 通过大模型的Embedding算法对预处理后的数据块进行向量化,并将结果存储到向量数据库中。
3)向量检索: 大模型将用户的问题进行向量化后在向量数据库中进行向量检索和近似度计算,同时结合结构化的条件过滤进行权限和范围的限定
4)查询召回:大模型对向量检索的结果进行推理求解最终返回最接近问题的答案,因为语义检索的覆盖面可能不全,因此可以结合全文检索对答案进行补充。
构建企业专属知识库
3高度数据安全的ChatBI能力
企业可以在公共云上开启 AnayticDB for PostgreSQL 专属实例存储企业专属数据,通过DMS构建数据流程编排服务,实现业务逻辑的ChatBI编排和私域精品NL2SQL模型部署,满足不同企业对数据不出域的最高安全的要求。结合 AnayticDB for PostgreSQL 行/列级权限控制、动态数据脱敏、数据加密、SQL审计等手段最大化保障企业数据安全。让企业在使用大模型应用服务带来的便捷性同时又无需担心私域数据安全性问题。
4DMS+AnalyticDB优势特点
优势1:一站式融合分析
用户只需要通过一条SQL即可实现结构化数据分析、向量分析和全文检索三者融合,实现多路召回。
优势2:社区合作紧密
AnalyticDB for PostgreSQL 结合DMS,通过OneMeta+OneOps可以部署并实现数据的全域管理,数据开发, 模型推理服务及开源的dify框架,进行端到端的Data+AI流程编排。
优势3:功能完善,性能极致
- 支持向量数据流式导入,索引压缩,事务,和各类相似度算法。
- 较比同类产品有更高的写入吞吐和查询性能。
优势4:解决方案丰富
- DMS+X 提供从文档解析、Chunk、Embedding、向量近似度计算、检索全套OpenAPI服务,让用户快速落地。
- 提供DMS之上的Data+AI能力的开箱即用和Dify的一键部署方式,在10分钟内一键构建企业专属大模型和向量数据库,快速搭建企业级Gen-AI应用。
- 支持构建图搜图、文搜图等产品化解决方案。
优势5:精品NL2SQL模型
- 开箱即用:自识别用户数据库元数据,实现开箱自助分析。
- 大小模型融合:创新性地使用大模型分析用户意图,小模型准确SQL生成的融合形态,实现更精准的服务。
- 数据私域安全保障:全数据链路及推理服务私域部署,实现数据不出域,保障企业数据安全,DMS自研NL2SQL模型提供了3个等级的准确率。
- 效果可持续优化:结合持续学习、历史记录标注、RAG干预等方式,实现准确率可调优;目前提供了3个等级的NL2SQL的模型能力。
5总结与展望
钉钉AI助理通过采用AnayticDB向量
检索引擎构建企业专属知识库,结合大模型推理服务,将企业私有数据融入到智能问答、智能问数、智能创造等应用中,并通过DMS构建数据流程编排服务,实现业务逻辑的ChatBI编排和私域精品NL2SQL模型部署,满足不同企业对数据不出域的最高安全的要求。钉钉AI助理目前已累计服务了上千客户,涉及零售、互联网、物流、交通等多个行业。Data+AI为企业提供了新的增长途径,企业必须认识到Data+AI的重要性,并将其作为战略实施重点。
通过将Data+AI融入核心业务,企业能够更好地挖掘数据价值,优化运营流程和决策机制,从而促进智能化转型,显著提升市场竞争力。
未来,借助阿里云Data+AI解决方案的可自定义编排的LLM工作流以及不断提供的解决方案,不仅能够实现智能问数的拓展应用,还能够通过大模型方案解决企业经营的各项问题,从而提升经营效率,加速企业智能化转型,为企业发展带来新的动力。