Forrester是全球最大的独立市场,研究与咨询机构之一,领导全球关于新兴技术在不同领域的研究工作,像大模型,云原生还有数据管理。今天分享的内容是如何加速现代数据管理,帮助客户和人工智能一起融合创新。
在过去的18个月,特别是最近的云栖大会,已经深切的感受到新一轮的人工智能的浪潮在重塑整个世界,从每一个在座的朋友本职的工作,到所处的企业、所面对的客户群体,还有社会的方方面面,在每一个不同的场景都看到人工智能和客户的数据管理协同影响着整个世界,Forrester总结七个不同的领域,也是客户看到的最为主流的业务场景,分别是内容的创建,各种各样的文本、语音、视频等,以及客户的服务,从线上到线下,现代知识管理包括对于各种各样知识的生成,获取、管理和治理等,以及文档的自动化,比如生成文档,进行文档的摘要,还有定义的图灵机器人,面向各种各样开发人员的代码助手,以及智能体,以及各种各样的工作空间助理-Copilot。各个行业的数字化创新,好像是非常美好的PPT未来。
但实际上中国乃至于全球的各个行业都面临着现代数据管理的严峻挑战。总结有五个主要的方面。首先,第一个方面是来自于数据标准的缺乏,每一个企业自身都有很多的私有数据,它的格式,它的数据的策略都非常的封闭,导致企业的数据管理日益的复杂,效率非常的低下。第二点来自整个的云环境,现在多云、混合云、边缘云分布式的环境是常态化的选择,对于企业自身的数据性能,数据的质量,数据的集成等方面都带来挑战。第三个方面来自于新兴的业务场景,看到RAG检索增强生成,AIOps,包括计算机视觉,智能决策不同的新的业务场景。对于大数据的各个V,数据的规模、数据的来源、数据的类型、数据的变化的频次等都变得越来越规模化,使数据管理越来越费时费力。第四点是过多的数据管理相关的技术平台。在过去二三十年,国家信息化到数字化到数质化的旅程中,有越来越多的平台被企业所采用,面向交易,面向运营,面向客户分析的有关系型数据库,NoSQL数据库,内存数据库,以及向量数据库,各种各样不同的数据平台都得到使用。
研究表明,每个企业现在都有至少20种不同的数据平台,这是非常复杂的事情,最为关键的一点是来自于生成式人工智能对于整个企业的挑战。五年前论文里面提到的基础模型的五个方面的问题,幻觉,相关性,准确性,内存的占用等,现在依然没有完全解决,各个场景本身所需要具备的能力,比如PPT上面展现出来的RAG,对于RAG整个架构的分析,需要包含非常多的能力,从底层各种各样的组件,到上层各种各样的全方位的能力,不是一朝一夕之功,需要有一个非常坚实的数据基础提供支撑,面对五方面的挑战该怎样去做,非常简单,只需要做两件事情,第一件事情需要构建一个AI就绪的数据管理的基石,需要借助互联智能框架(Connected intelligence Framework)。这张图上看到框架的八个组成要素,从一开始数据的发现与搜寻,一直到数据的观测与评估,每个方面都需要有能力的提升,比如数据发现与搜寻里面需要有效的表达业务的需求,在数据的测试与训练需要提升用户的信任,在交付与部署层面需要实现规模化的应用,这些都需要在很多不同的层次上面进行投入。
第一个方面需要拥抱全局数据管理和DataOps帮助简化数据的运维工作,这一方面需要拥抱包括数据湖仓,Data Fabric数据编织或者数据的构架以及全局的分布式数据平台,使客户能够对所有的数据有一体化的视角。同时需要面向分布式的云环境,对企业内部的数据和原数据有效的治理和管理。
第二个方面是需要聚焦端到端。Forrester认为端到端有三层不同的含义。首先在最上面需要有一个集成的原数据,有集成的数据的策略,有集成的数据AI的模型,中间需要一个端到端的数据管理的能力,从开始数据的获取到最后数据的质量都能有效的把控,底层需要有各种各样的数据的组件,助力端到端能力的交付。这样的架构需要包括数据库仓,数据网格等不同领域的技术和平台,使它快速的实现。
第三个方面是需要优先考虑AI赋能的数据管理,Data for AI,AI也要for Data,需要将AI的能力融入到数据管理的每一个环节,从而具备自助服务的能力,具备主动式服务的能力,具备面向语义、面向自管理和一体化的能力,这可以帮助交付右边所列出来的商业价值,比如可以更加敏捷的去交付应用,更加有效的进行数据洞察的获取,第四个方面是用例驱动,现在企业内部的各种各样的人工智能的领域复杂,各种用例需要具备不同的底层的基础设施的支撑,从RAG到CDP到物联网到数据共享平台,应有效的提升价值,价值的提升需要将底层的各种能力有效的进行组装,通过组装式搭积木的方式帮助对用例提供支撑。
最后是融合数据平台,融合数据平台体现在三个不同的层次上面,中间也是最为核心的是分析平台,数据仓库和数据湖正在向着数据湖仓快速的融合,它和对象存储,和客户的分运行,数据库和NoSQL数据库进一步的融合,成为分析型的数据管理平台。左边是多模态,右边是Translyti cal或者Gen第二代,两方面都有自身所融合的内容。在五个重要的发展方向上,如果能做好相关的举措,就可以有效的实现AI就绪的数据基础设施。突出强调数据湖仓的重要意义,可以为企业带来非常显著的战略价值,一方面帮助快速的构建一体化的数据分析平台,另一方面也可以加速获取AI赋能的业务洞察。最后有效的降低数据管理基础设施的成本。看这张PPT,里面列出Forrester定义的关于数据湖仓的19项重要的能力,从一开始对各种各样的数据类型的支撑到数据工程化的能力,到数据的集成包括数据的治理,对于整体的数据管理的把控,如果有效的进行对比,可以很清晰的看到和传统的数据湖或者是数据仓库比较,数据湖仓可以有效的弥补原先的空白,或者将原先的能力进行大幅度的提升,差异化的优势对整体能力的把控非常关键,这是第一步,也是最为重要的一步。还需要具备一个全局的视角,从平台实现以及合作伙伴三个方面进一步的加速数据管理和人工智能的融合创新。平台需要将云原生将现代数据管理和AI的能力有机的融为一体,从左到右是从数据管理到模型的开发、训练和服务,贯穿全生命周期的是Model-as-a-Service的全生命周期。从下到上是从AI原生的基于云原生架构的基础设施,到中间层的各种各样的开发的能力,到最上层的应用的服务都可以有效的进行赋能。
在实践中,Forrester强调三方面。第一个方面不需要期待一个killer APP一个杀手机的应用,应当期待的是AI的能力可以帮助企业的方方面面,每一个业务条件,每一个业务的领域都可以实现微增强。第二点在最右边,是流程,只有将各种各样的能力和流程,比如智能体和传统的流程有机的进行编排,才可以发挥人工智能的最大效能。而底层的数据基础设施是贯穿整个流程的重要的抓手,中间是新的挑战来自于数据和AI双方向的治理。以前叫做shadow IT,影子IT,现在叫shadow AI,影子AI。对人工智能的极大的热情引入新的风险,合规性的风险、安全的风险、隐私的风险,需要有机的进行治理,才可以将数据的价值发挥到最大化。
最后是合作伙伴,选择的并不是某一个平台或者某一种技术,选择的是在未来漫长的征程之中,能够携手同行的合作伙伴,这是为什么Forrester强调在选择之中,需要聚焦四个方面,其中的技术和工程非常重要,合作伙伴也应当需要具备对业务场景的影响能力,对业务的洞察,也需要能够具备对咨询服务和生态的能力。更需要具备自身的数据和AI的人才,只有将这四个方面有机的融合起来,才可以更加有效的将数据和AI融合起来。为企业的人工智能的发展奠定坚实的基础。想要加速转型,加速客户企业数据管理和人工智能战略的转型,从而切实的推动企业业务的成长,需要打造AI就绪的数据管理基石,并且借助于平台实践、和合作伙伴三个方面的融合进一步的成长。