数据和分析新观点:构建业务价值的新等式
不少中国企业通常把「数据和分析」作为一个 IT 名词。而 Gartner 的研究发现,「数据分析」这个话题已经变成越来越多的业务层面的讨论。去年,Gartner 提出:数据分析能力实际上是一项业务能力。
今年,Gartner 提出了一个基于整个数据和分析趋势的新口号 —— “构建业务价值的新等式”。Gartner 表示,通过构建这样一个新等式,可以帮助企业完成更多基于数据分析业务能力的建设。
这个“新等式”该如何理解?
Gartner 高级研究总监孙鑫解读说,在“=”的右边,是当下日益增长的数据分析需求,希望通过数据分析为企业创造更多价值,而不仅仅只在一两个部门间应用。也希望数据分析成为创新的起源,给企业带来新想法,助力企业前进。
Gartner 发现,越来越多基于数据本身的变现和降本增效让企业实现了营收增长。基于数据分析的决策能力已成为一个有韧性的企业最核心的能力。
数据分析不只存在于技术选型上,企业还希望运用““数据科学的能力辅助作出一些其他符合业务情境的决策。数据分析也带来了很多关于业务模式的思考,帮助企业更好地进行数字化转型。
基于上述背景,Gartner 把 2022 年数据分析的十二大趋势分成了三个大的主题。
分别是:
一、激活企业的活力和多样性。
二、增强员工能力与决策。
三、信任的制度化。
这三个大的主题分别包含四个趋势。每一个趋势并不是单独存在的,它们之间环环相扣,并互相影响、相互增强。
主题一:如何打造一个更动态、更具有韧性的企业(组织)
现在,每家企业都拥有海量、多样的数据。但企业很多时候是被动执行数据分析的项目和行为,并没有主动挖掘数据潜在的价值。虽然花了很多精力去存储数据,但这些数据并没有被充分被激活和利用。
因此,Gartner 认为,企业的数据应该以更有活力、更多样性的形式利用起来,从而给企业带来新的机会和价值。
趋势一:自适应人工智能系统(Adaptive AI Systems)
从 Gartner 过去几年的一些调研来看,很多企业号称自己有 AI 的举措、AI 的想法,但真正把 AI 模型运营起来的却少之又少。最近几年,Gartner 一直在提“AI 工程化”的举措,利用工程化的方式让 AI 渐渐进入到生产环境中,从而运营出价值。
Gartner 预测:到 2026 年,采用 AI 工程化的手段打造自适应的人工智能系统的企业,相比没有做这些举措的企业,运营的 AI 模型数量将多出 25%。这无疑将为企业带来更多竞争力。
Gartner 建议企业利用类似于 Ops 的手段建立 AI 模型,如常见的 Ops 手段,DevOps。现在,越来越多的企业会用一些类似于 DataOps 数据的运营、ModelOps 模型的运营,去建立更有效的 AI 模型。AI 工程化所赋能的自适应型的 AI 系统,可以帮助企业更快速的生成有效的 AI 模型。
实现更自适应的 AI 系统有一个前提,这就涉及到第二个比较重要的趋势 — 以数据为中心的人工智能。
趋势二:以数据为中心的人工智能
现存的一个挑战是,大多数企业交付的人工智能解决方案很大程度上取决于数据的可用性或数据的质量,以及它是否能被业务所理解。而不只是人工智能模型建立好就可以了,很多企业其实很依赖数据管理。
然而很多企业在建立 AI 模型初期,并没有专门设想过该用什么样的数据管理模式去治理 AI 模型。在很多人工智能项目中,数据管理常常被低估。在一些人工智能社区,包括学术社区和产业界,很多讨论的焦点在于模型开发,而忽略了数据管理的工具和实践。事实上,数据管理能力可以大大为人工智能的开发和部署提效。
Gartner 发现,以数据为核心的人工智能将会不断发展,其扩展的学科也会越来越多,包括:数据管理的技术和技能、数据质量、数据集成、数据治理... 这些都会扩展成为人工智能的基础能力。当一个 AI 模型被开发出来后,整个数据管理的活动其实并没有结束、它会像一个动态的数据管道一样去持续地支持 AI 模型的开发。
因此, 企业需要一个更健壮的数据管理模式去提升 AI 运营的能力。这里就不得不提到,下一个趋势 —— 基于“元数据”驱动的数据编织。
趋势三:基于“元数据”驱动的数据编织(Metadata-Driven Data Fabric)
“元数据”是什么?简而言之,“元数据”就是描绘数据的数据。那这些数据是怎么被利用的,这些数据有哪些业务含义?
过去,“元数据”是被“被动的使用”,当企业遇到数据质量问题,要做数据治理或者遇到管治要求时,会对“元数据”进行更广范围的开发。
现在,辅以一些机器学习的能力,“元数据”可以被高度利用起来,企业可以高效地利用元数据驱动的机器学习能力更好地做数据管理,进而实现业务发展所需要的情境化的数据洞察。
此外,数据孤岛问题一直存在,企业数据四散在各个系统中。这就需要将数据编织起来,再结合“元数据”驱动的机器学习,加之利用知识图谱的能力,通过这样的数据发现过程实现自动化的数据管理,降低手动数据管理的工作量。
现在企业的数据源越来越丰富,特别是在“云”上的数据源不断产生,未来,企业将不得不去考虑如何通过更多自动化的手段满足数据管理的需求。因此,未来几年,我们会看到越来越多对“元数据”的考量,且利用这些“元数据”基于知识图谱的能力完成更好的数据发现。
Gartner 调研发现,如果可以利用数据编织的手段、利用元数据管理数据源,可以有效减轻过去非常多繁琐的数据管理工作。比如,数据管道的设计,数据的开发,数据的支持,数据的质量等。同时,到 2025 年,数据利用率将提高到 400%。
未来,企业的数据有多少将被业务所利用?这可能并不取决于数据本身,而在于元数据驱动的数据管理。有了这样一个比较健全的数据编织的设计模式后,就可以做更好地做数据分享了。这就联系到下一个趋势 ——“始终分享的数据”。
趋势四:始终分享的数据 (Always Share Data)
什么叫“始终分享的数据”?
过去企业面临的一个挑战是,担心分享数据时存在数据风险,害怕数据外泄。所以,很多企业高管很排斥分享数据,甚至不敢分享数据。
在近几年的调研中,Gartner 发现,企业对于数据风险大于业务价值的担忧已近乎消散。很多企业意识到,如果不分享数据,企业所面临的被竞争对手超越,以及数字化执行失败的风险反而变得更大。因此,有越来越多的企业高管对数据交易所、数据分析能力变现、将数据能力转变为业务能力等投入关注。
越来越多的企业考虑用数据资产化、数据目录、数据字典、数据地图等方式分享数据,在一个可以被治理的方式下分享数据。与此同时,企业投资的方向也在转变,现在企业会更关注如何通过自动化的手段去发现更多相关数据,也会用开放型 OpenData 的方式对自有数据的可能性做更多探索。业界也已展开了更多公开标准的“元数据”,大家在分享数据之外,也分享数据如何对业务赋能。
主题二:关注人,增强员工能力与决策
第二个大主题,主要是从“人”的角度出发的一些思考。
一个企业最终做决策的是人,如何去增强这些人的能力,帮助他们提高自己业务决策的能力?这是企业需要去完成的第二个大主题。
在这个主题中,有一个大的背景是不可逆的,即:企业数据变得越来越复杂,企业要用到数据的环境也变得越来越多样。也就是说,业务侧的用户对于能够实现更情境化的分析的需求,变得越来越迫切。
趋势五:情景丰富的数据分析(Context Enriched Analysis)
Gartner 预测,到 2025 年,情境驱动的数据分析和人工智能模型,将取代 60%建立在传统数据上的现有模型。这背后反映的一个趋势是,更多的知识图谱将被利用。现在,知识图谱”已经和越来越多的“元数据”管理工具、预测分析工具相结合。
通过知识图谱,可以进行更准确、更可追溯的预测和分析,从而让企业的数据分析有据可循。而且知识图谱嵌入式分析也可以带来更多情境/背景信息。知识图谱的能力,可以连接更多结构化和非结构化数据、元数据,帮助提高数据分析的情境条件。
很多企业已经在用知识图谱完善预测分析的能力,利用知识图谱进行更多广泛数据源的情境化信息的收集等。这种情境化分析的能力、情境化更丰富的分析能力,将会成为企业未来必须提升的分析能力。Gartner 看到,现在已有很多企业开始考虑如何通过数字化协同办公软件完成更多数据分析。
说到了有非常多的业务侧的用户开始使用数据分析,就不得不提到下一个趋势 —— 就从 IT 嵌入式到业务组装式数据分析的转变。
趋势六:从 IT 到业务数据分析的转变(From IT-Embedded to Business-Composed D&A)
对业务做数据分析,早就不是一个新颖的话题了。让业务用户完成全生命周期的数据分析,也已经开始成为可能。因为业务用户现在不仅可以作为一个数据分析师,分析自己的数据,作出一些数据洞察;也可以变成一个“低代码、无代码”的应用开发人员将数据分析的洞察直接反馈到业务中。
过去那些 IT 嵌入式的数据分析报表已渐渐可以由业务侧的员工来做,他们可以自己完成一个数据分析的数据产品或分析型的应用。Gartner 预测,到 2025 年,50%的嵌入式的分析型的内容,将会由业务用户利用一些低代码、无代码工具,用组装式、模块化拼凑的方式完成。业务侧将会更多以业务导向去寻找数据分析能力,最终变成数据分析应用,不再是由 IT(团队)去做所有的事情。
过去那种自下而上,通过科技平台、技术平台搭建的数仓、数据库、搭建语义层,完成报表的工作,很大程度上将会由业务自上而下的业务价值流开始做思考,从而用企业组装式的数据分析能力变成分析型应用。
从人的角度看,一个大的转变是,过去是由应用开发人员开发报表应用,现在可能会是一些“业务技术人员”来完成;未来还会看到更多诊断型、预测型、增强型的分析型内容,被业务侧用户提炼出来;过去写代码的模式,可能更多是命令行式的。现在用低代码、无代码工具就可以用最简单易用的方式,搭建出分析型应用;过去的技术可能是固化的、单体软件的形式,未来会用更多组装式的技术去搭建应用。
过去可能更多依赖于 SDK、API,只有开发人员能看得懂技术。未来,更多企业将企业级目录中的“积木”作为构建模块,帮助业务用户完成业务视角的搭建;从设计模式的角度来说,过去可能更多从 IT 的角度去看报表是否好看、是否容易被理解。未来业务人员会根据更多根据自己对业务思考,去从产品化的角度运维数据分析产品;这样可以带来很多更符合业务思路的、情境化的数据分析应用。
趋势七:决策驱动的数据分析 (Decision Centric D&A)
第七个趋势是,从数据分析驱动的决策,渐渐转变成了决策驱动的数据分析。
过去,企业先做数据分析的架构建设,再去想如何加速数据分析的部署。现在,企业更多希望通过一个业务情境开始,或者是一个业务决策开始,然后再去想怎么样利用数据分析能力去助力这些决策,或者说,直接从最后一公里开始设想如何把数据分析影响到业务决策去。
这里面会涉及到一个“融合团队”的概念。“融合团队”,是指,业务与 IT 可以共同合作起来,去思考该如何去完善企业做数据决策的路径。
Gartner 曾提出过一个决策智能模型,帮助企业从顶层设计的角度管理决策链。很多企业可能已经做了很多报表,却发现这些报表很多人都不看、或者很多人觉得它过分丰富,以至于难以抓到重点。因此,决策智能是为业务和 IT 的融合团队提供的一种改善组织决策的方式,企业可以利用决策框架,让用户在决策层帮助实现数据分析。
这个趋势,有一个实现前提,即,企业需要越来越多的人在更高的高度上,为企业的决策做基于数据分析的建议和规划。这就与下一个趋势——“ 数据和分析技能、数据素养的缺失” 相关联。
趋势八: 数据和分析技能、数据素养的缺失(Data and Analytics Skills and Literacy Shortfall)
Gartner 发现,企业普遍数据素养不高,可能 IT(团队)采购了非常多工具、但业务没有真正用起来。
Gartner 预测,到 2025 年,大多数企业的首席数据官(CDO)将无法在员工队伍中培养(员工)具有足够的数据素养,以实现数据驱动的战略。数据分析人才的匮乏困扰着很多企业的管理者。
在 Gartner 的“首席数据官调研”中也发现,如果一个企业可以把更多人的因素或者说人员培养的因素考虑进去,将比没有考虑到“人”的因素的企业更容易成功。所以,“以人为本”是数据分析的使命,企业需要培养(员工)更广泛的数据素养,提高数据分析能力。
针对数据素养缺失的现象,Gartner 提出了一个“三步走”的方案,分别在人才的获取、人才的培养,人才的留存三方面提出对策。
“获取人才”:要通过业务成果激励,让员工了解到数据分析可以帮助其解决更多问题。任何数据素养的培训并不是单单是要教学会各种各样的工具,工具的培养是必要的。但更重要的是,让员工了解到,利用数据分析可以帮助解决实际业务问题,从而提高工作效率。
培养人才:在国外,培养好的数据分析人才主要是通过社区治理的方式。企业可以建立数据分析社区,让大家在社区中讨论,让用户和用户之间可以实现“传帮带”的过程,通过社区建立起数据文化。
留存人才:目前有些企业已经部署人力部门,令其在员工的日常工作中加入一些数据分析的内容,并采用一些激励措施,让员工使用数据分析,最终对数据分析产生的成果给予嘉奖。
主题三:信任的制度化
第三个主题可能是中国企业十分关心的。
前面都在讨论业务侧该如何使用数据分析。但业务侧能使用数据分析的大前提是,他们信任数据,相信企业可以给予他们这样的能力(权限),并且数据可以直接拿来用、不用承担责任。所以,要实现无处不在的数据分析能力,将信任制度化非常重要。
这个主题下的第一个趋势是,互联治理(Connected Governance)。
趋势九:互联治理(Connected Governance)
“互联治理”,并不是指要建立一个新的团队,因为在企业里,可能对“数据治理、安全治理”或者说最常见的“IT 治理”,都已经建立起了相关能力。
“互联治理”其实是一个框架,用于建立一个跨组织、跨业务职能,甚至是跨地域的、虚拟的数据和分析治理层,以实现跨企业的治理结果。
在中国,一个特别明显的现象是,随着中国本地法律法规的建立,国外的治理模式在中国市场完全不适用,或者说治理挑战更大了。因为不仅要考虑到国外的法律法规,也要考虑到国内的法律法规。
此外,治理的因素越来越多,比如:数据质量、数据安全、数据隐私、数据道德,对于数据的定义模型,整个生命周期的管理都被纳入治理范畴之内。因此,对于企业来说,互联治理的方式可能就是不得不采取的举措。
具备“互联治理”的模式,建立起一个更广范围的数据治理团队非常重要。在中国很多企业里,会考虑建立“首席数据官”的办公室,办公室下设立数据治理委员会,该部门将来会和法律、安全部门合作。而把“互联治理”在更高层次实现,而不是说四散的、按治理条约进行管理。
在“治理要素”里,很重要的一点是安全和隐私。因此,Gartner 也提出了,对于 AI 信任风险和安全管理的趋势。
趋势十:AI 信任风险和安全管理 (AI Trust Risk and Security Management)
Gartner 此前在研究中发现,50%的 AI 模型从未进入到生产环境。其中,“安全”和“隐私”是主要原因之一。
AI 的创新和创新速度正在受到很多内外部压力。例如为了维持正常的 AI 运作,很多企业在人工智能的信任风险和安全管理方面偷工减料,这会导致一些负面结果。比如:会被罚款,AI 的 ROI 也会大比例降低。所以,企业需要花更多的时间和资源去进行人工智能的风险和安全的管理。
大多数企业在开发 AI 模型时,对想要实现的目标并不明确。很多企业常常没有一个完整的流程、工具或者衡量标准来治理和管理 AI 的信任和安全风险。
另外,很多企业倾向于收集人工智能的训练数据,但没有在选择数据时设立合理的目标,这时数据往往会有一些偏见,这些偏见会对数据模型质量造成负面影响。
现在很多企业因为监管和合规性的驱动,在做模型治理时,因受到合规性的管控,企业在做 AI 模型时是完全被动的,这种合规性也并不一定能带来可信的 AI 模型。
因此,Gartner 提出这一趋势,希望企业关注在信任风险和安全管理这方面的 AI 治理。
趋势十一:厂商和区域性的数据和分析生态 (Vendor and Region Ecosystems)
Gartner 在去年的调研中看到,越来越多的企业在建立自己的本土化或国产化的数据分析能力。基于此,Gartner 提出了,“厂商和区域性的数据和分析生态”这一趋势。
大多数企业建立数据分析的初始状态是,选择用一套数据分析的解决方案遍布到全球。但随着区域性的管治,很多企业需要在本地/本区域建立一套重复的、符合本地条款的数据分析的技术栈。这些技术栈必须符合国内的一些要求,这一方面带来了选型的挑战,一方面需要结合国内的生态做数据分析运营。
Gartner 也看到了另一个有意思的趋势,过去,很多买方、甲方做产品选型时,经常会有一个顾虑—— 是否一定要选择一个云厂商搭建自己的数据分析架构。这背后的主要原因是,担心如果被一家“云厂商”绑定,未来续约时会出现一些商务上的问题。
但现在,越来越多的企业发现,选择一家“云厂商”,用一家“云厂商”的数据分析生态产品时,所涉及到数据管理上、分析管理上的麻烦反而会降低很多。所以,除去被一家厂商绑定的困惑外,越来越多的企业更倾向于用一家“云厂商”的生态。
因此,当企业建立数据分析生态时,可以多考量下,哪些能力可以在一家“云厂商”中做实施。或者说,当一些外企进入中国时,在建立平行的数据分析栈时,要考虑是否在一朵云上进行数据分析的建设。
现在数据分析的生态产品能力日益增长,如何以一个自上而下的思路完成各种能力的建设,而不只是考虑工具上的建设也变得非常重要。所以在未来,企业建立自己的数据分析生态时,要更多考虑厂商与厂商之间的兼容性。国内的数据分析生态也会变成企业做产品选型、平台选型时的重要考量点。
趋势十二:边缘中的数据分析 (Data and Analytics Expansion to The Edge)
数据和分析的活动越来越多的在数据中心或者说公共云基础设施之外的分布式的设备服务器、网关中进行操作。
今年,这一趋势更加明显了。这里面很大的一个原因是,在边缘设备中完成的数据分析,更符合现在强调的“数据主权”或“监管”的诉求。因此,希望越来越多的数据分析,在架构上可以考虑分布式的架构,来帮助完成更有效的数据分析。
“边缘”是一个连续体。从“云、数据中心”到“设备边缘”,不仅仅是一个单一的位置。分析、特别是人工智能的使用案例,可能会在连续体的不同位置得到最佳的安置、放置,而不只是在某一个“点”上。
所以,企业数据分析的管理者,可能要放弃 All in 的形式,关注在一些公有云或数据中心中部署数据分析能力,在分布式的数据分析环境中部署。
聊聊中国的数据和分析趋势
疫情成为中国企业数字化转型的契机
孙鑫认为,疫情成为很多中国企业数字化转型的契机。过去,很多企业对数字化没有旺盛的需求,但在最近这几年,数字化成为了刚需。如何让越来越多的用户远程办公,如何让越来越多的用户可以基于数据做决策?都成为摆在企业面前的棘手的问题。
如今,在“云”上做数据分析成为趋势。延伸到全球,在“云”上做数据分析已经变成了一个默认的首选项。相对而言,中国企业对公有云的部署没那么旺盛,但因为疫情,国内企业对公有云的上限数据分析能力已有了显著增长。
另一方面。业务侧用户使用数据分析成为趋势。国内一些商业智能 BI 工具和数据科学工具厂商在今年实现了飞速增长。企业现在越来越期待可以利用一些“自服务”的工具,帮助业务用户更快速地做决策,这也是疫情大背景下对企业的驱动。
疫情令很多传统企业的数字化进程加速,由此产生的数据处理、数据管理的需求和挑战与之前相比有什么不一样?
孙鑫对 InfoQ 表示,在这个方面,自动化的需求增长了,过去企业做数据管理对自动化需求没有那么高,但现在,企业对数据需求量越来越旺盛,对数据能够反映在决策链的时效性越来越迫切,也依赖更多的自动化手段完成数据管理的自动化。疫情之后,企业对于数据管理的速度有了更高的需求。“数据编织”这一方法,可以基于机器学习的自动化的功能,降低手工工作量,从而加快让数据产生价值的速度。
Gartner 也看到了企业对分析能力的迫切需求。过去,企也可能只是做一些数据可视化的工作,现在可能已经不能满足于只是做这种描述型分析了。还会去进行一些诊断性分析、探索性分析、预测性分析,这些都需要更先进的分析能力。
另一方面,在疫情发生后,很多企业迫切地需要,在工作流中、在数字化办公软件、CRM、ERP 中,更快速地嵌入一些数据分析型的应用,从而让业务用户做更快判断。业务组装式、模块化的分析可以帮助企业更快速的提升嵌入式分析的能力,从而帮助企业在业务流程中更快速做运转、做出更好地战略判断。
大数据和 AI 的融合成为热门趋势
谈到现阶段大数据和 AI 的融合趋势,孙鑫对 InfoQ 等媒体表示,大数据和 AI 本就是息息相关。
大数据和 AI 的结合具体体现在几个趋势上:
Data Centric AI,利用更好的数据管理,驱动 AI 模型的开发。自适应的人工智能系统,通过吸取环境变量驱动开发高质量的 AI 模型,让它变得自适应。大数据和 AI 的融合,最贴近的一个点在于,把 AI 的能力嵌入在数据分析的功能或者说大数据的功能中,完成更多增强型的分析能力。
“增强性分析”是这几年 Gartner 一直在提趋势。“增强性分析并不是让用户会写 AI 或数据分析的代码,而是说如何把它封装好、让用户依旧用简单易用的形式、用拖拉拽的形式、用自然语言的形式,做更高级的分析。因此,未来会越来越多看到 AI 去赋能大数据的产品、产业,让更多的人能用更低的门槛去做更深度的分析,这是大数据和 AI 直接赋能到业务侧用户的表现。
边缘计算能够和大数据平台相结合吗?
就目前大数据平台和边缘计算的关系,孙鑫向 InfoQ 回应称,现在有非常多 AI 的能力、数据分析的能力,需要在硬件侧。特别是,像一些特有的芯片能够非常好的适应 AI 模型和算力的开发。因此,未来通过硬件能力提升数据分析算法的效果会越来越多的出现,从而帮助企业完成更高效的边缘端的数据分析开发。
谈到,2022 年边缘计算的趋势,孙鑫表示,到 2025 年,超过 50%的企业级核心数据,将会在数据中心和云以外的地方创建并分析。”这主要有 2 个助力因素,一是,对远程环境的自动化和控制的需求。此外是安全和资源的限制,以及日益复杂的数据主权和监管的诉求。在边缘做数据分析,一定会成为重要趋势。
湖仓一体,在中国企业中发展到什么程度了?
如何把过去的数据湖和数仓结合在一起,是业内经常探讨的话题。不过,这里面存在一个误区,很多企业只是为了把自己过去非结构化、结构化的数据都存在一起,就建一个湖仓一体的架构,却忽略了做这件事情的初心。
什么初心呢?孙鑫表示,企业可以回溯,为什么要建数据湖,为什么数仓不能去做这件事情?因为,在过去,用数仓其实是为了解答已知的数据和已知的模型带来的一些已知的问题。用数据湖,更多是为了去解答未知的数据、不知道怎么去建模的数据和一些未知的要做预测的问题,这当中的数据就会变得更复杂。
湖仓一体,给企业带来的更多的是在一个整合的平台去完成高级分析的可能性,更多希望用户可以拓展分析能力,过去数仓只能完成一些描述性分析、简单的诊断性分析,而后延伸到一些预测性分析能力。所以,企业现在更关注到,湖仓一体的输出是什么,怎样让用户可以在运维的环境中完成更多高级分析的用例。
因此,在中国,现在很多企业可能盲从的听到了一些“湖仓一体”的概念,其实应该冷静下来想一想:“湖仓一体”带来的结果是什么?