2022云栖精选—Graph + Insight 在关联数据中发现商业价值

简介: 摘要:本文整理自蚂蚁集团数据可视化方向负责人林志峰,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分:1. 大势所趋 · 技术价值和趋势2. 生机勃勃 · 应用场景和生态3. 厚积薄发 · 这些年的工作与沉淀4. 浅知拙见 · 落地探索和应用实践

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

近些年,图不管加什么都会成为一个大热,比如Graph + DatabaseGraph + ComputingGraph + KnowledgeGraph + Visualization等。我自己所在的领域里,我发现可视化顶会论坛里,超过30%以上都是跟图相关的一些论文,这就可以说明图是一个大热的课题。

 

一、大势所趋 · 技术价值和趋势

 

在过去20年的数据浪潮里,我相信这张图大家都不陌生。传统中我们通过BI工具从数据里获取洞察,BI就成为了一个非常常用的工具。但随着数据规模的增大,以及更多关联数据的要求,我们慢慢发现,传统的数据库并不能满足高效的查询要求。

 

image.png

 

刚才提到的图数据结构,它是刻画现实世界最理想的数据特征。不管是人与人之间的关系,企业之间的往来,点对点的物流,还是整个社会上下游的衔接,都可以用图的数据结构去描述,非常准确,同时也非常高效。

 

如果把这些数据放到传统的关系数据库里,就会发现它会带来很多存储冗余,表达稀疏以及复杂查询,这就会变得非常缓慢,并且非常复杂。但是如果用图引擎可能非常优雅的几行代码,就能把一个三度查询表达出来。

 

image.png

 

正是因为这些局限性,我们经常在图数据库圈里看到这么一句话,关系数据库里存的不是关系,而是数据。

 

下图是一个非常经典的模型,DIKW。原始数据经过数据加工,变成一个有意义的信息。当我们把这些信息组合起来成为一个知识,并从这个知识里挖掘到一些可以用于预测未来的因果关系,我们称它为智慧。

 

image.png

 

但是经过几年后,我们慢慢发现在KnowledgeWisdom之间,有巨大的鸿沟难以跨越。

 

image.png

 

更实际的是在这个过程中,我们发现从里面找到相关性的Insight会带来更多实际的业务价值,所以GraphInsight的结合会越来越被重视。

 

image.png

 

下面给大家看一个更加直观的例子,怎么从图里面获得洞察?下图是两个mock的虚拟数据,银行卡账号和交易明细。

 

image.png

 

字有点小大家可能看不清,但哪怕你能看清里面的每一个字母和数字,都不能快速的得到洞察。下面我们尝试把它可视化出来,我相信你可以立刻得到一些关键的点,或者说有一个大概的印象。

 

image.png

 

阿拉伯数字大概是在1200年前后出现的,中国的甲骨文数字是在公元前1600年,最早的楔形文字是在公元前3000年,而洞穴壁画在公元前4万年就已经出现了。

 

换句话说,人类习惯用图形、图像去表达,比用文字和数字足足早了4万年。各种科学实验也验证了,人类对于图形、图像识别能力的速度和效率比文字和数字高出1-2个数量级。所以在我看来不管人类基因怎么突变,人类依赖图形、图像去获取信息依然还是我们最主要的渠道。

 

眼睛是我们最主要的信息获取通道,我们大脑里超过50%的组织是用于图像图识别和获取知识的,这是从人类自身的特点去看这个趋势本身的变化。

 

那么我们在图方向坚持做那么久,有没有可能只是我们的一厢情愿。但好在顶级经营机构的一些趋势报告验证了我们的一些判断。

 

在跟进图分析的这些年里,它几乎在Gartner的趋势报告里从未缺席。2019年提到图分析是获得复杂关系多维数据洞察的关键技术;2020年提到关系的使用将重构整个数据和分析的价值;2021年预测了50%的客户会有图分析的需求;直到2022年更激进的说分析模型将取缔现有传统数据模型。

 

虽然说的很激进,但市场已经给出答案。

 

image.png

 

二、生机勃勃 · 应用场景和生态

 

我们国内外一些公司,其实他们核心依赖的技术跟图都极其相关。不管是Google的搜索,还是亚马逊的产品推荐,还是Facebook社交网络里的广告定位。

 

image.png

 

换位到国内对标的企业大家对图也是强依赖的。比如360,会用图去发现整个软件供应链链路上,存在的全网大规模固定资产中漏洞的传播路径。天眼查、企查查会提供给付费用户一些增值服务,比如关于企业关联关系、股权结构等。

 

image.png

 

从下图中,可以归纳出图应用的核心以及主要的四个应用场景。

 

image.png

 

三、厚积薄发 · 这些年的工作与沉淀

 

下图是AntV的技术栈。纵向分成三个域,分别是常规统计数据、关系数据、地理空间数据。

 

image.png

 

今天主要是分享一下关系数据。这个栈被分为了三层,从下到上分别是引擎层G6、组件层Graphin、平台层GraphInsight。这三层的关系相信从名字上就能看到它们所面向的客户和场景。

 

image.png

 

同时我也很自豪地说,AntV G6这个引擎在2017626发布至今,在全球开源可视化项目里排名世界第二。接下来我们会继续努力,希望早一天能代表中国登顶。

 

当然这里也离不开阿里、蚂蚁以及社区的很多同学在这个方向投入。

 

image.png

 

这是20201122日对外发布的第一份关于图可视化解决方案的白皮书。包括6个文档,将近18万字的内容,是我们联合阿里,以及社区内外三十多个设计师、产品经理、技术人员,一起书写的关于图可视化分析的一些产品案例、经验总结。我们做这件事的初衷是希望在技术不断前进的同时,还能有一些认知上的迭代,也希望这个白皮书在未来能够继续迭代。

 

image.png

 

四、浅知拙见 · 落地探索和应用实践

 

在业务落地的过程中,我们发现了两个业务团队的顾虑。第一个是整个投入的成本,因为毕竟是新技术,大家对图可能很陌生,不知道画一个图在web上需要多大的成本,然后未来能否持续迭代。

 

另外一个是实际效果,因为传统的统计分析是有沉淀,有惯性的。今天我们用图的方式给一个呈现,用图的方式做数据挖掘和分析,究竟用户能不能接受,并且这种分析能不能真正带给业务效果,都是它们担心的。

 

image.png

 

针对这两个问题,我们慢慢摸索到,能够让业务快速进行验证,是成为新技术落地的杀手锏。不管你是数据研发的同学、数据算法的同学、还是业务的分析师,能够用最短的路径、最高效的方式让他们看到数据,摸得着,玩的起来,慢慢这件事情就有戏了。

 

所以这里会有两个最主要的卡点。第一个是关系数据究竟如何获取?另外一个是有了数据之后我如何去分析?

 

image.png

 

接下来我们先从“关系数据如何分析?”讲起。那么就不得不提到GraphInsight,它可以零代码完成图分析洞察的业务验证,低代码支持功能模块的持续集成。

 

image.png

 

什么是零代码?怎么去完成呢?我们还是拿刚才那份假数据,包括账号和交易明细点边的结合。

 

image.png

 

我们快速的把这两份数据导到系统里面,然后做一些简单数据映射的匹配。1分钟就可以把一个非常枯燥的表格数据变成一个图可视化。核心就是告诉GraphInsight这份数据哪些映射到点,哪些映射到边,他们属性的配置关系。

 

迈出了这1分钟这一步之后,业务人员、研发人员就可以把它当作一个工作室,配各种节点的样式,把一些更加重要的属性映射出来。改变它的布局,颜色,甚至把一些业务的语义含义在图里面表达。那么一个带着互动能力的图分析雏形就出现了。

 

image.png

 

接下来3分钟的调参配置,自定义样式,交互,布局,让关系图栩栩如生。这一步之后,更重要的来了,怎么去分析?这份数据里有没有更深层的含义?

 

image.png

 

这个时候可以用GraphInsight提供的分析资产。它是把图可视分析领域里,常用的分析手段全都封装成一些能力组件。在GraphInsight的资产平台里,可以随便挑选那些已有的分析能力,直接挂载到自己的应用里,直接使用。这个过程大概需要6分钟。

 

image.png

 

我们再重新回顾一下整个过程。从一个excel表,1分钟的时间把它变成一张可见的图,3分钟的时间把业务语义的数据映射给上面配置出来,最后花了6分钟时间从里面选一些资产做进一步的分析,得出洞察力。这是GI提供的一个零代码数据分析和能力。

 

image.png

 

接下来说一说“关系数据如何获取?”。如果要到真实的数据里,那真实的数据就可不是一个excel能够承载的,它需要连接一个数据源。目前GraphScopeGI是打通的。大家可以非常高效的在GI里去把GraphScope配置进来,这样我们就会拥有的一个强大的图计算和存储引擎在后台为我们提供服务。有了这几步简单的一些配置,我们就会拥有数据查询服务的能力。

 

image.png

image.png

 

回到GI的研发,要做这么一个业务系统究竟是怎么一个过程?其实很简单,只需要四步。

 

第一步,选择一个模板。这个模板更多的只是一个布局,比如你希望未来系统是什么样子,左右布局还是上下布局。

 

image.png

 

第二步,选择分析资产。默认模板会提供一些分析资产,如果你觉得这些分析资产并不是你需要的,可以直接把它删掉,加入自己需要的资产。或者可以用一个空白模板去搭出自己的业务应用。

 

image.png

 

第三步,一键sdk导出。这是一份带sdk可以二次开发的代码,换句话说它对我们平台是完全无依赖的,你可以直接放到自己的业务系统里,它就可以直接部署和上线。

 

image.png

 

最后,配置自己真实的数据源。这可能是唯一需要写代码的地方。那么刚才所看到业务系统就可以跟你自己的业务系统完美的融合了。

 

image.png

 

另外当遇到一些长尾的需求,我们的核心产品并不cover用户的时候,我们可以在GI里像保存一个项目一样,把分析思路所沉淀下来的东西变成了一个模板。它就类似于你在BI里打开一张报表,它永远存在你的空间。所以从这个角度来说,GI其实可以理解成一个Web版的BI

 

最后来想畅想一下未来。我们希望在未来1-3年,能够探索出在图方向的可视化查询。3-5年能够成为图分析领域的数字基建、助力图业务的商业价值增长。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关文章
|
机器学习/深度学习 数据采集 算法
【MATLAB】BiGRU神经网络回归预测算法
【MATLAB】BiGRU神经网络回归预测算法
1150 0
|
10月前
|
人工智能 运维 安全
函数计算支持热门 MCP Server 一键部署
MCP(Model Context Protocol)自2024年发布以来,逐渐成为AI开发领域的实施标准。OpenAI宣布其Agent SDK支持MCP协议,进一步推动了其普及。然而,本地部署的MCP Server因效率低、扩展性差等问题,难以满足复杂生产需求。云上托管成为趋势,函数计算(FC)作为Serverless算力代表,提供一键托管开源MCP Server的能力,解决传统托管痛点,如成本高、弹性差、扩展复杂等。通过CAP平台,用户可快速部署多种热门MCP Server,体验高效灵活的AI应用开发与交互方式。
3833 10
|
监控 数据可视化 大数据
蚂蚁金服数据洞察分析平台DeepInsight:人人都是数据分析师
小蚂蚁说: 大数据时代,由数据驱动的用户行为分析、运营分析、业务分析无疑是最被关注的“热词”,尤其对于拥有海量数据的大中型企业来说,对数据的需求已远远超越了传统数据报表所能提供的范畴。如何运用自助式BI实现当代企业精细化运营,已成为企业运营管理的新课题。
7938 0
|
搜索推荐 应用服务中间件 nginx
Nginx系列教程(05) - 虚拟主机配置
Nginx系列教程(05) - 虚拟主机配置
1119 0
|
传感器 数据采集 存储
以下是一个简化的环境监测系统工程概述,并附带有Python代码示例或详解。
以下是一个简化的环境监测系统工程概述,并附带有Python代码示例或详解。
|
SQL 安全 关系型数据库
SQL自动化注茹-SQLmap入门操作(二)
SQL自动化注茹-SQLmap入门操作(二)
|
机器学习/深度学习 存储 人工智能
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台
本文将介绍和梳理我们对云原生 AI 这个新领域的思考和定位,介绍云原生 AI 套件产品的核心场景、架构和主要能力。
摆脱 AI 生产“小作坊”:如何基于 Kubernetes 构建云原生 AI 平台
|
安全 网络安全 数据安全/隐私保护
深入理解IP劫持及其对网络安全的影响
【8月更文挑战第24天】
912 0
|
存储 监控 安全
SNMP详解:网络管理的基石
【4月更文挑战第21天】
1274 0
SNMP详解:网络管理的基石
|
JavaScript Shell 内存技术
npx教程
npx教程
2310 0