近些年,图不管加什么都会成为一个大热,比如Graph + Database,Graph + Computing,Graph + Knowledge,Graph + Visualization等。我自己所在的领域里,我发现可视化顶会论坛里,超过30%以上都是跟图相关的一些论文,这就可以说明图是一个大热的课题。
一、大势所趋 · 技术价值和趋势
在过去20年的数据浪潮里,我相信这张图大家都不陌生。传统中我们通过BI工具从数据里获取洞察,BI就成为了一个非常常用的工具。但随着数据规模的增大,以及更多关联数据的要求,我们慢慢发现,传统的数据库并不能满足高效的查询要求。
刚才提到的图数据结构,它是刻画现实世界最理想的数据特征。不管是人与人之间的关系,企业之间的往来,点对点的物流,还是整个社会上下游的衔接,都可以用图的数据结构去描述,非常准确,同时也非常高效。
如果把这些数据放到传统的关系数据库里,就会发现它会带来很多存储冗余,表达稀疏以及复杂查询,这就会变得非常缓慢,并且非常复杂。但是如果用图引擎可能非常优雅的几行代码,就能把一个三度查询表达出来。
正是因为这些局限性,我们经常在图数据库圈里看到这么一句话,关系数据库里存的不是关系,而是数据。
下图是一个非常经典的模型,DIKW。原始数据经过数据加工,变成一个有意义的信息。当我们把这些信息组合起来成为一个知识,并从这个知识里挖掘到一些可以用于预测未来的因果关系,我们称它为智慧。
但是经过几年后,我们慢慢发现在Knowledge和Wisdom之间,有巨大的鸿沟难以跨越。
更实际的是在这个过程中,我们发现从里面找到相关性的Insight会带来更多实际的业务价值,所以Graph和Insight的结合会越来越被重视。
下面给大家看一个更加直观的例子,怎么从图里面获得洞察?下图是两个mock的虚拟数据,银行卡账号和交易明细。
字有点小大家可能看不清,但哪怕你能看清里面的每一个字母和数字,都不能快速的得到洞察。下面我们尝试把它可视化出来,我相信你可以立刻得到一些关键的点,或者说有一个大概的印象。
阿拉伯数字大概是在1200年前后出现的,中国的甲骨文数字是在公元前1600年,最早的楔形文字是在公元前3000年,而洞穴壁画在公元前4万年就已经出现了。
换句话说,人类习惯用图形、图像去表达,比用文字和数字足足早了4万年。各种科学实验也验证了,人类对于图形、图像识别能力的速度和效率比文字和数字高出1-2个数量级。所以在我看来不管人类基因怎么突变,人类依赖图形、图像去获取信息依然还是我们最主要的渠道。
眼睛是我们最主要的信息获取通道,我们大脑里超过50%的组织是用于图像图识别和获取知识的,这是从人类自身的特点去看这个趋势本身的变化。
那么我们在图方向坚持做那么久,有没有可能只是我们的一厢情愿。但好在顶级经营机构的一些趋势报告验证了我们的一些判断。
在跟进图分析的这些年里,它几乎在Gartner的趋势报告里从未缺席。2019年提到图分析是获得复杂关系多维数据洞察的关键技术;2020年提到关系的使用将重构整个数据和分析的价值;2021年预测了50%的客户会有图分析的需求;直到2022年更激进的说分析模型将取缔现有传统数据模型。
虽然说的很激进,但市场已经给出答案。
二、生机勃勃 · 应用场景和生态
我们国内外一些公司,其实他们核心依赖的技术跟图都极其相关。不管是Google的搜索,还是亚马逊的产品推荐,还是Facebook社交网络里的广告定位。
换位到国内对标的企业大家对图也是强依赖的。比如360,会用图去发现整个软件供应链链路上,存在的全网大规模固定资产中漏洞的传播路径。天眼查、企查查会提供给付费用户一些增值服务,比如关于企业关联关系、股权结构等。
从下图中,可以归纳出图应用的核心以及主要的四个应用场景。
三、厚积薄发 · 这些年的工作与沉淀
下图是AntV的技术栈。纵向分成三个域,分别是常规统计数据、关系数据、地理空间数据。
今天主要是分享一下关系数据。这个栈被分为了三层,从下到上分别是引擎层G6、组件层Graphin、平台层GraphInsight。这三层的关系相信从名字上就能看到它们所面向的客户和场景。
同时我也很自豪地说,AntV G6这个引擎在2017年6月26发布至今,在全球开源可视化项目里排名世界第二。接下来我们会继续努力,希望早一天能代表中国登顶。
当然这里也离不开阿里、蚂蚁以及社区的很多同学在这个方向投入。
这是2020年11月22日对外发布的第一份关于图可视化解决方案的白皮书。包括6个文档,将近18万字的内容,是我们联合阿里,以及社区内外三十多个设计师、产品经理、技术人员,一起书写的关于图可视化分析的一些产品案例、经验总结。我们做这件事的初衷是希望在技术不断前进的同时,还能有一些认知上的迭代,也希望这个白皮书在未来能够继续迭代。
四、浅知拙见 · 落地探索和应用实践
在业务落地的过程中,我们发现了两个业务团队的顾虑。第一个是整个投入的成本,因为毕竟是新技术,大家对图可能很陌生,不知道画一个图在web上需要多大的成本,然后未来能否持续迭代。
另外一个是实际效果,因为传统的统计分析是有沉淀,有惯性的。今天我们用图的方式给一个呈现,用图的方式做数据挖掘和分析,究竟用户能不能接受,并且这种分析能不能真正带给业务效果,都是它们担心的。
针对这两个问题,我们慢慢摸索到,能够让业务快速进行验证,是成为新技术落地的杀手锏。不管你是数据研发的同学、数据算法的同学、还是业务的分析师,能够用最短的路径、最高效的方式让他们看到数据,摸得着,玩的起来,慢慢这件事情就有戏了。
所以这里会有两个最主要的卡点。第一个是关系数据究竟如何获取?另外一个是有了数据之后我如何去分析?
接下来我们先从“关系数据如何分析?”讲起。那么就不得不提到GraphInsight,它可以零代码完成图分析洞察的业务验证,低代码支持功能模块的持续集成。
什么是零代码?怎么去完成呢?我们还是拿刚才那份假数据,包括账号和交易明细点边的结合。
我们快速的把这两份数据导到系统里面,然后做一些简单数据映射的匹配。1分钟就可以把一个非常枯燥的表格数据变成一个图可视化。核心就是告诉GraphInsight这份数据哪些映射到点,哪些映射到边,他们属性的配置关系。
迈出了这1分钟这一步之后,业务人员、研发人员就可以把它当作一个工作室,配各种节点的样式,把一些更加重要的属性映射出来。改变它的布局,颜色,甚至把一些业务的语义含义在图里面表达。那么一个带着互动能力的图分析雏形就出现了。
接下来3分钟的调参配置,自定义样式,交互,布局,让关系图栩栩如生。这一步之后,更重要的来了,怎么去分析?这份数据里有没有更深层的含义?
这个时候可以用GraphInsight提供的分析资产。它是把图可视分析领域里,常用的分析手段全都封装成一些能力组件。在GraphInsight的资产平台里,可以随便挑选那些已有的分析能力,直接挂载到自己的应用里,直接使用。这个过程大概需要6分钟。
我们再重新回顾一下整个过程。从一个excel表,1分钟的时间把它变成一张可见的图,3分钟的时间把业务语义的数据映射给上面配置出来,最后花了6分钟时间从里面选一些资产做进一步的分析,得出洞察力。这是GI提供的一个零代码数据分析和能力。
接下来说一说“关系数据如何获取?”。如果要到真实的数据里,那真实的数据就可不是一个excel能够承载的,它需要连接一个数据源。目前GraphScope跟GI是打通的。大家可以非常高效的在GI里去把GraphScope配置进来,这样我们就会拥有的一个强大的图计算和存储引擎在后台为我们提供服务。有了这几步简单的一些配置,我们就会拥有数据查询服务的能力。
回到GI的研发,要做这么一个业务系统究竟是怎么一个过程?其实很简单,只需要四步。
第一步,选择一个模板。这个模板更多的只是一个布局,比如你希望未来系统是什么样子,左右布局还是上下布局。
第二步,选择分析资产。默认模板会提供一些分析资产,如果你觉得这些分析资产并不是你需要的,可以直接把它删掉,加入自己需要的资产。或者可以用一个空白模板去搭出自己的业务应用。
第三步,一键sdk导出。这是一份带sdk可以二次开发的代码,换句话说它对我们平台是完全无依赖的,你可以直接放到自己的业务系统里,它就可以直接部署和上线。
最后,配置自己真实的数据源。这可能是唯一需要写代码的地方。那么刚才所看到业务系统就可以跟你自己的业务系统完美的融合了。
另外当遇到一些长尾的需求,我们的核心产品并不cover用户的时候,我们可以在GI里像保存一个项目一样,把分析思路所沉淀下来的东西变成了一个模板。它就类似于你在BI里打开一张报表,它永远存在你的空间。所以从这个角度来说,GI其实可以理解成一个Web版的BI。
最后来想畅想一下未来。我们希望在未来1-3年,能够探索出在图方向的可视化查询。3-5年能够成为图分析领域的数字基建、助力图业务的商业价值增长。