开发者社区> 开发者小助手> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

2022云栖精选—Graph + Insight 在关联数据中发现商业价值

简介: 摘要:本文整理自蚂蚁集团数据可视化方向负责人林志峰,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分: 1. 大势所趋 · 技术价值和趋势 2. 生机勃勃 · 应用场景和生态 3. 厚积薄发 · 这些年的工作与沉淀 4. 浅知拙见 · 落地探索和应用实践
+关注继续查看

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

近些年,图不管加什么都会成为一个大热,比如Graph + Database,Graph + Computing,Graph + Knowledge,Graph + Visualization等。我自己所在的领域里,我发现可视化顶会论坛里,超过30%以上都是跟图相关的一些论文,这就可以说明图是一个大热的课题。

 

一、大势所趋 · 技术价值和趋势

 

在过去20年的数据浪潮里,我相信这张图大家都不陌生。传统中我们通过BI工具从数据里获取洞察,BI就成为了一个非常常用的工具。但随着数据规模的增大,以及更多关联数据的要求,我们慢慢发现,传统的数据库并不能满足高效的查询要求。

 

image.png

 

刚才提到的图数据结构,它是刻画现实世界最理想的数据特征。不管是人与人之间的关系,企业之间的往来,点对点的物流,还是整个社会上下游的衔接,都可以用图的数据结构去描述,非常准确,同时也非常高效。

 

如果把这些数据放到传统的关系数据库里,就会发现它会带来很多存储冗余,表达稀疏以及复杂查询,这就会变得非常缓慢,并且非常复杂。但是如果用图引擎可能非常优雅的几行代码,就能把一个三度查询表达出来。

 

image.png

 

正是因为这些局限性,我们经常在图数据库圈里看到这么一句话,关系数据库里存的不是关系,而是数据。

 

下图是一个非常经典的模型,DIKW。原始数据经过数据加工,变成一个有意义的信息。当我们把这些信息组合起来成为一个知识,并从这个知识里挖掘到一些可以用于预测未来的因果关系,我们称它为智慧。

 

image.png

 

但是经过几年后,我们慢慢发现在Knowledge和Wisdom之间,有巨大的鸿沟难以跨越。

 

image.png

 

更实际的是在这个过程中,我们发现从里面找到相关性的Insight会带来更多实际的业务价值,所以Graph和Insight的结合会越来越被重视。

 

image.png

 

下面给大家看一个更加直观的例子,怎么从图里面获得洞察?下图是两个mock的虚拟数据,银行卡账号和交易明细。

 

image.png

 

字有点小大家可能看不清,但哪怕你能看清里面的每一个字母和数字,都不能快速的得到洞察。下面我们尝试把它可视化出来,我相信你可以立刻得到一些关键的点,或者说有一个大概的印象。

 

image.png

 

阿拉伯数字大概是在1200年前后出现的,中国的甲骨文数字是在公元前1600年,最早的楔形文字是在公元前3000年,而洞穴壁画在公元前4万年就已经出现了。

 

换句话说,人类习惯用图形、图像去表达,比用文字和数字足足早了4万年。各种科学实验也验证了,人类对于图形、图像识别能力的速度和效率比文字和数字高出1-2个数量级。所以在我看来不管人类基因怎么突变,人类依赖图形、图像去获取信息依然还是我们最主要的渠道。

 

眼睛是我们最主要的信息获取通道,我们大脑里超过50%的组织是用于图像图识别和获取知识的,这是从人类自身的特点去看这个趋势本身的变化。

 

那么我们在图方向坚持做那么久,有没有可能只是我们的一厢情愿。但好在顶级经营机构的一些趋势报告验证了我们的一些判断。

 

在跟进图分析的这些年里,它几乎在Gartner的趋势报告里从未缺席。2019年提到图分析是获得复杂关系多维数据洞察的关键技术;2020年提到关系的使用将重构整个数据和分析的价值;2021年预测了50%的客户会有图分析的需求;直到2022年更激进的说分析模型将取缔现有传统数据模型。

 

虽然说的很激进,但市场已经给出答案。

 

image.png

 

二、生机勃勃 · 应用场景和生态

 

我们国内外一些公司,其实他们核心依赖的技术跟图都极其相关。不管是Google的搜索,还是亚马逊的产品推荐,还是Facebook社交网络里的广告定位。

 

image.png

 

换位到国内对标的企业大家对图也是强依赖的。比如360,会用图去发现整个软件供应链链路上,存在的全网大规模固定资产中漏洞的传播路径。天眼查、企查查会提供给付费用户一些增值服务,比如关于企业关联关系、股权结构等。

 

image.png

 

从下图中,可以归纳出图应用的核心以及主要的四个应用场景。

 

image.png

 

三、厚积薄发 · 这些年的工作与沉淀

 

下图是AntV的技术栈。纵向分成三个域,分别是常规统计数据、关系数据、地理空间数据。

 

image.png

 

今天主要是分享一下关系数据。这个栈被分为了三层,从下到上分别是引擎层G6、组件层Graphin、平台层GraphInsight。这三层的关系相信从名字上就能看到它们所面向的客户和场景。

 

image.png

 

同时我也很自豪地说,AntV G6这个引擎在2017年6月26发布至今,在全球开源可视化项目里排名世界第二。接下来我们会继续努力,希望早一天能代表中国登顶。

 

当然这里也离不开阿里、蚂蚁以及社区的很多同学在这个方向投入。

 

image.png

 

这是2020年11月22日对外发布的第一份关于图可视化解决方案的白皮书。包括6个文档,将近18万字的内容,是我们联合阿里,以及社区内外三十多个设计师、产品经理、技术人员,一起书写的关于图可视化分析的一些产品案例、经验总结。我们做这件事的初衷是希望在技术不断前进的同时,还能有一些认知上的迭代,也希望这个白皮书在未来能够继续迭代。

 

image.png

 

四、浅知拙见 · 落地探索和应用实践

 

在业务落地的过程中,我们发现了两个业务团队的顾虑。第一个是整个投入的成本,因为毕竟是新技术,大家对图可能很陌生,不知道画一个图在web上需要多大的成本,然后未来能否持续迭代。

 

另外一个是实际效果,因为传统的统计分析是有沉淀,有惯性的。今天我们用图的方式给一个呈现,用图的方式做数据挖掘和分析,究竟用户能不能接受,并且这种分析能不能真正带给业务效果,都是它们担心的。

 

image.png

 

针对这两个问题,我们慢慢摸索到,能够让业务快速进行验证,是成为新技术落地的杀手锏。不管你是数据研发的同学、数据算法的同学、还是业务的分析师,能够用最短的路径、最高效的方式让他们看到数据,摸得着,玩的起来,慢慢这件事情就有戏了。

 

所以这里会有两个最主要的卡点。第一个是关系数据究竟如何获取?另外一个是有了数据之后我如何去分析?

 

image.png

 

接下来我们先从“关系数据如何分析?”讲起。那么就不得不提到GraphInsight,它可以零代码完成图分析洞察的业务验证,低代码支持功能模块的持续集成。

 

image.png

 

什么是零代码?怎么去完成呢?我们还是拿刚才那份假数据,包括账号和交易明细点边的结合。

 

image.png

 

我们快速的把这两份数据导到系统里面,然后做一些简单数据映射的匹配。1分钟就可以把一个非常枯燥的表格数据变成一个图可视化。核心就是告诉GraphInsight这份数据哪些映射到点,哪些映射到边,他们属性的配置关系。

 

迈出了这1分钟这一步之后,业务人员、研发人员就可以把它当作一个工作室,配各种节点的样式,把一些更加重要的属性映射出来。改变它的布局,颜色,甚至把一些业务的语义含义在图里面表达。那么一个带着互动能力的图分析雏形就出现了。

 

image.png

 

接下来3分钟的调参配置,自定义样式,交互,布局,让关系图栩栩如生。这一步之后,更重要的来了,怎么去分析?这份数据里有没有更深层的含义?

 

image.png

 

这个时候可以用GraphInsight提供的分析资产。它是把图可视分析领域里,常用的分析手段全都封装成一些能力组件。在GraphInsight的资产平台里,可以随便挑选那些已有的分析能力,直接挂载到自己的应用里,直接使用。这个过程大概需要6分钟。

 

image.png

 

我们再重新回顾一下整个过程。从一个excel表,1分钟的时间把它变成一张可见的图,3分钟的时间把业务语义的数据映射给上面配置出来,最后花了6分钟时间从里面选一些资产做进一步的分析,得出洞察力。这是GI提供的一个零代码数据分析和能力。

 

image.png

 

接下来说一说“关系数据如何获取?”。如果要到真实的数据里,那真实的数据就可不是一个excel能够承载的,它需要连接一个数据源。目前GraphScope跟GI是打通的。大家可以非常高效的在GI里去把GraphScope配置进来,这样我们就会拥有的一个强大的图计算和存储引擎在后台为我们提供服务。有了这几步简单的一些配置,我们就会拥有数据查询服务的能力。

 

image.png

image.png

 

回到GI的研发,要做这么一个业务系统究竟是怎么一个过程?其实很简单,只需要四步。

 

第一步,选择一个模板。这个模板更多的只是一个布局,比如你希望未来系统是什么样子,左右布局还是上下布局。

 

image.png

 

第二步,选择分析资产。默认模板会提供一些分析资产,如果你觉得这些分析资产并不是你需要的,可以直接把它删掉,加入自己需要的资产。或者可以用一个空白模板去搭出自己的业务应用。

 

image.png

 

第三步,一键sdk导出。这是一份带sdk可以二次开发的代码,换句话说它对我们平台是完全无依赖的,你可以直接放到自己的业务系统里,它就可以直接部署和上线。

 

image.png

 

最后,配置自己真实的数据源。这可能是唯一需要写代码的地方。那么刚才所看到业务系统就可以跟你自己的业务系统完美的融合了。

 

image.png

 

另外当遇到一些长尾的需求,我们的核心产品并不cover用户的时候,我们可以在GI里像保存一个项目一样,把分析思路所沉淀下来的东西变成了一个模板。它就类似于你在BI里打开一张报表,它永远存在你的空间。所以从这个角度来说,GI其实可以理解成一个Web版的BI。

 

最后来想畅想一下未来。我们希望在未来1-3年,能够探索出在图方向的可视化查询。3-5年能够成为图分析领域的数字基建、助力图业务的商业价值增长。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
2022云栖精选—图计算在全域数据融合场景的实践
摘要:本文整理自StartDT资深算法专家的曾云,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分: 1. 公司介绍 2. 全域数据融合场景介绍 3. 图计算实践 4. 未来展望
0 0
DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
0 0
阿里云新品发布会周刊第99期 丨 Graph + AI,揭秘阿里云新一代图智能平台
阿里云Graph + AI技术,帮助各行各业融合多元异构数据,做出更聪明的分析、决策。本次分享将以上海华瑞银行为例,揭秘阿里云图智能平台如何助力华瑞银行对数以亿计的数据信息进行深度关系分析,从而建立金融知识图谱,打造智慧风控。
0 0
(含活动报名)蚂蚁金服开源机器学习工具 SQLFlow,技术架构独家解读
SQLFlow 的目标是将 SQL 引擎和 AI 引擎连接起来,让用户仅需几行 SQL 代码就能描述整个应用或者产品背后的数据流和 AI 构造。5 月 26 日,将在上海迎来 SQLFlow 线下首秀 —《让 AI 像 SQL 一样简单— SQLFlow Demo》,还有 SOFAStack 开源生...
1031 0
阿里云MVP Tech Show第10期大数据之美
6月23日,阿里云在厦门举办了第十期阿里云MVP Tech Show,本次活动也是宏网信息与阿里云签署MVP项目城市合作伙伴协议之后的首次线下沙龙活动,活动主题是“大数据之美”。随着社会信息化的高速增长,各行各业每时每刻产生着大量的数据,这些数据如何去合理的存储与展现,是很多企业面临的问题,本期MVP Tech Show邀请了厦门点触科技股份有限公司研发经理上官成与美柚大数据专家李庆勇两位阿里云MVP为大家进行数据可视化与数仓建模最佳实践分享。
1149 0
【转载】大数据workshop:《云数据·大计算:海量日志数据分析与应用》
本手册为云栖大会Workshop之《云计算·大数据:海量日志数据分析与应用》场的前提准备条件所需。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本场需要各位学员再参加之前确保自己云账号已免费开通MaxCompute、Data IDE和Quick BI。
1809 0
大数据Workshop:《云数据·大计算:海量日志数据分析与应用》环境准备
本手册为阿里云MVP Meetup Workshop之《云计算·大数据:海量日志数据分析与应用》场的前提准备条件所需。
5469 0
【Best Practice】基于阿里云数加·StreamCompute快速构建网站日志实时分析大屏
前几天在云栖社区上写了一篇普惠性的文章很粗偏向数据架构层面。具体可以进入【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析但是在具体实操中肯定不会那么一帆风顺。为了避免大家走弯路特意先写了一篇架构篇以免大家后续发现不适用而更改或优化工作。 本文
5161 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
实时数仓Workshop(北京站)- 朱杰、赵宏扬
立即下载
《宏观分析报告合集》
立即下载
图书行业基于MaxCompute构建数据中台的最佳实践
立即下载