2022云栖精选—Graph + Insight 在关联数据中发现商业价值

简介: 摘要:本文整理自蚂蚁集团数据可视化方向负责人林志峰,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分:1. 大势所趋 · 技术价值和趋势2. 生机勃勃 · 应用场景和生态3. 厚积薄发 · 这些年的工作与沉淀4. 浅知拙见 · 落地探索和应用实践

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

近些年,图不管加什么都会成为一个大热,比如Graph + DatabaseGraph + ComputingGraph + KnowledgeGraph + Visualization等。我自己所在的领域里,我发现可视化顶会论坛里,超过30%以上都是跟图相关的一些论文,这就可以说明图是一个大热的课题。

 

一、大势所趋 · 技术价值和趋势

 

在过去20年的数据浪潮里,我相信这张图大家都不陌生。传统中我们通过BI工具从数据里获取洞察,BI就成为了一个非常常用的工具。但随着数据规模的增大,以及更多关联数据的要求,我们慢慢发现,传统的数据库并不能满足高效的查询要求。

 

image.png

 

刚才提到的图数据结构,它是刻画现实世界最理想的数据特征。不管是人与人之间的关系,企业之间的往来,点对点的物流,还是整个社会上下游的衔接,都可以用图的数据结构去描述,非常准确,同时也非常高效。

 

如果把这些数据放到传统的关系数据库里,就会发现它会带来很多存储冗余,表达稀疏以及复杂查询,这就会变得非常缓慢,并且非常复杂。但是如果用图引擎可能非常优雅的几行代码,就能把一个三度查询表达出来。

 

image.png

 

正是因为这些局限性,我们经常在图数据库圈里看到这么一句话,关系数据库里存的不是关系,而是数据。

 

下图是一个非常经典的模型,DIKW。原始数据经过数据加工,变成一个有意义的信息。当我们把这些信息组合起来成为一个知识,并从这个知识里挖掘到一些可以用于预测未来的因果关系,我们称它为智慧。

 

image.png

 

但是经过几年后,我们慢慢发现在KnowledgeWisdom之间,有巨大的鸿沟难以跨越。

 

image.png

 

更实际的是在这个过程中,我们发现从里面找到相关性的Insight会带来更多实际的业务价值,所以GraphInsight的结合会越来越被重视。

 

image.png

 

下面给大家看一个更加直观的例子,怎么从图里面获得洞察?下图是两个mock的虚拟数据,银行卡账号和交易明细。

 

image.png

 

字有点小大家可能看不清,但哪怕你能看清里面的每一个字母和数字,都不能快速的得到洞察。下面我们尝试把它可视化出来,我相信你可以立刻得到一些关键的点,或者说有一个大概的印象。

 

image.png

 

阿拉伯数字大概是在1200年前后出现的,中国的甲骨文数字是在公元前1600年,最早的楔形文字是在公元前3000年,而洞穴壁画在公元前4万年就已经出现了。

 

换句话说,人类习惯用图形、图像去表达,比用文字和数字足足早了4万年。各种科学实验也验证了,人类对于图形、图像识别能力的速度和效率比文字和数字高出1-2个数量级。所以在我看来不管人类基因怎么突变,人类依赖图形、图像去获取信息依然还是我们最主要的渠道。

 

眼睛是我们最主要的信息获取通道,我们大脑里超过50%的组织是用于图像图识别和获取知识的,这是从人类自身的特点去看这个趋势本身的变化。

 

那么我们在图方向坚持做那么久,有没有可能只是我们的一厢情愿。但好在顶级经营机构的一些趋势报告验证了我们的一些判断。

 

在跟进图分析的这些年里,它几乎在Gartner的趋势报告里从未缺席。2019年提到图分析是获得复杂关系多维数据洞察的关键技术;2020年提到关系的使用将重构整个数据和分析的价值;2021年预测了50%的客户会有图分析的需求;直到2022年更激进的说分析模型将取缔现有传统数据模型。

 

虽然说的很激进,但市场已经给出答案。

 

image.png

 

二、生机勃勃 · 应用场景和生态

 

我们国内外一些公司,其实他们核心依赖的技术跟图都极其相关。不管是Google的搜索,还是亚马逊的产品推荐,还是Facebook社交网络里的广告定位。

 

image.png

 

换位到国内对标的企业大家对图也是强依赖的。比如360,会用图去发现整个软件供应链链路上,存在的全网大规模固定资产中漏洞的传播路径。天眼查、企查查会提供给付费用户一些增值服务,比如关于企业关联关系、股权结构等。

 

image.png

 

从下图中,可以归纳出图应用的核心以及主要的四个应用场景。

 

image.png

 

三、厚积薄发 · 这些年的工作与沉淀

 

下图是AntV的技术栈。纵向分成三个域,分别是常规统计数据、关系数据、地理空间数据。

 

image.png

 

今天主要是分享一下关系数据。这个栈被分为了三层,从下到上分别是引擎层G6、组件层Graphin、平台层GraphInsight。这三层的关系相信从名字上就能看到它们所面向的客户和场景。

 

image.png

 

同时我也很自豪地说,AntV G6这个引擎在2017626发布至今,在全球开源可视化项目里排名世界第二。接下来我们会继续努力,希望早一天能代表中国登顶。

 

当然这里也离不开阿里、蚂蚁以及社区的很多同学在这个方向投入。

 

image.png

 

这是20201122日对外发布的第一份关于图可视化解决方案的白皮书。包括6个文档,将近18万字的内容,是我们联合阿里,以及社区内外三十多个设计师、产品经理、技术人员,一起书写的关于图可视化分析的一些产品案例、经验总结。我们做这件事的初衷是希望在技术不断前进的同时,还能有一些认知上的迭代,也希望这个白皮书在未来能够继续迭代。

 

image.png

 

四、浅知拙见 · 落地探索和应用实践

 

在业务落地的过程中,我们发现了两个业务团队的顾虑。第一个是整个投入的成本,因为毕竟是新技术,大家对图可能很陌生,不知道画一个图在web上需要多大的成本,然后未来能否持续迭代。

 

另外一个是实际效果,因为传统的统计分析是有沉淀,有惯性的。今天我们用图的方式给一个呈现,用图的方式做数据挖掘和分析,究竟用户能不能接受,并且这种分析能不能真正带给业务效果,都是它们担心的。

 

image.png

 

针对这两个问题,我们慢慢摸索到,能够让业务快速进行验证,是成为新技术落地的杀手锏。不管你是数据研发的同学、数据算法的同学、还是业务的分析师,能够用最短的路径、最高效的方式让他们看到数据,摸得着,玩的起来,慢慢这件事情就有戏了。

 

所以这里会有两个最主要的卡点。第一个是关系数据究竟如何获取?另外一个是有了数据之后我如何去分析?

 

image.png

 

接下来我们先从“关系数据如何分析?”讲起。那么就不得不提到GraphInsight,它可以零代码完成图分析洞察的业务验证,低代码支持功能模块的持续集成。

 

image.png

 

什么是零代码?怎么去完成呢?我们还是拿刚才那份假数据,包括账号和交易明细点边的结合。

 

image.png

 

我们快速的把这两份数据导到系统里面,然后做一些简单数据映射的匹配。1分钟就可以把一个非常枯燥的表格数据变成一个图可视化。核心就是告诉GraphInsight这份数据哪些映射到点,哪些映射到边,他们属性的配置关系。

 

迈出了这1分钟这一步之后,业务人员、研发人员就可以把它当作一个工作室,配各种节点的样式,把一些更加重要的属性映射出来。改变它的布局,颜色,甚至把一些业务的语义含义在图里面表达。那么一个带着互动能力的图分析雏形就出现了。

 

image.png

 

接下来3分钟的调参配置,自定义样式,交互,布局,让关系图栩栩如生。这一步之后,更重要的来了,怎么去分析?这份数据里有没有更深层的含义?

 

image.png

 

这个时候可以用GraphInsight提供的分析资产。它是把图可视分析领域里,常用的分析手段全都封装成一些能力组件。在GraphInsight的资产平台里,可以随便挑选那些已有的分析能力,直接挂载到自己的应用里,直接使用。这个过程大概需要6分钟。

 

image.png

 

我们再重新回顾一下整个过程。从一个excel表,1分钟的时间把它变成一张可见的图,3分钟的时间把业务语义的数据映射给上面配置出来,最后花了6分钟时间从里面选一些资产做进一步的分析,得出洞察力。这是GI提供的一个零代码数据分析和能力。

 

image.png

 

接下来说一说“关系数据如何获取?”。如果要到真实的数据里,那真实的数据就可不是一个excel能够承载的,它需要连接一个数据源。目前GraphScopeGI是打通的。大家可以非常高效的在GI里去把GraphScope配置进来,这样我们就会拥有的一个强大的图计算和存储引擎在后台为我们提供服务。有了这几步简单的一些配置,我们就会拥有数据查询服务的能力。

 

image.png

image.png

 

回到GI的研发,要做这么一个业务系统究竟是怎么一个过程?其实很简单,只需要四步。

 

第一步,选择一个模板。这个模板更多的只是一个布局,比如你希望未来系统是什么样子,左右布局还是上下布局。

 

image.png

 

第二步,选择分析资产。默认模板会提供一些分析资产,如果你觉得这些分析资产并不是你需要的,可以直接把它删掉,加入自己需要的资产。或者可以用一个空白模板去搭出自己的业务应用。

 

image.png

 

第三步,一键sdk导出。这是一份带sdk可以二次开发的代码,换句话说它对我们平台是完全无依赖的,你可以直接放到自己的业务系统里,它就可以直接部署和上线。

 

image.png

 

最后,配置自己真实的数据源。这可能是唯一需要写代码的地方。那么刚才所看到业务系统就可以跟你自己的业务系统完美的融合了。

 

image.png

 

另外当遇到一些长尾的需求,我们的核心产品并不cover用户的时候,我们可以在GI里像保存一个项目一样,把分析思路所沉淀下来的东西变成了一个模板。它就类似于你在BI里打开一张报表,它永远存在你的空间。所以从这个角度来说,GI其实可以理解成一个Web版的BI

 

最后来想畅想一下未来。我们希望在未来1-3年,能够探索出在图方向的可视化查询。3-5年能够成为图分析领域的数字基建、助力图业务的商业价值增长。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关文章
|
机器学习/深度学习 人工智能 达摩院
阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场Meetup回顾(内含讲师PPT领取)
阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场。来自,阿里巴巴、爱奇艺、Zilliz、搜狐、Jina.AI等公司的九位重量级讲师在现场分享了他们前沿的向量检索技术思考与实践沉淀总结,快来领取讲师精彩ppt!
1498 0
阿里云开发者社区 x 达摩院 x计算平台事业部 大数据 + AI向量检索专场Meetup回顾(内含讲师PPT领取)
|
15天前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之如何查看tensorboard
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
架构师 安全 数据挖掘
「首席架构师推荐」精选数据分析软件列表
「首席架构师推荐」精选数据分析软件列表
|
传感器 JSON 数据中心
《Elastic(中国)产品应用实战》——三、如何使用transforms来跟踪最近的客户订单
《Elastic(中国)产品应用实战》——三、如何使用transforms来跟踪最近的客户订单
|
数据采集 运维 分布式计算
2022云栖精选—图计算在全域数据融合场景的实践
摘要:本文整理自StartDT资深算法专家的曾云,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分: 1. 公司介绍 2. 全域数据融合场景介绍 3. 图计算实践 4. 未来展望
2022云栖精选—图计算在全域数据融合场景的实践
DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
72108 2
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
|
人工智能 Cloud Native 大数据
阿里云新品发布会周刊第99期 丨 Graph + AI,揭秘阿里云新一代图智能平台
阿里云Graph + AI技术,帮助各行各业融合多元异构数据,做出更聪明的分析、决策。本次分享将以上海华瑞银行为例,揭秘阿里云图智能平台如何助力华瑞银行对数以亿计的数据信息进行深度关系分析,从而建立金融知识图谱,打造智慧风控。
1248 0
阿里云新品发布会周刊第99期 丨  Graph + AI,揭秘阿里云新一代图智能平台
|
SQL 小程序 搜索推荐
大数据Flink最佳实践|阿里云产品内容精选(二十五)
本文内容取自开发者社区大数据版块。
|
人工智能 大数据
欢迎您参与上海大数据&AI线上WorkShop
扫码加入观看群 欢迎您参与上海大数据&AI线上WorkShop 时间:2020年7月8日下午13:30-17:00 地点:线上钉群直播
430 0
欢迎您参与上海大数据&AI线上WorkShop