在共同推进国产化生态发展的进程下,墨天轮正式推出“国产数据库沙龙”系列直播活动,在12月9日举办的第二期“图数据库专场”活动中,阿里云数据库高级产品专家杨哲超分享了 《阿里云图数据库GDB:帮助业务升维思考、智能决策》 主题演讲,本文为整理内容。
导读
无论是学术界还是产业界,都对图数据库有比较高的预期。Gartner发布的《2021年十大数据和分析技术趋势》中提到:“到2025年图技术在数据和分析创新中的占比将从2021年的10%上升到80%。”今天我想与各位分享三点思考:我们为什么要用图数据库,它究竟能够解决哪些问题?以及在图数据库的选择上,有哪些可以考虑的空间和范围?
业务价值
1、为什么要用图数据库?
首先我想从业务价值方向来说明为什么要用“图数据库”。随着互联网时代的快速发展,企业的数据呈现爆发式的增长,数据之间的关联也越来越复杂,图数据库应运而生。最重要的是如何运用技术方式帮助业务发挥辅助的决策作用,从而运用到新冠疫情、社交推荐、信用卡交易反欺诈等场景中。技术创新与产业应用,遵循着双螺旋上升的发展趋势,促使图技术到达了爆发式增长的边缘。从技术角度出发,图数据库的运用是针对解决数据的高度关联带来的严重的随机访问问题;从业务角度出发,图的价值在融合数据、技术、于打破生态位屏蔽产生高维认知。
2、图数据库与知识图谱
在了解图数据库时,我们不得不提到“知识图谱”这个概念。计算机在智能发展路径上,遵循着从数据-信息-知识-智慧的演进过程,知识图谱是其中认知智能发展的基础,而图数据库是承载知识图谱的最佳底座,帮助我们实现智能决策。
应用场景
图数据库目前已经应用在金融、社交、互联网等领域,这个部分我会更多分享阿里巴巴的图数据库的应用场景,希望与各位更多探讨如何利用图帮助客户解决问题。
1、在社交关系中的应用
以社交关系为例,图技术在好友查询中仅需要几毫秒的时间,它将好友定义成节点,将好友与好友之间的关系定义成边,图数据库这样以“点、边”的查询方式,速度远远快于关系型数据库。
不仅是好友查询,在“初始用户推荐、好友精细推荐、点赞查询、关联话题推荐”等场景中都能运用图来建模。
2、在智能营销中的应用
图神经网络等图技术已经是阿里巴巴智能营销中必不可少的组件。接下来我将分享两个在智能营销中的图技术应用。
第一个是One-ID,它的核心思路是借助联通子图等图算法,将不同数据源的多个实体实际代表的是同一个真实实体进行合并,从而识别到不同行为路径的ID隶属于同一个用户。
第二个是智能营销。它的本质是是协同过滤算法思想为核心,通过计算共同邻居数进行相似节点推荐。
3、在欺诈检测中的应用
同时图技术还运用在金融领域中,实现信用卡欺诈检测。
4、在保险欺诈检测中的应用
与此同时,图技术也在保险反欺诈中发挥了作用。在某头部保险公司的案例中,运用图技术的测算,使得关联查询性能是原有保险反欺诈方案的10-100倍。
产品介绍
1、GDB为企业提供一站式智能决策方案
为了帮助企业更好地解决业务问题进行智能决策,阿里云GDB从“知识存储”到“推理分析”,为企业提供了一站式智能决策方案。
今天,制约图数据库技术发展的主要因素,与其背后关联数据的齐备程度、人才储备都相关,但我认为,更为重要的是图查询思想。我们知道,关系型数据库是通过统计学思想为指导核心,而今天传统图数据库还停留在让用户“探索数据”的阶段。
在第一部分谈到了知识图谱与图技术之间的关系。那么在知识图谱技术在解决智能决策的问题过程中,包含着四个重要的环节:知识构建、知识存储、推理分析、可视化展示。
在知识存储的环节中,我们需要将提取出来的信息进行有效存储与管理,以及使用时能够快速筛选及查询。最为复杂环节是推理分析,如何在相互关联的信息中抽取并推理分析出高度有价值的信息,最后要在数据分析推理后如何进行可视化展示。
这其中知识存储产品化程度最高,推理分析价值潜力最大。
2、GDB是阿里云自主研发的图数据库引擎
作为阿里云自主研发的图数据库引擎,GDB拥有以下三个独特的优势:
- 兼容并包,集多种图查询语言于一身
- 快速弹性、高可用、易运维、尽享云原生技术惠普
- 低构建成本、灵活计费、满足不同成本需求
3、国内唯一进入Forrest Wave评测报告的图数据库产品
Forrest Wave在2020年底公布了一次评测报告,在全球中遴选了十余款图数据库产品进行评审,其中阿里云GDB是国内唯一进入评测报告中的图数据库产品,同时在高可用于灾难恢复评测项目中取得了最高的成绩。
4、GDB内嵌常用图计算算法
GDB内嵌常用图计算算法,其中包含路径、社区分析、中心度、统计、相似度等不同类别,能够通过内嵌图计算函数结合开元DSL查询语句,实现主流图计算算子。
5、查询性能超越友商产品
以下是客户所做的测评,将Neo4j与GDB进行性能测试对比。
6、Graph + AI,从数据升维到规律总结
图数据库要解决的问题是将大规模,多元异构的数据有效连接起来之后产生高维决策。不同于关系型数据库,图数据库背后目前没有指导进行决策的思想与规则,也是导致图数据库技术至今没有被大规模应用的核心原因。图的意义在于信息升维,因此我们将图技术与自动机器学习结合,使用机器学习算法,探寻数据规律并找到最佳分析路径,实现数据升维到规律总结。
7、降低模型研发周期
通过GDB自动学习机器的任务,可以实现在不写任何代码的情况下,去帮助开发选取业务模型、实现模型调优,从而形成相应的超级模型。以此帮助客户进行辅助判断,降低模型研发周期。
8、基于知识图谱的智能搜索推荐
我们将阿里内部的电商推荐算法结合业务经验策略打包封装,形成了基于知识图谱的智能搜索推荐方案,帮助客户在几分钟之内构建自己的搜索引擎和推荐引擎,激活业务增长潜力。该产品即将在公有云发布,目前正在封闭邀测阶段,有兴趣的同学欢迎联络咨询。
以上就是我今天分享的内容,谢谢大家!
更多精彩内容,欢迎大家观看现场视频回放与会议资料
视频回放:https://www.modb.pro/video/5666PPT