TuGraph数据库

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: TuGraph数据库过去的几年中创造的数据超过人类以往历史,有效地管理、操纵和保护这些信息资产的需求从未像现在这样重要,这一需求一直由领先的数据库供应商来解决,然而,在过去的十年中,无数的挑战者已经进入了这个战场,扰动着数据爆炸时代的数据库市场秩序。

TuGraph数据库

过去的几年中创造的数据超过人类以往历史,有效地管理、操纵和保护这些信息资产的需求从未像现在这样重要,这一需求一直由领先的数据库供应商来解决,然而,在过去的十年中,无数的挑战者已经进入了这个战场,扰动着数据爆炸时代的数据库市场秩序。

近年来,数据库经历了戏剧性地演变,一些类型的数据库已经走到了疲软道路上,而另一些则蓬勃发展到今天。资深的DBA会回忆起他们在早期的Informix、SQL server和Oracle DBMS产品上的切身体会(后两者仍然占主导地位),而千禧年的开发者则回忆起MySQL/LAMP栈和PostgreSQL的开源简单性。

随着全球范围内互联网用户、设备和数字处理的增多,生成的数据也越来越多。企业能否充分利用相关数据,是企业未来发展的关键。图数据库将会是存储、关联和利用数据最有效的方式。费马科技独立研发的TuGraph(曾用名LightGraph)图数据库产品定会引领国产数据库变革的新风潮。

TuGraph图数据库是什么呢?

TuGraph是费马科技自主研发的图数据库产品。其主要特点是单机大数据量,高吞吐率,以及灵活的API,同时支持高效的在线事务处理(OLTP)和在线分析处理(OLAP)。

TuGraph图数据库适用的场景

TuGraph图数据库善于处理大量的、复杂的、互联的、多变的网状数据,其效率远远高于传统的关系型数据库的百倍、千倍甚至万倍。TuGraph图数据库适用于以下领域:

金融领域

通过建立账户(客户)的关系图,根据其社会关系、交易情况,分析客户的还款能力、还款意愿、抗风险能力等,提升金融行业小贷授信、信贷审核、贷后追踪等风控能力,并根据资金交易图谱实现反洗钱、反欺诈等系统。

社交领域

人与人在线上和线下的联系天然形成了一张图,汇集海量的关系数据后,能够做社区发现、舆论追踪、用户推荐等丰富的应用场景。

政企领域

在物联网时代,图模型通过构人、位置、事件、物的关系图,实现智能交通、道路规划、平安城市、钓鱼网站识别,惠及民生。

工业领域

图模型强大的表达力对复杂且快速变化的事物很强适性,在工业领域来管理复杂且快速变化的库存、供应链关系,并推动创新,提供智能制造的解决方案。

医疗领域

根据病人的病情特征、电子病历、历史用药、药物成分、临床试验、保险情况等多维数据绘制以用户为中心的图数据,从而实现智能诊断,提高诊断效率和准确性,共享医疗资源。

零售领域

通过整合用户浏览及购买数据,分析“哪些用户购买了该商品”以及“购买A商品的用户也购买了B商品”等多维数据,实现商品智能推荐,给买家更好的购物体验。

电信领域

人与人的通信是一个非常强的联系,通信的时间和频率则代表了这种联系的强弱。电信运营商在通信图上进行拓展骚扰电话阻断、经营分析等业务。除此之外,电信设备也可以使用图模型进行管理。

军工领域

通过情报网络构建事物的轨迹信息,覆盖并跟踪份子。同时可以利用图模型对复杂军工系统的研发、生产进行全生命周期数据管理。

为什么需要TuGraph图数据库?

TuGraph是一个基于属性图模型、支持外存存储、高吞吐、高可用的图数据库。它有如下特征:

TB****级大容量。TuGraph 支持将图存储于外存设备。单机最大可支持 TB 级别数据,轻松支持十亿级别顶点和百亿级别的边。

千万顶点/秒的高吞吐率。TuGraph 使用无锁设计,从而大大提高了高负载下的吞吐率,使得 TuGraph可以在高并发场景下完成高复杂度查询。

高可用。TuGraph 支持基于多机热备的高可用性。

严格的ACID支持。TuGraph 提供“可串行化快照隔离”(Serializable Snapshot Isolation),应用程序无需为处理事务冲突而伤脑筋。

高性能在线分析。TuGraph除了强大的事务处理能力,还具备丰富和可扩展的分析处理功能,能够高效、在线地进行 PageRank、连通分量等复杂的图计算过程,省去了用户需要另行搭建并将数据导出、转换、再导入到专门的分析系统的麻烦。

高效灵活的****API。TuGraph 提供了多种接口:REST 接口提供了基本的面向顶点/边/索引的增/删/查/改接口;对于熟悉 Cypher(例如之前已经使用过 Neo4j 或是希望使用查询语言)的用户,我们建议您从 Cypher 接口快速上手;然后对 Cypher 无法表达或是表达起来相对困难的查询/更新任务使用 Python API 通过存储过程实现;若是性能无法满足您的要求,还可以选择基于 C++ API 编译的存储过程实现加速;C++ API 中还包括了面向 OLAP 的接口,以及基于 OLAP API 实现的 Traversal 接口用于快速实现类 BFS 的分析,且其中的很多接口都支持并行处理,能够极大地提升复杂分析的效率。

TuGraph怎么存储错综复杂的用户关系?

TuGraph是一个基于属性图模型(propertygraph model)且支持强 Schema 的图数据库。

TuGraph使用的属性图模型有以下特性:

· 包含顶点和边

· 顶点和边都可以拥有多个属性

· 顶点和边唯一地从属于一个标签(Label)

· 边为有向边,拥有一个源顶点和一个目的顶点

下图是属性图的一个例子,在图中,顶点被标记为 Person 或 Movie 的标签,拥有若干属性, 顶点由标记为 ACTED_IN 的边相连,边同样拥有属性。

顶点

如前所述,顶点拥有唯一标签和若干属性,往往用来表示一个实体,比如一个人、一部电影或一个 城市等。

在图数据库中,边用来表示顶点之间的关系,比如“认识”关系、“参演”关系或“居住于”关系等。边是图数据库区别于传统数据库的关键特性,为实体之间的关系提供了快捷优雅的查询方式。

与顶点类似,边也拥有唯一标签和若干属性。在TuGraph中,边是有向边,每条边都有一个 源顶点和一个目的顶点。

属性

属性可以用来描述顶点或边的属性,每个属性是一个 key-value 对,其中 key 是属性名,类型为字符 串,value 是属性值,TuGraph 支持的属性值类型为:

· 整型值,包括 INT8, INT16,INT32 和 INT64 等

· 浮点值,包括 FLOAT 和 DOUBLE 等

· 字符串

· 布尔值

· 时间类型

标签

在TuGraph中,顶点和边都有且只有一个标签。每一种标签划分一种类型的实体,对应一种 属性存储方式(即 Schema),可以类比于关系型数据库中的表(Table)的概念。

Schema

在TuGraph中,Schema 与标签一一对应,用以描述某种 Label 的顶点或边的数据组织方式,并且规定了域的约束。

例如,下表是Person标签对于的Schema:

TuGraph助力企业千倍性能提升

为提升风控效率,京东金融与费马科技合作,基于图数据库和图计算产品实现多账号间的关联关系分析,全量数据处理仅需占用1台服务器资源在10分钟内完成,性能提升数千倍,强化风控等级。同时,基于费马图计算平台,京东金融分析违约失联用户的关联关系,快捷高效的找到失联用户,失联修复率大幅提升,降低金融成本。

基于费马图数据平台,京东金融可以更好的探寻用户的关联关系,自动化的修复失联数据。用户欠下白条或小额贷后,到期未按时还款,并且停止使用账号、更换手机号或拒接来电等失联情况,在原有系统下,只能通过人工的方式检索数据尽可能的联系违约用户。与费马科技合作后,基于对数亿节点(用户)数百亿边(关系)的大图进行操作,可以很容易的识别并找出失联用户的相关最高的联系人,比如经常寄送到同一家庭地址的不同用户有可能为亲属关系;寄送到同一收件人的不同账号可能是朋友关系;收件公司地址的其他下单用户可以认定为同事等等。通过算法,在图数据库中可以很容易的找到与该失联用户联系最紧密的联系人排序,逐一电话沟通。相比人工查询的方式,不仅简化人为操作提升效率,同时增加了找到失联用户并完成还款的概率,为京东挽回大量损失。

京东金融数据部负责人刘方琦表示,在与费马科技的合作中,我们看到了可喜的效果,费马科技的产品提高了图计算的效率,提升了风控模型的能力,降低了响应时间。依托京东金融强大的用户数据能力和费马图计算、图数据库的系统能力,京东金融正在尝试将自己的风控模型提供给合作伙伴,降低合作伙伴的金融风险,共同建立更合规更安全的金融体系。

图计算作为人工智能和大数据领域的顶尖科技备受关注。在16日召开的CNCC2021(中国计算机大会)上,清华大学教授、蚂蚁图计算技术负责人陈文光受邀分享了图计算领域最新研究成果。

大会期间,蚂蚁图计算技术负责人陈文光对外宣布,蚂蚁集团联合清华大学自主研发的“大规模图计算系统GeaGraph”正式升级为TuGraph ,并完成了产品3.0版本的迭代。迭代后的版本查询效率提升10倍,兼容性更强。

TuGraph 3.0针对OpenCypher查询进行了性能优化,增加各类查询场景覆盖,并优化了离线数据导入功能,以满足各类场景下的离线数据导入需求,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源与TuGraph的高效数据同步。

陈文光表示,蚂蚁集团图计技术拥有领先的在线、近线、离线三线计算能力,图仿真一年数据能够在3天内完成,在国际处于领先水平,同时拥有世界规模领先的图数据库集群。

图计算技术受到行业关注

Gartner在《2021年十大数据和分析技术趋势》报告中预测,到2025年图技术将应用于80%的数据和分析创新。从全球范围来看,图计算技术目前已被应用于金融安全、互联网、工业、生物医药、公共安全、智慧城市等多个领域,成为全球研发机构、新兴创业公司,以及大型科技公司逐浪的“新风口”。

据了解,目前蚂蚁集团已经将TuGraph在金融安全领域规模化应用,成为业务风控能力的重要基础设施,为蚂蚁集团各业务场景提供了业界领先的实时和时序大规模图分析能力,在数字支付、数字服务、数字金融等核心业务中,显著提升了风险行为的实时识别能力和审理分析效率。

2021年,蚂蚁集团TuGraph曾获“世界互联网领先科技成果”奖,是图数据库基准性能测试LDBC-SNB世界纪录保持者,性能领先第二名7.6倍,本次新版本的发布将进一步拉大其领先优势。与此同时, TuGraph已完成了包括麒麟软件等的兼容性测试,获得了国内主流操作系统、服务器等软硬件厂商的兼容认证。

蚂蚁集团TuGraph(原名GeaGraph)获2021“世界互联网领先科技成果”奖

蚂蚁集团图数据库 TuGraph 是基于图模型的一站式数据存储和分析系统,擅长处理大规模关联数据的管理和分析,如社交关系、物流服务、设备管网、金融交易等场景,数千倍优化分析性能,天然具备数据可视化展示。

TuGraph 拥有业界领先的集群规模和性能,是图数据库性能国际基准测试 LDBC-SNB 世界纪录保持者,整体性能是第二名的 7.6 倍。2021年入选IDC推荐的主流图数据库供应商、世界互联网领先科技成果。

TuGraph 是蚂蚁集团金融风控能力的重要基础设施,显著提升了欺诈洗钱等金融风险的实时识别能力和审理分析效率,提供了稳定的决策支持能力,其中,支撑支付宝的重要风险识别能力提升了近100倍,风险审理分析效率提升90%。

TuGraph 已被成熟应用于安全风控、信贷风控、知识图谱、数据血缘、资金分析、流量归因分析、会员关系等场景,并面向金融、工业、政务服务等行业客户。

产品特色

超高性能

01

万亿图数据处理能力,支持分布式拓展;国际图数据库性能基准测试标准LDBC-SNB世界纪录保持者,性能是第二名的7.6倍,提供了业界领先的实时和时序大规模图分析能力。

灵活易用

02

HTAP图数据库,一站式图存储、图查询、图分析;内置5大类近30种图分析算法,支持各类业务分析场景;提供灵活、多层级API以及主流查询语言,满足各类查询、访问需求;可视化控制台,用图谱形式代替传统表格数据,直观展现节点之间的复杂关联关系;低门槛轻量级部署,支持与常见开源架构间数据的平滑迁移。

金融级高可靠

03

通过RAFT协议支持集群高可靠,RPO=0,超越国际灾难恢复能力6级要求;支持事务能力,达到可串行化隔离级别,保障数据一致性。

自研可控

04

100%自主研发,自主可控;兼容国产服务器及操作系统。

总结

图数据库仍在发展早期,蚂蚁 TuGraph 的开源,从底层技术科研到应用开发生态发展,都是对国内图数据库技术界重要的贡献,也期待 TuGraph 与开源撬动国内图数据库技术发展与繁荣。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
存储 SQL 运维
国产数据库TiDB相关知识介绍
TiDB 是由PingCAP 公司研发设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,它结合了传统的关系型和非关系型数据库的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用等特性。
国产数据库TiDB相关知识介绍
|
SQL Oracle 关系型数据库
浅谈mysql数据库迁移至国产化达梦数据库
项目要求mysql数据库数据需要转到达梦数据库,对于达梦数据库的了解尚且不多,一开始使用手动转SQL脚本,效率极低,非常容易出错。达梦数据库的资料实在有限,经过后期研究,发现原来DM已经有自己的数据迁移工具,使用之后非常方便。对mysql数据库转达梦数据库的操作流程做一个简要分享。
3838 0
浅谈mysql数据库迁移至国产化达梦数据库
|
2天前
|
SQL 关系型数据库 MySQL
国产达梦数据库使用记录
国产达梦数据库使用记录
|
12月前
|
存储 NoSQL 安全
「数据库深度探索」图型数据库JanusGraph支持知识图谱和图型分析
「数据库深度探索」图型数据库JanusGraph支持知识图谱和图型分析
|
存储 SQL 运维
阿里云数据库ClickHouse产品和技术解读
社区ClickHouse的单机引擎性能十分惊艳,但是部署运维ClickHouse集群,以及troubleshoot都不是很好上手。本次分享阿里云数据库ClickHouse产品能力和特性,包含同步MySQL库、ODPS库、本地盘及多盘性价比实例以及自建集群上云的迁移工具。最后介绍阿里云在云原生ClickHouse的进展情况。
283 0
|
Oracle 关系型数据库 数据库连接
Kingbase国产化数据库数据迁移:oracle11g数据库转库人大金仓数据库实例演示
Kingbase国产化数据库数据迁移:oracle11g数据库转库人大金仓数据库实例演示
228 0
|
NoSQL Oracle 关系型数据库
【数据管理】开源数据库:它们是什么?它们为什么重要?
对于开发人员来说,这是一个没有争议的特性。数据库的未来是开源的。2022年对约70000名代码争论者进行的堆栈溢出调查显示,几乎所有的专业人士都使用两种领先的开源RDBMSE之一,PostgreSQL(46.5%)或MySQL(45.7%),尽管他们也使用其他系统。
|
SQL 存储 分布式计算
初识数据库 数据库的认识 数据库管理技术的发展 常用数据库产品
初识数据库 数据库的认识 数据库管理技术的发展 常用数据库产品
初识数据库 数据库的认识 数据库管理技术的发展 常用数据库产品
|
SQL 机器学习/深度学习 运维
数据库风向标第八期:DAS的数据库自治技术解读
摘要:本文整理自阿里云数据库产品经理薛高敏(天钰),阿里云数据库高级算法专家陈杰(艾奥),阿里云数据库研发专家张涛(鼎智),达摩院数据库与存储实验室付晗(远名),在数据库风向标的分享。
数据库风向标第八期:DAS的数据库自治技术解读