2022云栖精选—图计算发展的回顾与展望

简介: 摘要:本文整理自上海交通大学安泰经济与管理学院数据与商务智能系讲席教授、数据与商务智能系系主任、欧洲科学院院士、IEEE Fellow林学民,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分:1. 子图罗列Subgraph Enumeration2. 内聚子图Cohesive Subgraphs3. 网络弹性Network Resilience4. 二分图Bipartite Graph

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

什么是图?这个图不是我们平时说的图形或者图像,这个图是点和边。点代表事物,边表示他们之间的关系。

 

image.png

 

我们最早知道图是欧拉定理和格尼斯堡七桥问题,然后翻山越岭,经过历史的长河,我们来到了本世纪初的图数据库和大图计算。

 

image.png

 

现在各行各业都需要图,比如:Web Graph, Social NetworkProtein Interaction Network等等。下图是一个图的应用场景,左边是各种各样的应用,应用可以分解出基本算子,然后基本算子再分解出最基本算子,所以做系统就要把最基本算子处理好。

 

image.png

 

一、子图罗列Subgraph Enumeration

 

左边P是模式图,中间G是数据图,通常模式图比较小,可能就是几个点,数据图有可能非常大。下面是从G中找到所有和P同构的子图实例的三个样例。所以能想象,在实际应用中这种映射有可能会有成千上万,甚至上亿的量。

 

image.pngimage.pngimage.png

 

下面来分享一下子图罗列在各行各业中的应用。

 

1.   实时周期检测

 

下图是几年前和阿里合作的实时周期检测项目,主要用于欺诈检测和洗钱检测。

 

image.png

 

2.   检测指定社区

 

image.png

 

3.   CPU解决方案

 

image.png

 

4.   分布式技术

 

在分布式技术中没有哪一个算法是最好的,需要我们根据数据分布选择适合的算法。

 

image.png

 

二、内聚子图Cohesive Subgraphs

 

下图是曾经和阿里合作的一个项目,目的是抓住刷单的水军。这个问题我们是怎么解决的呢?其实就是将问题转化成抓Bi-Clique就可以了。

 

image.png

 

所谓的Clique就是每两个点之间都有一条边,那么如何把所有的Clique或者最大的Clique找出来呢?这里就会有一个很大的难点。因为CliqueClique之间是可以重叠的,这样就会使数目变得非常大。

 

image.png

 

在数据库他们会做各种各样的变种,比如Quasi-Clique,那么如何定义他们呢?

 

比如clique的边数是| v | ( | v | )-1,那么Quasi-Clique就是γ | v | ( | v | )-1

 

image.png

 

K-PlexClique里它的度数等于n-1,那么K-Plex每个点的度数就会大于等于n-k

 

image.png

 

K-clique是子图中任意两个顶点之间的距离小于等于kK-club同样也是任意两个顶点之间的距离小于等于k,但是它的两点是指子群中两点的距离。

 

image.png

 

K-Core是指子图中每个点的度数大于等于k。这个就比较简单,比如现在这个图里找一度数最小的点,如果度数等于或者大于kfinish了。小于k的,我们就把它除掉,再update度数。

 

image.png

 

K-TrussK-Core的加强版,每条边上三角形的个数要大于等于k-2。那么为什么说K-Truss是加强版呢?你能想象一个K-Truss一定是k-1 Core,就是度数值一定是大于等于k-1的。

 

K-Truss的算法实际上和K-Core的差不多。算法复杂性就是把每条边上的三角形个数全部罗列出来,这也是一个多项式算法。

 

image.png

 

子图里的度数如果大于等于p乘以全局的度数就叫P-Cohesion

 

image.png

 

K-edge Connected是指一个图里去掉任意k减一条边,它仍然是联通的。所以K-edge Connected Component就是找最大的子图。这是一个分解算法,最坏的情形是N的三次方。

 

image.png

 

还有一个是K-vertex Connected Component,这个我们暂时没有找到非常快的算法。如果你们对这个话题感兴趣,可以来一起提高它的性能。

 

image.png

三、网络弹性Network Resilience

 

Friendster曾经是一家比较大的社交网站,但在2005年突然就collapse了。这到底是为什么呢,其实原因非常不好找。

 

就比如你去了一个party,好吃的东西和一个聊得来的人并不会让你留很久。如果想要长时间呆留在party,就需要很多这样的人才可以。

 

image.png

 

假如我是K-Core,给你的budgetb,也就是让你想办法留下b个人。这个b不用满足K-Core条件,那么b要怎么选才能让network最大呢?

 

image.png

 

最终我们没有找出非常快速的精确算法,所以就找了个近似算法。 这个论文发表在了VLDB 2017上。

 

image.png

 

四、二分图Bipartite Graph

 

所谓的Bipartite Graph就是把图分成两层,上面一层,下面一层。它们都没有边只有cross两层。

 

image.png

 

实际上它有很多应用,比如下图最左边的就是一个非常典型的academic的例子,上面是演员,下面是电影。

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

目录
打赏
0
3
22
1
12363
分享
相关文章
PyTorch团队首发技术路线图,近百页文档披露2024下半年发展方向
【8月更文挑战第2天】PyTorch团队首度公布了详尽的技术路线图,规划了2024年下半年的发展蓝图。这份近100页的文档聚焦四大核心领域:性能提升,包括算法优化及硬件支持;易用性改进,旨在简化API并增强文档;生态系统建设,扩展硬件兼容性和框架集成;研究支持,提供丰富的工具促进学术探索。尽管前景光明,但仍面临持续优化、用户体验平衡、生态建设和跟踪科研进展等挑战。[原文链接](https://dev-discuss.pytorch.org/t/meta-pytorch-team-2024-h2-roadmaps/2226)
168 8
联合活动 | A100算力加持,理论结合实践!大模型实战营“初夏专场”火热来袭
随着初夏的到来,实战营第二期“初夏专场”热情开启,新增 VLM 专题课程,A100 算力加持,理论与实践并重,带给你纯粹而充实的学习体验。在这里,学习不再枯燥,成长触手可及。让我们一起,在知识的海洋中乘风破浪,探索大模型的无限可能吧!
外滩大会蚂蚁开源大规模图学习系统AGL
AGL 将持续的系统优化和能力创新,并将优秀的系统和算法实践开放到社区,本次开源为 AGL v0.1 版本。
外滩大会蚂蚁开源大规模图学习系统AGL
读《云栖战略参考》第五期关于算力的感想
读《云栖战略参考》第五期关于算力的感想 主要介绍了看完《云栖战略参考》第五期里的算力和想象力后的感想。
223 6
读《云栖战略参考》第五期关于算力的感想
2022云栖精选—图计算在全域数据融合场景的实践
摘要:本文整理自StartDT资深算法专家的曾云,在云栖大会“图计算及其应用”分论坛的分享。本篇内容主要分为四个部分: 1. 公司介绍 2. 全域数据融合场景介绍 3. 图计算实践 4. 未来展望
2022云栖精选—图计算在全域数据融合场景的实践
云原生·风向标活动来啦~ 顶尖开源项目首次全解析!
阿里云开发者学堂联合云原生团队,为云原生开发者带来风向标活动,持续更新精品课程和实战分享~
云原生·风向标活动来啦~ 顶尖开源项目首次全解析!
“计算 进化 未来”-记2022云栖大会
不知不觉,距离上一次参加云栖大会已经过去一年了。昨日的自研磐久,开源玄铁还历历在目,这么快又迎来了2022云栖大会。从信息化跨越到数字化,云计算的下一个风向标在何处?阿里云在本届云栖大会主论坛中给出了答案:重构整个IT硬件体系、软件研发范式深刻变革、云端加速融合。
727 0
“计算 进化 未来”-记2022云栖大会
【技术白皮书】第二章:发展历程与现状
从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。
未来几年,图计算或许是一条很好的赛道
在互联网时代,图数据越来越多地呈现出海量和动态等特性,静态图计算的模型和方法难以应对数据处理的需求。而流式图计算能基于实时变化的数据,流式地构建动态图数据关系,并基于动态变化的图数据之上实时地进行分析、计算和挖掘,是图计算主流技术分支。流式图计算是蚂蚁大规模图计算系统 TuGraph 的重要组成部分,可以有效地挖掘数据关系变化的趋势和异动,承担着重要的近线异步图计算等功能。 InfoQ 作为技术媒体对技术趋势保持着格外的关注,本次我们采访了蚂蚁流式图计算团队负责人潘臻轩。他为我们分享了蚂蚁流式图计算的应用经验,以及图计算在未来的发展趋势。
397 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等