Science:大数据时代的网络分析,如何挖掘大数据?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

我们生活在一个互联实体(entities)构成的复杂世界中。人类涉足的所有领域,从生物学到医学、经济学和气候科学,都充满了大规模数据集。

这些数据集将实体(entities)模拟为节点、节点之间的连接被模拟为边(edges),从不同且互补的角度描述着复杂的真实世界系统。这些网络化数据是特定领域信息的新的丰富来源,不过,目前,大部分信息却隐藏在这种复杂连接模式(wiring patterns)中。

首当其冲的就是解码这些模式,因为计算分析大型网络通常会很棘手,以至于我们关于这个世界的许多疑问都无法得到准确回答,即使我们拥有不受限制的计算机性能和时间[1]。因此,唯一的希望就是近似地回答这些问题(亦即启发式地)并且证明在最糟糕的情况下,这个近似回答距离确切的未知答案有多远。

本期《科学》中, Benson 等人[2] 往这一方向迈出了重要的一步——提出了一种可升级( scalable)的启发式框架:用于基于连接模式的实体(entities)分组,以及用发现的模式揭示出几个真实世界网络化系统的高位阶组织原则。

摘要:网络是理解和建模物理、生物、神经科学、工程学和社会科学中复杂系统的基础工具。许多网络以展现出能够在单个节点和边的水平上被获取的丰富、低阶连接模式著称。但是,大部分复杂网络的高阶组织——在小型网络子图(subgraph)水平上——在很大程度上仍然未知。我们开发出了一种通用框架(generalized framework),用于在高阶连接模式基础上聚类网络。该框架为已获聚类的最优性提供了数学保证,并能扩展到带有数十亿个边的网络。该框架也揭示了许多网络的高阶组织,包括神经元网络的信息传播单元和交通运输网络的枢纽结构。结果表明,这些网络展现出了丰富的高阶组织结构,该结构可以在高阶连接模式的基础上通过聚类的方式揭露出来。

为了挖掘网络化数据连接模式,揭示出功能组织,仅考虑简单描述符号是不够的,比如每个实体(亦即节点)和其他实体(亦即节点度,node degree)的互作用数量,因为在这种简单描述符号层面,两个网络可能等同,但它们的连接结构非常不同(见图)。

相反,Benson 等人使用了叫做图元 (graphlets, 例如三角形) 的高阶描述符,它建立在小型子网络基础上,这些小型子网络来自一个数据中的节点子集,这个节点子集包含了出现在数据中的所有交互作用[3] 。他们仅用少数几个跨区域边界的特定图元实例,就鉴别出富含某个特定图元类型实例的网络区域。如果这种图元类型是预先指定的,那么,这种方法就能发现通过这个图元互连的节点, 它也帮助 Benson 等人将线虫神经元网络(控制某类行动的网络)中的20个神经元成功地组在一起。

该方法正是通过这种方式将局部连接模式 ( local wiring patterning)与由之强加的高阶结构模块化结合起来的,揭示出网络化数据中高阶功能区域。

网络结构

下述四种网络大小相同(节点和边的数量也相等),每个网络的每个节点度(与其他节点交互作用的数量)也相同,但是,每个网络却结构各异。

这一研究结果的重要性在于:可用于大范围的网络化 RNA 以及被翻译成蛋白质,它使用各种各样的三维结构来实现特定的细胞功能。分子互动会被不同的高通量生物技术捕获,而且还可以用不同网络类型加以模拟。对分子网络的个体分析已经揭示出:拥有相似功能的分子趋于聚集在一个网络中并以相似的方式连接起来 [13] ,让我们更好理解基因功能 [6] 以及细胞的分子组织 [7]并且促进了疗法(therapeutics)发展 [8-12]。

图一:高阶网络结构以及高阶网络聚簇框架。(A)高阶结构由网络模体(network motifs)获取。例如,图为所有 13 种互连的三节点有方向模体。(B)基于模体 M7 的网络的聚类。对于给定的模体 M,我们的架构的目标是找到能最小化模体传导率(motif conductance)ΦM(S) 的节点的集合 S;模体传导率的定义是模体切割(motif cut)(实心三角形切割)的数量与模体 S 或模体 (13)例子中节点的最小数量之比。本例中有一个模体切割。(C)高阶网络聚类框架。给定的一个相关的图形和模体(本例中为 M7)后,该框架通过计数双节点在该模体中共现(co-occur)的次数来构成一个模体邻接矩阵(motif adjacency matrix)(Wm)。然后再计算该模体邻接矩阵的拉普拉斯变换(Laplacian transformation)的特征向量。由该特征向量的成分提供的节点排序 σ 产生了不断变大的 r 的嵌套集合(nested sets)Sr={σ1,...,σr}。我们证明了带有基于传导率 ΦM(Sr) 的最小模体的集合 Sr 是接近最优的高阶聚类。

然而,就所研究现象而言,每种网络类型提供的信息都是有限的。例如,一种疾病很少是单个变异基因或单个遭受破坏的分子相互作用所致,而是细胞内、细胞间互动造成的多重扰动产物。

网络医学 (network medicine) 将网络分析和数据整合结合起来,挖掘补充数据中的财富,并揭示出貌似无关疾病之间的普遍分子机制 [8-11]。与之相反,患有看似相同疾病的病人,发病的分子机制可能不同,他们对治疗的反应也可能不同(例如:癌症异质性)[8-11]。因此,个性化医疗的目的在于基于单个病人基因和分子特征,为病人提供个性化疗法,这可能涉及到根据不同病患分组,改变已知药物用途,进而缓解开发新药所需成本和时间给制药行业带来的瓶颈 [11,12]。

对于这些尚处初期的领域来说,分析和整合网络数据的方法将是基础,只有全盘挖掘所有可得基因、分子和临床数据 ,才有可能全面理解相关情况[11]。

图二:秀丽隐杆线虫神经元网络的高阶聚簇 (A)四节点双扇模体(The four-node bi-fan motif),在神经网络(1)中被过度表达。直观上看,这个模体描述了从左边节点向右边节点传递合作繁殖信息的过程。(B)秀丽隐杆线虫额叶神经元网络的高阶聚簇以(A)中的模体为基础。这个聚簇包含了作为信源的 3 个带有多个外向连接的环状运动神经元(REML,-V,和 -R;青色),6 个作为目的地信息的带有多个内向连接的内唇感觉神经元(IL2DL ,-VR,-R,-DR,和 -L;橘色),4个 作为中介的URA 运动神经元(紫色)。这些 RME 神经元已被提为这个神经环的先导,而 IL2 神经元是已知的瞬眼调节器,同时这个高阶聚簇会暴露它们的组织。这个聚簇也揭示了 RIH 是信息处理过程中的一个关键媒介。这个神经元有来自 3 个 REM 神经元的传入链接,与 6 个IL2 神经元中的 5 个相连的外向连接,和该聚簇中总数最大的连接,它连接了该聚簇中任何一个神经元。(C)整个神经网络环境中的II-lustration 高阶聚簇。节点位置在这些神经元的真正二维空间嵌入的地方。大部分信息从左向右流动,而且我们看到 RMEV,-R,和 -L与 RIH 是作为右边神经元的信息源。

全面分析互连世界,需要概念以及方法论范式的转换。

不要孤立分析单个数据来源,例如基因序列比对( aligning genetic sequences )(它已经革新了我们对生物学的理解)[14],在单个框架中比对所有类型的数据——「数据比对(the data alignment)」才会带来更为深入的洞见。

例如,一个细胞所有基因的和分子互动数据,可以整合进同一个计算框架中,而且我们需要研发出一些方法,在一个新的「细胞比对(the cell alignment)」范式中比对这些「整合细胞(integrated cells)」。

同样,我们已经分别研究过了世界经济系统,包括贸易网络、金融交易、投资等[3,5] 。但是,对财富起源、危机和经济复苏的理解只能来自对比和整体分析所有层面的网络化经济和地缘政治数据。同样,气候测量的结果也是通过不同网络类型编码跨地理区域的各种气候元素获得(例如:风速、气压和温度)之间的关系 [4],而且,全盘的数据对齐分析或许有助于解释这种复杂动态系统,并且更好预测人为改变带来的影响。

可以抓住数据高阶结构复杂性的数学形式体系(Mathematical formalisms),连同从那些数学形式体系中计算和提取信息的算法[15],应当得到发展和应用。将 Benson 等人 的框架扩展到用于在这些整合和对齐的数据系统中发现高阶结构,可能是未来的发展路向。

源于数据规模巨大、复杂、异质、噪音以及不同时空尺度的计算问题,仍然需要加以解决。

图三:加拿大和美国机场网络的高阶谱分析。(A)在我们的分析中使用的三种高阶结构。每一个模体。每一个模体都「挂靠」于蓝色的节点 i 和 j,这意味着我们的框架只能寻找将蓝色节点聚类在一起。特别地,该模体邻接矩阵会根据第三个中间节点(绿色方块)而为 (i,j) 边增加权重。前两个模体对应于高度互连的城市,而最右边的模体是非枢纽与非枢纽的连接。(B)美国人口最多的 50 个城市,每个城市分别对应于网络中的一个节点。边厚度正比于模体邻接矩阵中的权重 Wm。厚的黑色线表示较大权重对应于流行的主线路径。(C)由 Wm 的标准拉普拉斯的前两个非平凡特征向量(nontrivial eigenvector)的它们的对应成分提供的节点嵌入。其中标注城市中有 8 个城市是美国最大的枢纽(绿色)、有 3 个是西海岸非枢纽(红色)、还有 3 个是东海岸的非枢纽。主要的谱坐标(spectral coordinate)(从左至右)说明了城市的枢纽程度,而第二个谱坐标(从上至下)表示的是西到东的地理分布。(D)由标准的、基于边的(非高阶)标准拉普拉斯的前两个非平凡特征向量中的对应成分提供的节点嵌入。该方法没有获取由高阶方法发现的枢纽和地理。比如,最大的枢纽亚特兰大位于嵌入的中心,和非枢纽城市 Salina 紧邻。

参考文献和注释

1. M. R. Garey, D. S. Johnson, Computers and Intractability: A Guide to the Theory of NP-Completeness (Freeman, New York, 1979).

2. A. R. Benson et al., Science 353, 163 (2016).

3. O.N. Yavero lu et al., Sci. Rep.4, 4547 (2014).

4. K. Steinhaeuser, A. A. Tsonis, Clim. Dyn.42, 1665 (2014).

5. P. Glasserman, H. P. Young, J. Bank. Financ.50, 383 (2015).

6. R. Sharan et al., Mol. Syst. Biol.3, 1 (2007).

7. K. Mitra et al., Nat. Rev. Genet. 14, 719 (2013).

8. A.L. Barabási et al., Nat. Rev. Genet.12, 1 (2011).

9. J. Menche et al., Science 347, 6224 (2015).

10. M. itnik et al., Sci. Rep.3, 3202 (2013).

11. V. Gligorijevic et al., Proteomics 16, 741 (2016).

12. S. M. Strittmatter, Nat. Med.20, 590 (2014).

13. D. Davis et al., Bioinformatics 31, 1632 (2015).

14. J. Alfoldi, K. Lindblad-Toh, Genome Res.23, 1063 (2013).

15. S. Boccaletti et al., Phys. Rep.544, 1 (2014).

本文选自:Sciencemag,作者:Nata a Pr ulj 、No l Malod-Dognin,机器之心编译;

机器之心,最专业的前沿科技媒体和产业服务平台,每日提供优质产业资讯与深度思考,欢迎关注微信公众号「机器之心」(almosthuman2014),或登录机器之心网站www.almosthuman.cn查看更多精彩内容。





====================================分割线================================


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
数据采集 数据可视化 算法
电商API接口的大数据分析与挖掘技巧
随着电商行业的快速发展,电商平台上的交易数据量也越来越大。如何对这些数据进行分析和挖掘,从中获取有价值的信息,已经成为电商企业和开发者关注的重点。本文将介绍电商API接口的大数据分析与挖掘技巧。
|
4月前
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
131 7
|
3月前
|
大数据 RDMA
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
神龙大数据加速引擎MRACC问题之MRACC-Spark利用eRDMA近网络优化插件来提升性能如何解决
44 0
|
3月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
91 0
|
5月前
|
分布式计算 NoSQL 大数据
MaxCompute产品使用合集之自定义udf连接云上vpc网络的redis获取数据的步骤是什么
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【大数据分析与挖掘技术】概述
【大数据分析与挖掘技术】概述
102 1
|
6月前
|
机器学习/深度学习 算法 数据可视化
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
|
6月前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
|
6月前
|
数据采集 存储 Scala
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容
本文介绍了如何使用Scala和Fetch库下载Facebook网页内容,同时通过爬虫代理服务(以亿牛云为例)绕过网络限制。代码示例展示了配置代理服务器、多线程爬取及内容存储的过程。注意实际应用时需替换代理服务器配置和目标URL,并考虑应对复杂的反爬虫机制。此方法兼顾匿名性和效率。
挖掘网络宝藏:利用Scala和Fetch库下载Facebook网页内容

热门文章

最新文章

下一篇
无影云桌面