基于图的机器算法 (一)

简介: 基于图的机器算法学习是一个强大的工具。结合运用模块特性,能够在集合检测中发挥更大作用。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

以下为译文:

可扩展集合检测

编者按:基于图的机器算法学习是一个强大的工具。结合运用模块特性,能够在集合检测中发挥更大作用。

很多复杂的问题都可以使用图来表示和学习----社交网络,细菌行为,神经网络等等。本文探讨了图中节点

自发地形成内部密集链接(在此称为“集合”)的趋势; 生物网络的显着的和普遍的属性。

集合检测旨在将图划分为密集连接的节点的群集,其中属于不同集合的节点仅稀疏地连接。
P1

图形分析涉及到节点(描述为磁盘)的研究及其与其他节点(线)的交互。 社区检测旨在通过其“团体”对节点进行分类。

模块化的公式为:
MODULARITY

其中:nc是集合的数量; lc为边数; dc为顶点度和; m是图的大小(边数)。 我们将使用这个方程以寻找最佳分区的全局度量。 简而言之:更高的分数将被给予一个集合配置提供更高于外部的内部链接。

那么该如何进行优化呢?优化方案的重点是利用图形拓扑知识。我这里使用了一个特殊的算法簇,称为聚合。这些算法能够很快捷地将节点收集(或合并)。 这具有许多优点,因为它通常仅需要邻近节点的第一级知识和小的增量合并步骤,便可使全局解决方案朝向逐步平衡。您可能会指出,模块度量提供了图形状态的全局视图,而不是本地指示器。 那么,这如何转化为我刚才提到的小地方增量?

基本方法确实包括迭代地合并优化局部模块化的节点,让我们继续定义:
LOCAL_MODUAL

其中Σin是C内的加权链路的总和,Σtot对链接到C的节点进行求和,k i对链接到节点i,ki的节点进行求和,m为 归一化因子作为整个图的加权链接的和。

这个局部优化函数可以很容易地转换为图表域内的可解释的度量。 例如,

• 集合强度:集合中的加权链接的总和。

• 集合人气:对特定集合中的节点的加权链接事件的总和。

• 节点所属:从节点到社区的加权链接的总和。

换句话说,加权链接可以是在运行时计算的节点的类型的函数(如果你处理具有各种类型的关系和节点的多维图,则是有用的)。

压缩阶段之前的收敛迭代示例
COMPRESS

现在我们都设置了我们的优化函数和局部成本,典型的聚集策略包括两个迭代阶段(传输和压缩)。假设N个节点的加权网络,我们开始通过向网络的每个节点分配不同的集合。

 传输:对于每个节点i,考虑其邻近节点j,并通过交换c_i为c_j来评估模块化的增益。贪婪过程将节点传送到相邻集合,使模块化的增益最大化(假设增益为正)。该过程应用于所有节点,直到没有单独的移动点。

 压缩:构建一个新的网络,其节点是在第一阶段发现的集合;称为压缩的过程(见下图)。为此,集合之间的边权重被计算为对应的两个集合中的节点之间的内部边之和。

LABEL_NODE
聚集过程:阶段1收敛到局部模块化的局部平衡。 第二阶段包括压缩下一次迭代的图形,因此减少了要考虑的节点数量,同时也减少了计算时间。

需要解决的关键问题:因为这是一个贪婪的算法,你必须根据你的情况和手头的数据定义一个停止标准。
如何定义这个标准? 可以尝试的方式有:最大数量的迭代,在传输阶段期间的最小模块性增益,或任何其他相关的信息。仍然不确定什么时候停止? 只要确保你保存迭代过程的每个中间步骤,运行直到你的图形中只剩下一个节点。 有趣的是,通过跟踪每个步骤,您还可以从您的集合的层次视图中获益,然后作进一步探索和利用。

在后续的博文中,我将讨论如何在使用Spark GraphX的分布式系统上实现这一点,Spark GraphX是我的项目的一部分。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

文章原标题《Graph-based machine learning: Part I》,作者:Sebastien Dery

文章为简译,更为详细的内容,请查看原文:insightdatascience

相关文章
|
7月前
|
存储 算法 Java
Java中,树与图的算法涉及二叉树的前序、中序、后序遍历以及DFS和BFS搜索。
【6月更文挑战第21天】Java中,树与图的算法涉及二叉树的前序、中序、后序遍历以及DFS和BFS搜索。二叉树遍历通过访问根、左、右子节点实现。DFS采用递归遍历图的节点,而BFS利用队列按层次访问。以下是简化的代码片段:[Java代码略]
56 4
|
5月前
|
存储 算法 调度
基于和声搜索算法(Harmony Search,HS)的机器设备工作最优调度方案求解matlab仿真
通过和声搜索算法(HS)实现多机器并行工作调度,以最小化任务完成时间。在MATLAB2022a环境下,不仅输出了工作调度甘特图,还展示了算法适应度值的收敛曲线。HS算法模拟音乐家即兴创作过程,随机生成初始解(和声库),并通过选择、微调生成新解,不断迭代直至获得最优调度方案。参数包括和声库大小、记忆考虑率、音调微调率及带宽。编码策略将任务与设备分配映射为和声,目标是最小化完成时间,同时确保满足各种约束条件。
|
6月前
|
存储 算法 Python
“解锁Python高级数据结构新姿势:图的表示与遍历,让你的算法思维跃升新高度
【7月更文挑战第13天】Python中的图数据结构用于表示复杂关系,通过节点和边连接。常见的表示方法是邻接矩阵(适合稠密图)和邻接表(适合稀疏图)。图遍历包括DFS(深度优先搜索)和BFS(广度优先搜索):DFS深入探索分支,BFS逐层访问邻居。掌握这些技巧对优化算法和解决实际问题至关重要。**
62 1
|
7月前
|
机器学习/深度学习 算法 BI
机器学习笔记(一) 感知机算法 之 原理篇
机器学习笔记(一) 感知机算法 之 原理篇
|
7月前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
6月前
|
数据采集 存储 算法
「AIGC算法」图搜索算法详解
本文探讨了图搜索算法,包括遍历和最短路径搜索。DFS和BFS是遍历算法,前者使用栈深入搜索,后者用队列逐层遍历。Dijkstra、Bellman-Ford、A*、Floyd-Warshall和Johnson算法则解决最短路径问题。文中还给出了DFS的Python实现示例。这些算法在路径规划、网络分析等领域有重要应用。
219 0
|
6月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
8月前
|
存储 算法 C++
c++算法学习笔记 (8) 树与图部分
c++算法学习笔记 (8) 树与图部分
|
7月前
|
算法 计算机视觉
图像处理之基于图的广度优先搜索组件标记算法
图像处理之基于图的广度优先搜索组件标记算法
42 0
|
7月前
|
存储 算法
数据结构学习记录——图应用实例-六度空间(题目描述、算法思路、伪代码及解读、图解)
数据结构学习记录——图应用实例-六度空间(题目描述、算法思路、伪代码及解读、图解)
89 0

热门文章

最新文章