模型的目的是再现、解释和预测系统的结构,最好用涉及系统两个或多个元素的交互来描述。为了考虑其输出的可变性,这些模型通常被指定为随机规则的集合,即随机过程。
模型(1)
为了更好地描述模型之间的相似性和差异,根据所使用的随机过程类型将其分为两大类。这部分介绍第一类。
Equilibrium models
首先,从 Bipartite models 来回忆 Equilibrium models。
Bipartite models
一般来说,bipartite configuration model (bipartite CM) 被定义为在具有固定度序列或(平均或精确)分布的所有二分网络上的某种形式的最大随机分布。
Example (microcanonical bipartite CM, or bipartite CM with hard constraints) 1
在 CM 模型的一个版本中,度是精确固定的:一个提供两个度序列 $\bm{k}^{(A)} = \{k_{1}^{(A)}, \cdots, k_{m}^{(A)}\}$ 和 $\bm{k}^{(B)} = \{k_{1}^{(B)}, \cdots, k_{n}^{(B)}\}$;一个用于集合 $A$ 中的 $m$ 个节点,另一个用于集合 $B$ 中的 $n$ 个节点。根据该模型,图 $G$ 的概率为:$$P(G) = \frac{1}{|\Omega(\bm{k}^{(A)}, \bm{k}^{(B)})|}.$$
Bipartite CM 是指数随机图模型(Exponential random graphs model,ERGM)或 logit 模型的特例。这些广义的模型旨在通过控制任意小子图的相对频率生成网络。通过这个广义模型的思想,可以对超图进行描述与解释。
通过选择 $Q_{\mu}(G)$来定义 bipartite ERGM。$Q_{\mu}(G)$ 是基序 $\mu =1, \cdots, K$ 在 $G$ 中出现的次数。具体地,$Q_{1}$ 可以指节点的孤立对的数量,$Q_{2}$ 可以指长度为 4 的路径数。ERGM 分配概率为:$$P(G \mid \bm{Q}, \lambda) = \frac{1}{Z(\lambda)} \exp(\sum_{\mu} \lambda_{\mu}Q_{\mu}(G)), \\ Z(\lambda) = \sum_{G} \exp(\sum_{\mu} \lambda_{\mu}Q_{\mu}(G)).$$
虽然上述两个模型直观且便于建模,但是由于退化问题等原因,这些模型的采样面临很大的挑战。挑战的原因是模型对于空或者全连接的网络实行了极高的权重。该模型在推断过程中也可能由于同样的原因导致误导性推断。
基于上述情形,将模型拓展为通常被表述随机块模型(SBM)2,拓展的想法是将节点分成两组 $K_{A}$ 和 $K_{B}$ “块”,即网络的每个部分为一组,然后随机连接节点,连接概率 $\omega$ 取决于它们各自所属的块。
Example 3
将每部分节点的块记为 $\bm{g}^{(A)} = (g_{1}^{(A)}, \cdots, g_{m}^{(A)})$ 和 $\bm{g}^{(B)} = (g_{1}^{(B)}, \cdots, g_{n}^{(B})$。此处,$g_{i}^{(A)} = \ell$ 意味着 $A$ 部分中的节点 $i$ 属于块 $\ell \in \{1, \cdots, K_{A}\}$。然后将具有关联矩阵 $B = [b_{ij}]$ 的特定图 $G$ 的概率表示为:$$P(G \mid \bm{\omega}, \bm{g}^{(A)}, \bm{g}^{(B)}) = \prod_{i \in A} \prod_{j \in B} (1 - \omega_{g_{i}^{(A)}, g_{j}^{(B)}})^{1 - b_{i j}} (\omega_{g_{i}^{(A)}, g_{j}^{(B)}})^{b_{i j}}.$$
此外,还可利用网络几何学的观点,将节点嵌入一个抽象的偏好空间中,然后通过指定不同的连接规则和嵌入空间来定义模型的一般类4。
Motifs models
Motifs-based models 是小图形(如三角形、短循环等)的任意集合的组装规则。由于其并非以严格成对的关系构建系统。因而可视为一种高阶模型。
- 该类模型最早出现在社会计量学中,其动机是需要调查方法来分类和量化大型定向社会网络中个体组成的小子集之间的互动模式。其基本原理类似于 ERGM 中的 $Q_{\mu}(G)$。
- 另一种常用模型来自于物理中关于集群网络上发生的传播过程。这些模型往往非常灵活,能够再现真实系统的许多结构特征,首先被用于研究结构变化如何影响这些网络上展开的动态过程的结果。
使用这些通用模型进行推理是具有挑战性的。到目前为止,唯一提出的旨在进行此类推理的方法依赖于“子图覆盖”的信息论方法。
Stochastic set models
- 众所周知的一类模型受到了社会组织中的层次结构的启发,其中的节点被分配给嵌套的组。因此,这些组类似于高阶相互作用的状态。
- 另一种观点来自数学文献中的随机相交图。通过给每个节点分配一个字母表上的集合,并连接两个节点(如果它们各自的集合相交)来形成随机交集图。但由于对数学上精确度的追求,这类模型的通用性较低。此外,该方法也在流行病学相关文献中得到了推理方面的应用。
Hypergraphs models
关于随机超图的大部分工作来自数学文献,它们被引入为随机图论中经典模型的直接和自然推广。
最近的超图建模方法使用抽象嵌入空间来创建真实的系统。这个想法再次表明,如果节点组在潜在空间中靠近,那么它们应该倾向于连接。
Simplicial complexes models
单纯复形模型的理论研究仍处于起步阶段5。到目前为止,文献有限,主要来自数学和物理学。
该方法始于 Erdős–Rényi 图,最早的模型被称为 Linial–Meshulam 模型就是 ER 图最简单的高阶版本。当然后续也有其他方法,但是并不是本人关注的重点。此外,复形在很多工程应用中很有价值。
- A.C. Coolen, A. Annibale, E. Roberts, Generating Random Networks and Graphs, Oxford University Press, 2017. ↩
- P.W. Holland, K.B. Laskey, S. Leinhardt, Stochastic blockmodels: First steps, Soc. Networks 5 (2) (1983), 109--137. ↩
- D.B. Larremore, A. Clauset, A.Z. Jacobs, Efficiently inferring community structure in bipartite networks, Phys. Rev. E 90 (1) (2014) 012805. ↩
- M.A. Serrano, D. Krioukov, M. Boguná, Self-similarity of complex networks and hidden metric spaces, Phys. Rev. Lett. 100 (7) (2008) 078701. ↩
- M. Kahle, Random geometric complexes, Discrete Comput. Geom. 45 (3) (2011) 553--573. ↩