【原创】机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码

简介:
在上一篇文章: 机器学习之PageRank算法应用与C#实现(1)算法介绍 中,对PageRank算法的原理和过程进行了详细的介绍,并通过一个很简单的例子对过程进行了讲解。从上一篇文章可以很快的了解PageRank的基础知识。相比其他一些文献的介绍,上一篇文章的介绍非常简洁明了。说明:本文的主要内容都是来自 “赵国,宋建成.Google搜索引擎的数学模型及其应用,西南民族大学学报自然科学版.2010,vol(36),3”这篇学术论文。鉴于文献中本身提供了一个非常简单容易理解和入门的案例,所以本文就使用文章的案例和思路来说明PageRank的应用,文章中的文字也大部分是复制该篇论文,个人研究是对文章的理解,以及最后一篇的使用C#实现该算法的过程,可以让读者更好的理解如何用程序来解决问题。所以特意对作者表示感谢。如果有认为侵权,请及时联系我,将及时删除处理。

  论文中的案例其实是来源于1993年全国大学生数学建模竞赛的B题—足球队排名问题。

本文原文链接:【原创】机器学习之PageRank算法应用与C#实现(2)球队排名应用与C#代码

1.足球队排名问题

  1993年的全国大学生数学建模竞赛B题就出了这道题目,不过当时PageRank算法还没有问世,所以现在用PageRank来求解也只能算马后炮,不过可以借鉴一下思路,顺便可以加深对算法的理解,并可以观察算法实际的效果怎么样。顺便说一下,全国大学生数学建模竞赛的确非常有用,我在大学期间,连续参加过2004和2005年的比赛,虽然只拿了一个省二等奖,但是这个过程对我的影响非常大。包括我现在的编程,解决问题的思路都是从建模培训开始的。希望在校大学生珍惜这些机会,如果能入选校队,参加集训,努力学习,对以后的学习,工作都非常有帮助。下面看看这个题目的具体问题:

具体数据由于篇幅较大,已经上传为图片,需要看的,点击链接:数据链接

2.利用PageRank算法的思路

2.1 问题分析

  足球队排名次问题要求我们建立一个客观的评估方法,只依据过去一段时间(几个赛季或几年)内每个球队的战绩给出各个球队的名次,具有很强的实际背景.通过分析题中12支足球队在联赛中的成绩,不难发现表中的数据残缺不全,队与队之间的比赛场数相差很大,直接根据比赛成绩来排名次比较困难。

  下面我们利用PageRank算法的随机冲浪模型来求解.类比PageRank算法,我们可以综合考虑各队的比赛成绩为每支球队计算相应的等级分(Rank),然后根据各队的等级分高低来确定名次,直观上看,给定球队的等级分应该由它所战胜和战平的球队的数量以及被战胜或战平的球队的实力共同决定.具体来说,确定球队Z的等级分的依据应为:一是看它战胜和战平了多少支球队;二要看它所战胜或战平球队的等级分的高低.这两条就是我们确定排名的基本原理.在实际中,若出现等级分相同的情况,可以进一步根据净胜球的多少来确定排名.由于表中包含的数据量庞大,我们先在不计平局,只考虑获胜局的情形下计算出各队的等级分,以说明算法原理。然后我们综合考虑获胜局和平局,加权后得到各队的等级分,并据此进行排名。考虑到竞技比赛的结果的不确定性,我们最后建立了等级分的随机冲浪模型,分析表明等级分排名结果具有良好的参数稳定性。

2.2 获取转移概率矩阵

   首先利用有向赋权图的权重矩阵来表达出各队之间的胜负关系.用图的顶点表示相应球队,用连接两个顶点的有向边表示两队的比赛结果。同时给边赋权重,表明占胜的次数。所以,可以得到数据表中给出的12支球队所对应的权重矩阵,这是计算转义概率矩阵的必要步骤,这里直接对论文中的截图进行引用:

2.3 关于加权等级分

  上述权重不够科学,在论文中,作者提出了加权等级分,就是考虑平局的影响,对2个矩阵进行加权得到权重矩阵,从而得到转移概率矩阵。这里由于篇幅比较大,但是思路比较简单,不再详细说明,如果需要详细了解,可以看论文。本文还是集中在C#的实现过程。

2.4 随机冲浪模型

  

3.C#编程实现过程

  下面我们将使用C#实现论文中的上述过程,注意,2.3和2.2的思想是类似的,只不过是多了一个加权的过程,对程序来说还是很简单的。下面还是按照步骤一个一个来,很多人看到问题写程序很难下手,其实习惯就好了,按照算法的步骤来,一个一个实现,总之要先动手,不要老是想,想来想去没有结果,浪费时间。只有实际行动起来,才能知道实际的问题,一个一个解决,持之以恒,思路会越来越清晰。

3.1 计算权重矩阵

  权重矩阵要根据测试数据,球队和每2个球队直接的比分来获取,所以我们使用一个字典来存储原始数据,将每个节点,2个队伍的比赛结果比分都写成数组的形式,来根据胜平负的场次计算积分,得到边的权重,看代码吧:

 1 /// <summary>根据比赛成绩,直接根据积分来构造权重矩阵,根据i,对j比赛获取的分数</summary>
 2 /// <param name="data">key为2个对的边名称,value是比分列表,分别为主客进球数</param>
 3 /// <param name="teamInfo">球队的编号列表</param>
 4 /// <returns>权重矩阵</returns>
 5 public static double[,] CalcLevelTotalScore(Dictionary<String, Int32[][]> data, List<Int32> teamInfo)
 6 {
 7     Int32 N = teamInfo.Count;
 8     double[,] result = new double[N, N];
 9 
10     #region 利用对称性,只计算一半
11     for (int i = 1; i < N; i++)
12     {
13         for (int j = i + 1; j <= N; j++)
14         {
15             #region 循环计算
16             String key = String.Format("{0}-{1}", teamInfo[i - 1], teamInfo[j - 1]);
17             //不存在比赛成绩
18             if (!data.ContainsKey(key))
19             {
20                 result[i - 1, j - 1] = result[j - 1, i - 1] = 0;
21                 continue;
22             }
23             //计算i,j直接的互胜场次
24             var scores = data[key];//i,j直接的比分列表
25             var Si3 = scores.Where(n => n[0] > n[1]).ToList();//i胜场次
26             var S1 = scores.Where(n => n[0] == n[1]).ToList();//i平场次
27             var Si0 = scores.Where(n => n[0] < n[1]).ToList();//i负场次
28             result[i - 1, j - 1] = Si3.Count*3 + S1.Count ;
29             result[j - 1, i - 1] = Si0.Count *3 + S1.Count ;
30             #endregion
31         }
32     }
33     #endregion
34     //按照列向量进行归一化
35     return GetNormalizedByColumn(result);
36 }

  上面最后返回调用了归一化的函数,比较简单,直接代码贴出来,折叠一下:

 1 /// <summary>按照列向量进行归一化</summary>
 2 /// <param name="data"></param>
 3 /// <returns></returns>
 4 public static double[,] GetNormalizedByColumn(double[,] data)
 5 {
 6     int N = data.GetLength(0);
 7     double[,] result = new double[N, N];
 8     #region 各个列向量归一化
 9     for (int i = 0; i < N; i++) //
10     {
11         double sum = 0;
12         //
13         for (int j = 0; j < N; j++) sum += data[j, i];
14         for (int j = 0; j < N; j++)
15         {
16             if (sum != 0) result[j, i] = data[j, i] / (double)sum;//归一化,每列除以和值
17             else result[j, i] = data[j, i];
18         }
19     }
20     #endregion
21 
22     return result;
23 }
View Code

3.2 计算最大特征值及特征向量

  计算特征值和特征向量是一个数学问题,我们采用了Math.NET数学计算组件,可以直接计算很方便。详细的使用可以参考下面代码,组件的其他信息可以参考本站导航栏上的专题目录,有大量的使用文章。看代码吧。

 1 /// <summary>求最大特征值下的特征向量</summary>
 2 /// <param name="data"></param>
 3 /// <returns></returns>
 4 public static double[] GetEigenVectors(double[,] data)
 5 {
 6     var formatProvider = (CultureInfo)CultureInfo.InvariantCulture.Clone();
 7     formatProvider.TextInfo.ListSeparator = " ";
 8 
 9     int N = data.GetLength(0);
10     Matrix<double> A = DenseMatrix.OfArray(data);
11     var evd = A.Evd();
12     var vector = evd.EigenVectors;//特征向量
13     var ev = evd.EigenValues;//特征值,复数形式发
14 
15     if (ev[0].Imaginary > 0) throw new Exception("第一个特征值为复数");
16     //取 vector 第一列为最大特征向量
17     var result = new double[N];
18     for (int i = 0; i < N; i++)
19     {
20         result[i] =Math.Abs(vector[i, 0]);//第一列,取绝对值
21     }
22     return result;
23 }

3.3 随机冲浪模型的实现

  随机冲浪模型主要是有一个比例,设置之后可以直接求解,也比较简单,函数如下:

 1 /// <summary>获取随机冲浪模型的 转移矩阵:
 2 /// 作用很明显,结果有明显的改善
 3 /// </summary>
 4 /// <returns></returns>
 5 public static double[,] GetRandomModeVector(double[,] data ,double d = 0.35)
 6 {
 7     int N = data.GetLength(0);
 8     double k = (1.0 - d) / (double)N;
 9     double[,] result = new double[N, N];
10     for (int i = 0; i < N; i++)
11     {
12         for (int j = 0; j < N; j++) result[i, j] = data[i, j] * d + k;
13     }
14     return result;
15 }

3.4 其他

  其他问题就是数据组合的过程,这里太多,不详细讲解。主要是构建测试数据以及排序后结果的处理,很简单。贴一个球队排序的函数,根据特征向量:

 1 /// <summary>排序,输出球队编号</summary>
 2 /// <param name="w"></param>
 3 /// <param name="teamInfo"></param>
 4 /// <returns></returns>
 5 public static Int32[] TeamOrder(double[] w, List<Int32> teamInfo)
 6 {
 7     Dictionary<int, double> dic = new Dictionary<int, double>();
 8     for (int i = 1; i <= w.Length; i++) dic.Add(i , w[i-1]);
 9     return dic.OrderByDescending(n => n.Value).Select(n => n.Key).ToArray();
10 }

4.算法测试

  我们使用问题1中的数据,进行测试,首先构建测试集合,代码如下,太长,折叠一下,主要是问题1的原始数据:

 1 /// <summary>
 2 /// 获取测试的数据集,key=对1-对2,value = int[,] 为比分
 3 /// </summary>
 4 public static Dictionary<String, Int32[][]> GetTestData()
 5 {
 6     Dictionary<String, Int32[][]> data = new Dictionary<string, int[][]>();
 7     #region 依次添加数据
 8     #region T1
 9     data.Add("1-2", new Int32[][]{ new Int32[] { 0, 1 }, new Int32[] { 1, 0 }, new Int32[] { 0, 0 } });
10     data.Add("1-3", new Int32[][] { new Int32[] { 2, 2 }, new Int32[] { 1, 0 }, new Int32[] { 0, 2 } });
11     data.Add("1-4", new Int32[][] { new Int32[] { 2, 0 }, new Int32[] { 3, 1 }, new Int32[] { 1, 0 } });
12     data.Add("1-5", new Int32[][] { new Int32[] { 3, 1 } });
13     data.Add("1-6", new Int32[][] { new Int32[] { 1, 0 } });
14     data.Add("1-7", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 1, 3 } });
15     data.Add("1-8", new Int32[][] { new Int32[] { 0, 2 }, new Int32[] { 2, 1 } });
16     data.Add("1-9", new Int32[][]{ new Int32[] { 1, 0 }, new Int32[]  { 4, 0 } });
17     data.Add("1-10", new Int32[][]{  new Int32[] { 1, 1 },  new Int32[] { 1, 1 } });
18     #endregion
19 
20     #region T2
21     data.Add("2-3", new Int32[][] { new Int32[] { 2, 0 }, new Int32[] { 0, 1 }, new Int32[] { 1, 3 } });
22     data.Add("2-4", new Int32[][] { new Int32[] { 0, 0 }, new Int32[] { 2, 0 }, new Int32[] { 0, 0 } });
23     data.Add("2-5", new Int32[][] { new Int32[] { 1, 1 } });
24     data.Add("2-6", new Int32[][] { new Int32[] { 2, 1 } });
25     data.Add("2-7", new Int32[][] { new Int32[] { 1, 1 }, new Int32[] { 1, 1 } });
26     data.Add("2-8", new Int32[][] { new Int32[] { 0, 0 }, new Int32[] { 0, 0 } });
27     data.Add("2-9", new Int32[][] { new Int32[] { 2, 0 }, new Int32[] { 1, 1 } });
28     data.Add("2-10", new Int32[][] { new Int32[] { 0, 2 }, new Int32[] { 0, 0 } });
29     #endregion
30 
31     #region T3
32     data.Add("3-4", new Int32[][] { new Int32[] { 4, 2 }, new Int32[] { 1, 1 }, new Int32[] { 0, 0 } });
33     data.Add("3-5", new Int32[][] { new Int32[] { 2, 1 } });
34     data.Add("3-6", new Int32[][] { new Int32[] { 3, 0 } });
35     data.Add("3-7", new Int32[][] { new Int32[] { 1, 0 }, new Int32[] { 1, 4 } });
36     data.Add("3-8", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 3, 1 } });
37     data.Add("3-9", new Int32[][] { new Int32[] { 1, 0 }, new Int32[] { 2, 3 } });
38     data.Add("3-10", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 2, 0 } });
39     #endregion
40 
41     #region T4
42     data.Add("4-5", new Int32[][] { new Int32[] { 2, 3 } });
43     data.Add("4-6", new Int32[][] { new Int32[] { 0, 1 } });
44     data.Add("4-7", new Int32[][] { new Int32[] { 0, 5 }, new Int32[] { 2, 3 } });
45     data.Add("4-8", new Int32[][] { new Int32[] { 2, 1 }, new Int32[] { 1, 3 } });
46     data.Add("4-9", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 0, 0 } });
47     data.Add("4-10", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 1, 1 } });
48     #endregion
49 
50     #region T5
51     data.Add("5-6", new Int32[][] { new Int32[] { 0, 1 } });
52     data.Add("5-11", new Int32[][] { new Int32[] { 1, 0 }, new Int32[] { 1, 2 } });
53     data.Add("5-12", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 1, 1 } });
54     #endregion
55 
56     #region T7
57     data.Add("7-8", new Int32[][] { new Int32[] { 1, 0 }, new Int32[] { 2, 0 }, new Int32[] { 0, 0 } });
58     data.Add("7-9", new Int32[][] { new Int32[] { 2, 1 }, new Int32[] { 3, 0 }, new Int32[] { 1, 0 } });
59     data.Add("7-10", new Int32[][] { new Int32[] { 3, 1 }, new Int32[] { 3, 0 }, new Int32[] { 2, 2 } });
60     data.Add("7-11", new Int32[][] { new Int32[] { 3, 1 } });
61     data.Add("7-12", new Int32[][] { new Int32[] { 2, 0 } });
62     #endregion
63 
64     #region T8
65     data.Add("8-9", new Int32[][] { new Int32[] { 0, 1 }, new Int32[] { 1, 2 }, new Int32[] { 2, 0 } });
66     data.Add("8-10", new Int32[][] { new Int32[] { 1, 1 }, new Int32[] { 1, 0 }, new Int32[] { 0, 1 } });
67     data.Add("8-11", new Int32[][] { new Int32[] { 3, 1 } });
68     data.Add("8-12", new Int32[][] { new Int32[] { 0, 0 } });
69     #endregion
70 
71     #region T9
72     data.Add("9-10", new Int32[][] { new Int32[] { 3, 0 }, new Int32[] { 1, 0 }, new Int32[] { 0, 0 } });
73     data.Add("9-11", new Int32[][] { new Int32[] { 1, 0 } });
74     data.Add("9-12", new Int32[][] { new Int32[] { 1, 0 } });
75     #endregion
76 
77     #region T10
78     data.Add("10-11", new Int32[][] { new Int32[] { 1, 0 } });
79     data.Add("10-12", new Int32[][] { new Int32[] { 2, 0 } });
80     #endregion
81 
82     #region T11
83     data.Add("11-12", new Int32[][] { new Int32[] { 1, 1 }, new Int32[] { 1, 2 }, new Int32[] { 1, 1 } });
84     #endregion
85     #endregion
86     return data;
87 }
View Code

测试的主要方法是:

1 var team = new List<Int32>(){1,2,3,4,5,6,7,8,9,10,11,12};
2 var data = GetTestData();
3 var k3 = CalcLevelScore3(data,team);
4 var w3 = GetEigenVectors(k3);
5 
6 var teamOrder = TeamOrder(w3,team);
7 Console.WriteLine(teamOrder.ArrayToString());

排序结果如下:

7,3,1,9,8,2,10,4,6,5,12,11

结果和论文差不多,差别在前面2个,队伍7和3的位置有点问题。具体应该是计算精度的关系如果前面的计算有一些精度损失的话,对后面的计算有一点点影响。

  PageRank的一个基本应用今天就到此为止,接下来如果大家感兴趣,我将继续介绍PageRank在球队排名和比赛预测结果中的应用情况。看时间安排,大概思路和本文类似,只不过在细节上要处理一下。

相关文章
|
8月前
|
存储 监控 算法
电脑监控管理中的 C# 哈希表进程资源索引算法
哈希表凭借O(1)查询效率、动态增删性能及低内存开销,适配电脑监控系统对进程资源数据的实时索引需求。通过定制哈希函数与链地址法冲突解决,实现高效进程状态追踪与异常预警。
335 10
|
存储 算法 安全
如何控制上网行为——基于 C# 实现布隆过滤器算法的上网行为管控策略研究与实践解析
在数字化办公生态系统中,企业对员工网络行为的精细化管理已成为保障网络安全、提升组织效能的核心命题。如何在有效防范恶意网站访问、数据泄露风险的同时,避免过度管控对正常业务运作的负面影响,构成了企业网络安全领域的重要研究方向。在此背景下,数据结构与算法作为底层技术支撑,其重要性愈发凸显。本文将以布隆过滤器算法为研究对象,基于 C# 编程语言开展理论分析与工程实践,系统探讨该算法在企业上网行为管理中的应用范式。
331 8
|
机器学习/深度学习 监控 算法
员工上网行为监控软件中基于滑动窗口的C#流量统计算法解析​
在数字化办公环境中,员工上网行为监控软件需要高效处理海量网络请求数据,同时实时识别异常行为(如高频访问非工作网站)。传统的时间序列统计方法因计算复杂度过高,难以满足低延迟需求。本文将介绍一种基于滑动窗口的C#统计算法,通过动态时间窗口管理,实现高效的行为模式分析与流量计数。
369 2
|
分布式计算 并行计算 算法
MapReduce在实现PageRank算法中的应用
总结来说,在实现PageRank算法时使用MapReduce能够有效地进行大规模并行计算,并且具有良好的容错性和可扩展性。
521 76
|
机器学习/深度学习 人工智能 算法
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
PaperCoder是一种基于多智能体LLM框架的工具,可自动将机器学习研究论文转化为代码库。它通过规划、分析和生成三个阶段,系统性地实现从论文到代码的转化,解决当前研究中代码缺失导致的可复现性问题。实验表明,PaperCoder在自动生成高质量代码方面显著优于基线方法,并获得专家高度认可。这一工具降低了验证研究成果的门槛,推动科研透明与高效。
1030 19
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
|
12月前
|
监控 算法 数据处理
内网实时监控中的 C# 算法探索:环形缓冲区在实时数据处理中的关键作用
本文探讨了环形缓冲区在内网实时监控中的应用,结合C#实现方案,分析其原理与优势。作为固定长度的循环队列,环形缓冲区通过FIFO机制高效处理高速数据流,具备O(1)时间复杂度的读写操作,降低延迟与内存开销。文章从设计逻辑、代码示例到实际适配效果展开讨论,并展望其与AI结合的潜力,为开发者提供参考。
453 2
|
12月前
|
监控 算法 安全
公司电脑监控软件关键技术探析:C# 环形缓冲区算法的理论与实践
环形缓冲区(Ring Buffer)是企业信息安全管理中电脑监控系统设计的核心数据结构,适用于高并发、高速率与短时有效的多源异构数据处理场景。其通过固定大小的连续内存空间实现闭环存储,具备内存优化、操作高效、数据时效管理和并发支持等优势。文章以C#语言为例,展示了线程安全的环形缓冲区实现,并结合URL访问记录监控应用场景,分析了其在流量削峰、关键数据保护和高性能处理中的适配性。该结构在日志捕获和事件缓冲中表现出色,对提升监控系统效能具有重要价值。
342 1
|
存储 监控 算法
局域网上网记录监控的 C# 基数树算法高效检索方案研究
在企业网络管理与信息安全领域,局域网上网记录监控是维护网络安全、规范网络行为的关键举措。随着企业网络数据量呈指数级增长,如何高效存储和检索上网记录数据成为亟待解决的核心问题。基数树(Trie 树)作为一种独特的数据结构,凭借其在字符串处理方面的卓越性能,为局域网上网记录监控提供了创新的解决方案。本文将深入剖析基数树算法的原理,并通过 C# 语言实现的代码示例,阐述其在局域网上网记录监控场景中的具体应用。
274 7
|
存储 监控 算法
基于 C# 时间轮算法的控制局域网上网时间与实践应用
在数字化办公与教育环境中,局域网作为内部网络通信的核心基础设施,其精细化管理水平直接影响网络资源的合理配置与使用效能。对局域网用户上网时间的有效管控,已成为企业、教育机构等组织的重要管理需求。这一需求不仅旨在提升员工工作效率、规范学生网络使用行为,更是优化网络带宽资源分配的关键举措。时间轮算法作为一种经典的定时任务管理机制,在局域网用户上网时间管控场景中展现出显著的技术优势。本文将系统阐述时间轮算法的核心原理,并基于 C# 编程语言提供具体实现方案,以期深入剖析该算法在局域网管理中的应用逻辑与实践价值。
315 5
|
机器学习/深度学习 人工智能 开发者
DeepSeek安装部署指南,基于阿里云PAI零代码,小白也能轻松搞定!
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括:开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程简单快捷,极大降低了使用门槛。
2334 43