【推荐算法课程】CS246 大数据挖掘

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 重点~课程对应教材(pdf可下载):http://www.mmds.org/CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

一、课程介绍

重点~课程对应教材(pdf可下载):http://www.mmds.org/

CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

大数据挖掘Mining Massive Data Sets,主讲人是斯坦福大牛Jure Leskovec,他是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。

二、作者介绍

主讲人Jurij Leskovec 是图网络领域的大牛Jure Leskovec,是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。在谷歌学术搜索(Google Scholar)上,Jure拥有接近4.5万的论文引用数量,H指数为84。

Leskovec的研究重点是对大型社会和信息网络进行分析和建模,以研究跨社会,技术和自然世界的现象。他专注于网络结构、网络演化、信息传播、影响和病毒在网络上的传播的统计建模。他所研究的问题是由大规模数据、网络和其他在线媒体引起的。他也致力于文本挖掘和机器学习的应用。

个人主页:https://cs.stanford.edu/~jure/

三、具体章节

01:课程介绍和MapReduce and Spark(Introduction; MapReduce and Spark)

02:频繁项集挖掘(Frequent Itemsets Mining)

03:局部敏感哈希(Locality-Sensitive Hashing I)

04:局部敏感哈希(Locality-Sensitive Hashing II)

05:聚类(Clustering)

06:推荐系统(Recommender Systems I)

07:推荐系统(Recommender Systems II)

08:PageRank(PageRank)

09:链接欺诈与社交网络导论(Link Spam and Introduction to Social Networks)

10:社区检测(Community Detection in Graphs)

11:图表示学习(Graph Representation Learning)

12:大规模机器学习(Large-Scale Machine Learning I)

13:数据流挖掘(Mining Data Streams I)

14:计算广告(Computational Advertising)

15:通过实验学习(Learning through Experimentation)

16:优化子模块功能(Optimizing Submodular Functions)

四、小结

image.png

以前很多数据挖掘的课程,但是2021年斯坦福大学推出的【大数据挖掘】则和以往有交集,又有很多新亮点,比如这几年很火的GNN图神经网络、在推荐系统召回层中常用LSH局部敏感哈希、计算广告的CTR点击率预估问题、在风控和反欺诈领域常用的社交网络异常检测等等,可见是推荐算法赛道的必学课程!!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
机器学习/深度学习 自然语言处理 算法
大数据选举预测:算票的不只是选票,还有算法
大数据选举预测:算票的不只是选票,还有算法
133 0
|
2月前
|
算法 搜索推荐 大数据
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
144 8
|
7月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
8月前
|
机器学习/深度学习 运维 算法
从算法菜鸟到挖掘达人:数据挖掘的算法大冒险
从算法菜鸟到挖掘达人:数据挖掘的算法大冒险
272 18
|
8月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
465 4
|
4月前
|
算法 搜索推荐 大数据
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
129 5
|
5月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
9月前
|
存储 弹性计算 分布式计算
云端智链:挖掘云计算中的大数据潜能
云端智链:挖掘云计算中的大数据潜能
215 21
|
8月前
|
机器学习/深度学习 数据采集 算法
如何用大数据与机器学习挖掘瞪羚企业认定标准
本文探讨如何利用大数据与机器学习技术挖掘瞪羚企业认定标准。通过阿里云的大数据平台和政策宝资源整合能力,结合机器学习算法分析政策文本,提取关键信息,助力企业精准理解认定标准。文章对比了传统获取方式的局限性与新技术的优势,并以案例说明政策宝在申报中的作用,强调数据整合、模型选择及数据安全的重要性,为企业提供发展方向和政策支持。
|
9月前
|
数据采集 机器学习/深度学习 人工智能
大数据中的数据预处理:脏数据不清,算法徒劳!
大数据中的数据预处理:脏数据不清,算法徒劳!
863 2

热门文章

最新文章