【推荐算法课程】CS246 大数据挖掘

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 重点~课程对应教材(pdf可下载):http://www.mmds.org/CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

一、课程介绍

重点~课程对应教材(pdf可下载):http://www.mmds.org/

CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

大数据挖掘Mining Massive Data Sets,主讲人是斯坦福大牛Jure Leskovec,他是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。

二、作者介绍

主讲人Jurij Leskovec 是图网络领域的大牛Jure Leskovec,是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。在谷歌学术搜索(Google Scholar)上,Jure拥有接近4.5万的论文引用数量,H指数为84。

Leskovec的研究重点是对大型社会和信息网络进行分析和建模,以研究跨社会,技术和自然世界的现象。他专注于网络结构、网络演化、信息传播、影响和病毒在网络上的传播的统计建模。他所研究的问题是由大规模数据、网络和其他在线媒体引起的。他也致力于文本挖掘和机器学习的应用。

个人主页:https://cs.stanford.edu/~jure/

三、具体章节

01:课程介绍和MapReduce and Spark(Introduction; MapReduce and Spark)

02:频繁项集挖掘(Frequent Itemsets Mining)

03:局部敏感哈希(Locality-Sensitive Hashing I)

04:局部敏感哈希(Locality-Sensitive Hashing II)

05:聚类(Clustering)

06:推荐系统(Recommender Systems I)

07:推荐系统(Recommender Systems II)

08:PageRank(PageRank)

09:链接欺诈与社交网络导论(Link Spam and Introduction to Social Networks)

10:社区检测(Community Detection in Graphs)

11:图表示学习(Graph Representation Learning)

12:大规模机器学习(Large-Scale Machine Learning I)

13:数据流挖掘(Mining Data Streams I)

14:计算广告(Computational Advertising)

15:通过实验学习(Learning through Experimentation)

16:优化子模块功能(Optimizing Submodular Functions)

四、小结

image.png

以前很多数据挖掘的课程,但是2021年斯坦福大学推出的【大数据挖掘】则和以往有交集,又有很多新亮点,比如这几年很火的GNN图神经网络、在推荐系统召回层中常用LSH局部敏感哈希、计算广告的CTR点击率预估问题、在风控和反欺诈领域常用的社交网络异常检测等等,可见是推荐算法赛道的必学课程!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
72 4
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
68 0
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
106 10
|
1月前
|
缓存 算法 大数据
大数据查询优化算法
【10月更文挑战第26天】
60 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR
阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。
|
1月前
|
机器学习/深度学习 数据采集 算法
大数据中缺失值处理使用算法处理
【10月更文挑战第21天】
46 3
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
5月前
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
173 7
|
5月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
132 1
|
4月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
99 0