【推荐算法课程】CS246 大数据挖掘

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 重点~课程对应教材(pdf可下载):http://www.mmds.org/CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

一、课程介绍

重点~课程对应教材(pdf可下载):http://www.mmds.org/

CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。

大数据挖掘Mining Massive Data Sets,主讲人是斯坦福大牛Jure Leskovec,他是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。

二、作者介绍

主讲人Jurij Leskovec 是图网络领域的大牛Jure Leskovec,是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec 和 GraphSAGE 作者之一。在谷歌学术搜索(Google Scholar)上,Jure拥有接近4.5万的论文引用数量,H指数为84。

Leskovec的研究重点是对大型社会和信息网络进行分析和建模,以研究跨社会,技术和自然世界的现象。他专注于网络结构、网络演化、信息传播、影响和病毒在网络上的传播的统计建模。他所研究的问题是由大规模数据、网络和其他在线媒体引起的。他也致力于文本挖掘和机器学习的应用。

个人主页:https://cs.stanford.edu/~jure/

三、具体章节

01:课程介绍和MapReduce and Spark(Introduction; MapReduce and Spark)

02:频繁项集挖掘(Frequent Itemsets Mining)

03:局部敏感哈希(Locality-Sensitive Hashing I)

04:局部敏感哈希(Locality-Sensitive Hashing II)

05:聚类(Clustering)

06:推荐系统(Recommender Systems I)

07:推荐系统(Recommender Systems II)

08:PageRank(PageRank)

09:链接欺诈与社交网络导论(Link Spam and Introduction to Social Networks)

10:社区检测(Community Detection in Graphs)

11:图表示学习(Graph Representation Learning)

12:大规模机器学习(Large-Scale Machine Learning I)

13:数据流挖掘(Mining Data Streams I)

14:计算广告(Computational Advertising)

15:通过实验学习(Learning through Experimentation)

16:优化子模块功能(Optimizing Submodular Functions)

四、小结

image.png

以前很多数据挖掘的课程,但是2021年斯坦福大学推出的【大数据挖掘】则和以往有交集,又有很多新亮点,比如这几年很火的GNN图神经网络、在推荐系统召回层中常用LSH局部敏感哈希、计算广告的CTR点击率预估问题、在风控和反欺诈领域常用的社交网络异常检测等等,可见是推荐算法赛道的必学课程!!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
71 10
|
3月前
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
77 7
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
64 1
|
2月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
60 0
|
3月前
|
存储 监控 算法
「AIGC算法」大数据架构Lambda和Kappa
**Lambda与Kappa架构对比:** Lambda提供批处理和实时处理,保证数据最终一致性,但维护复杂。Kappa简化为单一流处理,易于维护,适合实时场景,但可能增加实时处理压力,影响稳定性。选择时考虑数据一致性、系统维护、成本和实时性需求。
72 0
「AIGC算法」大数据架构Lambda和Kappa
|
4月前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
4月前
|
分布式计算 算法 搜索推荐
Java中可以用的大数据推荐算法
在Java中实现大数据推荐算法,通常使用Apache Mahout、Weka、DL4J或Spark MLlib。本文简要介绍了三种推荐算法:基于内容的推荐、协同过滤推荐和深度学习推荐,以及它们的使用场景。提供了每种算法的伪代码或关键代码片段。基于内容的推荐适用于有用户历史行为和物品内容信息的场景,而协同过滤适用于大量用户行为数据的场景,深度学习推荐则用于处理复杂特征。在实现时,注意数据预处理、特征提取、用户画像构建和相似度计算。
107 1
|
3月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
|
5月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
AI大模型的核心成功因素通常可以归结为三大要素:大数据、大算力和强算法。
163 0

热门文章

最新文章

下一篇
无影云桌面