Spark修炼之道系列教程预告
课程内容
Spark修炼之道(基础篇)——Linux基础(15讲)、Akka分布式编程(8讲)
Spark修炼之道(进阶篇)——Spark入门到精通(30讲)
Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)
Spark修炼之道(高级篇)——Spark源码解析(50讲)
部分内容会在实际编写时动态调整,或补充、或删除。
Spark修炼之道(基础篇)—
协同过滤算法 R/mapreduce/spark mllib多语言实现
用户电影评分数据集下载
http://grouplens.org/datasets/movielens/
1) Item-Based,非个性化的,每个人看到的都一样2) User-Based,个性化的,每个人看到的不一样对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。
spark (java API) 在Intellij IDEA中开发并运行
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。
分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行。Github项目源码
图1,直接在intellij IDEA(社区版)
开源大数据周刊-第19期
本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss
浅谈PyODPS
在我看来,PyODPS就是阿里云上的Python。值得注意的是,这里的定语“阿里云上的”一定不能精简掉,因为PyODPS不等于单机版的Python!