这个月主要在关注流式处理和推荐系统方面的技术。如何从零构建一个推荐系统?网上能找到的有指导意义的资料太少,只能一点点摸索?
Spark
- LeanCloud 离线数据分析功能介绍
- Spark在腾讯数据仓库TDW的应用 http://www.biaodianfu.com/spark-tdw.html
- Spark on Yarn:小火花照亮大数据 http://rdc.taobao.org/?p=512
- Spark on Yarn:性能调优 http://rdc.taobao.org/?p=533
Spark 教程
- Spark Shell Examples https://altiscale.zendesk.com/hc/en-us/articles/202627136-Spark-Shell-Examples
- http://www.javacodegeeks.com//?s=spark
- Spark SQL join 的例子:https://gist.github.com/ceteri/11381941
- Spark Cook Book:http://www.infoobjects.com/spark-cookbook/
Spark做推荐系统
- spark机器学习 http://blog.selfup.cn/category/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0
- Spark MLlib系列(一):入门介绍 http://blog.csdn.net/shifenglov/article/details/43762705
- Spark MLlib系列(二):基于协同过滤的电影推荐系统 http://blog.csdn.net/shifenglov/article/details/43795597
- Spark机器学习库mllib之协同过滤 http://blog.csdn.net/oopsoom/article/details/34462329
- 快刀初试:Spark GraphX在淘宝的实践 http://www.csdn.net/article/2014-08-07/2821097
- “Spark上流式机器学习算法实现”终期检查报告 http://blog.csdn.net/zhangyuming010/article/details/38364867
- Spark 0.9.1 MLLib 机器学习库简介 http://rdc.taobao.org/?p=2163
- Spark MLlib 概念 6:ALS(Alternating Least Squares) or (ALS-WR) http://www.cnblogs.com/zwCHAN/p/4269027.html
- MLlib实践经验(1) http://yanbohappy.sinaapp.com/?p=498
- 研究机器学习之MLlib实践经验 http://www.hengha.info/blog/home/view/id/31003
- 协同过滤算法在MapReduce与Spark上实现对比 http://data.qq.com/article?id=823
- ItemBased with Spark http://weikey.me/articles/187.html
- Collaborative Filtering with Spark http://www.slideshare.net/MrChrisJohnson/collaborative-filtering-with-spark
- Movie Recommendations and More With Spark http://mlnick.github.io/blog/2013/04/01/movie-recommendations-and-more-with-spark/
- Movie Recommendation with Mllib https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html
- 基于ALS算法的简易在线推荐系统 http://ju.outofmemory.cn/entry/110756
- ALS 在 Spark MLlib 中的实现 http://dataunion.org/16856.html
- 阿基米德项目ALS矩阵分解算法应用案例 https://github.com/ceys/jdml/wiki/ALS
- ALS矩阵分解推荐模型 http://www.wfuyu.com/server/22823.html
- 协同过滤之ALS-WR算法 http://www.fuqingchuan.com/2015/03/812.html
- Spark上矩阵运算库 http://blog.csdn.net/u014252240/article/category/2384017
- 用MongoDB和Spark实现电影推荐 http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommend
- 基于Spark构建推荐引擎之一:基于物品的协同过滤推荐 http://blog.csdn.net/sunbow0/article/details/42737541
- 2015的 spark-summit ,使用 Spark 实时推荐系统:http://spark-summit.org/wp-content/uploads/2015/03/SSE15-18-Neumann-Alla.pdf
- 基于PredictionIO的推荐引擎打造,及大规模多标签分类探索 http://www.uml.org.cn/yunjisuan/2015041410.asp
- PDF:MLlib: Scalable Machine Learning on Spark http://stanford.edu/~rezab/sparkworkshop/slides/xiangrui.pdf
- 使用Spark的MLlib、Hbase作为模型、Hive作数据清洗的核心推荐引擎,在Spark on Yarn测试通过 https://github.com/wbj0110/spark_resrecomend
推荐系统
- 推荐算法总结Recommendation http://blog.csdn.net/oopsoom/article/details/33740799
- Collaborative Filtering and Recommender Systems By Navisro Analytics,里面有推荐系统的步骤 http://www.slideshare.net/navisro/recommender-system-navisroanalytics?related=1
- Item Based Collaborative Filtering Recommendation Algorithms http://www.slideshare.net/nextlib/item-based-collaborative-filtering-recommendation-algorithms?related=2
- 协同过滤CF推荐介绍 http://blog.sina.com.cn/s/blog_6e0035ad0102v26h.html
- Python 实现的机器学习库 scikit-learn:http://scikit-learn.org/stable/index.html
- @爱可可-爱生活 免费好书!《Practical Machine Learning: Innovations in Recommendation》机器学习&推荐系统:简单构建有效的推荐系统;借搜索技术创新应用部署大规模推荐系统;从实时数据中提取信息改进推荐系统的方法和技巧。超赞&推荐! https://www.mapr.com/practical-machine-learning 另:讨论推荐系统设计模式的文章: https://www.mapr.com/blog/design-patterns-recommendation-systems-%E2%80%93-everyone-wants-pony
- @InfoQ推荐系统中最核心的数据之一是 user profile 数据。我们需要从大量历史用户行为中分析和挖掘各种维度的特征,来刻画用户的兴趣偏好。在QCon北京2015 @今日头条 架构师丁海峰,将分享中会介绍今日头条 user profile 系统的现状,面临的问题,系统演进,以及技术架构中的关键问题。http://www.qconbeijing.com/track/2509
- @陈志武zwchen 电商网站用户,可分为两类:有购买欲望及明确购买目标,有购买欲望但无明确购买目标。前者为主动用户,决策较独立;后者为被动用户,需要被引导和刺激,协助其明确购买目标,如亚马逊强大的推荐系统,听说贡献了30%以上销售额。针对主动用户和被动用户,网站该如何设计呢?http://zwchen.iteye.com/blog/1439259
- 【重磅!大数据工程师 @飞林沙 的年终总结&算法数据的思考】一个优秀的推荐算法,一个优秀的推荐系统的确可以为企业创造很多价值,曾经和某知名电商网站的数据总监交流,他们的推荐系统实实在在地把销售额增加了15%,但是过于神话迷恋推荐算法和过于看扁推荐算法都是一种偏激的行为 http://www.36dsj.com/archives/18821
- @AixinSG 今天读了两篇关于微博推荐的文章。对推荐系统了解不深,感觉微博推荐应该是个非常困难的问题。推荐的不是普通的item而是”人”, 一个人有多重身份,一般需要一个较长的熟悉过程,还有线上线下两个不同的交际圈子,增加了信息不对等。关注一个人也有累加的时间成本,得到的信息是否能抵消成本也是一个问题。 也谈谈新浪微博可能感兴趣的人
- @朝花夕拾录:最近看了几个推荐系统的文章,http://bigdata.memect.com/?tag=recommendationsystems 有入门级的教程,讲解推荐系统的经典解决方案,还有进阶体验,介绍如何在大数据平台(Hadoop,spark, mogodb)上形成实时推荐。还有两个搞笑的文案调侃推荐系统的用户体验。
- 使用Oryx和CDH进行个性化推荐 http://weikey.me/articles/222.html
- Myrrix 分布式推荐 http://weikey.me/articles/197.html
- 使用Mahout Kmeans算法进行中文聚类 http://weikey.me/articles/133.html
- 漫谈“推荐系统” http://youngfor.me/post/recsys/man-tan-tui-jian-xi-tong
- 推荐系统经典论文文献及业界应用
- 自己动手写一个推荐系统 http://www.cnblogs.com/flclain/archive/2013/03/03/2941397.html
- 什么是好的推荐系统 http://guoze.me/2015/01/29/good-recommendation/
- 58同城的大数据环境下实现一个O2O通用推荐引擎的实践 http://www.tuicool.com/articles/3MFBfq
- 58同城推荐系统架构设计与实现 http://chuansong.me/n/949426
- 构建一个基于del.icio.us的链接推荐系统 http://lazynight.me/2740.html
- 基于协同过滤构建简单推荐系统 http://blog.csdn.net/database_zbye/article/details/8664516
- 使用Python简易推荐系统的构建 http://linux.readthedocs.org/zh_CN/latest/docsource/publication/alpha2/#id7
- 微博推荐算法简述 http://www.wbrecom.com/?p=80
- 使用 Azure、Hadoop 和 Mahout 构建一个推荐系统 http://www.oschina.net/translate/building-a-recommendation-engine-machine-learning
- Netflix的推荐和个性化系统架构 http://blog.sina.com.cn/s/blog_7ebae53b0101bnuy.html
- 探索推荐引擎内部的秘密 http://blog.sae.sina.com.cn/archives/2706
- 美团推荐算法实践 http://tech.meituan.com/mt-recommend-practice.html
- 百分点推荐引擎——从需求到架构 http://www.infoq.com/cn/articles/baifendian-recommendation-engine
- QConShanghai2013-杨浩-360推荐系统实践.pdf http://vdisk.weibo.com/s/A0GI9rYhL4I2
- 大规模电商推荐系统应用经验分享 http://vdisk.weibo.com/s/udVGwtAAA4xz4
- 打造最适合产品的推荐系统 http://vdisk.weibo.com/s/BPySloeWUaiZ4
- 爱奇艺推荐系统的整体技术架构 http://edu.51cto.com/lesson/id-56393.html
- 推荐系统架构小结 http://blog.csdn.net/idonot/article/details/7996733
- 淘宝推荐系统的学习 http://www.biaodianfu.com/taobao-recommendation-system.html
- 协同过滤算法:在线推荐系统如何工作? http://www.csdn.net/article/2013-01-30/2814014-Collaborative-Filtering
- 一个完整推荐系统的设计实现-以百度关键词搜索推荐为例
- 活用您的 Big Data,實現線上服務行銷的精準推薦 http://www.slideshare.net/etusolution/big-data-13084872
- 推荐系统规划 http://www.slideshare.net/2005000613/ss-16169751?qid=4f0d8f9f-8b65-4d60-9685-5464a4b7b731
- Github 上大数据/数据挖掘/推荐系统/机器学习相关资源 https://github.com/Flowerowl/Big-Data-Resources
- 基于项目流行度的协同过滤TopN推荐算法
- 计算准确率、召回率、覆盖率 http://wuchong.me/blog/2014/04/19/recsys-cf-study/ http://my.oschina.net/zhangjiawen/blog/185625
个性化推荐
- @爱可可-爱生活 [文章]《Personalized Recommendations at Etsy》https://codeascraft.com/2014/11/17/personalized-recommendations-at-etsy/ 介绍Etsy采用的个性化推荐算法,包括矩阵分解、交替最小二乘、随机SVD和局部敏感哈希等
- @爱可可-爱生活 [文章]《Pinnability: Machine learning in the home feed》http://engineering.pinterest.com/post/114138410669/pinnability-machine-learning-in-the-home-feed 介绍Pinterest的Pinnability,基于机器学习提供个性化内容(推荐)列表
- @付聪_BenFrank:主流商品往往代表了绝大多数用户的需求,而长尾商品往往代表了一小部分用户推荐系统的个性化需求。因此,如果要通过发掘长尾提高销售额,就必须充分研究用户的兴趣,而这正是个性化推荐系统主要解决的问题。
- @6弗恩er:今日头条是一款基于数据化挖掘的个性化信息推荐引擎。根据微博行为、阅读行为、地理位置、职业年龄等挖掘出兴趣。用户每次动作后,10秒内更新用户模型。对每条信息提取几十个到几百个高维特征进行降维、相似计算、聚类等去重;通过大数据的处理进行个性化推荐,使用户无需设置,即可享受高质量信息
- 大数据系列文章第2篇——大数据之“用户行为分析”:http://36kr.com/p/205901.html
- 个性化推荐技术的十大挑战:http://www.programmer.com.cn/13824/
- 个性化推荐系统的简单实现:http://www.slideshare.net/ssusera62527/ss-36914732
- 用Kiji构建实时、个性化推荐系统:http://www.infoq.com/cn/articles/kiji
- 一种基于LBS的移动个性化推荐系统:http://wenku.baidu.com/view/7f6bb028482fb4daa58d4b39.html
- 基于大规模隐式反馈的个性化推荐 http://www.jos.org.cn/html/2014/9/4648.htm
流式处理
- 江南白衣Calvin 写的《Storm笔记》,非常详细:http://calvin1978.blogcn.com/articles/stormnotes.html
- How Edmunds.com Used Spark Streaming to Build a Near Real-Time Dashboard
- Storm常见模式
- Hadoop Streaming程序基础 http://blog.pureisle.net/archives/1760.html
- Hadoop Streaming 实战: 输出文件分割 http://blog.csdn.net/yfkiss/article/details/6406432
- Hadoop Streaming原理及实践 http://shiyanjun.cn/archives/336.html
- Hadoop-Streaming实战经验及问题解决方法总结 http://www.crazyant.net/1122.html
总结: 作为一个程序员,最重要的能力是自我学习、归纳、总结,知识在于总结而不是分享。如何把大量看到的、听到的信息、知识、笔记等转化为自己的经验值,是需要认真考虑的一件事情。