SR方式挖掘豆瓣热点

简介:

郑昀@玩聚SR 20090430

无意中看到M Jia在《豆瓣好友热点 v0.2.3》中提及:

“以前很喜欢看Techmeme/Digg这样的聚合/社区工具,现在超级喜欢Hacker News和Reddit Programming,简洁又超级有活力(虽然我不太能参乎进去,呵呵),如果能够使用玩聚SR的方式来作豆瓣上的“物”并加上豆瓣原来就有的社区,可以非常简洁并有活力,我会非常喜欢,不过我代表不了广大用户。”

顺着他的这个思路,那么如何一步一步做呢:

case:豆瓣热点
  • 步骤
    • 找到豆瓣上的核心用户,给予一定权重
    • 根据douban-python-API获取这些核心用户的所有朋友
    • 判断这些用户的最新活动时间,如果最近一星期内有更新,则加入到监测
    • 为之分门别类建立Group,以便按照兴趣打包订阅
    • 获取所有监测用户的广播,这是公开的
    • 汇总所有监测用户的推荐,一个推荐或提及就代表投了一票
      • site
      • recommendation
        • 看过
        • 想看
    • 设定一个投票上榜的最低阈值
    • 参考玩聚SR 的SRRank公式(SRRank=log10Z+ts/45000),设定自己排序规则
    • 为每一个Group都生成对应的热点榜单
    • 如果热点是电影或音乐,到VeryCD搜索获取对应的下载项
  • mashup
  • 缺点
    • 豆瓣的数据很零散,长尾太长,难以发现与时俱进的、有效的What's Hot
    • 顶多也就是被人回应比较多的Item
    • 甚至未见得最终挖掘效果比得过豆瓣电影首页的效果
    • 多数人都是想读想看看过之类的信息,用到“推荐”功能的不多
    • 豆瓣API有访问频次限制,小心别被block
目录
相关文章
|
自然语言处理 BI 数据处理
【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果
【数据对比】综合分析百度情感分析以及华为情感分析的差异,我有了如下结果
402 0
|
6月前
|
SQL 存储 数据库
数据聚合大揭秘!Python如何一键整合海量信息,洞察数据背后的秘密?
【7月更文挑战第21天】在数据驱动时代,Python以强大库支持,如Pandas与SQLAlchemy,轻松聚合分析海量信息。Pandas简化数据整合,从CSV文件加载数据,利用`pd.concat()`合并,`groupby()`进行聚合分析,揭示销售趋势。SQLAlchemy则无缝链接数据库,执行SQL查询,汇总复杂数据。Python一键操作,开启数据洞察之旅,无论源数据格式,均能深入挖掘价值。
90 0
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
5月前
|
机器学习/深度学习 SQL 数据采集
"解锁机器学习数据预处理新姿势!SQL,你的数据金矿挖掘神器,从清洗到转换,再到特征工程,一网打尽,让数据纯净如金,模型性能飙升!"
【8月更文挑战第31天】在机器学习项目中,数据质量至关重要,而SQL作为数据预处理的强大工具,助力数据科学家高效清洗、转换和分析数据。通过去除重复记录、处理缺失值和异常值,SQL确保数据纯净;利用数据类型转换和字符串操作,SQL重塑数据结构;通过复杂查询生成新特征,SQL提升模型性能。掌握SQL,就如同拥有了开启数据金矿的钥匙,为机器学习项目奠定坚实基础。
51 0
|
7月前
|
缓存 应用服务中间件 API
FM全网自动采集聚合影视搜索源码
FM 全网聚合影视搜索(响应式布局),基于 TP5.1 开发的聚合影视搜索程序,本程序无数据库,本程序内置P2P 版播放器,承诺无广告无捆绑。片源内部滚动广告与本站无关,谨防上当受骗,资源搜索全部来自于网络。
124 1
|
8月前
|
数据采集 前端开发 数据挖掘
Fizzler库+C#:从微博抓取热点的最简单方法
本文介绍如何使用Fizzler库和C#构建微博热点信息爬虫。通过Fizzler的CSS选择器定位关键信息,提取热点标题和排名,实现微博内容的智能挖掘。示例代码展示单线程和多线程采集方法,并涉及代理IP使用。
Fizzler库+C#:从微博抓取热点的最简单方法
|
8月前
|
数据采集 存储 JavaScript
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
豆瓣评分9.8!阿里内部的分布式架构手册让多少人突破了瓶颈?
没有家族和宗门的帮助,多少天才卡在分布式境界不善而终,今日吾打破自身枷锁,领悟分布式系统法则,突破此境界
豆瓣评分9.8!阿里内部的分布式架构手册让多少人突破了瓶颈?
AppsFlyer 研究(十二)Google Ads MCC 配置统计应用转化
AppsFlyer 研究(十二)Google Ads MCC 配置统计应用转化
|
存储 缓存 自然语言处理
推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐
推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐
推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐