如题
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Reddit是我很喜欢的帖子社区,有非常多高质量内容,虽然官方API虽然能用,但对未认证应用或高频调用有限制。
如果直接爬取网页端,页面是动态加载的,而且Reddit对爬虫也比较敏感。
最近发现亮数据有针对Reddit的采集方案,可以使用他们的无代码抓取器,在后台配置好要采集的子版块(subreddit)名称和排序方式,它就能自动翻页抓取帖子列表。
对于需要评论的深度抓取,也可以配置相应的规则。这种方式绕过了API限制,也避免了自己处理动态页面和反爬的麻烦。