简书非官方大数据新思路

简介: 爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。专题URL这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。

爬虫小分队的终极大任务就是简书大数据,以前也做过一次,阅读量也还可以。前段时间简书也是融资成功,简书也有一些改动,这次做分析也是一个不错的机会。

专题URL

这部分是没有变得,因为简书没有用户管理的url,我们只能从专题URL入手,依旧是热门和城市。


3629157-7f03ae44cb6324f4.jpg

专题管理员URL

这部分就是新的思路,之前是爬取专题文章的作者,然后爬取作者的粉丝,这部分做完爬取对象。这次是先爬取专题管理员URL作为第一层用户,这部分是异步加载的,还有就是首页的和其他的专题在异步加载的url有所不同(这个大家找包的时候就知道了)。


3629157-fac77ce5118b373f.jpg

img_c3531619aaa2b85c2b54c800153bb094.png

粉丝和关注URL

我们可以这样想,基本上管理员的粉丝都会很多,这部分大多像我们一样,吃瓜群众;还有同行间的话,就是关注用户,这样双向传递,可以爬取大部分用户(还是有一些用户爬不到)。


3629157-d83e23b72ddb1d01.jpg

优点和缺点

这种方法比爬取文章会快很多,重复的数据也会少很多(因为用户会投多篇文章)。缺点就是可能数据会不全。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
Web App开发 大数据 Windows
简书非官方大数据(三)
最近回老家了一趟,爬取简书的程序也就停下来了,回到长沙继续爬,很高兴的爬到了300W左右,导出来一看,好多重复的,我记得我说过设置过的,拿到代码一看,晕: 插入的是author_infos表,但判断却是author_url表,然后我就打算去重后调用url爬取用户详细信息,可耐mongodb去重不会,自己百度了下也没搞明白;再者,向右前辈说我爬取字段太少,那我就想重新修改爬取好了(已哭晕在厕所)。
917 0
|
数据采集 Web App开发 大数据
简书非官方大数据(二)
PS:这条很重要,我的文章中所说的大数据并不是现在很火的大数据话题,前几天看过一篇大数据的文章,简单来说:当一台电脑没法处理或你现在的条件没法处理的数据就可以谈的上大数据了,这个没有指定的数据量。
965 0
|
大数据
简书非官方大数据(一)
昨天安稳的开始了Python数据分析的学习,向右奔跑前辈问我有没有兴趣搞下简书用户的爬取和数据分析,像我这种爱好学习(不行,让我吐一下),当然是答应了。说实话,这个实战对我来说,难度很大: 1 数据的获取 :我爬取最大的数据也就是20W+,简单的scrapy还能写一点,但简书用户量巨大,第一次尝试百万级甚至千万级数据的爬取。
857 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
11天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
14 3

热门文章

最新文章