记爬虫小分队(三)

简介: 2017年4月20日 关于童鞋抓取简书文章阅读和评论的问题(喜欢也是一样的)!童鞋们发现写的xpath爬取不到,有的时候不要怀疑自己写错了(检查一次代码没写错,那就是没写错)。
  • 2017年4月20日 关于童鞋抓取简书文章阅读和评论的问题(喜欢也是一样的)!


    img_df51522b833440e99100e1150f86069b.png

    童鞋们发现写的xpath爬取不到,有的时候不要怀疑自己写错了(检查一次代码没写错,那就是没写错)。我们这时候去看网页源代码,会发现这些字段的数据在script标签中,算是异步加载了,我们这里考虑正则来抓取。


    img_4676fc172df0ece8a89f1524ca963e00.png
  • 但童鞋不会正则啊,那这次简单入下门
    1.我们先学(.?)的用法,例如罗罗攀这个文本信息,我可以写为罗(.?)攀,这样就能提取罗这个文本。类似的,评论量我可以通过
'"comments_count":(.*?),'

来提取数字信息。
2.re模块使Python语言拥有全部的正则表达式功能。findall函数匹配所有符合规律的内容,并以列表的形式返回结果,举个栗子

import re
text = re.findall('罗(.*?)攀','罗罗攀')[0] #第一个参数为正则表达式,第二个为文本信息
print(text)
#result 罗

所以爬取评论量可写为:

comment = re.findall('"comments_count":(.*?),',html.text,re.S)[0]
#re.S表示换行了也可以继续匹配

正则表达式常用符号有很多,大家可在网上找到,这里给大家一个网址:正则表达式学习

相关文章
|
数据采集 Python
记爬虫小分队(一)
2017年4月17日晚8点,爬虫小分队开幕仪式,同学们都很热情,部分学生也在Python爬虫作业专题中写下自己的期望,有一个学生把学Python写为“青苔计划”,深受感发,这就是Python的魅力所在吧。
944 0
|
数据采集 数据格式 JSON
记爬虫小分队(二)
2017年4月19日,关于简书收录专题爬取的思路。 1.首先是异步加载,这里就不多说,就是找包,下图为收录专题的加载的包。 2.可在Preview中看到json数据的格式,我们可以看到一个total_page,这个为收录专题的总页数(非常重要!!!!)。
906 0
|
数据采集 算法 Python
记爬虫小分队(四)
2017年4月27日 付费的运营群也有许多人不学习,一组进度很慢,五一进行一下小培训,给一组补下课。 群主的《深夜代码有毒》看了后,很是感慨,一群忙碌爱学习的人聚在了一起,让生活多了几分色彩。
988 0
|
存储 数据采集
记爬虫小分队(五)
有点标题党 2017年4月29日 程兄说,五一的标配是和女神游山玩水,你这样说了,那我就免为其难的秀一波,希望你不要打我。 2017年4月30日 第一次在熊猫开直播讲爬虫入门,以前有人在网吧看新闻联播,画CAD,学习,今天也是做了一次网吧的清流。
1029 0
|
数据采集 Python
Python爬虫小分队第二期招募贴
花开花落 云卷云舒,爬虫小分队第一期顺利结束。满满回忆涌上心头,第一次催同学交作业、第一次被叫罗指导、第一次完整辅导同学、第一次在熊猫tv给大家直播撸代码......很多第一次尝试都给了你们,也留给了我自己。
1360 0
|
Web App开发 数据采集 Windows
记爬虫小分队(六)
2017年5月18日 今天有同学问我贴吧为什么信息提取不出来? 下面是同学的源代码: import requests from bs4 import BeautifulSoup start_url = "http://tieba.
823 0
|
数据采集 大数据 Python
Python爬虫小分队第四期招募帖
产品运营的时代到了 刚开始老大准备开线上培训的时候,就说过,希望把这个培训当做一个产品好好运营,而这个事情终于在第四期开始拉开帷幕。 现在有了专业的推广运营的人,有了自己的logo,当然也有我们这些昔日陪伴大家的技术人员(嘿嘿嘿,表示夸奖自己一波)。
1367 0
|
3月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
3月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
193 6
|
3月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
152 4