Python爬虫：学了requests库和re库之后能做的事情-阿里云开发者社区

Python爬虫：学了requests库和re库之后能做的事情

2017-05-01 1002

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 学习的最好模式，就是学了就去马上用。上次是学完了urllib和re库之后尝试爬取了豆瓣分享的书单，那个时候发现urllib这个标准库还是不太好使。今天刚学了requests这个更好用的库之后，尝试和re一起使用爬取简书的第一页。

学习的最好模式，就是学了就去马上用。上次是学完了urllib和re库之后尝试爬取了豆瓣分享的书单，那个时候发现urllib这个标准库还是不太好使。今天刚学了requests这个更好用的库之后，尝试和re一起使用爬取简书的第一页。

第一步：获取响应
使用的requests非常简单，非常人性化的get功能。

import requests
# 获取respnose
headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.jianshu.com'
}
url = 'http://www.jianshu.com/'
response = requests.get(url,headers)
print(response.status_code)
context = response.text

第二步：从网页中提取目标信息
这一步主要涉及到观察网页构造，然后使用正则表达式

我的目标是：

作者
题目
文章简单内容
一些tag

先尝试构建获取作者的正则表达式

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>',re.S)
re.findall(pattern,context)
#得到的结果
['\n',
 '马力_可能性与大设计',
 '文艺女青年专治各种不服',
 '杨壳壳',
 '投资人日知录',
 '白发老蘭',
 '2020号',
 '无戒',
 '大胃黄咚咚',
 'Aicuuu',
 '婉悦悠然',
 'MadisonT',
 '小荐荐',
 '会啊哦的跳跳虫',
 '梦旅人rose',
 '吴益军子',
 '饱醉豚',
 '张涔汐',
 '笙和箫',
 '手机壳0207',
 '雪花如糖']

一鼓作气，构建所有的目标信息的正则表达式模式：

pattern = re.compile('<li.*?"name">.*?>(.*?)</a>.*?"title".*?>(.*?)</a>.*?act">(.*?)</p>.*?/i>(.*?)</a>',re.S)
results = re.findall(pattern,context)
for info in results:
    author,title,abstract,read_num = info
    author = re.sub('\s','',author)
    title = re.sub('\s','',title)
    print(author,title,abstract,read_num )

部分爬取结果

下一步学习计划

re模块虽然好用，但是写起来还是麻烦，所以要去学习beautifulsoup等解析库，换一种提取数据方式
目前的数据没有采用合理的保存方式，所以下一步要去了解一下如何合理保存数据

Python爬虫：学了requests库和re库之后能做的事情

下一步学习计划

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python爬虫：学了requests库和re库之后能做的事情

下一步学习计划

热门文章

最新文章

相关课程

相关电子书

推荐镜像