Python爬虫系列(一)初期学习爬虫的拾遗与总结-阿里云开发者社区

开发者社区> 茶花盛开> 正文

Python爬虫系列(一)初期学习爬虫的拾遗与总结

简介: Python爬虫系列(一)初期学习爬虫的拾遗与总结
+关注继续查看

一、环境搭建和工具准备

1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda

2、IDE:Pycharm、Pydev

3、工具:Jupyter Notebook(安装完Anaconda会有的)

二、Python基础视频教程

1、疯狂的Python:快速入门精讲(Python2.x,可体验到与Python3.x的差异)

2、零基础入门学习Python

看完这些课程,自己对Python有一个感觉和掌握,可以继续看一些进阶教程

3、Python3大全(pasword:bf3e)

三、Python爬虫视频教程

1、Python网络爬虫实战

2、Python3爬虫三大案例实战分享

四、Python爬虫的相关连接

1、python爬虫的最佳实践

2、Python网络爬虫实战项目代码大全

3、零基础制作一个Python 爬虫

4、Python爬虫入门

5、Python3

7、抓取斗鱼tv的房间信息

如果你想学习Python可以来这个群,首先是四七二,中间是三零九,最后是二六一,里面有大量的学习资料可以下载。

五、正则表达式和BeautifulSoup、PhatomJS +Selenium的使用

1、Python爬虫小白入门

2、轻松自动化---selenium-webdriver(python)

3、 Python 正则表达式 re 模块简明笔记

4、【Python 笔记】selenium 简介

5、Selenium Webdriver定位页面元素的几种方式

6、 Python爬虫利器Selenium+PhantomJS系列入门

7、Python爬虫入门(7):正则表达式

六、自己爬取新浪新闻相关信息的实战

Python爬虫系列(一)初期学习爬虫的拾遗与总结

爬取页面

我直接把源码贴在这里了,是参考Python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re

import json

import requests

#js抓取新闻评论信息

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\

channel=gn&newsid=comos-{}&\

group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700'

def getCommentCounts(newsurl):

#获取新闻id

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

#根据新闻id获取评论信息

comments=requests.get(commentURL.format(newsid))

#将信息解析为json格式

jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700='))

return jd['result']['count']['total']

Python爬虫系列(一)初期学习爬虫的拾遗与总结

新闻内文信息抽取函数

import requests

from datetime import datetime

from bs4 import BeautifulSoup

def getNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')

timesource=soup.select('.time-source')[0].contents[0].strip()

result['dt']=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['source']=soup.select('.time-source span a')[0].text

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑:')

return result

Python爬虫系列(一)初期学习爬虫的拾遗与总结

七、感想

这些天学习下来,Python爬虫思路和套路很明确,主要是我们要对不同网站(反爬等)设计不同爬取路线和方法,但是还是要求自己总结方法和积累知识吧,还有一点自己也希望能把爬虫运用到实际生活或者应用中(如果单纯的抽取一个网页信息其实没多大意思),比如尝试应用到批量下载一个网站的图片或者文件等等,让爬虫为我们服务。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
python爬虫:scrapy命令失效,直接运行爬虫
python爬虫:scrapy命令失效,直接运行爬虫
21 0
Python的数据类型总结
下面的表格中列出了已经学习过的数据类型,也是python的核心数据类型之一部分,这些都被称之为内置对象。 对象类型 举例 int/float 123, 3.
673 0
基于python的Scrapy爬虫框架实战
基于python的Scrapy爬虫框架实战 2018年7月19日笔记 1.伯乐在线 网站页面如下图所示: 网站页面.png 1.1 新建爬虫工程 命令:scrapy startproject BoleArticle 新建爬虫工程命令 命令:scrapy genspider article "blog.jobbole.com" 注意:运行此命令时必须在爬虫工程文件夹内,如下图路径所示。
1286 0
python3中,os.path模块下常用的用法总结
abspath basename dirname exists getatime getctime getmtime getsize isabs isdir isfile islink ismount join realpath samefile sameopenfile split splitext abspath 返回一个目录的绝对路径 Return an absolute path.
777 0
Python爬虫-小测验
一、 使用scrapy.Selector或BeautifulSoup,实现以下需求(30分) (1)读取给定的dangdang.html页面内容,注:编码为gbk(5分) (2)获取页面中所有图书的名称,价格,作者,出版社及图书图片的url地址(...
1009 0
python实现简易采集爬虫
#!/usr/bin/python #-*-coding:utf-8-*- # 简易采集爬虫 # 1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站 # 2.
1175 0
+关注
茶花盛开
web前端新手群291851189
218
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载