Python爬虫系列(一)初期学习爬虫的拾遗与总结

简介: Python爬虫系列(一)初期学习爬虫的拾遗与总结

一、环境搭建和工具准备

1、为了省去时间投入学习,推荐直接安装集成环境 Anaconda

2、IDE:Pycharm、Pydev

3、工具:Jupyter Notebook(安装完Anaconda会有的)

二、Python基础视频教程

1、疯狂的Python:快速入门精讲(Python2.x,可体验到与Python3.x的差异)

2、零基础入门学习Python

看完这些课程,自己对Python有一个感觉和掌握,可以继续看一些进阶教程

3、Python3大全(pasword:bf3e)

三、Python爬虫视频教程

1、Python网络爬虫实战

2、Python3爬虫三大案例实战分享

四、Python爬虫的相关连接

1、python爬虫的最佳实践

2、Python网络爬虫实战项目代码大全

3、零基础制作一个Python 爬虫

4、Python爬虫入门

5、Python3

7、抓取斗鱼tv的房间信息

如果你想学习Python可以来这个群,首先是四七二,中间是三零九,最后是二六一,里面有大量的学习资料可以下载。

五、正则表达式和BeautifulSoup、PhatomJS +Selenium的使用

1、Python爬虫小白入门

2、轻松自动化---selenium-webdriver(python)

3、 Python 正则表达式 re 模块简明笔记

4、【Python 笔记】selenium 简介

5、Selenium Webdriver定位页面元素的几种方式

6、 Python爬虫利器Selenium+PhantomJS系列入门

7、Python爬虫入门(7):正则表达式

六、自己爬取新浪新闻相关信息的实战

Python爬虫系列(一)初期学习爬虫的拾遗与总结

爬取页面

我直接把源码贴在这里了,是参考Python网络爬虫实战课程做下来的

新闻评论数抽取函数

import re

import json

import requests

#js抓取新闻评论信息

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&\

channel=gn&newsid=comos-{}&\

group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1491395188566_53913700'

def getCommentCounts(newsurl):

#获取新闻id

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

#根据新闻id获取评论信息

comments=requests.get(commentURL.format(newsid))

#将信息解析为json格式

jd=json.loads(comments.text.strip('var loader_1491395188566_53913 700='))

return jd['result']['count']['total']

Python爬虫系列(一)初期学习爬虫的拾遗与总结

新闻内文信息抽取函数

import requests

from datetime import datetime

from bs4 import BeautifulSoup

def getNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')

timesource=soup.select('.time-source')[0].contents[0].strip()

result['dt']=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['source']=soup.select('.time-source span a')[0].text

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.lstrip('责任编辑:')

return result

Python爬虫系列(一)初期学习爬虫的拾遗与总结

七、感想

这些天学习下来,Python爬虫思路和套路很明确,主要是我们要对不同网站(反爬等)设计不同爬取路线和方法,但是还是要求自己总结方法和积累知识吧,还有一点自己也希望能把爬虫运用到实际生活或者应用中(如果单纯的抽取一个网页信息其实没多大意思),比如尝试应用到批量下载一个网站的图片或者文件等等,让爬虫为我们服务。

相关文章
|
1天前
|
Python
python pandas学习(一)
该代码段展示了四个主要操作:1) 删除指定列名,如商品id;2) 使用正则表达式模糊匹配并删除列,例如匹配订单商品名称1的列;3) 将毫秒级时间戳转换为带有时区调整的日期时间格式,并增加8小时以适应本地时区;4) 将列表转换为DataFrame后保存为Excel文件,文件路径和名称根据变量拼接而成。
12 3
|
1天前
|
数据采集 存储 数据挖掘
深入剖析 Python 爬虫:淘宝商品详情数据抓取
深入剖析 Python 爬虫:淘宝商品详情数据抓取
|
4天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
2月前
|
Python 容器
Python学习的自我理解和想法(9)
这是我在B站跟随千锋教育学习Python的第9天,主要学习了赋值、浅拷贝和深拷贝的概念及其底层逻辑。由于开学时间紧张,内容较为简略,但希望能帮助理解这些重要概念。赋值是创建引用,浅拷贝创建新容器但元素仍引用原对象,深拷贝则创建完全独立的新对象。希望对大家有所帮助,欢迎讨论。
|
30天前
|
数据采集 JSON 数据格式
Python爬虫:京东商品评论内容
京东商品评论接口为商家和消费者提供了重要工具。商家可分析评论优化产品,消费者则依赖评论做出购买决策。该接口通过HTTP请求获取评论内容、时间、点赞数等数据,支持分页和筛选好评、中评、差评。Python示例代码展示了如何调用接口并处理返回的JSON数据。应用场景包括产品优化、消费者决策辅助、市场竞争分析及舆情监测。
|
2月前
|
Python
Python学习的自我理解和想法(10)
这是我在千锋教育B站课程学习Python的第10天笔记,主要学习了函数的相关知识。内容包括函数的定义、组成、命名、参数分类(必须参数、关键字参数、默认参数、不定长参数)及调用注意事项。由于开学时间有限,记录较为简略,望谅解。通过学习,我理解了函数可以封装常用功能,简化代码并便于维护。若有不当之处,欢迎指正。
|
1月前
|
数据可视化 数据挖掘 大数据
1.1 学习Python操作Excel的必要性
学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集,突破Excel行数限制;提供丰富的库实现复杂数据分析和自动化任务,显著提高效率。掌握这项技能不仅能提升个人能力,还能为企业带来价值,减少人为错误,提高决策效率。推荐从基础语法、Excel操作库开始学习,逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识,关注新技术,为职业发展奠定坚实基础。
|
1月前
|
数据采集 供应链 API
Python爬虫与1688图片搜索API接口:深度解析与显著收益
在电子商务领域,数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场,提供了丰富的API接口,特别是图片搜索API(`item_search_img`),允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口,提升搜索效率和用户体验,助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等,显著提高运营效率和市场竞争力。
89 3
|
2月前
|
数据采集 存储 缓存
如何使用缓存技术提升Python爬虫效率
如何使用缓存技术提升Python爬虫效率
|
2月前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。

推荐镜像

更多