Python学习汇总,做数据采集的一些小技巧,干货满满

简介: 学习Python也有一段时间了,在学习过程中不断的练习学到的各类知识,做的最多的还是爬虫,也就是简单的数据采集,有采集图片(这个最多了。

Python学习汇总,做数据采集的一些小技巧,干货满满

学习Python也有一段时间了,在学习过程中不断的练习学到的各类知识,做的最多的还是爬虫,也就是简单的数据采集,有采集图片(这个最多了。。。),有下载电影的,也有学习相关的比如ppt模板的抓取,当然也写过类似收发邮件,自动登录论坛发帖,验证码相关操作等等!

这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,在此总结一下,也分享给正在学习的小伙伴

安装相关

python的各个版本其实分别并不大,所以不用太纠结用3.6还是3.7.

而我们经常使用的库呢,建议大家学到什么库安装什么库

有的同学会纠结,库安装不上的问题,这个推荐大家百度搜索:python whl 第一个就是吧,在里面有各个库的各个版本,选择对应的下载回来,用pip install 文件完整路径 安装即可!

例如:pip install d:\requests_download-0.1.2-py2.py3-none-any.whl

最基本的抓站——获取源代码

import requests#导入库

html = requests.get(url)#获取源代码

html.encoding=’utf-8’#指定含中文的网页源代码编码格式,具体格式一般存在于源代码的meta标签内

适用于静态网页

网站反“反爬”

大部分的网站(各类中小型网站)都会需要你的代码有headers的信息,如果没有,会直接拒绝你的访问!大型网站反而很少,尤其是门户网站,比如新浪新闻、头条图集、百度图片的爬虫,基本没有什么反爬措施,相关内容可以看看我的其他文章!

而有反爬措施的网站,大部分可以按加入UA信息——加入HOST、Referer(反盗链)信息的顺序加入到headers数据(字典格式)中来尝试!代码格式 requeststs.get(url,headers=headers)

UA信息是浏览器信息,告诉对方服务器我们是什么浏览器,平时可以收集下相关信息做个UA池,需要的时候调用就可以,也可以随机调用,防止被网站发现,注意的是如果是移动端,一定要注意移动端的网页和pc端的不一样,比如做微博爬虫,我们就比较喜欢移动端,它的反爬力度比pc端的要低很多,也提醒大家,如果一个网站反爬很厉害,你可以去看看移动端(手机登录然后复制url),也许会有惊喜!

Python学习汇总,做数据采集的一些小技巧,干货满满

HOST信息, 网站的主机信息,这个一般是不变的

Referer信息 ,这个就是“反盗链”的关键信息,简单的说,就是你是从哪里到当前页面的,破解也很简单,把url放到里面就行!

如果上述办法还是绕不过反爬,那么就麻烦一些,把headers里面的信息都写进去吧

终极反“反爬”:去学习selenium吧少年!

保存文件

其实可以简单的分两大类:字符串内容保存和其他内容保存!简单的2行代码就可以解决

Python学习汇总,做数据采集的一些小技巧,干货满满

a+为文末追加写入模式,适用于字符串内容的写入,注意排版,也可以在’a+’后面添加参数encoding=’utf-8’指定保存文本的编码格式

wb为二进制写入模式,适用于找到对象的真实下载地址后用二进制方式下载文件

Python学习汇总,做数据采集的一些小技巧,干货满满

未完待续

篇幅有限,本来想写完的,但是有人和我说,写的太多没人看。。。这就很尴尬了!那就先写到这里吧!

也正好有时间重新整理下后面的内容,大概有:自动登录(cookie池)和保持登录、ip代理、验证码(这个是大项)以及scarpy框架的一些注意事项。

有其他技巧或者疑问的同学,也可以评论或者私信我,咱们一起讨论哦!

相关文章
|
1月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1078 1
|
1月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
294 0
|
1月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
163 1
|
1月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
249 1
|
1月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
356 0
|
1月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
1月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
3月前
|
机器学习/深度学习 新能源 调度
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
336 1
|
3月前
|
缓存 API 网络架构
淘宝item_search_similar - 搜索相似的商品API接口,用python返回数据
淘宝联盟开放平台中,可通过“物料优选接口”(taobao.tbk.dg.optimus.material)实现“搜索相似商品”功能。该接口支持根据商品 ID 获取相似推荐商品,并返回商品信息、价格、优惠等数据,适用于商品推荐、比价等场景。本文提供基于 Python 的实现示例,包含接口调用、数据解析及结果展示。使用时需配置淘宝联盟的 appkey、appsecret 和 adzone_id,并注意接口调用频率限制和使用规范。
|
2月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。

推荐镜像

更多