浅析python爬虫(上)

简介: 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:

想系统/深入学习某技术知识点…

一个人摸索学习很难坚持,想组团高效学习…

想写博客但无从下手,急需写作干货注入能量…

热爱写作,愿意让自己成为更好的人…


前言

在日常刷一些视频的时候,总能看见一些标题为《震惊,python查找1000张美女图片》、《重磅消息:以后这些资料都不用再付钱了》......等等UC震惊部的标题


虽然夸张,但这些视频无一不是使用了python爬虫,这也从侧面衬托出爬虫功能的强大。


有的刚接触爬虫的小白会很激动,因为这意味着他们可以去“随心所欲”地去爬取任意资料,同时还为此暗自害怕与窃喜。


事实上,借用某大佬的比喻来说:爬虫就像是一把菜刀,拿这把菜刀做菜抑或是伤人,取决于使用者。


爬虫的分类(不重要)

由此,爬虫中也有了分类,分别是善意爬虫与恶意爬虫。


善意爬虫是在不破坏网站的前提下,合法合规地搜集信息。


恶意爬虫则是影响网站的正常运营,模拟大量浏览量达到目的(例如抢票),但每个网站对于访问量的数量都不是无限的,这种恶意爬虫很容易使网站宕机。


相关技术介绍(重要)

1HTML

HTML又称超文本标记语言,和大佬们平时接触的语言不同,HTML并没有逻辑结构,只使用标签来进行网站构建。


什么是 HTML?

HTML 是用来描述网页的一种语言。


  • HTML 指的是超文本标记语言 (Hyper Text Markup Language)
  • HTML 不是一种编程语言,而是一种标记语言 (markup language)
  • 标记语言是一套标记标签 (markup tag)
  • HTML 使用标记标签来描述网页

2d8f826c21774d12a67743346cc6f246.png


HTML中的大部分标签都是有始有终的,例如<h1></h1>、<body></body>


CSS

CSS 是一种描述 HTML 文档样式的语言。


CSS 描述应该如何显示 HTML 元素。


例如


body {

 background-color: lightblue;

}

h1 {

 color: white;

 text-align: center;

}

p {

 font-family: verdana;

 font-size: 20px;

}

输出如图


5e2c2aa6d371479e908257f255543ebe.png


网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。 互联网大数据时代,给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。(来自华为开发者论坛)

请求头与响应头

请求头中最常见的一些重要内容(爬虫需要):


1、User-Agent:请求载体的身份标识(用啥发送的请求)


2、Referer:防盗链(这次请求是从哪个页面来的?反爬会用到)


3、cookie:本地字符串数据信息(用户登录信息,反爬的token)


响应头中一些重要内容:


1、cookie:本地字符串数据信息(用户登录信息,反爬的token)


2、各种神奇的莫名其妙的字符串(这个需要经验了,一般是token字样,防止各种攻击和反爬)


未完待续


目录
相关文章
|
5天前
|
数据采集 数据挖掘 Python
Python:pandas做爬虫
Python:pandas做爬虫
18 0
|
3天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
15 6
|
1天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
12 3
|
5天前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
20 3
|
8天前
|
数据采集 存储 JavaScript
构建您的第一个Python网络爬虫:抓取、解析与存储数据
【9月更文挑战第24天】在数字时代,数据是新的金矿。本文将引导您使用Python编写一个简单的网络爬虫,从互联网上自动抓取信息。我们将介绍如何使用requests库获取网页内容,BeautifulSoup进行HTML解析,以及如何将数据存储到文件或数据库中。无论您是数据分析师、研究人员还是对编程感兴趣的新手,这篇文章都将为您提供一个实用的入门指南。拿起键盘,让我们开始挖掘互联网的宝藏吧!
|
5天前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
15 1
|
5天前
|
数据采集 Python
Python:某市公交线路站点的爬虫实现
Python:某市公交线路站点的爬虫实现
|
5天前
|
数据采集 网络协议 调度
Python爬虫策略分析4
Python爬虫策略分析4
18 1
|
5天前
|
数据采集 前端开发 Python
Python爬虫策略分析3
Python爬虫策略分析3
|
5天前
|
数据采集 Python
Python爬虫策略分析1
Python爬虫策略分析1
下一篇
无影云桌面