网络爬虫开发：JavaScript与Python特性的小差异-阿里云开发者社区

网络爬虫开发：JavaScript与Python特性的小差异

2024-07-16 395

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们以前写JavaScript的代码时，在遇到了发送请求时，都是需要去await的。但是为什么Python代码不需要这样做呢？这就是因为JavaScript是异步的，Python是同步的。JavaScript就需要使用关键词await将异步代码块变为同步代码。

JavaScript

JavaScript具有以下一些主要特点：

动态类型： JavaScript是一种动态类型语言，变量可以存储任意类型的数据，无需事先声明变量的类型。
事件驱动：JavaScript主要用于处理用户在浏览器中的各种交互事件，如单击、鼠标移动、键盘输入等。
面向对象：JavaScript虽然不是一种严格的面向对象语言，但它支持对象、继承等面向对象编程概念。
函数式编程：JavaScript支持函数式编程，函数可作为一等公民，可以赋值给变量、作为参数传递给其他函数。
异步编程：JavaScript擅长异步编程，可以利用回调函数、Promise、async/await等机制来处理异步操作。

Python

Python是一种通用编程语言：

数据分析和科学计算：Python拥有丰富的数据分析和科学计算库，如NumPy、Pandas、Matplotlib等，广泛应用于数据挖掘、机器学习等场景。
人工智能和机器学习：Python在人工智能和机器学习领域非常流行，有TensorFlow、PyTorch等强大的深度学习库。
Web开发：Python有Django、Flask等流行的Web框架，可用于开发动态网站和Web应用程序。
系统编程和自动化：Python擅长系统编程和自动化任务，可用于编写脚本、系统管理等。
数据可视化：Python有丰富的可视化库，如Matplotlib、Seaborn，可用于生成各种图表和可视化效果。
教育和科研：Python简单易学，被广泛应用于编程教育和科学研究领域。

对比

Python更加通用和易学，适合初学者和从事数据分析、机器学习等工作的开发者；而JavaScript则更擅长web开发和交互式应用程序。

爬虫代码书写

这里主要讲解python的爬虫代码书写，我们使用colab平台进行代码的编写。

Google Colab(Colaboratory)是一个基于浏览器的免费Jupyter Notebook环境，它为用户提供了一个免费的云端计算平台，用于编写和运行代码，尤其适合机器学习和数据科学领域的开发和研究。

首先我们先安装依赖。

# python 请求库
! pip install requests
# python dom 查找
! pip install beautifulsoup4

接下来我们就开始去编写获取数据的代码，这里我们通过豆瓣电影排行榜 (douban.com)这个链接去获取电影的数据。

首先看以下代码：

# 引入请求库
import requests
from bs4 import BeautifulSoup
# 爬取url里的电影数据
def fetch_movie_list(url):
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
  }
  response = requests.get(url,headers = headers)
  if(response.status_code == 200):
    soup = BeautifulSoup(response.text,'html.parser')
    movie_list = []
    movies = soup.select('#wrapper #content .article .item')
    print(len(movies))
    all_movies_text = ''.join([movie.prettify() for movie in movies])
    print(all_movies_text)
    print(movies)
    # 拿到数据就交给ai分析
    return movies
  else:
    print("失败")
url = "https://movie.douban.com/chart"
# 爬取url里的电影数据
movies = fetch_movie_list(url)

这段代码我们就能够获取到相应的html数据了。

解释一下这段代码之前我们先聊一下前置知识。

向一个网站发送请求，到底得到了什么？

向一个网站发送请求的本质就是获取该网站返回的HTML页面。这个过程可以分为以下几个步骤：

构建HTTP请求：

确定请求方法(GET、POST、PUT、DELETE等)
设置请求头(User-Agent、Accept、Referer等)
传递请求参数(查询字符串、请求体等)

发送HTTP请求：

通过网络协议(如TCP/IP)将请求发送到目标网站的服务器

接收响应：

服务器接收到请求后,会生成相应的HTML页面作为响应内容
将HTML页面通过网络协议返回给发起请求的客户端

获取HTML页面：

客户端接收到服务器返回的HTML页面
解析和处理这个HTML页面,提取所需的信息

这个过程中，获取HTML页面是关键目标。HTML页面包含了网站的结构、内容和样式信息，通过解析和分析这个HTML。

既然我们向一个网站发送请求可以获取到html结构，这不就代表着我们可以通过分析html来获取数据。

接下来就继续分析上面的代码。

讲解一下：

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}

这个请求头其实就是告诉网站，我是真人，不是程序

Mozilla/5.0 是一个标准的浏览器标识前缀。
(Windows NT 10.0; Win64; x64) 表示操作系统是 Windows 10 64 位版本。
AppleWebKit/537.36 说明使用了基于 WebKit 537.36 版本的渲染引擎。
(KHTML, like Gecko) 表示浏览器内核与 KHTML 和 Gecko 引擎相似。
Chrome/125.0.0.0 说明浏览器是 Google Chrome 125.0.0.0 版本。
Safari/537.36 也表示使用了 Safari 浏览器的一些特性。
Edg/125.0.0.0 则表示使用了 Microsoft Edge 125.0.0.0 版本。

那么我们要如何获取到自己浏览器的这份User-Agent数据呢？

很简单，只需要在浏览器的控制台输入navigator.userAgent就可以获取到了

继续分析，我们以前写JavaScript的代码时，在遇到了发送请求时，都是需要去await的。

但是为什么Python代码不需要这样做呢？

这就是因为JavaScript是异步的，Python是同步的。

JavaScript就需要使用关键词await将异步代码块变为同步代码。

网络爬虫开发：JavaScript与Python特性的小差异

JavaScript

Python

对比

爬虫代码书写

向一个网站发送请求，到底得到了什么？

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

网络爬虫开发：JavaScript与Python特性的小差异

JavaScript

Python

对比

爬虫代码书写

向一个网站发送请求，到底得到了什么？

热门文章

最新文章

相关课程

相关电子书

推荐镜像