页面采集

简介: 爬虫系列文章

爬虫

requests模块

  • urllib模块:基于模拟浏览器上网的模块。网络请求模块。
  • requests:基于网络请求的模块

    • 作用:模拟浏览器上网。
  • requests模块的编码流程:

    • 指定url
  • 发起请求

    • 获取响应数据(爬取到的数据)
  • 持久化存储

页面采集

import requests

#1.爬取搜狗首页的页面源码数据
url = 'https://www.sogou.com/'
response = requests.get(url=url)
page_text = response.text #text返回的是字符串形式的响应数据
with open('./sogou.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
import requests

#2.简易的网页采集器
#涉及到的知识点:参数动态化,UA伪装,乱码的处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')

上述代码出现的问题:

  • 乱码问题
  • 爬取数据丢失
import requests

#乱码处理
word = input('enter a key word:')
url = 'https://www.sogou.com/web'
#参数动态化:将请求参数封装成字典作用到get方法的params参数中
params = {
    'query':word
}
response = requests.get(url=url,params=params)
#可以修改响应数据的编码
response.encoding = 'utf-8'#手动修改了响应对象的编码格式
page_text = response.text
fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(word,'下载成功!!!')
相关文章
|
数据采集 监控 JavaScript
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
快速学习网站流量日志分析—数据采集—页面埋点 JavaScript 收集数据
508 0
网站流量日志分析 —数据采集—页面埋点 JavaScript 收集数据|学习笔记
|
2月前
|
Prometheus 监控 关系型数据库
|
9月前
|
数据采集 安全 JavaScript
使用GoQuery实现头条新闻采集
在本文中,我们将介绍如何使用Go语言和GoQuery库实现一个简单的爬虫程序,用于抓取头条新闻的网页内容。我们还将使用爬虫代理服务,提高爬虫程序的性能和安全性。我们将使用多线程技术,提高采集效率。最后,我们将展示爬虫程序的运行结果和代码。
使用GoQuery实现头条新闻采集
|
存储 数据采集 搜索推荐
全网搜索引擎采集(msray)|URL采集|关键词采集|域名采集
msray-plus支持搜索引擎结果采集、域名采集、URL采集、网址采集、全网域名采集、CMS采集、联系信息采集
全网搜索引擎采集(msray)|URL采集|关键词采集|域名采集
|
数据采集 缓存 JavaScript
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
快速学习网站流量日志埋点收集- -方案二--点击事件数据采集实现
356 0
网站流量日志埋点收集- - 方案二--点击事件数据采集实现|学习笔记
|
存储 数据采集 搜索推荐
多搜索引擎关键词采集域名采集URL采集联系信息采集工具
Msray-plus,是一款采用GO语言开发的企业级综合性爬虫/采集软件。 支持:搜索引擎结果采集、域名采集、URL采集、网址采集、全网域名采集、CMS采集、联系信息采集 支持亿级数据存储、导入、重复判断等。无需使用复杂的命令,提供本地WEB管理后台对软件进行相关操作,功能强大且简单易上手! 1:可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理; 2:可从用户提供的url种子地址,源源不断的自动爬取全网网站数据,并进行结构化数据存储与自定义过滤处理; 3:可从用户提供的网站列表数据中,全自动的提取出网站联系方式信息,
多搜索引擎关键词采集域名采集URL采集联系信息采集工具
|
数据采集 搜索推荐 SEO
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
全网URL采集工具,支持baidu,sogou,bing,Google,Yandex,Want,神马,DuckDuckGo,等搜索引擎,支持关键词采集,域名采集,URL采集,联系方式采集,手机号采集,qq采集,邮箱采集
全网URL采集工具(msray),支持关键词采集,域名采集,联系人采集
【火车头采集】如何采集一个网页的多张图片并且下载
【火车头采集】如何采集一个网页的多张图片并且下载
113 0
【火车头采集】如何采集一个网页的多张图片并且下载
|
小程序 数据库
小程序评论怎么实时显示数据
小程序评论怎么实时显示数据
314 0
小程序评论怎么实时显示数据