docker+python无头浏览器爬虫

简介: 海量数据从哪儿来?世上本无所谓大数据的,爬的多了,自然就有数据了。 为什么使用docker? 这两年网上关于docker的讨论不亚于当年的云计算,现在云计算已经落地生根了。

海量数据从哪儿来?世上本无所谓大数据的,爬的多了,自然就有数据了。


为什么使用docker?

这两年网上关于docker的讨论不亚于当年的云计算,现在云计算已经落地生根了。云时代docker被寄予厚望现在也是火的一塌糊涂。

作为一名开发人员,你是否还在因为环境搭不成功而沮丧?你是否经常对于复杂的安装步骤感到反感,因而对新技术望而却步?

作为一名运维人员,你是否经常因为不同操作系统的原因导致部署失败?

那么docker就是为了解决这些痛点而生的。docker不是什么新技术,类似docker的东西早已有之,只不过docker用起来更爽,你真的应该试一试,就像指纹解锁一样。用了你就回不去了。

为什么是无头浏览器?

现在许多网站有反爬虫功能。我们要做的就是尽量把我们的请求伪装成是真正的浏览器发出的一样。最好就直接用浏览器来发送请求,比如使用WebDriver驱动浏览器模拟真人操作。但是这样速度太慢,再说服务器的linux一般都是server版的,根本没有桌面,因此也没有浏览器可用。所以我们就使用无头(headless)浏览器。功能跟真的浏览器一样,速度更快,只不过没有界面罢了。


1.虚拟机安装ubunt16.04。(略)

2.安装docker。ubuntu14以上自带docker,直接安装即可

ubt1606@ubt1606-virtual-machine:~$ docker
The program 'docker' is currently not installed. You can install it by typing:
sudo apt install docker.io
ubt1606@ubt1606-virtual-machine:~$ sudo apt install docker.io
ubt1606@ubt1606-virtual-machine:~$ docker images
Cannot connect to the Docker daemon. Is the docker daemon running on this host?
ubuntu里需要在docker命令前面加sudo,否则会报上述信息。
ubt1606@ubt1606-virtual-machine:~$ sudo docker images
REPOSITORY          TAG                 IMAGE ID            CREATED             SIZE


如果嫌每次输入docker命令都要加sudo麻烦,可以把当前用户加入docker用户组。具体参考这篇文章

3.拉docker镜像

直接访问docker hub比较慢。通过 daocloud来访问稍微快一些。 在虚拟机浏览器里打开 http://www.daocloud.io/。 然后注册用户或者直接用微信扫二维码登录。登录后点击“镜像仓库”。点击“DockerHub镜像”。 从这里可以打开docker官方的镜像仓库,然后在里面搜索你要的镜像即可。

搜索python+selenium。其中有一个是这样的“Container with python selenium for lazy people (like me) to avoid configuration xvfb on server.”。这正是我们要的。

这是这个地址  https://hub.docker.com/r/pimuzzo/selenium-python-xvfb/

该作者还贴心的给了一个小demo。后面我们会用到。

ubt1606@ubt1606-virtual-machine:~$ sudo docker pull pimuzzo/selenium-python

Using default tag: latest
Pulling repository docker.io/pimuzzo/selenium-python
Network timed out while trying to connect to https://index.docker.io/v1/repositories/pimuzzo/selenium-python/images. You may want to check your internet connection or if you are behind a proxy.

会发现拉不下来,使用daocloud的加速器。注册账号登录后,点击使用加速器,会给你一个专属链接。 类似这样

 curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://c4c833cb.m.daocloud.io


ubt1606@ubt1606-virtual-machine:~$ sudo su
[sudo] password for ubt1606: 
root@ubt1606-virtual-machine:/home/ubt1606# echo "DOCKER_OPTS=\"$DOCKER_OPTS --registry-mirror=http://c4c833cb.m.daocloud.io\"" >> /etc/default/docker
root@ubt1606-virtual-machine:/home/ubt1606# vi /etc/default/docker 

查看一下/etc/default/docker文件里的确有了DOCKER_OPTS,小白温馨提示,退出vi的方法是。按一下ESC,然后输入:q

root@ubt1606-virtual-machine:/home/ubt1606# service docker restart

一定要重启docker服务。注意刚才我切换到su用户了,所以前面都没有加sudo


注意这次我换成了 index.docker.io/pimuzzo/selenium-python-xvfb。这也是daocloud页面上的。我就试了一下,这次很快就成功了。

root@ubt1606-virtual-machine:/home/ubt1606#docker pull index.docker.io/pimuzzo/selenium-python-xvfb
Using default tag: latest
latest: Pulling from pimuzzo/selenium-python-xvfb
759d6771041e: Already exists 
8836b825667b: Already exists 
c2f5e51744e6: Already exists 
a3ed95caeb02: Already exists 
21fb0716901c: Already exists 
9cc47e6dfb6f: Pull complete 
08c1371dc842: Pull complete 
0aa04c2152b2: Pull complete 
db151fc54aee: Pull complete 
3f0af4107074: Pull complete 
00d9524b72cc: Pull complete 
3ba8b369c5ab: Pull complete 
aad0e22b9317: Pull complete 
Digest: sha256:73b4aca6ecfc2a5bf392065cd07cf7fc89e5da61104492e7c04332f2bfd8da4d
Status: Downloaded newer image for pimuzzo/selenium-python-xvfb:latest

root@ubt1606-virtual-machine:/home/ubt1606#docker images
REPOSITORY                     TAG                 IMAGE ID            CREATED             SIZE
pimuzzo/selenium-python-xvfb   latest              18dba38c825a        5 months ago        615.4 MB
root@ubt1606-virtual-machine:/home/ubt1606# 

docker images看到类似上述信息就表示镜像拉取成功。注意看SIZE的大小。如果网速不好很可能会失败。失败的话只能多试几次了。再不行就看看有没有其他镜像源,实在不行就用open connect 吧(需要买vps)。也可以从别人那儿拷贝一个镜像文件然后导入到docker里。不管你用什么办法,只要能方便快速地把镜像弄到docker里就行了。

====================================================================

到这一步环境上基本就OK了。如果不是拉取镜像这一步有点小曲折,操作还是非常简单的,简单到令人发指。 要知道拉取一个镜像容易,制作一个镜像可不容易,真的很麻烦的。 一个docker image能为我们节省多少时间啊。这个镜像不光可以在开发的时候用,开发完了之后也是可以直接部署的。一举两得啊。 只有一点,就是开发的时候不太好debug。所以做点小开发或者仅仅是测试某个特定的环境,或者尝试新技术,用docker实在是太方便了。

4.编写第一个小demo

直接使用docker镜像上给的demo。把网址换成baidu。

在/home/ubt1606/demo下建立demo.py文件。 注意ubt1606是用户名

#!/usr/bin/env python

from pyvirtualdisplay import Display
from selenium import webdriver

display = Display(visible=0, size=(800, 600))
display.start()

# now Firefox will run in a virtual display. 
# you will not see the browser.
browser = webdriver.Firefox()
browser.get('http://www.baidu.com')
print browser.title
browser.quit()

display.stop()


5.启动容器并映射数据卷

docker run -ti -v /home/ubt1606/demo:/home/somethingpimuzzo/selenium_python_xvfb python /home/something/demo.py


docker run:启动一个容器

-ti:       也可以写成 -i -t,表示申请一个控制台同容器交互。it分别是interact,terminal的首字母

-v /home/ubt1606/demo:/home/something:-v表示映射数据卷。将主机的/home/ubt1606/demo文件夹映射到docker里的

/home/something文件夹。就像windows和VMWare共享文件夹一样。

pimuzzo/selenium_python_xvfb:镜像的名字,表示给哪个镜像创建容器。镜像是死的,只有容器才是活的。镜像相当于一个

windows.iso文件。而容器相当于已经启动起来的windows。

python /home/something/demo.py:运行docker里/home/something文件夹下的demo.py文件。注意路径是docker里的路径。

可以是其它路径。 比如先把一个demo2.py放在/home/ubt1606/demo文件下,然后进入到docker里。在docker里将demo2.py从

/home/something下拷贝到/home/other文件夹下,然后命令换成python /home/other/demo2.py即可。一定要理解“docker里”,“docker里的路径”这个东西。为了不给自己找麻烦,建议就别拷贝到别处了。


小结一下:

当我回头看这篇文章时才发现其实就三步:

拉取一个docker镜像。

写一个demo.py文件并把这个文件映射到docker里。

启动容器运行demo.py文件。


爬虫的编写其实就是用python版的webdriver来编写程序。只不过这里没有使用浏览器,而是pyvirtualdisplay。

本来webdriver和selenium都是独立的,现在整合到一块都叫selenium了。selenium官方宣称是用来做自动化测试的。

不过我看目前用的最多的还是webdriver。就是用它来写爬虫。本文只是抛砖引玉,至于webdriver api的使用比较简单,搞JavaEE的上手非常快,这里就不详细介绍了。


目录
相关文章
|
数据采集 存储 Docker
深入理解Docker:为你的爬虫项目提供隔离环境
本教程介绍如何使用Docker构建隔离环境,运行Python爬虫项目,采集小红书视频页面的简介和评论。主要内容包括: 1. **Docker隔离环境**:通过Docker容器化爬虫,确保环境独立、易于部署。 2. **代理IP技术**:利用亿牛云爬虫代理突破反爬限制。 3. **Cookie与User-Agent设置**:伪装请求头,模拟真实用户访问。 4. **多线程采集**:提高数据采集效率。 前置知识要求:Python基础、Docker基本操作及HTML解析(可选)。教程还涵盖常见错误解决方法和延伸练习,帮助你优化爬虫代码并避免陷阱。
372 7
深入理解Docker:为你的爬虫项目提供隔离环境
|
9月前
|
数据采集 Web App开发 JavaScript
无头浏览器技术:Python爬虫如何精准模拟搜索点击
无头浏览器技术:Python爬虫如何精准模拟搜索点击
|
11月前
|
数据采集 JavaScript 前端开发
Pyppeteer实战:基于Python的无头浏览器控制新选择
本文详细讲解了如何使用 Pyppeteer 结合爬虫代理高效采集小红书热点推荐信息。通过设置代理 IP、Cookie 和自定义 User-Agent,突破目标网站的反爬机制,实现标题、内容和评论的数据提取。文章结合代码示例与技术关系图谱,清晰展示从数据采集到分析的全流程,为复杂网站的数据获取提供参考。读者可在此基础上优化异常处理、并发抓取等功能,提升爬虫性能。
744 8
|
数据采集 Web App开发 监控
深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫
在现代网络爬虫实践中,动态网页加载和反爬虫机制增加了数据采集的难度。采用无头浏览器技术(如Selenium与ChromeDriver)可有效模拟用户行为、执行JavaScript,获取动态内容。通过设置代理IP、伪装User-Agent和处理Cookies,提升爬虫隐蔽性和稳定性。该方案适用于电商价格监控、社交媒体数据采集和招聘信息抓取等场景,实现更高效的数据获取。
1023 2
深度解析:使用ChromeDriver和webdriver_manager实现无头浏览器爬虫
|
Docker Python 容器
Docker——阿里云服务器使用Docker部署python项目全程小记
本文记录了我在阿里云服务器上使用Docker部署python项目(flask为例)的全过程,在这里记录和分享一下,希望可以给大家提供一些参考。
1546 1
|
Java API Docker
在线编程实现!如何在Java后端通过DockerClient操作Docker生成python环境
以上内容是一个简单的实现在Java后端中通过DockerClient操作Docker生成python环境并执行代码,最后销毁的案例全过程,也是实现一个简单的在线编程后端API的完整流程,你可以在此基础上添加额外的辅助功能,比如上传文件、编辑文件、查阅文件、自定义安装等功能。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
在线编程实现!如何在Java后端通过DockerClient操作Docker生成python环境
|
开发者 Docker Python
从零开始:使用Docker容器化你的Python Web应用
从零开始:使用Docker容器化你的Python Web应用
656 4
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
jenkins 持续交付 Docker
docker之自定义制作镜像(python程序)
docker之自定义制作镜像(python程序)
|
Web App开发 SQL 数据库
使用 Python 解析火狐浏览器的 SQLite3 数据库
本文介绍如何使用 Python 解析火狐浏览器的 SQLite3 数据库,包括书签、历史记录和下载记录等。通过安装 Python 和 SQLite3,定位火狐数据库文件路径,编写 Python 脚本连接数据库并执行 SQL 查询,最终输出最近访问的网站历史记录。
386 4