深挖navigator.webdriver浏览器自动化检测的底层分析-阿里云开发者社区

深挖navigator.webdriver浏览器自动化检测的底层分析

2025-05-20 356

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文详细讲解了如何通过技术手段破解浏览器 `navigator.webdriver` 检测，结合爬虫代理、多线程等策略，在豆瓣图书页面批量采集数据。具体包括：隐藏 Selenium 特征、配置代理突破 IP 限制、设置伪装用户、利用多线程提升效率。文章面向初学者，提供分步教程与示例代码，同时设有「陷阱警告」帮助规避常见问题。目标是从底层实现反检测，高效采集图书评分、简介、作者等信息，适合具备 Python 和 Selenium 基础的读者实践学习。

本文将带你深入探索并实践如何从底层层面破解浏览器 navigator.webdriver 检测，结合爬虫代理等策略伪装、多线程加速等技术，在豆瓣图书搜索页面上批量采集图书评分、简介、作者等信息。文章面向初学者，采用分步教程型结构，并增设「陷阱警告」板块，帮助你规避常见误区，快速上手。

明确目标 + 前置知识

目标：

破解 Selenium 驱动浏览器中 navigator.webdriver 检测。
使用爬虫代理（固定域名、端口、用户名、密码）突破 IP 限制。
设置 Cookie 与自定义 User-Agent 伪装真实用户。
利用多线程技术并发提升采集效率。
在 https://book.douban.com 上，根据图书名搜索并采集评分、简介、作者等信息。

前置知识：

Python 基础、Selenium 库使用。
HTTP 请求、Cookie 与 User-Agent 原理。
代理 IP 概念及 HTTP 代理认证。
线程/多线程编程（threading 或 concurrent.futures）。

按步骤拆解操作

步骤 1：获取并配置爬虫代理信息

获取代理配置：

代理域名：proxy.16yun.cn
端口：12345
用户名：your_username
密码：your_password

步骤 2：构建 Selenium 驱动并底层隐藏 `navigator.webdriver`

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def create_driver():
    # 参考亿牛云爬虫代理示例 www.16yun.cn
    PROXY_HOST = 'proxy.16yun.cn'              # 代理域名
    PROXY_PORT = '12345'                       # 代理端口
    PROXY_USER = 'your_username'               # 代理用户名
    PROXY_PASS = 'your_password'               # 代理密码
    CUSTOM_UA = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'  # 自定义 UA

    options = Options()
    # 隐藏 Selenium 特征
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_experimental_option('useAutomationExtension', False)
    options.add_argument('--disable-blink-features=AutomationControlled')
    # 设置 User-Agent
    options.add_argument(f'--user-agent={CUSTOM_UA}')
    # 配置代理
    proxy = f"{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
    options.add_argument(f'--proxy-server=http://{proxy}')
    # 可选：无头模式
    options.add_argument('--headless')

    driver = webdriver.Chrome(options=options)
    # 在每次新页面加载前注入 JS，隐藏 navigator.webdriver 属性
    driver.execute_cdp_cmd(
        'Page.addScriptToEvaluateOnNewDocument',
        {
   'source': "Object.defineProperty(navigator, 'webdriver', {get: () => undefined});"}
    )
    return driver

利用 excludeSwitches、disable-blink-features 避免基本指纹检测
使用 CDP 命令 Page.addScriptToEvaluateOnNewDocument 将 navigator.webdriver 强制设为 undefined

步骤 3：设置 Cookie 和发起搜索请求

from selenium.webdriver.common.by import By
import time

def fetch_book_info(driver, book_name):
    # 访问豆瓣图书搜索页面
    url = f"https://book.douban.com/subject_search?search_text={book_name}"
    driver.get('https://book.douban.com')
    # 添加示例 Cookie（如有登录需求，可替换为实际 Cookie）
    driver.add_cookie({
   'name': 'example_cookie', 'value': 'value123', 'domain': 'book.douban.com'})
    driver.get(url)
    time.sleep(2)  # 等待页面加载
    # 定位结果并点击第一个条目
    first = driver.find_element(By.CSS_SELECTOR, '.subject-item .nbg')
    first.click()
    time.sleep(2)
    # 提取评分、简介、作者
    rating = driver.find_element(By.CSS_SELECTOR, 'strong.rating_num').text
    summary = driver.find_element(By.CSS_SELECTOR, '#link-report .intro').text
    author = driver.find_element(By.CSS_SELECTOR, '#info').text.split('\n')[0]
    return {
   'name': book_name, 'rating': rating, 'summary': summary, 'author': author}

driver.add_cookie 实现 Cookie 注入，模拟登录状态或个性化请求
通过 CSS 选择器提取目标信息

步骤 4：启用多线程并发采集

from concurrent.futures import ThreadPoolExecutor

def main(book_list):
    results = []
    with ThreadPoolExecutor(max_workers=5) as executor:
        # 每个线程创建独立 driver
        futures = [executor.submit(lambda name: fetch_book_info(create_driver(), name), name)
                   for name in book_list]
        for future in futures:
            results.append(future.result())
    for info in results:
        print(info)

if __name__ == '__main__':
    books = ['三体', '活着', '百年孤独', '小王子']
    main(books)

利用 ThreadPoolExecutor 并发执行，最大 5 个线程同时跑
每个线程内部独立创建并关闭 WebDriver，避免资源冲突

陷阱警告

未注入 JS 时机不对：execute_script 在页面加载后才执行，JS 注入可能失效，必须用 Page.addScriptToEvaluateOnNewDocument
代理格式错误：--proxy-server 参数需包含认证信息，否则返回 407 错误
线程数过多导致资源占用：ChromeDriver 启动耗内存，建议根据机器性能调整 max_workers

常见错误提示 + 延伸练习

常见错误提示

selenium.common.exceptions.WebDriverException: unknown error: net::ERR_PROXY_CONNECTION_FAILED
检查代理域名、端口及用户名密码是否正确。
NoSuchElementException
页面结构可能变动，需更新 CSS/XPath 选择器。
页面加载不完全
可增大 time.sleep 或改用 WebDriverWait 精准等待。

延伸练习

切换更多反检测手段：尝试用 undetected-chromedriver 库优化指纹隐藏。
Session 复用：在多次请求中复用同一浏览器实例，减少启动开销。
IP 自动切换：结合「自主切换」模式，通过 Proxy-Tunnel 请求头动态控制代理。

通过本文的分步指导与示例代码，你已经掌握了从底层破解 navigator.webdriver 检测，并结合爬虫代理与多线程技术，在豆瓣图书页面上高效采集所需信息的完整流程。

深挖navigator.webdriver浏览器自动化检测的底层分析

明确目标 + 前置知识

按步骤拆解操作

步骤 1：获取并配置爬虫代理信息

步骤 2：构建 Selenium 驱动并底层隐藏 `navigator.webdriver`

步骤 3：设置 Cookie 和发起搜索请求

步骤 4：启用多线程并发采集

陷阱警告

常见错误提示 + 延伸练习

常见错误提示

延伸练习

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

深挖navigator.webdriver浏览器自动化检测的底层分析

明确目标 + 前置知识

按步骤拆解操作

步骤 1：获取并配置爬虫代理信息

步骤 2：构建 Selenium 驱动并底层隐藏 navigator.webdriver

步骤 3：设置 Cookie 和发起搜索请求

步骤 4：启用多线程并发采集

陷阱警告

常见错误提示 + 延伸练习

常见错误提示

延伸练习

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

步骤 2：构建 Selenium 驱动并底层隐藏 `navigator.webdriver`