一场始于 Selector Error 的拯救行动:企查查数据采集故障排查记

简介: 开发人员小李在使用Python爬虫从企查查抓取公司工商信息时,遇到选择器失效和动态加载内容无法解析的问题。通过分析日志和网页结构变化,发现关键数据由JavaScript动态渲染。解决方案包括引入Selenium模拟浏览器行为、配置代理IP和请求头、调整选择器,并优化代码实现。最终成功解决了数据采集问题,确保了爬虫的稳定性和可靠性。改进方案还涉及动态加载应对策略、选择器稳定性保障及代理池搭建等措施,以应对未来可能的变化。

时间轴呈现事故进程

  • 17:00:开发人员小李正在尝试利用 Python 爬虫从企查查(https://www.qcc.com)抓取公司工商信息。原本一切正常,但突然发现信息采集失败,程序抛出大量选择器错误。
  • 17:15:小李发现,尽管请求能正常返回 HTML 页面,但关键数据(公司名称、法人代表、注册资本)的定位选择器失效,抓取到的内容为空或错误。初步判断是网页结构发生了不可预料的变化。
  • 17:30:尝试更新选择器,但新问题接踵而至:动态加载的内容无法被解析,数据仍然缺失。

分析式线索追踪

本地测试日志片段

# 爬虫日志输出
[17:15:23] INFO - 发送 GET 请求至 https://www.qcc.com,状态码 200,请求成功。
[17:15:25] ERROR - 选择器失效!无法找到公司名称元素 (selector: #companyName)。
[17:15:30] DEBUG - HTML 快照保存至 ./snapshots/qcc_17_15_25.html,便于后续分析。

网页结构与选择器对比

  • 原始选择器<font style="color:rgb(38, 38, 38);">#companyName</font> 用于定位公司名称。
  • 快照 HTML 分析:发现 <font style="color:rgb(38, 38, 38);"><div id="companyName"></font> 标签已不存在,取而代之的是动态加载的 <font style="color:rgb(38, 38, 38);"><div class="loader"></font><font style="color:rgb(38, 38, 38);"><script></font> 标签。

解决方案探寻过程

  1. 重新审视网页加载过程
    • 使用浏览器开发者工具(F12)查看网页加载流程,发现关键信息是通过 JavaScript 动态渲染的,原先的静态 HTML 并不含有所需数据。
    • 临时策略:引入 Selenium 模拟浏览器行为,确保 JavaScript 执行,完整加载页面。
  2. 代理 IP 与反爬机制突破
# 引入爬虫代理 IP配置
proxies = {
   
    'http': 'http://用户名:密码@域名:端口',
    'https': 'https://用户名:密码@域名:端口',
}
response = requests.get(url, proxies=proxies)
- <font style="color:rgb(38, 38, 38);">企查查对频繁请求有严格限制,需借助代理 IP。参考亿牛云爬虫代理参数(域名、端口、用户名、密码),设置代码:</font>
  1. Cookie 和 User-Agent 设置
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Cookie': 'your-cookie-string'  # 替换为实际有效 Cookie
}
- <font style="color:rgb(38, 38, 38);">仿制正常浏览器行为,避免被服务器识别为爬虫:</font>
  1. 调试选择器工具选择
    • 使用 BeautifulSoup 或 lxml 库解析渲染后的 HTML,结合 XPath 和 CSS 选择器重新定位元素。

改进后的代码实现

# 企查查数据采集解决方案
import requests
from bs4 import BeautifulSoup

# 设置代理IP(亿牛云爬虫代理示例 www.16yun.cn)
PROXY_USERNAME = '16YUN'  # 替换为实际用户名
PROXY_PASSWORD = '16IP'  # 替换为实际密码
PROXY_DOMAIN = 'proxy.16yun.cn'
PROXY_PORT = '8080'

# 配置代理
proxies = {
   
    'http': f'http://{PROXY_USERNAME}:{PROXY_PASSWORD}@{PROXY_DOMAIN}:{PROXY_PORT}',
    'https': f'https://{PROXY_USERNAME}:{PROXY_PASSWORD}@{PROXY_DOMAIN}:{PROXY_PORT}',
}

# 设置请求头
headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Cookie': 'your-cookie-string'  # 替换为实际有效的 Cookie
}

# 爬取目标 URL
url = "https://www.qcc.com"

# 发送请求
response = requests.get(url, headers=headers, proxies=proxies)
response.encoding = 'utf-8'  # 设置正确编码

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 示例:解析公司信息(需根据实际页面结构调整选择器)
company_name = soup.select_one('.company-name')  # 假设 .company-name 是公司名称的类名
if company_name:
    print(f"公司名称: {company_name.text.strip()}")
else:
    print("未能获取公司名称!")

legal_representative = soup.select_one('.legal-rep')  # 假设 .legal-rep 是法人代表的类名
if legal_representative:
    print(f"法人代表: {legal_representative.text.strip()}")
else:
    print("未能获取法人代表信息!")

registered_capital = soup.select_one('.reg-capital')  # 假设 .reg-capital 是注册资本的类名
if registered_capital:
    print(f"注册资本: {registered_capital.text.strip()}")
else:
    print("未能获取注册资本信息!")

架构改进方案

  • 动态加载应对策略:采用 Selenium / Playwright 等框架,模拟人类交互行为加载完整页面。
  • 选择器稳定性保障:利用 XPath 表达式,结合多个属性定位元素;定期更新长效选择器库。
  • 代理池搭建:引入多 IP 代理池,轮询使用不同 IP,提高请求成功率。
  • 数据清洗与过滤:构建专用的数据清洗规则集,去除冗余、异常数据,提升数据质量。

总结

本次故障源于网页动态加载机制与选择器不匹配,辅以合理的代理 IP、请求头配置及动态加载调试工具,成功解决数据采集问题。在爬虫项目中,持续关注目标网站更新动态、优化选择器策略、升级反爬规避方案,是保障数据稳定性抓取的关键。
相关文章
|
Ubuntu
ubuntu下安装火狐浏览器及快捷图标
ubuntu下安装火狐浏览器及快捷图标
2643 0
ubuntu下安装火狐浏览器及快捷图标
|
iOS开发 MacOS Python
Python包管理工具之poetry
之前讲了一个pipenv包管理工具,这里说另外一个poetry工具,它是一个Python 虚拟环境和依赖管理工具。还提供了打包发布的功能。
深入掌握ant-design的form异步校验(一)
本文适合对ant-design的表单校验感兴趣的小伙伴阅读~
|
机器学习/深度学习 人工智能 缓存
探秘 DeepSeek:那些你必须了解的事
DeepSeek是一家由中国幻方量化支持的创新型AI公司,专注于开发高性能、低成本的大语言模型。其独特的技术路径打破了参数规模、能耗成本和认知可靠性之间的“三元悖论”,实现了在单张显卡上运行170亿参数模型的突破。DeepSeek通过开源策略和高性价比模型(如DeepSeek-R1),大幅降低了AI应用门槛,推动了全球开发者社区的发展。其应用场景广泛覆盖教育、医疗、金融等领域,显著提升了工作效率和服务质量。DeepSeek的成功不仅在于技术创新,更在于其开放合作的理念,正引领AI行业的新变革。
2562 9
探秘 DeepSeek:那些你必须了解的事
|
7月前
|
自然语言处理 安全 搜索推荐
win11右键菜单怎么变回去?win11右键菜单如何改?Windows 10 如何清理右键菜单?
本文介绍了如何管理Windows系统右键菜单,包括清理多余选项、添加常用工具(如git-bash、Windows Terminal)及恢复默认设置。内容涵盖多种方法,适用于Win10与Win11系统,帮助用户个性化定制右键菜单,提升操作效率。
2233 39
|
Web App开发 安全 中间件
谷歌、火狐、Edge等浏览器如何使用ActiveX控件
allWebPlugin 是一款为用户提供安全、可靠且便捷的浏览器插件服务的中间件产品,支持 Chrome、Firefox、Edge 和 360 等浏览器。其 V2.0.0.20 版本支持一个页面加载多个插件,并解决了插件与浏览器之间的焦点问题。用户可通过“信息化系统 + allWebPlugin + 插件 + 浏览器”的解决方案实现 ActiveX 插件的无缝集成。下载地址见文末,安装包含详细说明。
4260 112
|
人工智能 自然语言处理 数据可视化
CRM系统品牌深度盘点:企业数字化转型的加速器
在数字化浪潮的推动下,企业对客户关系管理(CRM)系统的需求日益增长。本文深度盘点了销售易、神州云动、简道云、悟空CRM和金蝶云之家等品牌,从品牌介绍、产品功能、优势特色到适用企业,全方位解读这些数字化管理工具,助您选择最适合企业需求的CRM解决方案。
|
存储 JSON JavaScript
Vue中如何进行表单地区选择与级联联动
Vue中如何进行表单地区选择与级联联动
|
Web App开发 编解码 前端开发
electron+vue网页直接播放RTSP视频流?
目前大部分摄像头都支持RTSP协议,但是在浏览器限制,最新版的浏览器都不能直接播放RTSP协议,Electron 桌面应用是基于 Chromium 内核的,所以也不能直接播放RTSP,但是我们又有这个需求怎么办呢?
680 111
|
前端开发
antd_使用Input封装实现Form校验效果
本文介绍了如何在Ant Design (antd) 中使用 Input 组件封装实现表单校验效果,包括必填、数字、IP、邮箱、手机号、身份证号和域名等校验规则的使用,以及如何通过回调函数进行校验。
598 4