Puppeteer动态代理实战：提升数据抓取效率-阿里云开发者社区

Puppeteer动态代理实战：提升数据抓取效率

2024-07-15 173

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： 使用Puppeteer进行网页抓取时，通过动态代理提高效率。配置代理服务器如亿牛云，结合`puppeteer.launch`设置代理参数。导航至目标网页，等待图片加载，然后抓取并下载图片资源。代理有助于避开反爬策略，确保数据抓取的稳定性和效率。

爬虫代理.png

引言

Puppeteer是由Google Chrome团队开发的一个Node.js库，用于控制Chrome或Chromium浏览器。它提供了高级API，可以进行网页自动化操作，包括导航、屏幕截图、生成PDF、捕获网络活动等。在本文中，我们将重点介绍如何使用Puppeteer实现动态代理，以提高数据抓取效率。

正文

设置代理并启动浏览器

首先，我们需要准备一个可信赖的代理服务器。代理服务器可以是HTTP代理或SOCKS代理，确保代理IP可用，并且支持HTTP/HTTPS协议。我们将使用亿牛云爬虫代理作为示例。

const puppeteer = require('puppeteer');

(async () => {
   
   
  // 代理服务器信息 亿牛云爬虫代理加强版
  const proxyHost = "www.proxy.cn";
  const proxyPort = "5445";
  const proxyUser = "16QMSOML";
  const proxyPass = "280651";

  // 构建带有用户名和密码的代理服务器URL
  const proxyUrl = `http://${
     
     proxyUser}:${
     
     proxyPass}@${
     
     proxyHost}:${
     
     proxyPort}`;

  // 设置Puppeteer使用代理
  const browser = await puppeteer.launch({
   
   
    args: [
      '--proxy-server=' + proxyUrl, // 使用完整的代理URL
      // 其他需要的启动参数...
    ]
  });

  const page = await browser.newPage();

  // 接下来添加页面导航和操作的代码...
  // 任务完成后关闭浏览器
  await browser.close();
})();

导航到目标网页

await page.goto('https://example.com'); // 替换为实际的URL

等待图片加载完成

await page.waitForSelector('img');

抓取图片资源链接

const imageSrcs = await page.evaluate(() => {
   
   
  const images = document.querySelectorAll('img');
  const srcs = Array.from(images).map(img => img.src);
  return srcs;
});

下载图片资源

const downloadImages = async (src) => {
   
   
  const filename = src.split('/').pop();
  const path = `./images/${
     
     filename}`;
  await page.download(src, {
   
    path: path });
  console.log(`图片下载成功：${
     
     filename}`);
};

for (let src of imageSrcs) {
   
   
  await downloadImages(src);
}

结论

通过在Puppeteer中配置动态代理，可以有效地绕过网站的反爬虫机制，提升抓取信息的效率和稳定性。本文详细介绍了如何使用爬虫代理服务配置代理IP，并通过实例代码展示了具体的实现方法。

Puppeteer动态代理实战：提升数据抓取效率

引言

正文

设置代理并启动浏览器

导航到目标网页

等待图片加载完成

抓取图片资源链接

下载图片资源

结论

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景