Chrome浏览器实例的TypeScript自动化脚本

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Chrome浏览器实例的TypeScript自动化脚本

Chrome浏览器作为全球使用最广泛的浏览器之一,其自动化操作的需求也随之增长。Puppeteer是一个Node库,它提供了一套高级API来控制Chrome或Chromium。本文将介绍如何使用TypeScript结合Puppeteer来创建一个自动化脚本,并在代码中集成代理信息,以实现对Chrome浏览器实例的控制。
为什么选择TypeScript和Puppeteer
TypeScript是一种由微软开发的开源编程语言,它是JavaScript的一个超集,添加了类型系统和对ES6+的支持。使用TypeScript可以提高代码的可读性和可维护性,同时减少运行时错误。
Puppeteer是一个Node库,它提供了一套API来控制无头版或全版Chrome。Puppeteer默认以无头模式运行,但也可以配置为运行“全头”模式。它能够模拟用户的行为,如点击、滚动、导航等,非常适合于自动化测试、生成页面截图或PDF等场景。
环境准备
在开始之前,确保你的开发环境中安装了Node.js和npm(Node包管理器)。接下来,你需要安装TypeScript和Puppeteer。
bash

npm install -D typescript @types/node puppeteer
创建TypeScript配置
创建一个tsconfig.json文件来配置TypeScript编译器的选项:
json

{
"compilerOptions": {
"target": "es6",
"module": "commonjs",
"strict": true,
"esModuleInterop": true,
"skipLibCheck": true,
"forceConsistentCasingInFileNames": true
},
"include": ["src/*/"],
"exclude": ["node_modules"]
}
编写自动化脚本
接下来,我们将编写一个简单的自动化脚本,该脚本将启动Chrome浏览器,设置代理,导航到一个指定的URL,并捕获页面的截图。

  1. 启动Chrome浏览器实例
    首先,我们需要启动一个Chrome浏览器实例,并设置代理。
    typescript

import puppeteer from 'puppeteer';

const proxyHost = "www.16yun.cn";
const proxyPort = "5445";
const proxyUser = "16QMSOML";
const proxyPass = "280651";

async function launchBrowser() {
const browser = await puppeteer.launch({
headless: false, // 设置为非无头模式,以便我们可以看到浏览器操作
slowMo: 50, // 减慢操作速度,便于观察
args: [
--proxy-server=http://${proxyUser}:${proxyPass}@${proxyHost}:${proxyPort},
'--proxy-bypass-list=*',
'--no-sandbox',
'--disable-setuid-sandbox',
'--disable-dev-shm-usage',
],
});
return browser;
}

  1. 导航到指定URL
    启动浏览器后,我们需要创建一个新的页面并导航到指定的URL。
    typescript

async function navigateToUrl(url: string, browser: puppeteer.Browser) {
const page = await browser.newPage();
await page.goto(url, { waitUntil: 'networkidle0' });
return page;
}

  1. 捕获页面截图
    在页面加载完成后,我们可以捕获页面的截图。
    typescript

async function captureScreenshot(page: puppeteer.Page) {
await page.screenshot({ path: 'screenshot.png' });
}

  1. 关闭浏览器
    最后,不要忘记关闭浏览器实例以释放资源。
    typescript

async function closeBrowser(browser: puppeteer.Browser) {
await browser.close();
}

  1. 整合脚本
    将上述函数整合到一个主函数中,并运行。
    typescript

async function main() {
const browser = await launchBrowser();
const page = await navigateToUrl('https://www.example.com', browser);
await captureScreenshot(page);
await closeBrowser(browser);
}

main();
运行脚本
保存上述代码到src目录下的一个文件中,例如自动化脚本.ts。然后,使用以下命令编译并运行TypeScript脚本:
bash

tsc && node dist/自动化脚本.js
总结
通过上述步骤,我们成功创建了一个使用TypeScript和Puppeteer的Chrome浏览器自动化脚本,该脚本集成了代理设置。这个脚本能够启动Chrome浏览器,设置代理,导航到指定的URL,并捕获页面的截图。这只是Puppeteer强大功能的冰山一角,你可以根据需要扩展更多的功能,如表单填写、链接点击、PDF生成等。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
打赏
0
1
1
0
232
分享
相关文章
浏览器自动化检测对抗:修改navigator.webdriver属性的底层实现
本文介绍了如何构建一个反检测爬虫以爬取Amazon商品信息。通过使用`undetected-chromedriver`规避自动化检测,修改`navigator.webdriver`属性隐藏痕迹,并结合代理、Cookie和User-Agent技术,实现稳定的数据采集。代码包含浏览器配置、无痕设置、关键词搜索及数据提取等功能,同时提供常见问题解决方法,助你高效应对反爬策略。
104 1
定期备份数据库:基于 Shell 脚本的自动化方案
本篇文章分享一个简单的 Shell 脚本,用于定期备份 MySQL 数据库,并自动将备份传输到远程服务器,帮助防止数据丢失。
AutoMouser:AI Chrome扩展程序,实时跟踪用户的浏览器操作,自动生成自动化操作脚本
AutoMouser是一款Chrome扩展程序,能够实时跟踪用户交互行为,并基于OpenAI的GPT模型自动生成Selenium测试代码,简化自动化测试流程。
273 17
AutoMouser:AI Chrome扩展程序,实时跟踪用户的浏览器操作,自动生成自动化操作脚本
一个接口4个步骤轻松搞定最新版Chrome、Edge、Firefox浏览器集成ActiveX控件
目前的浏览器市场,谷歌浏览器占据了半壁江山,因此,谷歌也是最有话语权的,2015年开始取消支持 NPAPI 插件,2022 年10月停止支持 PPAPI 插件;而曾经老大哥IE浏览器也已停止服务,退出历史舞台,导致大量曾经安全、便捷的ActiveX控件无法使用。为了解决这个难题,本人特研发出allWebPlugin中间件,重新让所有ActiveX控件能在谷歌、火狐等浏览器使用。
WebDriver与Chrome DevTools Protocol:如何在浏览器自动化中提升效率
本文探讨了如何利用Chrome DevTools Protocol (CDP) 与 Selenium WebDriver 提升浏览器自动化效率,结合代理IP技术高效采集微博数据。通过CDP,开发者可直接操作浏览器底层功能,如网络拦截、性能分析等,增强控制精度。示例代码展示了如何设置代理IP、cookie及user-agent来模拟真实用户行为,提高数据抓取成功率与稳定性。适用于需要频繁抓取互联网数据的应用场景。
846 3
WebDriver与Chrome DevTools Protocol:如何在浏览器自动化中提升效率
WIN11 Chrome 双击打不开闪退及Chrome浏览器不能拖拽文件crx
【11月更文挑战第6天】本文介绍了 WIN11 系统中 Chrome 浏览器双击打不开闪退及不能拖拽文件 crx 的原因和解决方法。包括浏览器版本过旧、扩展程序冲突、硬件加速问题、缓存过多、安全软件冲突、系统文件损坏、用户配置文件损坏等问题的解决方案,以及 crx 文件的屏蔽、权限问题和文件格式问题的处理方法。
730 2
使用 Chrome 浏览器的内存分析工具来检测 JavaScript 中的内存泄漏
【10月更文挑战第25天】利用 Chrome 浏览器的内存分析工具,可以较为准确地检测 JavaScript 中的内存泄漏问题,并帮助我们找出潜在的泄漏点,以便采取相应的解决措施。
812 9
Chrome浏览器如何导出所有书签并导入书签
【11月更文挑战第4天】本文介绍了如何在 Chrome 浏览器中导出和导入书签。导出时,打开书签管理器,点击“整理”按钮选择“导出书签”,保存为 HTML 文件。导入时,同样打开书签管理器,点击“整理”按钮选择“导入书签”,选择之前导出的 HTML 文件即可。其他主流浏览器也支持导入这种格式的书签文件。
4140 2
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等