【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡

简介: 【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡

【02】仿站技术之python技术,看完学会再也不用去购买收费工具了-本次找了小影-感觉页面很好看-本次是爬取vue需要用到Puppeteer库用node.js扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡

开发背景

本次看到了小影很好看,但是目前看了稍微有些知名的平台都是vue,毕竟vue超过普通html+css性能太多了,vue的渲染机制决定的,请注意奥我们python开发的落地页修改下只是临时用,并且赠送给客户,python使用一定要注意合法合规!!

实战开发

目标网站是由 Vue.js 编译后生成的单页应用程序(SPA)时,爬取和保存网页内容的步骤会有所不同。Vue.js 和其他前端框架(如 React 和 Angular)生成的 SPA 通常依赖于动态加载的资源和客户端渲染。要完整保存这些网页的内容,通常需要执行以下步骤:

  1. 使用无头浏览器:为了正确处理客户端渲染和动态加载,建议使用无头浏览器(如 Puppeteer 或 Selenium)来模拟用户在浏览器中的操作。这些工具可以渲染页面并下载所有相关的静态资源。
  2. 保存页面内容:通过无头浏览器获取页面的 HTML、CSS、JS 文件和其他静态资源,并将其保存到本地。

根据已知信息我们需要用到node.js,因此我们切换掉python,新建download.js

写入编写的js爬虫代码

const puppeteer = require('puppeteer');
const fs = require('fs');
const path = require('path');
const url = require('url');
// 目标URL
const targetUrl = 'https://www.xiaoying.tv/';
// 创建保存目录
const saveDirectory = 'xiaoying_tv';
const cssDirectory = path.join(saveDirectory, 'css');
const jsDirectory = path.join(saveDirectory, 'js');
const assetsDirectory = path.join(saveDirectory, 'assets');
if (!fs.existsSync(saveDirectory)) fs.mkdirSync(saveDirectory);
if (!fs.existsSync(cssDirectory)) fs.mkdirSync(cssDirectory);
if (!fs.existsSync(jsDirectory)) fs.mkdirSync(jsDirectory);
if (!fs.existsSync(assetsDirectory)) fs.mkdirSync(assetsDirectory);
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(targetUrl, { waitUntil: 'networkidle2' });
    // 保存HTML文件
    const html = await page.content();
    fs.writeFileSync(path.join(saveDirectory, 'index.html'), html, 'utf8');
    // 下载并保存CSS文件
    const cssLinks = await page.$$eval('link[rel="stylesheet"]', links => links.map(link => link.href));
    for (const link of cssLinks) {
        const response = await page.goto(link);
        const cssContent = await response.text();
        const cssFileName = path.basename(url.parse(link).pathname);
        fs.writeFileSync(path.join(cssDirectory, cssFileName), cssContent, 'utf8');
    }
    // 下载并保存JS文件
    const jsLinks = await page.$$eval('script[src]', scripts => scripts.map(script => script.src));
    for (const script of jsLinks) {
        const response = await page.goto(script);
        const jsContent = await response.text();
        const jsFileName = path.basename(url.parse(script).pathname);
        fs.writeFileSync(path.join(jsDirectory, jsFileName), jsContent, 'utf8');
    }
    // 下载并保存图片等静态文件
    const imgLinks = await page.$$eval('img[src]', imgs => imgs.map(img => img.src));
    for (const img of imgLinks) {
        const response = await page.goto(img);
        const imgBuffer = await response.buffer();
        const imgFileName = path.basename(url.parse(img).pathname);
        fs.writeFileSync(path.join(assetsDirectory, imgFileName), imgBuffer);
    }
    // 下载并保存其他静态文件(如视频、音频等)
    const staticLinks = await page.$$eval('a[href], video[src], audio[src]', elements => elements.map(el => el.href || el.src).filter(src => src));
    for (const link of staticLinks) {
        const response = await page.goto(link);
        const fileBuffer = await response.buffer();
        const fileName = path.basename(url.parse(link).pathname);
        const fileExtension = path.extname(fileName).toLowerCase();
        let filePath = '';
        if (['.png', '.jpg', '.jpeg', '.gif', '.svg', '.mp4', '.mp3'].includes(fileExtension)) {
            filePath = path.join(assetsDirectory, fileName);
        } else if (fileExtension === '.css') {
            filePath = path.join(cssDirectory, fileName);
        } else if (fileExtension === '.js') {
            filePath = path.join(jsDirectory, fileName);
        }
        fs.writeFileSync(filePath, fileBuffer);
    }
    await browser.close();
    console.log('网页内容下载完成!');
})();

完成后,我分了一下目录 ,此前python也是有用的,于是我这样

由于安装了node依赖因此我默认根目录是node,继续我们的爬取

思路

详细说明:

  1. 安装 Puppeteer:使用 npm 安装 Puppeteer 库。
  2. 设置保存目录:创建保存 HTML、CSS、JS 文件和静态资源的目录。
  3. 使用 Puppeteer 模拟浏览器操作
  • 启动浏览器并导航到目标 URL。
  • 保存 HTML 内容到本地文件。
  • 查找并下载所有 CSS 文件,并保存到 /css 目录。
  • 查找并下载所有 JS 文件,并保存到 /js 目录。
  • 查找并下载所有图片等静态资源,并保存到 /assets 目录。

实战

以下是使用 Puppeteer 爬取 Vue.js 编译后网站的示例代码:

步骤 1:安装 Puppeteer

首先,安装 Puppeteer 库。在终端中运行以下命令:

npm install puppeteer

步骤 2:编写爬虫脚本

使用 Puppeteer 模拟浏览器操作并下载页面内容。以下是详细的代码示例:

const puppeteer = require('puppeteer');
const fs = require('fs');
const path = require('path');
const url = require('url');
// 目标URL
const targetUrl = 'https://www.xiaoying.tv/';
// 创建保存目录
const saveDirectory = 'xiaoying_tv';
const cssDirectory = path.join(saveDirectory, 'css');
const jsDirectory = path.join(saveDirectory, 'js');
const assetsDirectory = path.join(saveDirectory, 'assets');
if (!fs.existsSync(saveDirectory)) fs.mkdirSync(saveDirectory);
if (!fs.existsSync(cssDirectory)) fs.mkdirSync(cssDirectory);
if (!fs.existsSync(jsDirectory)) fs.mkdirSync(jsDirectory);
if (!fs.existsSync(assetsDirectory)) fs.mkdirSync(assetsDirectory);
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(targetUrl, { waitUntil: 'networkidle2' });
    // 保存HTML文件
    const html = await page.content();
    fs.writeFileSync(path.join(saveDirectory, 'index.html'), html, 'utf8');
    // 下载并保存CSS文件
    const cssLinks = await page.$$eval('link[rel="stylesheet"]', links => links.map(link => link.href));
    for (const link of cssLinks) {
        const response = await page.goto(link);
        const cssContent = await response.text();
        const cssFileName = path.basename(url.parse(link).pathname);
        fs.writeFileSync(path.join(cssDirectory, cssFileName), cssContent, 'utf8');
    }
    // 下载并保存JS文件
    const jsLinks = await page.$$eval('script[src]', scripts => scripts.map(script => script.src));
    for (const script of jsLinks) {
        const response = await page.goto(script);
        const jsContent = await response.text();
        const jsFileName = path.basename(url.parse(script).pathname);
        fs.writeFileSync(path.join(jsDirectory, jsFileName), jsContent, 'utf8');
    }
    // 下载并保存图片等静态文件
    const imgLinks = await page.$$eval('img[src]', imgs => imgs.map(img => img.src));
    for (const img of imgLinks) {
        const response = await page.goto(img);
        const imgBuffer = await response.buffer();
        const imgFileName = path.basename(url.parse(img).pathname);
        fs.writeFileSync(path.join(assetsDirectory, imgFileName), imgBuffer);
    }
    // 下载并保存其他静态文件(如视频、音频等)
    const staticLinks = await page.$$eval('a[href], video[src], audio[src]', elements => elements.map(el => el.href || el.src).filter(src => src));
    for (const link of staticLinks) {
        const response = await page.goto(link);
        const fileBuffer = await response.buffer();
        const fileName = path.basename(url.parse(link).pathname);
        const fileExtension = path.extname(fileName).toLowerCase();
        let filePath = '';
        if (['.png', '.jpg', '.jpeg', '.gif', '.svg', '.mp4', '.mp3'].includes(fileExtension)) {
            filePath = path.join(assetsDirectory, fileName);
        } else if (fileExtension === '.css') {
            filePath = path.join(cssDirectory, fileName);
        } else if (fileExtension === '.js') {
            filePath = path.join(jsDirectory, fileName);
        }
        fs.writeFileSync(filePath, fileBuffer);
    }
    await browser.close();
    console.log('网页内容下载完成!');
})();

执行

node download.js

完成爬取

查看代码,完美,

查看预览效果,也很完美

下一步我们来做安卓下载和苹果下载,以及修改网页整体内容

目录
相关文章
|
27天前
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
74 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
6天前
|
安全 算法 小程序
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
67 28
【03】微信支付商户申请下户到配置完整流程-微信开放平台创建APP应用-填写上传基础资料-生成安卓证书-获取Apk签名-申请+配置完整流程-优雅草卓伊凡
|
1月前
|
JavaScript 搜索推荐 Android开发
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
65 8
【01】仿站技术之python技术,看完学会再也不用去购买收费工具了-用python扒一个app下载落地页-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-客户的麻将软件需要下载落地页并且要做搜索引擎推广-本文用python语言快速开发爬取落地页下载-优雅草卓伊凡
|
10天前
|
小程序 搜索推荐 Android开发
Axure原型模板与元件库APP交互设计素材(附资料)
Axure是一款强大的原型设计工具,广泛应用于APP和小程序的设计与开发。本文详细介绍Axure的常用界面组件元件库、交互设计素材,涵盖电商、社区服务、娱乐休闲、农业农村、教育等领域的多套交互案例。通过手机模型、矢量图标、通用组件等资源,设计师可高效构建原型并模拟用户操作,评估界面效果。Axure支持导出和分享,助力团队协作,推动更多优秀应用的诞生。
111 6
|
算法 数据格式 Python
Python requests请求页面返回乱码问题
有时候在通过Python爬取网页数据的时候,比如抖音、快手等短视频数据;网页会返回乱码;这种乱码数据,不管是gb2312、utf-8、gbk、亦或者使用gbk的超集gb18030等编码都毫无用处。看下图。
Python requests请求页面返回乱码问题
|
11天前
|
机器学习/深度学习 存储 设计模式
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。
|
11天前
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
11天前
|
设计模式 机器学习/深度学习 前端开发
Python 高级编程与实战:深入理解设计模式与软件架构
本文深入探讨了Python中的设计模式与软件架构,涵盖单例、工厂、观察者模式及MVC、微服务架构,并通过实战项目如插件系统和Web应用帮助读者掌握这些技术。文章提供了代码示例,便于理解和实践。最后推荐了进一步学习的资源,助力提升Python编程技能。
|
12天前
|
数据采集 搜索推荐 C语言
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化和调试技巧,涵盖使用内置函数、列表推导式、生成器、`cProfile`、`numpy`等优化手段,以及`print`、`assert`、`pdb`和`logging`等调试方法。通过实战项目如优化排序算法和日志记录的Web爬虫,帮助你编写高效稳定的Python程序。
|
1天前
|
Java API Docker
在线编程实现!如何在Java后端通过DockerClient操作Docker生成python环境
以上内容是一个简单的实现在Java后端中通过DockerClient操作Docker生成python环境并执行代码,最后销毁的案例全过程,也是实现一个简单的在线编程后端API的完整流程,你可以在此基础上添加额外的辅助功能,比如上传文件、编辑文件、查阅文件、自定义安装等功能。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
在线编程实现!如何在Java后端通过DockerClient操作Docker生成python环境

热门文章

最新文章