开发者社区> auqbllxiu> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Node.js使用cheerio解析html

简介: Node.js使用cheerio解析html
+关注继续查看

cheerio语法类似jQuery

doc

安装

npm i cheerio

代码实例

const cheerio = require("cheerio");

const doc = cheerio.load('<h2 class="title">Hello world</h2>', {
xmlMode: true,
decodeEntities: false
});

doc("h2.title").text("Hello there!");
doc("h2").addClass("welcome");

console.log(doc.xml());
// <h2 class="title welcome">Hello there!</h2>

项目实战

import cheerio from "cheerio";

/**
* 将外链图片转为本站连接
@param {} html
* @returns
*/
export async function replaceImage(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let elems = [];

// each不等待promise
doc("img").each(function(index, elem) {
elems.push(doc(this));
});

for (let elem of elems) {
let src = elem.attr("src");

if (src && src.indexOf(process.env.VUE_APP_BASE_URL) == -1) {
// 修改为自己的替换方法
let imageSrc = await saveImage(src);

if (imageSrc) {
elem.attr("src", imageSrc);
}
}
}

return doc.xml();
}

/**
* 提取图片连接
@param {} html
* @returns
*/
export function extractImages(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let images = [];

doc("img").each(function(index, elem) {
let src = doc(this).attr("src");
if (src) {
images.push(src);
}
});

return images;
}



/**
* 移除style属性
@param {} html
* @returns
*/
export function removeStyle(html) {
const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

doc("*[style]").removeAttr("style");

return doc.xml();
}

xml和html

const cheerio = require("cheerio");

const doc = cheerio.load("<a></a>");

// xml模式输出,a标签被处理成自闭合标签
console.log(doc.xml());
// <html><head/><body><a/></body></html>

// html格式输出,a标签没有被处理
console.log(doc.html());
// <html><head></head><body><a></a></body></html>

如果只是使用html片段,可以自己处理html返回后的结果

const cheerio = require("cheerio");

function getDom(html) {
return cheerio.load(html);
}

function toHtml(doc) {
// 将生成文本多余的标签去除
let html = doc.html();
let pattern = /<html><head></head><body>([\s\S]*)</body></html>/;
let res = html.match(pattern);
return res[1];
}

console.log(toHtml(getDom("<a></a>")));
// <a></a>
            </div>

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Node.js使用cheerio解析html
Node.js使用cheerio解析html
21 0
Node.js使用cheerio解析html
Node.js使用cheerio解析html
9 0
刮刮乐,前端代码html+js实现,直接运行
刮刮乐,前端代码html+js实现,直接运行
35 0
node-16-ejs-综合-cheerio
先熟悉下流程把之前爬取的数据展示出来
33 0
node-12-cheerio
cheerio可以理解成具备jquery核心功能的服务器版端版本 主要是对DOM进行操作 npm i cheerio -S
33 0
JS文件通过Node运行和HTML文件的script标签运行不一致的原因
JS文件通过Node运行和HTML文件的script标签运行不一致的原因
64 0
common.js node.js
引用: 前言:早就听说有用于本地编程的JavaScript框架,但总觉得是小打小闹不成气候,也没有什么实用价值。但自从CommonJS和NodeJS两个项目的出现,JavaScript作为本地编程语言的这种特殊应用形式,才开始进入进入大众的视野。
795 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
《零基础HTML入门教程》
立即下载
探究 Node.js 的服务端之路
立即下载
基于 OpenResty 和 Node.js 的个推微服务实践
立即下载