Node.js使用cheerio解析html

简介: Node.js使用cheerio解析html

cheerio语法类似jQuery

doc

安装

npm i cheerio

代码实例

const cheerio = require("cheerio");

const doc = cheerio.load('<h2 class="title">Hello world</h2>', {
xmlMode: true,
decodeEntities: false
});

doc("h2.title").text("Hello there!");
doc("h2").addClass("welcome");

console.log(doc.xml());
// <h2 class="title welcome">Hello there!</h2>

项目实战

import cheerio from "cheerio";

/**
* 将外链图片转为本站连接
@param {} html
* @returns
*/
export async function replaceImage(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let elems = [];

// each不等待promise
doc("img").each(function(index, elem) {
elems.push(doc(this));
});

for (let elem of elems) {
let src = elem.attr("src");

if (src && src.indexOf(process.env.VUE_APP_BASE_URL) == -1) {
// 修改为自己的替换方法
let imageSrc = await saveImage(src);

if (imageSrc) {
elem.attr("src", imageSrc);
}
}
}

return doc.xml();
}

/**
* 提取图片连接
@param {} html
* @returns
*/
export function extractImages(html) {

const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

let images = [];

doc("img").each(function(index, elem) {
let src = doc(this).attr("src");
if (src) {
images.push(src);
}
});

return images;
}



/**
* 移除style属性
@param {} html
* @returns
*/
export function removeStyle(html) {
const doc = cheerio.load(html, {
xmlMode: true,
decodeEntities: false
});

doc("*[style]").removeAttr("style");

return doc.xml();
}

xml和html

const cheerio = require("cheerio");

const doc = cheerio.load("<a></a>");

// xml模式输出,a标签被处理成自闭合标签
console.log(doc.xml());
// <html><head/><body><a/></body></html>

// html格式输出,a标签没有被处理
console.log(doc.html());
// <html><head></head><body><a></a></body></html>

如果只是使用html片段,可以自己处理html返回后的结果

const cheerio = require("cheerio");

function getDom(html) {
return cheerio.load(html);
}

function toHtml(doc) {
// 将生成文本多余的标签去除
let html = doc.html();
let pattern = /<html><head></head><body>([\s\S]*)</body></html>/;
let res = html.match(pattern);
return res[1];
}

console.log(toHtml(getDom("<a></a>")));
// <a></a>
            </div>
目录
相关文章
|
2天前
|
JavaScript 前端开发 编译器
Nodejs 第二十三章(Markdown 转 html)
Nodejs 第二十三章(Markdown 转 html)
49 0
|
存储 缓存 开发框架
传统html+vue+elementUI开发&nodeJS环境搭建
Shiro提供了完整的企业级会话管理功能,不依赖于底层容器(如Tomcat、WebLogic),不管是J2SE还是J2EE环境都可以使用,提供了会话管理,会话事件监听,会话存储/持久化,容器无关的集群,失效/过期支持,对Web的透明支持,SSO单点登录的支持等特性。 所谓会话,即用户访问应用时保持的连接关系,在多次交互中应用能够识别出当前访问的用户是谁,且可以在多次交互中保存一些数据。如访问一些网站时登录成功后,网站可以记住用户,且在退出之前都可以识别当前用户是谁。
|
XML JavaScript 数据格式
Node.js使用cheerio解析html
Node.js使用cheerio解析html
149 0
|
XML JavaScript 数据格式
Node.js使用cheerio解析html
Node.js使用cheerio解析html
305 0
|
Web App开发 JavaScript 前端开发
|
2天前
|
移动开发 HTML5
HTML5/CSS3粒子效果进度条代码
HTML5/CSS3进度条应用。这款进度条插件在播放进度过程中出现粒子效果,就像一些小颗粒从进度条上散落下来
18 0
HTML5/CSS3粒子效果进度条代码
|
2天前
|
移动开发 前端开发 JavaScript
:掌握移动端开发:HTML5 与 CSS3 的高效实践
:掌握移动端开发:HTML5 与 CSS3 的高效实践 “【5月更文挑战第6天】”
27 1
|
2天前
|
缓存 移动开发 前端开发
【专栏:HTML与CSS前端技术趋势篇】HTML与CSS在PWA(Progressive Web Apps)中的应用
【4月更文挑战第30天】PWA(Progressive Web Apps)结合现代Web技术,提供接近原生应用的体验。HTML在PWA中构建页面结构和内容,响应式设计、语义化标签、Manifest文件和离线页面的创建都离不开HTML。CSS则用于定制主题样式、实现动画效果、响应式布局和管理字体图标。两者协同工作,保证PWA在不同设备和网络环境下的快速、可靠和一致性体验。随着前端技术进步,HTML与CSS在PWA中的应用将更广泛。
|
2天前
|
前端开发 JavaScript 开发者
【专栏:HTML与CSS前端技术趋势篇】前端框架(React/Vue/Angular)与HTML/CSS的结合使用
【4月更文挑战第30天】前端框架React、Vue和Angular助力UI开发,通过组件化、状态管理和虚拟DOM提升效率。这些框架与HTML/CSS结合,使用模板语法、样式管理及组件化思想。未来趋势包括框架简化、Web组件标准采用和CSS在框架中角色的演变。开发者需紧跟技术发展,掌握新工具,提升开发效能。