【项目实战】解析HTML并处理特殊符号

本文涉及的产品
云解析DNS,个人版 1个月
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 【项目实战】解析HTML并处理特殊符号
1. // 解析HTML
2. export const analysis = function (str) {
3.     if (!str) {
4.         return ''
5.     }
6.     // 处理标签
7.     let text = replaceTag(str);
8.     // 处理特殊字符
9.     text = stripscript(text);
10.     // 处理回车符,反斜杠
11.     text = stripscript1(text);
12.     return text;
13. }
14. 
15. // 处理获取dom元素内容
16. export const handleText = function (el) {
17.     try {
18.         if (!el.innerText) {
19.             return ""
20.         }
21.         let text = ""
22.         const innerText = el.innerText
23.         const innerHtml = el.innerHtml
24.         if(innerText){
25.             text = analysis(innerText);
26.         } else if(innerHtml) {
27.             text = analysis(innerHtml);
28.         }
29.         return text;
30.     } catch (error) {
31.         console.log("error", error)
32.         return ""
33.     }
34. }
35. 
36. 
37. // 处理标签
38. function replaceTag(str) {
39.     return str.replace(/<.*?>/g, "");
40. 
41. }
42. // 处理特殊字符
43. function stripscript(s) {
44.     var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~!@#¥……&*()&mdash;—|{}【】‘;:”“'。,、?]")
45.     var rs = "";
46.     for (var i = 0; i < s.length; i++) {
47.         rs = rs + s.substr(i, 1).replace(pattern, '');
48.     }
49.     return rs;
50. }
51. // 处理特殊字符
52. function stripscript1(str) {
53. 
54.     return str.replace(/(\n|\r|\r\n|↵)/g, '')
55. }


相关文章
|
7天前
|
数据挖掘 Shell 测试技术
怎么用Python解析HTML轻松搞定网页数据
**Python解析HTML摘要** 本文介绍了使用Python处理HTML的常见需求,如数据提取、网络爬虫和分析,并讨论了三种解析方法。正则表达式适用于简单匹配,但对复杂HTML不理想;BeautifulSoup提供简单API,适合多数情况;lxml结合XPath,适合处理大型复杂文档。示例展示了如何用这些方法提取链接。
|
17天前
|
数据采集 JavaScript 前端开发
HTML表单深度解析:构建互动的网页界面
HTML表单深度解析:构建互动的网页界面
22 2
|
2天前
|
Unix Linux Shell
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。
Sphinx是一个Python文档生成工具,它可以解析reStructuredText或Markdown格式的源代码注释,并生成多种输出格式,如HTML、LaTeX、PDF、ePub等。
5 0
|
14天前
|
前端开发 JavaScript 数据安全/隐私保护
一篇教你学会HTML:常用标签 | 表格 | 表单 | 特殊符号转义
一篇教你学会HTML:常用标签 | 表格 | 表单 | 特殊符号转义
|
16天前
|
Linux 数据处理
探索Linux下的readlink命令:解析符号链接的利器
`readlink`命令在Linux中用于揭示符号链接的指向,显示它们所链接的实际文件或目录的路径。它可以显示简洁的绝对路径(-f),处理循环链接(-e),或不加换行符输出(-n)。例如,查看`link.txt`指向:`readlink link.txt`;获取绝对路径:`readlink -f link.txt`。使用时要注意链接是否存在、权限问题和可能的循环链接。
|
17天前
|
前端开发 开发者 SEO
HTML基础标签解析:H1-H6、DIV与P的正确使用方法
HTML基础标签解析:H1-H6、DIV与P的正确使用方法
15 0
|
2月前
|
设计模式 前端开发 Java
Java与HTML的深度融合:技术解析与应用实践
Java与HTML的深度融合:技术解析与应用实践
405 1
|
2月前
|
存储 前端开发 JavaScript
HTML相对路径的深入解析与应用
HTML相对路径的深入解析与应用
40 0
|
26天前
|
XML Java 数据格式
深度解析 Spring 源码:从 BeanDefinition 源码探索 Bean 的本质
深度解析 Spring 源码:从 BeanDefinition 源码探索 Bean 的本质
28 3
|
11天前
|
存储 安全 Java
深度长文解析SpringWebFlux响应式框架15个核心组件源码
以上是Spring WebFlux 框架核心组件的全部介绍了,希望可以帮助你全面深入的理解 WebFlux的原理,关注【威哥爱编程】,主页里可查看V哥每天更新的原创技术内容,让我们一起成长。

推荐镜像

更多