在开发公文系统,需要为公文的正文套上固定的格式。为方便拟稿人编辑文件,选择使用富文本组件输入正文,直接将富文本组件放入word模版中,出来的是一串html代码,如何能只把文本值取出来吗?
有以下几种方法可以将 HTML 实体代码转换为文本:
1、使用 HTMLParser
HTMLParser 是 Python 标准库中的一个模块,它提供了用于解析 HTML 文档的功能。HTMLParser 中有一个名为 unescape() 的方法,可以将 HTML 实体代码转换为文本。
import HTMLParser
html_string = "<p>This is a paragraph.</p>"
parser = HTMLParser.HTMLParser()
text_string = parser.unescape(html_string)
print(text_string)
This is a paragraph.
1
2
3
4
5
6
7
8
2、使用 BeautifulSoup
BeautifulSoup 是一个流行的 Python 库,用于解析 HTML 文档。BeautifulSoup 中有一个名为 convertEntities 的参数,可以将 HTML 实体代码转换为文本。
from bs4 import BeautifulSoup
html_string = "<p>This is a paragraph.</p>"
soup = BeautifulSoup(html_string, "html.parser", convertEntities=BeautifulSoup.HTML_ENTITIES)
text_string = soup.get_text()
print(text_string)
This is a paragraph.
1
2
3
4
5
6
7
8
3、使用 htmlentitydefs 模块
htmlentitydefs 模块是 Python 标准库中的一个模块,它提供了用于处理 HTML 实体代码的函数和常量。
import htmlentitydefs
html_string = "<p>This is a paragraph.</p>"
text_string = htmlentitydefs.codepoint2name[ord("<")]
print(text_string)
参考文档https://blog.csdn.net/weixin_44617651/article/details/137453731
如果富文本组件输出的是HTML代码,您可以使用HTML解析工具或编程语言(如JavaScript、Python等)来提取文本内容。通常,您可以找到HTML中的
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。