etree.HTML()
: 构造了一个 XPath 解析对象并对 HTML 文本进行自动修正。
etree.tostring()
:输出修正后的结果,类型是 bytes
可参考以下代码:
这里首先导入 lxml 库的 etree 模块,然后声明了一段 HTML 文本,调用HTML 类进行初始化,这样就成功构造了一个 XPath 解析对象。这里需要注意的是,HTML 文本中的最后一个li节点是没有闭合的,但是 etree.HTML 模块可以自动修正 HTML 文本。
这里我们调用 tostring() 方法即可输出修正后的 HTML 代码,但是结果是bytes 类型。这里利用 decode() 方法将其转成 str 类型,结果如下: