Python 清理HTML标签类似PHP的strip_tags函数功能(二)

简介:

没有发现Python 有现成的类似功能模块,所以昨天写了个简单的 strip_tags 但还有些问题,今天应用到采集上时进行了部分功能的完善,

1. 对自闭和标签处理

2. 以及对标签参数的过滤



from html.parser import HTMLParser


def strip_tags(html, allow_tags=None, allow_attrs=None):
    result = []
    start = []
    data = []
    # 特殊的自闭和标签, 按 HTML5 的规则, 如 <br> <img> <wbr> 不再使用 /> 结尾
    special_end_tags = [
        'area', 'base', 'br', 'col', 'embed', 'hr',
        'img', 'input', 'keygen', 'link', 'meta', 'param',
        'source', 'track', 'wbr'
    ]

    def starttag(tag, attrs):
        if tag not in allow_tags:
            return
        start.append(tag)
        my_attrs = []
        if attrs:
            for attr in attrs:
                if allow_attrs and attr[0] not in allow_attrs:
                    continue
                my_attrs.append(attr[0] + '="' + attr[1] + '"')
            if my_attrs:
                my_attrs = ' ' + (' '.join(my_attrs))
            else:
                my_attrs = ''
        else:
            my_attrs = ''

        result.append('<' + tag + my_attrs + '>')

    def endtag(tag):
        if start and tag == start[len(start) - 1]:
            # 特殊自闭和标签按照HTML5规则不加反斜杠直接尖括号结尾
            if tag not in special_end_tags:
                result.append('</' + tag + '>')

    parser = HTMLParser()
    parser.handle_data = result.append
    if allow_tags:
        parser.handle_starttag = starttag
        parser.handle_endtag = endtag
    parser.feed(html)
    parser.close()

    for i in range(0, len(result)):
        tmp = result[i].rstrip('\n')
        tmp = tmp.lstrip('\n')
        if tmp:
            data.append(tmp)

    return ''.join(data)



目录
相关文章
|
3天前
|
存储 缓存 算法
Python中的hash函数
Python中的hash函数
|
5天前
|
Python
Python学习笔记---函数
这篇文章是一份Python函数学习的笔记,涵盖了使用函数的优势、内置函数的调用、自定义函数的定义、函数参数的不同类型(必须参数、关键字参数、默认参数、可变参数)、有返回值和无返回值的函数、形参和实参、变量作用域、返回函数、递归函数、匿名函数、偏函数以及输入和输出函数等多个函数相关的主题。
|
15天前
|
存储 Serverless 数据处理
Python - len(string)函数
通过上述介绍和示例,我们可以清楚地看到,在Python中,`len()`函数是处理字符串以及其他可迭代对象长度的重要工具。它简单、易用,但在实际应用中却非常强大,无论是在基础编程还是在复杂的数据处理中,`len()`函数都扮演着不可或缺的角色。
35 10
|
12天前
|
Python
【Leetcode刷题Python】剑指 Offer 30. 包含min函数的栈
本文提供了实现一个包含min函数的栈的Python代码,确保min、push和pop操作的时间复杂度为O(1)。
12 4
|
14天前
|
Python
【Python】实现MATLAB中计算两个矩形相交面积的rectint函数
Python中实现MATLAB中rectint函数的方法,该函数用于计算两个矩形相交区域的面积,并通过定义Rectangle类和calc_area函数展示了如何计算两个矩形的交集面积。
11 1
|
18天前
|
数据采集 JavaScript 数据挖掘
如何使用 PHP Simple HTML DOM Parser 轻松获取网页中的特定数据
本文介绍了使用PHP Simple HTML DOM Parser进行网页数据抓取的方法,尤其适用于从懂车帝二手车网站提取汽车品牌、价格和里程等关键信息。首先,安装并配置所需库,使用代理IP和设置cookie与useragent来模拟用户行为,避免被封。然后,通过编写PHP脚本,利用cURL获取网页内容,解析HTML并提取所需数据,最终将数据保存至CSV文件。文章强调了正确配置代理和用户代理的重要性,并提供了完整的PHP代码示例,以帮助读者理解和应用网页抓取技术。
如何使用 PHP Simple HTML DOM Parser 轻松获取网页中的特定数据
|
4天前
|
Python
Python 函数
Python 函数
6 0
|
7天前
|
程序员 Shell 开发工具
[oeasy]python029_ until_直接跳转到_unt_breakpoint_断点函数
回顾早期计算机操作员多为女性,她们甚至发明了“bug”这个词。为了体验调试过程,我们故意在Python脚本中引入了一个拼写错误,并通过直接运行程序遇到了`NameError`。 通过`until`命令,我们可以快速跳转到指定行执行,这对于大型项目非常有用。此外,`continue`(或简写`c`)命令则会一直执行到下一个断点或程序结束。我们还可以在代码中使用`breakpoint()`设置断点,配合`continue`命令使用,实现快速跳转至特定位置进行调试。 这些技巧使调试过程变得高效且有趣,如同解开谜题一般。下次我们将探讨如何在调试过程中动态设置与取消断点。
17 0
|
11天前
|
Python
Python使用函数检查阿姆斯特朗数
记住,要检查一个范围内所有的阿姆斯特朗数,你可以简单地遍历这个范围,并用这个函数来检查每一个数。这种方法虽然简单,但非常管用,特别是在解决需要识别特定数学属性数字的问题时。
10 0
|
12天前
|
Python
【python笔记】使用zip函数迭代多个可迭代对象
【python笔记】使用zip函数迭代多个可迭代对象