Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
SQL Oracle 关系型数据库
|
并行计算 PyTorch 算法框架/工具
NumPy 高级教程——GPU 加速
NumPy 高级教程——GPU 加速【1月更文挑战第4篇】
1179 1
|
JavaScript 前端开发 测试技术
解锁弹框:Python 下的 Playwright 弹框处理完全指南
本文介绍了如何使用Python的Playwright库处理Web自动化测试中的弹框。弹框分为alert、confirm和prompt三种类型。在Playwright中,可通过`page.on(&#39;dialog&#39;)`事件监听器进行处理。对于警告框,定义`on_dialog`函数打印消息并接受弹框;确认框可使用`dialog.accept()`或`dialog.dismiss()`;提示框则使用`dialog.accept(text)`输入文本。Playwright的API简化了弹框处理,提升了自动化测试效率。
|
XML 设计模式 安全
Spring AOP:原理、 通知、连接点、切点、切面、表达式
Spring AOP:原理、 通知、连接点、切点、切面、表达式
Spring AOP:原理、 通知、连接点、切点、切面、表达式
|
开发工具 数据库 git
向量检索服务体验评测
通过一个实用的例子带你全方位了解向量检索服务DashVector
120913 4
|
机器学习/深度学习 自然语言处理 TensorFlow
Long Short-Term Memory,简称 LSTM
长短期记忆(Long Short-Term Memory,简称 LSTM)是一种特殊的循环神经网络(RNN)结构,用于处理序列数据,如语音识别、自然语言处理、视频分析等任务。LSTM 网络的主要目的是解决传统 RNN 在训练过程中遇到的梯度消失和梯度爆炸问题,从而更好地捕捉序列数据中的长期依赖关系。
374 4
STM32cubeMX配置FreeRTOS软件定时器
STM32cubeMX配置FreeRTOS软件定时器
480 0
|
存储 JSON NoSQL
MongoDB必备知识点全面总结(一)
MongoDB必备知识点全面总结
879 0
MongoDB必备知识点全面总结(一)
|
消息中间件 存储 Java
[原创]JMS-ActiveMQ基础与SpringBoot整合
[原创]JMS-ActiveMQ基础与SpringBoot整合
[原创]JMS-ActiveMQ基础与SpringBoot整合