Python:使用readability-lxml 提取网页标题和主体内容

简介: Python:使用readability-lxml 提取网页标题和主体内容

github: https://github.com/buriy/python-readability

pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-


from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769";
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title()) # 标题
print(doc.summary()) # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

            </div>
目录
相关文章
|
人工智能 前端开发 Linux
Python编程:利用ImageMagick转换PDF为图片并识别提取图表
Python编程:利用ImageMagick转换PDF为图片并识别提取图表
296 0
|
文字识别 异构计算 Python
【Python案例】OCR提取图片中的文字
【Python案例】OCR提取图片中的文字
【Python案例】OCR提取图片中的文字
|
数据采集 前端开发 Python
Python beautifulsoup4解析 数据提取 基本使用
文章目录 Python beautifulsoup4解析 数据提取 使用介绍&常用示例 前言 二、from bs4 import BeautifulSoup 1.pip install beautifulsoup4 2.Beautiful用法介绍 2.1 解析html源码创建创建Beautifulsoup对象 2.2 beautiful对象的常用属性和方法 2.3 find、find_all、CSS选择器 根据条件提取元素 3.常用代码 4.对象类型介绍 总结
163 2
Python beautifulsoup4解析 数据提取 基本使用
|
机器学习/深度学习 人工智能 自然语言处理
一定要用Photoshop?no!动手用Python做一个颜色提取器! ⛵
本文使用Python实现『颜色提取』功能,构建『简单提取器』与『复杂提取器』,从单个或多个图像的某个位置提取颜色,类似PS或者PPT中的取色器功能。
275 1
一定要用Photoshop?no!动手用Python做一个颜色提取器! ⛵
|
Python
Python提取pdf中的表格数据(附实战案例)
Python提取pdf中的表格数据(附实战案例)
1189 0
Python提取pdf中的表格数据(附实战案例)
|
人工智能 编译器 Python
Python re 正则表达式 数据匹配提取 基本使用
模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 正则表达式通常都包含反斜杠"\\"以及小括号"\(\)",模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。
250 0
Python re 正则表达式 数据匹配提取 基本使用
|
机器学习/深度学习 自然语言处理 算法
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
256 0
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
|
Web App开发 XML 数据格式
Python Xpath解析 数据提取 使用介绍&常用示例
Python Xpath解析 数据提取 使用介绍&常用示例 前言 一、from lxml import etree 1.pip install lxml 2.xpath用法介绍 2.1 选取节点 2.1 路径表达式结合元素介绍 3.代码示例 4.Xpath Helper (免费 Chrome 插件) 总结
293 0
Python Xpath解析 数据提取 使用介绍&常用示例
|
存储 SQL 文字识别
Python实现PD文字识别、提取并写入CSV文件脚本分享
Python实现PD文字识别、提取并写入CSV文件脚本分享
593 0
Python实现PD文字识别、提取并写入CSV文件脚本分享
|
Python
Python:使用readability-lxml 提取网页标题和主体内容
Python:使用readability-lxml 提取网页标题和主体内容
183 0
下一篇
无影云桌面