python 任意新闻正文提取

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_21158419/article/details/52926595 ...
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_21158419/article/details/52926595

在github上搜到一个正文提取程序,测试了一下基本可以对现在大多数大型新闻网站进行提取

后续我会分析一下这个程序的源码

使用非常简单 如下

# -*- coding: utf-8 -*-
import newspaper
url =  'http://news.haiwainet.cn/n/2015/0611/c3541083-28826526.html'
a = newspaper.Article(url,language='zh')
a.download()
a.parse()
print(a.text)

github:https://github.com/codelucas/newspaper
目录
相关文章
|
Python
Python:使用readability-lxml 提取网页标题和主体内容
Python:使用readability-lxml 提取网页标题和主体内容
156 0
|
Python
Python提取pdf中的表格数据(附实战案例)
Python提取pdf中的表格数据(附实战案例)
822 0
Python提取pdf中的表格数据(附实战案例)
|
人工智能 编译器 Python
Python re 正则表达式 数据匹配提取 基本使用
模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 正则表达式通常都包含反斜杠"\\"以及小括号"\(\)",模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。
223 0
Python re 正则表达式 数据匹配提取 基本使用
|
网络安全 定位技术 Python
Python 提取图片中的GPS信息
JPG图片中默认存在敏感数据,例如位置,相机类型等,可以使用Python脚本提取出来,加以利用,自己手动拍摄一张照片,然后就能解析出这些敏感数据了,对于渗透测试信息搜索有一定帮助,但有些相机默认会抹除这些参数。
195 0
|
文字识别 异构计算 Python
【Python案例】OCR提取图片中的文字
【Python案例】OCR提取图片中的文字
【Python案例】OCR提取图片中的文字
|
机器学习/深度学习 自然语言处理 算法
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
207 0
使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要
|
数据采集 前端开发 Python
Python beautifulsoup4解析 数据提取 基本使用
文章目录 Python beautifulsoup4解析 数据提取 使用介绍&常用示例 前言 二、from bs4 import BeautifulSoup 1.pip install beautifulsoup4 2.Beautiful用法介绍 2.1 解析html源码创建创建Beautifulsoup对象 2.2 beautiful对象的常用属性和方法 2.3 find、find_all、CSS选择器 根据条件提取元素 3.常用代码 4.对象类型介绍 总结
135 2
Python beautifulsoup4解析 数据提取 基本使用
|
Web App开发 XML 数据格式
Python Xpath解析 数据提取 使用介绍&常用示例
Python Xpath解析 数据提取 使用介绍&常用示例 前言 一、from lxml import etree 1.pip install lxml 2.xpath用法介绍 2.1 选取节点 2.1 路径表达式结合元素介绍 3.代码示例 4.Xpath Helper (免费 Chrome 插件) 总结
253 0
Python Xpath解析 数据提取 使用介绍&常用示例
|
机器学习/深度学习 人工智能 自然语言处理
一定要用Photoshop?no!动手用Python做一个颜色提取器! ⛵
本文使用Python实现『颜色提取』功能,构建『简单提取器』与『复杂提取器』,从单个或多个图像的某个位置提取颜色,类似PS或者PPT中的取色器功能。
235 1
一定要用Photoshop?no!动手用Python做一个颜色提取器! ⛵
|
Python
python 提取红楼梦第一章得到五言律诗和七言律诗(正则表达式)
python 提取红楼梦第一章得到五言律诗和七言律诗(正则表达式)
127 0