GNE v0.04版更新,支持提取正文图片与源代码

简介: GNE v0.04版更新,支持提取正文图片与源代码

摄影:产品经理游玩:产品经理&kingname

GeneralNewsExtractor以下简称GNE是一个新闻网页通用抽取器,能够在不指定任何抽取规则的情况下,把新闻网站的正文提取出来。

我们来看一下它的基本使用方法。

安装 GNE

使用 pip 安装:

pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git

当然你也可以使用pipenv安装:

pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne

获取新闻网页源代码

GNE 现在不会,将来也不会提供网页请求的功能,所以你需要自行想办法获取经过渲染以后的网页源代码。你可以使用Selenium或者Pyppeteer或者直接从浏览器上复制。

这里演示如何直接从浏览器中复制网页的源代码:

  1. 在 Chrome 浏览器中打开对应页面,然后开启开发者工具,如下图所示:

  1. 在 Elements 标签页定位到标签,并右键,选择 Copy-Copy OuterHTML,如下图所示

  1. 把源代码保存为 1.html

提取正文信息

编写如下代码:

from gne import GeneralNewsExtractor
with open('1.html') as f:
    html = f.read()
extractor = GeneralNewsExtractor()
result = extractor.extract(html)
print(result)

运行效果如下图所示:

这次更新了什么

在最新更新的 v0.04 版本中,开放了正文图片提取功能,与返回正文源代码功能。其中返回图片 URL 的功能在上面已经演示了,结果中的images字段就是正文中的图片。

那么怎么返回正文源代码呢?只需要增加一个参数with_body_html=True即可:

from gne import GeneralNewsExtractor
with open('1.html') as f:
    html = f.read()
extractor = GeneralNewsExtractor()
result = extractor.extract(html, with_body_html=True)
print(result)

运行效果如下图所示:

返回结果中的body_html就是正文的 html 源代码。

目录
相关文章
|
6月前
|
自然语言处理 IDE 前端开发
5个可保存的在线代码片段平台推荐-变成自己的代码词典库
5个可保存的在线代码片段平台推荐-变成自己的代码词典库
240 0
|
15天前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
44 0
|
18天前
|
索引 Python
PDF文件页面提取操作小指南
PDF文件页面提取操作小指南
42 4
|
3月前
在线将多张图片拼接起来图工具HTML源码
在线将多张图片拼接成一张图片,多图合一并导出下载。无需本地安装软件。 下载时,使用日期时间作为文件名,规避图片文件名相同造成的覆盖问题;也能省去一部覆盖确认操作 多语言支持
35 0
在线将多张图片拼接起来图工具HTML源码
|
3月前
[PDF提取重命名]提取识别文字并对PDF文件批量重命名,提取PDF指定可复制的内容并批量重命名PDF,批量PDF文档指定识别提取区域
本文介绍一款实用工具,能快速从可复制内容的PDF中提取指定区域信息并据此重命名文件。设置提取坐标及导入PDF文档、设定新文件名后启动提取流程,即可高效批量处理。保存坐标设置以便重复使用,适用于需频繁修改大量PDF文件名的场景。
214 0
[PDF提取重命名]提取识别文字并对PDF文件批量重命名,提取PDF指定可复制的内容并批量重命名PDF,批量PDF文档指定识别提取区域
|
6月前
|
Python
如何使用正则表达式提取网页中的特定信息
如何使用正则表达式提取网页中的特定信息
126 1
|
6月前
|
搜索推荐 定位技术 数据安全/隐私保护
方便、免费的PDF在线处理网站汇总:PDF合并、文字编辑、页面提取与删除、格式转换…
方便、免费的PDF在线处理网站汇总:PDF合并、文字编辑、页面提取与删除、格式转换…
133 1
|
人工智能 自然语言处理 搜索推荐
插件推荐:一键提取视频和网页摘要Glarity
插件推荐:一键提取视频和网页摘要Glarity
298 0
插件推荐:一键提取视频和网页摘要Glarity
|
数据安全/隐私保护 Python
【文档操作】提取PPT中的图片
今天要带大家实现的是PPT图片的提取。在我们学习工作中,PPT的使用还是非常频繁的,但是自己做PPT是很麻烦的,所以就需要用到别人的模板或者素材,这个时候提取PPT图片就可以减少我们很多工作。
210 0
|
人工智能 UED
ThinkPHP6.0 实现 图片审核+文本内容审核(敏感词过滤)
应用场景 用户评论过滤:对网站用户的评论信息进行检测,审核出涉及违规内容,保证良好的用户体验 注册信息筛查:对用户的注册信息进行筛查,避免黑产通过用户名实现违规信息的推广 文章内容审核:对UGC文章内容进行多个维度的审核,避免因内容违规导致的APP下架等损失