Gne Online:通用新闻网页正文在线提取

简介: Gne Online:通用新闻网页正文在线提取

摄影:产品经理冒脑花和宽粉

GNE[1]是我开源的一个新闻网站正文通用抽取器,自发布以来得到了很多同学的好评。

一直以来,GNE 是以 Python 包的形式存在,要测试 GNE 的提取效果,需要使用 pip 先安装,再写代码使用。

为了降低测试 GNE 的成本,也为了让更多同学了解 GNE,测试 GNE,我开发了网页版的 GNE——Gne Online

打开Gne Online 的地址为:http://122.51.39.219/,打开以后的页面如下图所示。

要测试 GNE 的功能,你只需要在最上面的文本框中粘贴网页源代码,并点击提取按钮即可:

对于标题、作者、新闻发布时间这种可能发送误提取的情况,我们可以通过下面对应的Title XPathAuthorPublish Time XPath来输入 XPath 定向提取。例如对于今日头条的文章:

新闻的作者提取失误,此时可以指定 XPath://div[@class="article-sub"]/span[1]/text()来定向提取,如下图所示。

通过设定Host输入框,可以在网页正文中的图片为相对路径时,拼上网址。

通过勾选下面的With Body Html复选框,可以返回正文所在的区域的网页源代码。

GNE 的更多使用说明,请参阅官方文档[2]

有了 Gne Online 以后,你再也不用提前准备 Python 环境了。

目录
相关文章
|
4月前
|
数据采集 JavaScript 前端开发
网页抓取进阶:如何提取复杂网页信息
在信息爆炸时代,从复杂网页中高效抓取数据对开发者和分析师至关重要。本文探讨如何利用 `webpage` 对象结合代理IP技术,轻松抓取如大众点评这类动态加载且具备反爬机制的网站数据。通过 Python 的 `requests`、`BeautifulSoup` 和 `Selenium`,结合代理IP,详细讲解了如何应对动态内容加载、反爬机制等问题,并提供了具体代码实现。通过这种方法,可以批量抓取商家信息,为数据分析提供支持。
368 1
网页抓取进阶:如何提取复杂网页信息
|
7月前
|
数据采集 JavaScript 前端开发
HTML表单深度解析:构建互动的网页界面
HTML表单深度解析:构建互动的网页界面
|
6月前
|
数据采集 JSON API
深入解析:抖音视频标题的Python爬虫提取方法
深入解析:抖音视频标题的Python爬虫提取方法
|
8月前
|
JSON 前端开发 Java
基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
【5月更文挑战第15天】基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
|
XML 数据采集 Web App开发
XPath数据提取与贴吧爬虫应用示例
XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它提供了一种简洁的方式来遍历和提取XML文档中的数据。
135 1
|
人工智能 自然语言处理 搜索推荐
插件推荐:一键提取视频和网页摘要Glarity
插件推荐:一键提取视频和网页摘要Glarity
329 0
插件推荐:一键提取视频和网页摘要Glarity
|
数据采集 Web App开发 算法
新闻类网页正文通用抽取器(一)——项目介绍
新闻类网页正文通用抽取器(一)——项目介绍
178 0
|
Web App开发 开发者
GNE v0.04版更新,支持提取正文图片与源代码
GNE v0.04版更新,支持提取正文图片与源代码
164 0
|
前端开发 程序员
【网页前端】HTML表格、图片、列表、超链接以及综合案例练习
【网页前端】HTML表格、图片、列表、超链接以及综合案例练习
449 0
【网页前端】HTML表格、图片、列表、超链接以及综合案例练习