一日一技:如何提取网页中的日期?

简介: 一日一技:如何提取网页中的日期?

Gne[1]虽然在提取新闻正文的时候,准确率比较高,但由于提取新闻发布时间使用的是正则表达式,因此提取效果有时候不那么让人满意。


最近我发现Python的一个第三方库,叫做htmldate,经过测试,它提取新闻的发布时间比较准确。我们来看看这个库怎么使用。首先使用pip安装:


python3 -m pip install htmldate


然后,我们使用Requests或者Selenium获得网站的源代码:


import requests
from htmldate import find_date
html = requests.get('https://www.kingname.info/2022/03/09/this-is-gnelist/').content.decode('utf-8')
date = find_date(html)
print(date)


运行效果如下图所示:


640 (5).png


而这篇文章的发布时间,确实是3月9号:


640 (6).png


我们再用网易新闻来看一下,相互激励 增进友谊(精彩绽放) |残奥|中国代表团|单板滑雪|夺金_网易政务[2] 这篇新闻对应的发布时间如下图所示:


640 (7).png


现在我们用Requests获得它的源代码,然后再提取发布时间:


640 (8).png


发布日期确实对了,但是后面的时间怎么丢失了呢?如果想把时分秒保留下来,可以增加一个参数outputformat,它的值就是你在datetime.strftime里面输入的值:


find_date(html, outputformat='%Y-%m-%d %H:%M:%S')


运行效果如下图所示:


640 (9).png


find_date的参数,除了网页源代码外,还可以传入URL,或者是lxml里面的Dom对象,例如:


from lxml.html import fromstring
selector = fromstring(html)
date = find_date(selector)


参考文献[1]


Gne: https://github.com/GeneralNewsExtractor/GeneralNewsExtractor


[2] 相互激励 增进友谊(精彩绽放) |残奥|中国代表团|单板滑雪|夺金_网易政

务: https://www.163.com/news/article/H28Q6NQ1000189FH.html


请关注微信公众号【未闻Code】获取更多精彩文章。


目录
相关文章
|
1月前
|
Python
ChatGPT 调教指南:从 PDF 提取标题并保存
ChatGPT 调教指南:从 PDF 提取标题并保存
75 0
|
1月前
|
Python
如何使用正则表达式提取网页中的特定信息
如何使用正则表达式提取网页中的特定信息
|
1月前
|
弹性计算 运维 Shell
每个网页标题的摘要
【4月更文挑战第30天】
11 0
|
8月前
|
前端开发
【前端】从markdown格式文本中提取图片链接
【前端】从markdown格式文本中提取图片链接
87 0
|
10月前
|
XML 数据采集 Web App开发
XPath数据提取与贴吧爬虫应用示例
XPath(XML Path Language)是一种用于在XML文档中定位和选择节点的语言。它提供了一种简洁的方式来遍历和提取XML文档中的数据。
84 1
|
11月前
|
人工智能 自然语言处理 搜索推荐
插件推荐:一键提取视频和网页摘要Glarity
插件推荐:一键提取视频和网页摘要Glarity
228 0
插件推荐:一键提取视频和网页摘要Glarity
|
人工智能 文字识别 API
20行代码教你如何批量提取图片中文字
大家好,我是志斌~ 之前志斌在考研的时候遇到了一个问题,就是要将图片中的文字给提取出来,当时是J哥帮忙搞出来的,现在已经考完研了,也学会了提取方式,现在来给大家分享一下。
741 0
20行代码教你如何批量提取图片中文字
|
Web App开发 开发者
GNE v0.04版更新,支持提取正文图片与源代码
GNE v0.04版更新,支持提取正文图片与源代码
127 0
|
人工智能 UED
ThinkPHP6.0 实现 图片审核+文本内容审核(敏感词过滤)
应用场景 用户评论过滤:对网站用户的评论信息进行检测,审核出涉及违规内容,保证良好的用户体验 注册信息筛查:对用户的注册信息进行筛查,避免黑产通过用户名实现违规信息的推广 文章内容审核:对UGC文章内容进行多个维度的审核,避免因内容违规导致的APP下架等损失
|
自然语言处理 Python
Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
Python实现文本分词并写入新的文本文件,然后提取出文本中的关键词
121 0