Python 给自己的博客做个目录,从网页中抓取标题和创建日期

简介: Python 给自己的博客做个目录,从网页中抓取标题和创建日期

从今年元旦开始学C++,3月中旬开始移师Python,已创建了近百篇博客,有必要编个目录总结一下学习成果了 :)

import urllib.request
lsturl=['https://blog.csdn.net/boysoft2002/article/details/', '112895584', '113916668', '115311607', '111057600', '112058765', '112649841', '112692650', '112758172', '112779716', '112852909', '112856888', '112983320', '112988386', '113037891', '113097166', '113145924', '113358043', '113446108', '113457253', '113529687', '113575820', '113622310', '113667015', '113697110', '113730868', '113772948', '113777228', '113787352', '113839813', '113858220', '113866928', '113872254', '113900792', '113926135', '114001024', '114047975', '114110148', '114154178', '114155994', '114163091', '114218122', '114175726', '114263346', '114222330', '114278061', '114300111', '114379446', '114383181', '114392833', '114416302', '114420231', '114441632', '114493856', '114557442', '114661201', '114702681', '114727175', '114801480', '114854993', '114896783', '114921167', '114927920', '115016170', '115044792', '115141151', '115190848', '115221872', '115260859', '115263165', '115289048', '115335269', '115359958', '115386613', '115407588', '115419833', '115425651', '115427777', '115438094', '115495837', '115563015', '115609329', '115641162', '115680965', '115796371', '115711808', '115917064', '115985659', '116240602', '116358084', '116376069', '116400341']
lsturl=[lsturl[0]]+sorted(lsturl[1:])
for i in range(1,len(lsturl)):
    url=lsturl[0]+lsturl[i]
    req=urllib.request.Request(url)
    try:
        resp=urllib.request.urlopen(req)
        data=resp.read().decode('utf-8')
        start=data.find('<title>')
        end=data.find('</title>')
        t=data[start+7:end]
        t=t.replace('_boysoft2002的专栏-CSDN博客','')
        d=data.split('<span class=\"time\">')[1]
        d=d.split('</span>')[0][:10]
        print(i,d,'《'+t+'》')
        print('<br><a href=\"'+url+'\">',url,'</a><br>')
    except:
        print('Error')






目录
相关文章
|
23天前
|
Python
在 Python 中,如何将日期时间类型转换为字符串?
在 Python 中,如何将日期时间类型转换为字符串?
119 64
|
25天前
|
Python
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
在 Python 中,如何将字符串中的日期格式转换为日期时间类型?
32 6
|
23天前
|
数据挖掘 Python
用Python轻松获取任意月份的公休日期
本文介绍了如何使用Python的`calendar`和`datetime`模块轻松获取任意月份的公休日期,包括周六和周日。通过示例代码,用户可以输入年份和月份,程序将输出该月份的所有公休日。这对于安排会议、规划旅行或数据分析都非常有用。
25 3
|
29天前
|
JavaScript 前端开发 开发者
探索 DrissionPage: 强大的Python网页自动化工具
DrissionPage 是一个基于 Python 的网页自动化工具,结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象:ChromiumPage、WebPage 和 SessionPage,分别适用于不同的使用场景,帮助开发者高效完成网页自动化任务。
127 4
|
2月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
1月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
2月前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
32 4
|
2月前
|
云计算 Python
用python给你写个简单的计算器功能网页啊
这张图片展示了阿里巴巴集团的组织架构图,涵盖了核心电商、云计算、数字媒体与娱乐、创新业务等主要板块,以及各板块下的具体业务单元和部门。
|
29天前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
76 0
|
2月前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
下一篇
DataWorks