Python 给自己的博客做个目录,从网页中抓取标题和创建日期

简介: Python 给自己的博客做个目录,从网页中抓取标题和创建日期

从今年元旦开始学C++,3月中旬开始移师Python,已创建了近百篇博客,有必要编个目录总结一下学习成果了 :)

import urllib.request
lsturl=['https://blog.csdn.net/boysoft2002/article/details/', '112895584', '113916668', '115311607', '111057600', '112058765', '112649841', '112692650', '112758172', '112779716', '112852909', '112856888', '112983320', '112988386', '113037891', '113097166', '113145924', '113358043', '113446108', '113457253', '113529687', '113575820', '113622310', '113667015', '113697110', '113730868', '113772948', '113777228', '113787352', '113839813', '113858220', '113866928', '113872254', '113900792', '113926135', '114001024', '114047975', '114110148', '114154178', '114155994', '114163091', '114218122', '114175726', '114263346', '114222330', '114278061', '114300111', '114379446', '114383181', '114392833', '114416302', '114420231', '114441632', '114493856', '114557442', '114661201', '114702681', '114727175', '114801480', '114854993', '114896783', '114921167', '114927920', '115016170', '115044792', '115141151', '115190848', '115221872', '115260859', '115263165', '115289048', '115335269', '115359958', '115386613', '115407588', '115419833', '115425651', '115427777', '115438094', '115495837', '115563015', '115609329', '115641162', '115680965', '115796371', '115711808', '115917064', '115985659', '116240602', '116358084', '116376069', '116400341']
lsturl=[lsturl[0]]+sorted(lsturl[1:])
for i in range(1,len(lsturl)):
    url=lsturl[0]+lsturl[i]
    req=urllib.request.Request(url)
    try:
        resp=urllib.request.urlopen(req)
        data=resp.read().decode('utf-8')
        start=data.find('<title>')
        end=data.find('</title>')
        t=data[start+7:end]
        t=t.replace('_boysoft2002的专栏-CSDN博客','')
        d=data.split('<span class=\"time\">')[1]
        d=d.split('</span>')[0][:10]
        print(i,d,'《'+t+'》')
        print('<br><a href=\"'+url+'\">',url,'</a><br>')
    except:
        print('Error')






目录
相关文章
|
4月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
7月前
|
数据采集 Web App开发 JavaScript
基于Selenium的Python爬虫抓取动态App图片
基于Selenium的Python爬虫抓取动态App图片
563 68
|
7月前
|
Web App开发 数据采集 JavaScript
动态网页爬取:Python如何获取JS加载的数据?
动态网页爬取:Python如何获取JS加载的数据?
1250 58
|
4月前
|
数据采集 存储 XML
Python爬虫XPath实战:电商商品ID的精准抓取策略
Python爬虫XPath实战:电商商品ID的精准抓取策略
|
5月前
|
数据采集 存储 NoSQL
Python爬虫案例:Scrapy+XPath解析当当网网页结构
Python爬虫案例:Scrapy+XPath解析当当网网页结构
|
5月前
|
数据采集 监控 算法
Python文件与目录比较全攻略:从基础操作到性能优化
文件比较的核心在于数据指纹校验,通过逐字节比对生成唯一标识,确保内容一致性。从标准库的os与filecmp到高性能第三方库如pydiffx,再到分布式与量子加密技术的未来趋势,文件比较广泛应用于数据备份、代码审查与系统监控等领域,是保障数据完整性的关键技术手段。
133 0
|
7月前
|
供应链 API 开发者
1688 商品数据接口终极指南:Python 开发者如何高效获取标题 / 价格 / 销量数据(附调试工具推荐)
1688商品列表API是阿里巴巴开放平台提供的服务,允许开发者通过API获取1688平台的商品信息(标题、价格、销量等)。适用于电商选品、比价工具、供应链管理等场景。使用时需构造请求URL,携带参数(如q、start_price、end_price等),发送HTTP请求并解析返回的JSON/XML数据。示例代码展示了如何用Python调用该API获取商品列表。
425 18
|
6月前
|
数据采集 Web App开发 JavaScript
Python爬虫解析动态网页:从渲染到数据提取
Python爬虫解析动态网页:从渲染到数据提取
|
7月前
|
数据采集 存储 前端开发
Python爬虫自动化:批量抓取网页中的A链接
Python爬虫自动化:批量抓取网页中的A链接
|
7月前
|
JSON API 数据格式
手把手教你抓取京东商品评论:API 接口解析与 Python 实战
京东商品评论蕴含用户对产品质量、体验和服务的真实反馈,分析这些数据有助于企业优化产品和满足用户需求。由于京东未提供官方API,需通过逆向工程获取评论数据。其主要接口为“商品评论列表接口”,支持按商品ID、评分、排序方式等参数获取评论,返回JSON格式数据,包含评论列表、摘要(如好评率)及热门标签等信息。

推荐镜像

更多