用python过滤某歌浏览器书签失效的网址

简介: 最近刚学习python,属于菜鸟级别的,于是打算写了个简单的书签过滤器,根据request模块请求,删除404的网址

版本:python 3.9

库:request,re


# 过滤失效的谷歌浏览器书签

import re

import requests

 

# 按 Shift+F10 执行或将其替换为您的代码。

# 按 双击 Shift 在所有地方搜索类、文件、工具窗口、操作和设置。

 

def main_start():

   new_file = open('./整理后的书签文件.html', mode='w', encoding='utf-8')

 

   new_file2 = open('./失效的书签文件.bed.html', mode='w', encoding='utf-8')

   # 字符匹配

   preg_match = re.compile('A HREF=".*ADD_DATE')

 

   preg_match_github = re.compile('github')

 

   filter_html = ''

   bed_html = ''

   with open('./谷歌浏览器导出的书签文件', encoding='utf-8') as bookmark:

       num = 0

       for item in bookmark.readlines():

           if num == 10:

               break

           str_match = preg_match.search(item)

           if str_match != None:

               group_str = str_match.group()

               group_str = group_str.replace('A HREF="', '')

               group_str = group_str.replace('" ADD_DATE', '')

               print(f' 开始请求:{group_str}')

               try:

                   github_search = preg_match_github.search(group_str)

                   if github_search != None:

                       filter_html += item + '\n'

                   else:

                       rr = requests.get(group_str, timeout=5)

                       if rr.status_code == 404:

                           bed_html += group_str + '\n'

                           print(f'{group_str} 这个网址失效啦!')

                       else:

                           filter_html += item + '\n'

                           print(f' 成功响应:{group_str}')

               except:

                   bed_html += group_str + '\n'

                   print(f'except:{group_str} 这个网址失效啦!')

           else:

               filter_html += item + '\n'

 

       new_file.write(filter_html)

       new_file2.write(bed_html)

 

 

# 按间距中的绿色按钮以运行脚本。

if __name__ == '__main__':

   main_start()


目录
相关文章
|
2天前
|
Web App开发 Linux iOS开发
Chrome浏览器如何导出所有书签并导入书签
【11月更文挑战第4天】本文介绍了如何在 Chrome 浏览器中导出和导入书签。导出时,打开书签管理器,点击“整理”按钮选择“导出书签”,保存为 HTML 文件。导入时,同样打开书签管理器,点击“整理”按钮选择“导入书签”,选择之前导出的 HTML 文件即可。其他主流浏览器也支持导入这种格式的书签文件。
|
6天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
12天前
|
域名解析 网络协议 前端开发
浏览器输入域名网址访问后的过程详解
1、以91处理网为例,客户端浏览器通过DNS解析到www.91chuli.com,IP地址是202.108.22.5,通过这个IP地址找到客户端到服务器的路径。客户端浏览器发起一个HTTP会话到202.108.22.5,然后通过TCP进行封装数据包,输入到网络层。
22 2
|
24天前
|
Web App开发 SQL 数据库
使用 Python 解析火狐浏览器的 SQLite3 数据库
本文介绍如何使用 Python 解析火狐浏览器的 SQLite3 数据库,包括书签、历史记录和下载记录等。通过安装 Python 和 SQLite3,定位火狐数据库文件路径,编写 Python 脚本连接数据库并执行 SQL 查询,最终输出最近访问的网站历史记录。
|
1月前
|
Web App开发 XML JavaScript
Python 操作浏览器:让 Python 和 Web 世界合二为一
Python 操作浏览器:让 Python 和 Web 世界合二为一
|
2月前
|
Web App开发 存储 安全
Python编写脚本,打开浏览器输入网址,自动化登陆网站
Python编写脚本,打开浏览器输入网址,自动化登陆网站
61 4
|
1月前
|
IDE 搜索推荐 网络安全
Python编程:编写被动信息搜集之网址的IP及Whois查询
Python编程:编写被动信息搜集之网址的IP及Whois查询
|
2月前
|
Python
python编程获取续蜀山剑侠传:从目录名称、网址到内容
python编程获取续蜀山剑侠传:从目录名称、网址到内容
|
2月前
|
Python
python编程获取《续蜀山剑侠传》目录信息:目录名称和网址
python编程获取《续蜀山剑侠传》目录信息:目录名称和网址
|
3月前
|
数据采集 缓存 JavaScript
​DrissionPage,Python浏览器自动化又一神器~
​DrissionPage,Python浏览器自动化又一神器~

热门文章

最新文章