用python过滤某歌浏览器书签失效的网址

简介: 最近刚学习python,属于菜鸟级别的,于是打算写了个简单的书签过滤器,根据request模块请求,删除404的网址

版本:python 3.9

库:request,re


# 过滤失效的谷歌浏览器书签

import re

import requests

 

# 按 Shift+F10 执行或将其替换为您的代码。

# 按 双击 Shift 在所有地方搜索类、文件、工具窗口、操作和设置。

 

def main_start():

   new_file = open('./整理后的书签文件.html', mode='w', encoding='utf-8')

 

   new_file2 = open('./失效的书签文件.bed.html', mode='w', encoding='utf-8')

   # 字符匹配

   preg_match = re.compile('A HREF=".*ADD_DATE')

 

   preg_match_github = re.compile('github')

 

   filter_html = ''

   bed_html = ''

   with open('./谷歌浏览器导出的书签文件', encoding='utf-8') as bookmark:

       num = 0

       for item in bookmark.readlines():

           if num == 10:

               break

           str_match = preg_match.search(item)

           if str_match != None:

               group_str = str_match.group()

               group_str = group_str.replace('A HREF="', '')

               group_str = group_str.replace('" ADD_DATE', '')

               print(f' 开始请求:{group_str}')

               try:

                   github_search = preg_match_github.search(group_str)

                   if github_search != None:

                       filter_html += item + '\n'

                   else:

                       rr = requests.get(group_str, timeout=5)

                       if rr.status_code == 404:

                           bed_html += group_str + '\n'

                           print(f'{group_str} 这个网址失效啦!')

                       else:

                           filter_html += item + '\n'

                           print(f' 成功响应:{group_str}')

               except:

                   bed_html += group_str + '\n'

                   print(f'except:{group_str} 这个网址失效啦!')

           else:

               filter_html += item + '\n'

 

       new_file.write(filter_html)

       new_file2.write(bed_html)

 

 

# 按间距中的绿色按钮以运行脚本。

if __name__ == '__main__':

   main_start()


目录
相关文章
|
4月前
|
Web App开发 Python
在ModelScope中,你可以使用Python的浏览器自动化库
在ModelScope中,你可以使用Python的浏览器自动化库
51 2
|
19天前
|
数据采集 缓存 JavaScript
​DrissionPage,Python浏览器自动化又一神器~
​DrissionPage,Python浏览器自动化又一神器~
|
1月前
|
数据采集 JavaScript 前端开发
Puppeteer-py:Python 中的无头浏览器自动化
Puppeteer-py:Python 中的无头浏览器自动化
|
2月前
|
机器人 Shell 开发者
`roslibpy`是一个Python库,它允许非ROS(Robot Operating System)环境(如Web浏览器、移动应用等)与ROS环境进行交互。通过使用`roslibpy`,开发者可以编写Python代码来远程控制ROS节点,发布和订阅话题,以及调用服务。
`roslibpy`是一个Python库,它允许非ROS(Robot Operating System)环境(如Web浏览器、移动应用等)与ROS环境进行交互。通过使用`roslibpy`,开发者可以编写Python代码来远程控制ROS节点,发布和订阅话题,以及调用服务。
|
2月前
|
域名解析 Web App开发 缓存
在浏览器上输入一个网址后,发生了什么?/HTTP的工作流程/DNS域名解析过程
在浏览器上输入一个网址后,发生了什么?/HTTP的工作流程/DNS域名解析过程
|
3月前
python+Pycharm+selenium操作浏览器(Chorme或Edge)
python+Pycharm+selenium操作浏览器(Chorme或Edge)
|
4月前
|
Web App开发 测试技术 C++
Playwright安装与Python集成:探索跨浏览器测试的奇妙世界
Playwright是新兴的跨浏览器测试工具,相比Selenium,它支持Chrome、Firefox、WebKit,执行速度快,选择器更稳定。安装Playwright只需一条`pip install playwright`的命令,随后的`playwright install`会自动添加浏览器,无需处理浏览器驱动问题。这一优势免去了Selenium中匹配驱动的烦恼。文章适合寻求高效自动化测试解决方案的开发者。
95 2
|
4月前
|
JavaScript 前端开发 测试技术
MechanicalSoup,一个非常实用的 Python 自动化浏览器交互工具库!
MechanicalSoup,一个非常实用的 Python 自动化浏览器交互工具库!
57 9
|
4月前
|
Python
Python 合并多个 PDF 文件并建立书签目录
Python 合并多个 PDF 文件并建立书签目录
50 1
|
4月前
|
Web App开发 测试技术 Python
【如何学习python自动化测试】—— 浏览器驱动的安装 以及 如何更新driver
【如何学习python自动化测试】—— 浏览器驱动的安装 以及 如何更新driver
69 0