爬取网站的所有链接

简介: 爬取网站的所有链接

import urllib.request
import re

1. 确定好要爬取的入口链接

url = "http://pms3.ah.cmcc/"

2.根据需求构建好链接提取的正则表达式

pattern1 = '<.?(src=".?").*?'

3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')

4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1, data, re.I)

print(content_href)

5.过滤掉重复的链接

# 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

6.后续操作,比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"
with open(file_new, 'w') as f:
for i in set1:
f.write(i)
f.write("\n")

f.close()

print('已经生成文件')

目录
相关文章
|
6月前
|
数据采集 Python
Python爬虫:实现爬取、下载网站数据的几种方法
Python爬虫:实现爬取、下载网站数据的几种方法
463 1
|
3月前
|
Web App开发 数据采集 iOS开发
爬取网站的所有链接
爬取网站的所有链接
52 2
|
搜索推荐 UED SEO
网站链接诱饵的制作,了解网站链接诱饵的形式
一、网站链接诱饵的制作; 链接诱饵的制作分为以下六个步骤: 1、选择目标对象。链接诱饵的最终意义在对方网站站长能主动转载你的文章,制作诱饵的时候要符合这部分人群的需求靠着口口相传的传播方式传播出去。 2、寻找链接诱饵的素材。可以去各大人气网站查看现时段最为热门的信息,也可以通过百度搜索风云榜,SOSO指数等寻找。 3、标题制作,光有好的内容还是远远不够的,必须要有一个吸引人的标题,要知道大众一般都是先看标题再看内容,标题不吸引人自然也不会有人看内容。类似于“十大xxxx”这样的标题往往能传播的很快。
213 0
|
搜索推荐 定位技术
搜索引擎提交网站链接一定会收录吗?
搜索引擎提交是否必要?搜索引擎提交网站链接一定会收录吗? 简单的答案是否定的 – 搜索引擎提交是没有必要的。现在大多数搜索引擎(最着名的是百度)通过以下链接抓取和索引页面。使用该逻辑,来自任何已编入索引的页面的单个入站链接将标识您的引擎页面。
1288 0
|
数据采集
简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。     大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、多次响应等等。
940 0
|
SQL 前端开发 数据库
scrapy简书整站爬取
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.
2570 0
|
数据采集
解决百度蜘蛛无法爬取Hexo博客的问题
写在前面   先上两张图对比下: Google-site:blog.mariojd.cn Baidu-site:blog.mariojd.cn   由于GitHub Pages是拒绝百度爬虫爬取的,包括用Hexo或Jekyll搭建的博客,因此你的站点再怎么SEO优化,这在国内也是收录和搜索不到的。
1818 0
|
算法 搜索推荐 定位技术
什么样的链接对提升网站收录更有意义
说到链接SEO工作者都并不陌生,链接大致分为友链跟外链以及描文本链接等,那么什么样的链接能提升网站收录大家都没有一个准确的点,近期泽民从百度官方看了一篇专家解答,下面泽民跟大家分享下专家是如果进行解答的。
835 0