贴吧照片和酷狗音乐简单爬取

简介: 爬虫初级

爬取的基本步骤

很简单,主要是两大步

向url发起请求

这里注意找准对应资源的url,如果对应资源不让程序代码访问,这里可以伪装成浏览器发起请求。


解析上一步返回的源代码,从中提取想要的资源

这里解析看具体情况,一般是筛选标签之中的信息或者资源,有很多筛选的第三方包和方法

贴吧图片下载

导入 ==requests== 和 ==lxml==两个第三方包,没有需要下载

找到我们需要图片资源的==url ==, 比如我这里是 贴吧图片测试 ==http://c.tieba.baidu.com/p/5857827920==

然后就是发起请求,拿到源代码,解析资源获得下载的==url==,下载资源到本地

import requests
from lxml import etree

# 发起请求拿到网页源代码
index_url = 'http://c.tieba.baidu.com/p/5857827920'
response = requests.get(index_url).text

# 解析源代码,筛选数据
selector = etree.HTML(response)
image_urls = selector.xpath('//img[@class="BDE_Image"]/@src')

offset = 0
# 拿到url下载对应文件
for image_url in image_urls:
    image_content = requests.get(image_url).content
    offset += 1
    # 将数据写入本地
    with open("D:/桌面/image_test/{}.jpg".format(offset), 'wb') as f:
        f.write(image_content)

酷狗音乐歌曲下载

步骤是差不多的,但是这里找 ==url== 变化了一点,找到你想要下载的歌曲,并打开对应的播放页,如下:
按下F12或者是右键点击检查,我这里用的是 谷歌浏览器,打开网页的源代码



image.png



选择上面的网络或者network,点击打开



image.png

然后刷新一下网页,发起的网络请求就可以在这个界面看到,然后筛选媒体或者media,看到后缀为MP3的文件打开,多图示例:

image.png



image.png



image.png

看到请求网址,复制它,到一个新页面打开试一下能不能播放,如果可以,那么我们要下载的资源的==url==就找到了。这个也就是代码中发起请求的那个资源url

直接上代码

import requests

# url
m_url = 'https://webfs.hw.kugou.com/202308142239/c9d5212c77dac7daf7e3a144b167e5ef/KGTX/CLTX001/d632d77fc37a7f5fee87baf23a0944cb.mp3'

# 获取源代码

headers = {
   
   'User-Agent':
                  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36m_resp = requests.get(m_url)'
           }
 # 这个headers就是请求标头,可以区别请求来源,会指明来源的操作系统浏览器这些信息,程序代码请求的话我们可以伪装成浏览器,加上这个标头。

m_resp = requests.get(m_url, headers=headers)

# 保存数据
with open("D:/桌面/test/geini.mp3", 'wb') as f:
    f.write(m_resp.content)

请求标头这里可以找到

image.png

最下面的一个。

目录
相关文章
|
2天前
|
数据采集 人工智能 自然语言处理
“弱智贴吧”的数据,居然是最强中文语料库
【4月更文挑战第8天】研究人员推出COIG-CQIA,一个高质量的中文指令调整数据集,旨在解决中文语言模型发展的挑战。该数据集源于多元中文互联网资源,注重多样性和真实性,对提升模型性能和安全性有显著作用。研究发现,数据集的质量直接影响模型效果,且模型规模并非决定性能的唯一因素。安全评估显示,使用CQIA训练的模型在安全基准上超越GPT-3.5-turbo0613。
34 2
“弱智贴吧”的数据,居然是最强中文语料库
|
2天前
爬取猫眼电影
爬取猫眼电影
35 0
|
8月前
|
数据采集 Web App开发 JSON
爬取王者荣耀皮肤图片
用爬虫相关知识,进行爬取王者荣耀皮肤图片。
1004 1
|
8月前
|
数据采集 Web App开发 JSON
爬取英雄联盟皮肤图片
使用爬虫相关知识,进行爬取英雄联盟皮肤图片。
142 0
微博相册图片获取工具
下载微博相册,配合aria2工具,备份至阿里云盘
138 0
微博相册图片获取工具
|
网络协议
【2022】最新下載 YouTube 影片方法
2022年市面上有很相當多的YouTube下載工具,以及不少教程,但是這是有時效性的,很多工具當時有效,過一端時間就會失效,下麵我們介紹的方法,我們自己測試過,依舊可以正常使用。
1253 0
|
数据采集 Python
Python爬虫系列16-采集网易音乐百万好听的歌曲进行批量下载
业精于勤而荒于嬉,行成于思而毁于随。 吃得苦中苦,方为人上人,受得累中累,方成富贵人。完全赞同
Python爬虫系列16-采集网易音乐百万好听的歌曲进行批量下载
|
Web App开发 开发者
将qq音乐歌曲导入网易云音乐
早上打开朋友圈,发现了"90后", "周杰伦", "稻香"等词, 于是打开网易云, 想刷一下周杰伦的歌, 但发现网易云内周杰伦的歌早下架了, 但我就是想用网易云刷周杰伦的歌, 怎么办? 哈哈, 网易云没有, 但qq音乐有, 把qq音乐的歌曲拿过来不就可...
2588 0
类似微信图片浏览,常见应用场景如微信朋友圈照片九宫格和微信聊天图片预览
本项目受Google官方demo Zooming a View 启发,实现了点击小图放大至全屏预览,退出全屏恢复至原来位置这两个过程的动画过渡。 常见应用场景如微信朋友圈照片九宫格和微信聊天图片预览,某些手机系统相册等viewpager图片查看 缩放 拖拽下拉缩小退出(效果同微信图片浏览) 特点1.支持自定义图片加载框架。
2186 0
|
数据采集 JSON 数据格式
Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)
一、豆瓣音乐 今天爬的是豆瓣音乐top250,比较简单,主要是练练手。 1、加了请求头,本来没加,调试几次突然没数据了,加了请求头开始也没好,后来又好了,可能是网络原因; 2、这次是进入信息页爬的数据,上次爬电影没采用这种方法,缺少了部分数据; 3、数据的预处理用了很多if函数 数据分析 1、部分数据可以见上图 2、中国音乐作者还是很多的。
1601 0