全民k歌 and B站 爬取

简介: 全民k歌 and B站 爬取

1.全民k歌

全名k歌文件格式为m4a
爬取实例:

from urllib import request
import re
import os
import json
#个人主页地址
url = "https://kg.qq.com/node/personal?uid=609c9a8d2729378330"

html = request.urlopen(url).read().decode('utf-8')
data = re.findall(r'"ugclist":.*?],', html)#获取页面中数据json,处理有点糙,不过能用哈
ugclists = data[0][10:-1]
for ugclist in json.loads(ugclists):#json.loads把字符串转json,以前没使过Python,这里好像说是什么dict的,也就是key=>value的数据格式,很好理解
    print(ugclist['shareid'])#这个数据很关键是每首曲子的id值
    print(ugclist['title'])#每首歌的名字
    title = ugclist['title']
    shareid = ugclist['shareid']
    data_url = "http://cgi.kg.qq.com/fcgi-bin/fcg_get_play_url?shareid=" + shareid #通过解析获取到的文件地址及拼接形式,也就是这个曲子的文件下载地址
    # 设置保存歌曲的路径,否则会保存到程序当前路径
    path = r'/media/××××××××××/music/'  # 路径前的r是保持字符串原始值的意思,就是说不对其中的符号进行转义
    file = path + title + '.m4a'
    is_set = os.path.exists(file)#这里做了简单的文件存在与否的判断,这样以后再执行,文件不会丢失或增多,或覆盖或重复爬取
    # 如果文件存在则跳过
    if is_set == False:
        request.urlretrieve(data_url, path + title + '.m4a')  # 使用request.urlretrieve直接将所有远程链接数据下载到本地

2.bilibili

b站短视频由两个m4s文件组成,一个是音频,一个是视频

目录
相关文章
|
4月前
|
JSON 数据格式 网络架构
技术心得:快手的小视频爬取
技术心得:快手的小视频爬取
182 1
为什么头条和抖音上这么多人月入好几万?
为什么头条和抖音上这么多人月入好几万?
|
数据采集 算法 搜索推荐
网站如何快速上谷歌收录?
答案是:谷歌蜘蛛池就是GPC爬虫池,可以快速收录网站页面。 了解谷歌的收录机制 在寻求快速上谷歌收录的方法之前,首先要了解谷歌是如何工作的。 谷歌使用了一系列的算法和工具来爬取和索引网站内容。 选择正确的关键字 选择与您网站内容相关的正确关键字是获取快速收录的第一步。 应确保这些关键字不仅反映了您的业务和产品,还要与潜在客户可能搜索的内容相匹配。
108 0
网站如何快速上谷歌收录?
|
安全 JavaScript 前端开发
足球直播网站轻松搭建,专业级赛事直播竞猜系统源码分享
足球直播网站在现代社会中越来越受欢迎,吸引着众多体育爱好者。如果您想要创业在体育直播领域,建立一个自己的足球直播网站可能是一个不错的选择。
|
人工智能 算法
如何让店铺在点评网站上一眼出众?
如何让店铺在点评网站上一眼出众?
如何让店铺在点评网站上一眼出众?
|
监控 搜索推荐 数据库
餐厅的最佳 SEO 实践,以提升您的在线形象
为餐厅建立网站只是您在食品和饮料行业取得商业成功的第一步。餐厅的 SEO 是您需要跨越的另一个步骤。并且必须对其进行战略性定义,以将合适的受众与您的计划和产品联系起来。本文为您介绍一家独特餐厅的最佳 SEO 实践,帮助您以最小的努力抓住用户的注意力。让我们探讨如何。
241 0
|
搜索推荐 算法 UED
宋九九:怎么做好网站搜索引擎优化,企业网站如何seo优化?
宋九九:怎么做好网站搜索引擎优化,企业网站如何seo优化?
137 0
宋九九:怎么做好网站搜索引擎优化,企业网站如何seo优化?
|
大数据 应用服务中间件 Linux
Python网络爬虫(正则, 内涵段子,猫眼电影, 链家爬取)
python、python爬虫、网络爬虫、爬虫框架、selenium、requests、urllib、数据分析、大数据、爬虫爬取静态网页、爬虫基础
2627 0