国足晋级12强 | 爬取《NBA30支球队》“现役球员信息”，再来看看篮球吧！-阿里云开发者社区

国足晋级12强 | 爬取《NBA30支球队》“现役球员信息”，再来看看篮球吧！

2022-06-07 215

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 国足晋级12强 | 爬取《NBA30支球队》“现役球员信息”，再来看看篮球吧！

1. 页面分析

我爬取的页面是腾讯体育，链接如下：

https://nba.stats.qq.com/player/list.htm

观察上图：左边展示的分别是NBA的30支球队，右边就是每只球队对应球员的详细信息。

此时思路就很清晰了，我们每点击一支球员，右侧就会出现该球队的球员信息。

整个爬虫思路简化如下：

① 获取每支球员页面的url；

② 利用Python代码获取每个网页中的数据；

③ 将获取到的数据，整理后存储至不同的数据库；

那么，现在要做的就是找到每支球员页面的url，去发现它们的关联。

我们每点击一支球队，复制它的url，下面我复制了三支球队的页面url，如下所示：

# 76人
https://nba.stats.qq.com/player/list.htm#teamId=20
# 火箭
https://nba.stats.qq.com/player/list.htm#teamId=10
# 热火
https://nba.stats.qq.com/player/list.htm#teamId=14

观察上述url，可以发现：url基本一模一样，除了参数teamId对应的数字不一样，完全可以猜测出，这就是每支球队对应的编号，30支球队30个编号。

只要是涉及到“腾讯”二字，基本都是动态网页，我之前碰到过好多次。基础方法根本获取不到数据，不信可以查看网页源码试试：点击鼠标右键——>点击查看网页源代码。

接着，将网页中的某个数据（你要获取的）复制，然后再源代码页面中，点击crtl + f，调出“搜索框”，将复制的数据粘贴进去。如果和上图一样，出现0条记录，则基本可以判断该网页属于动态网页，直接获取源码，一定找不到你要的数据。

因此如果你想要获取页面中的数据，使用selenuim自动化爬虫，是其中一种办法。

2. 数据爬取

关于selenium的的使用配置，我在一篇文章中详细讲述过，贴上这个链接供大家参考：

《https://mp.weixin.qq.com/s/PUPmpbiCJqRW8Swr1Mo2UQ》

我喜欢用xpath，对于本文数据的获取，我都将使用它。关于xpath的使用，那就是另一篇文章了，这里就不详细讲述。

说了这么多，咋们直接上代码吧！【代码中会有注释】

from selenium import webdriver
# 创建浏览器对象，该操作会自动帮我们打开Google浏览器窗口
browser = webdriver.Chrome()
# 调用浏览器对象，向服务器发送请求。该操作会打开Google浏览器，并跳转到“百度”首页
browser.get("https://nba.stats.qq.com/player/list.htm#teamId=20")
# 最大化窗口
browser.maximize_window()
# 获取球员中文名
chinese_names = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[2]/a')
chinese_names_list  = [i.text for i in chinese_names]
# 获取球员英文名
english_names = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[3]/a')
english_names_list = [i.get_attribute('title') for i in english_names] # 获取属性
# 获取球员号码
numbers = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[4]')
numbers_list = [i.text for i in numbers_list]
# 获取球员位置
locations = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[5]')
locations_list = [i.text for i in locations_list]
# 获取球员身高
heights = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[6]')
heights_list = [i.text for i in heights_list]
# 获取球员体重
weights = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[7]')
weights_list = [i.text for i in weights_list]
# 获取球员年龄
ages = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[8]')
ages_list = [i.text for i in ages_list]
# 获取球员球龄
qiu_lings = browser.find_elements_by_xpath('//div[@class="players"]//tr[@class="show"]/td[9]')
qiu_lings_list = [i.text for i in qiu_lings_list]

这里只爬取了一支球队，剩下29支球队球员数据的爬取任务交给你们。整个代码部分，基本上大同小异，我写了一个，你们照葫芦画瓢。【就一个循环，还不简单呀！】

3. 存储至txt

将数据保存到txt文本的操作非常简单，txt几乎兼容所有平台，唯一的缺点就是不方便检索。要是对检索和数据结构要求不高，追求方便第一的话，请采用txt文本存储。

注意：txt中写入的是str字符串。

txt文档写入数据的规则是这样的：从头开始，从左至右一直填充。当填充至最右边后，会被挤到下一行。因此，如果你想存入的数据规整一点，可以自动填入制表符“\t”和换行符“\n”。

以本文为例，将获取到的数据，存储到txt文本中。

for i in zip(chinese_names_list,english_names_list,numbers_list,locations_list,heights_list,weights_list,ages_list,qiu_lings_list):
    with open("NBA.txt","a+",encoding="utf-8") as f:
        # zip函数，得到的是一个元组，我们需要将它转换为一个字符串
        f.write(str(i)[1:-1])
        # 自动换行，好写入第2行数据
        f.write("\n")
        f.write("\n")

部分截图如下：

4. 存储至excel

excel有两种格式的文件，一种是csv格式，一种是xlsx格式。将数据保存至excel，当然是使用pandas库更方便。

import pandas as pd
# 一定要学会组织数据
df = pd.DataFrame({"中文名": chinese_names_list,
                   "英文名": english_names_list,
                   "球员号码": numbers_list,
                   "位置": locations_list,
                   "身高": heights_list,
                   "体重": weights_list,
                   "年龄": ages_list,
                   "球龄": qiu_lings_list})
# to_excel()函数
df.to_excel("NBA.xlsx",encoding="utf-8",index=None)

结果如下：

5. 存储至mysql

MySQL是一个关系型数据库，数据是采用类excel的二维表来保存数据的，即行、列组成的表，每一行代表一条记录，每一列代表一个字段。

关于Python操作MySQL数据库，我曾经写了一篇博客，大家可以参考以下：

http://blog.csdn.net/weixin_41261833/article/details/103832017

为了让大家更明白这个过程，我这里分布为大家讲解：

① 创建一个表nba

我们想要往数据库中插入数据，首先需要建立一张表，这里命名为nba。

import pymysql
# 1. 连接数据库
db = pymysql.connect(host='localhost',user='root', password='123456',port=3306, db='demo', charset='utf8')
# 2. 创建一个表
# 创建一个游标对象；
cursor = db.cursor()
# 建表语句；
sql = """
        create table NBA(
            chinese_names_list varchar(20),
            english_names_list varchar(20),
            numbers_list varchar(20),
            locations_list varchar(20),
            heights_list varchar(20),
            weights_list varchar(20),
            ages_list varchar(20),
            qiu_lings_list varchar(20)
        )charset=utf8
      """
# 执行sql语句；
cursor.execute(sql)
# 断开数据库的连接；
db.close()

、

② 往表nba中插入数据

import pymysql
# 1. 组织数据
data_list = []
for i in zip(chinese_names_list,english_names_list,numbers_list,locations_list,heights_list,weights_list,ages_list,qiu_lings_list):
    data_list.append(i)
# 2. 连接数据库
db = pymysql.connect(host='localhost',user='root', password='123456',port=3306, db='demo', charset='utf8')
# 创建一个游标对象；
cursor = db.cursor()
# 3. 插入数据
sql = 'insert into nba(chinese_names_list,english_names_list,numbers_list,locations_list,heights_list,weights_list,ages_list,qiu_lings_list) values(%s,%s,%s,%s,%s,%s,%s,%s)'
try:
    cursor.executemany(sql,data_list)
    db.commit()
    print("插入成功")
except:
    print("插入失败")
    db.rollback()
db.close()

结果如下：

国足晋级12强 | 爬取《NBA30支球队》“现役球员信息”，再来看看篮球吧！

1. 页面分析

2. 数据爬取

3. 存储至txt

4. 存储至excel

5. 存储至mysql

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

国足晋级12强 | 爬取《NBA30支球队》“现役球员信息”，再来看看篮球吧！

1. 页面分析

2. 数据爬取

3. 存储至txt

4. 存储至excel

5. 存储至mysql

热门文章

最新文章

相关课程

相关电子书

相关实验场景