用selenium获取直播信息

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 目前是直播行业的一个爆发期,由于国家对直播行业进行整顿和规范,现在整个直播行业也在稳固发展。随着互联网和网络直播市场的快速发展,相信未来还有广阔的发展前景。所以今天我用selenium获取一下直播信息,现将代码分享给大家。

​💖 作者简介:大家好,我是阿牛。
📖 格言:迄今所有人生都大写着失败,但不妨碍我继续向前!

目录
前言
一、本文使用的第三方包和工具
二、selenium的介绍和浏览器驱动的安装
三、代码思路分析
四、完整代码

总结

前言
      目前是直播行业的一个爆发期,由于国家对直播行业进行整顿和规范,现在整个直播行业也在稳固发展。随着互联网和网络直播市场的快速发展,相信未来还有广阔的发展前景。所以今天我用selenium爬取一下斗鱼直播信息,现将代码分享给大家。

一、本文使用的第三方包和工具
python 3.8  

谷歌浏览器

selenium(3.141.0)(pip install selenium == 3.141.0)注意4.0系列和3.0系列方法不同

浏览器驱动(和你的浏览器版本对应)

二、selenium的介绍和浏览器驱动的安装
1.selenium的介绍
    selenium是一款web自动化测试工具,可以很方便地模拟真实用户对浏览器进行操作,它支持各种主流浏览器:IE、Chrome、Firefox、Safari、Opera等。你可以使用selenium做web测试或者爬虫,自动抢票、自动下单也可以用selenium来做。

2.浏览器驱动的安装
   网上方法很多,友友们自行搜索,在这里提一点注意事项:本文用的是谷歌浏览器,浏览器驱动要对应谷歌的哦,注意浏览器驱动与你的浏览器版本相对应,这里给出谷歌浏览器驱动的下载地址,友友们按照自己浏览器的版本对应现在即可

http://chromedriver.storage.googleapis.com/index.html

下载完成后注意配置环境变量哦,不配置也行,不配置就要在代码中写上你的Chromedriver.exe文件的路径或者不写路径将你的Chromedriver.exe和py文件放到同一目录下也可以哦

三、代码思路分析
进入斗鱼官网,点到直播,下面的在线直播信息就是我们需要爬取的​

可以看到有标题,类型,姓名,以及热度,我们爬取这四个字段就行

然后滑到底部,这里的下一页是我们控制爬取页数的​

 注意:当我们进入页面时,虽然有滚动条,但所有直播信息已经加载好,并不是通过滑动然后Ajax加载的,所以在代码中并不需要写滑动,直接提取就可以拿到整个页面的数据。

1.解析数据的函数
#解析数据的函数

def parse(self):
    #强制等待两秒,等待页面数据加载完毕
    sleep(2)
    li_list = self.bro.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li')
    #print(len(li_list))
    data_list = []
    for li in li_list:
        dic_data = {}
        dic_data['title'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/h3').text
        dic_data['name'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/h2/div').text
        dic_data['art_type'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/span').text
        dic_data['hot'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/span').text
        data_list.append(dic_data)
    return data_list

2.保存数据的函数
(1)保存为txt文本

保存数据的函数

def save_data(self,data_list,i):
    #在当前目录下将数据存为txt文件
    with open('./douyu.txt','w',encoding='utf-8') as fp:
        for data in data_list:
            data = str(data)
            fp.write(data+'\n')
        print("第%d页保存完成!" % i)

(2)保存为json文件

保存数据的函数

def save_data(self,data_list,i):
    with open('./douyu.json','w',encoding='utf-8') as fp:
         #里面有中文,所以注意ensure_ascii=False
         data = json.dumps(data_list,ensure_ascii=False)
         fp.write(data)
         print("第%d页保存完成!" % i)

3.主函数设计

主函数

def run(self):
    #输入要爬取的页数,如果输入负整数,转化成她的绝对值
    page_num = abs(int(input("请输入你要爬取的页数:")))
    #初始化页数为1
    i = 1
    #判断输入的数是否为整数
    if isinstance(page_num,int):
        #实例化浏览器对象
        self.bro = webdriver.Chrome(executable_path='../../可执行文件/chromedriver.exe')
        # chromedriver.exe如果已添加到环境变量,可省略executable_path='../../可执行文件/chromedriver.exe'

        self.bro.get(self.url)
        while i <= page_num:
            #调用解析函数
            data_list = self.parse()
            #调用保存函数
            self.save_data(data_list,i)
            try:
                #定位包含“下一页”字段的按钮并点击
                button = self.bro.find_element_by_xpath('//span[contains(text(),"下一页")]')
                button.click()
                i += 1
            except:
                break
        self.bro.quit()
    else:
        print("输入格式错误!")

四、完整代码
from selenium import webdriver
from time import sleep
import json
#创建一个类
class Douyu():

def __init__(self):
    self.url = 'https://www.douyu.com/directory/all'

#解析数据的函数
def parse(self):
    #强制等待两秒,等待页面数据加载完毕
    sleep(2)
    li_list = self.bro.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li')
    #print(len(li_list))
    data_list = []
    for li in li_list:
        dic_data = {}
        dic_data['title'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/h3').text
        dic_data['name'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/h2/div').text
        dic_data['art_type'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/span').text
        dic_data['hot'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/span').text
        data_list.append(dic_data)
    return data_list

#保存数据的函数
def save_data(self,data_list,i):
    #在当前目录下将数据存为txt文件
    with open('./douyu.txt','w',encoding='utf-8') as fp:
        for data in data_list:
            data = str(data)
            fp.write(data+'\n')
        print("第%d页保存完成!" % i)
    # json文件的存法
    # with open('./douyu.json','w',encoding='utf-8') as fp:
    # 里面有中文,所以注意ensure_ascii=False
    #     data = json.dumps(data_list,ensure_ascii=False)
    #     fp.write(data)
    #     print("第%d页保存完成!" % i)

#主函数
def run(self):
    #输入要爬取的页数,如果输入负整数,转化成她的绝对值
    page_num = abs(int(input("请输入你要爬取的页数:")))
    #初始化页数为1
    i = 1
    #判断输入的数是否为整数
    if isinstance(page_num,int):
        #实例化浏览器对象
        self.bro = webdriver.Chrome(executable_path='../../可执行文件/chromedriver.exe')
        # chromedriver.exe如果已添加到环境变量,可省略executable_path='../../可执行文件/chromedriver.exe'

        self.bro.get(self.url)
        while i <= page_num:
            #调用解析函数
            data_list = self.parse()
            #调用保存函数
            self.save_data(data_list,i)
            try:
                #定位包含“下一页”字段的按钮并点击
                button = self.bro.find_element_by_xpath('//span[contains(text(),"下一页")]')
                button.click()
                i += 1
            except:
                break
        self.bro.quit()
    else:
        print("输入格式错误!")

if name == '__main__':

douyu = Douyu()
douyu.run()

总结
   本文是为了练习selenium而写的,由于一个页面有120条数据,所以采集效率较低,感兴趣的小伙伴们可以试一试requests库写,爬取速度更快哦!

相关文章
|
3月前
|
Web App开发 Java 测试技术
使用selenium+chromedriver+xpath爬取动态加载信息(一)
使用selenium+chromedriver+xpath爬取动态加载信息(一)
99 1
|
3月前
使用selenium+chromedriver+xpath爬取动态加载信息(二)
使用selenium+chromedriver+xpath爬取动态加载信息(二)
60 0
|
数据采集 前端开发 JavaScript
selenium 知网爬虫之根据【关键词】获取文献信息
selenium 知网爬虫之根据【关键词】获取文献信息
selenium 知网爬虫之根据【关键词】获取文献信息
|
数据采集 JavaScript 前端开发
深入网页分析:利用scrapy_selenium获取地图信息
网页爬虫是一种自动获取网页内容的技术,它可以用于数据采集、信息分析、网站监测等多种场景。然而,有些网页的内容并不是静态的,而是通过JavaScript动态生成的,例如图表、地图等复杂元素。这些元素往往需要用户的交互才能显示出来,或者需要等待一定时间才能加载完成。如果使用传统的爬虫技术,如requests或urllib,就无法获取到这些元素的内容,因为它们只能请求网页的源代码,而不能执行JavaScript代码。我们可以使用scrapy_selenium这个工具,它结合了scrapy和selenium两个强大的库,可以实现对动态网页的爬取。
180 0
深入网页分析:利用scrapy_selenium获取地图信息
|
数据采集 开发者
selenium 根据期刊信息获取知网文献信息 pt.1
selenium 根据期刊信息获取知网文献信息 pt.1
|
Web App开发 数据采集 Python
通过爬虫中的selenium控制chrome,Firefox等浏览器自动操作获取相关信息
在pycharm中导入selenium之后,我们需要通过命令行来进行操作浏览器
通过爬虫中的selenium控制chrome,Firefox等浏览器自动操作获取相关信息
|
Web App开发
Python+selenium 自动化-启用带插件的chrome浏览器,调用浏览器带插件,浏览器加载配置信息。
Python+selenium 自动化-启用带插件的chrome浏览器,调用浏览器带插件,浏览器加载配置信息。
1710 0
Python+selenium 自动化-启用带插件的chrome浏览器,调用浏览器带插件,浏览器加载配置信息。

热门文章

最新文章