Python 采集109个中国风风格PPT

简介: Python 采集109个中国风风格PPT

PPT下载链接:https://pan.baidu.com/s/1PJ671YEj6M9khtdhh6TSxA?pwd=g37t

提取码:g37t

源码下载链接:ppt.rar - 蓝奏云

采集的参数

page_count = 1  # 每个栏目开始业务content="text/html; charset=gb2312"
    base_url = "https://sc.chinaz.com/"  # 采集的网址  https://sc.chinaz.com/tag_ppt/zhongguofeng.html
    save_path = "D:\\Sprider\\ChinaZ\\"
    sprider_count = 110 # 采集数量
    haved_sprider_count = 0  # 已经采集的数量
    word_content_list = []
    folder_name = ""
    first_column_name = "ppt"
    sprider_start_count=800 # 从第几个序号开始 直接改数量即可 会做除法操作正 正在采集第32页的第16个资源 debug
    max_pager=20 #每页的数量

采集主体代码

def sprider(self, second_column_name):
        """
        采集Coder代码
        :return:
        """
        if second_column_name == "zhongguofeng":
            self.folder_name = "中国风"
            self.first_column_name="tag_ppt"
        elif second_column_name == "xiaoqingxin":
            self.folder_name = "小清新"
            self.first_column_name = "tag_ppt"
        elif second_column_name == "kejian":
            self.folder_name = "课件"
            self.first_column_name = "ppt"
        merchant = int(self.sprider_start_count) // int(self.max_pager) + 1
        second_folder_name = str(self.sprider_count) + "个" + self.folder_name
        self.save_path = self.save_path+ os.sep + "PPT" + os.sep +  second_folder_name
        BaseFrame().debug("开始采集ChinaZPPT...")
        sprider_url = (self.base_url + "/" +  self.first_column_name + "/" + second_column_name + ".html")
        response = requests.get(sprider_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
        response.encoding = 'UTF-8'
        soup = BeautifulSoup(response.text, "html5lib")
        #print(soup)
        div_list = soup.find('div', attrs={"class": 'ppt-list'})
        div_list =div_list.find_all('div', attrs={"class": 'item'})
        #print(div_list)
        laster_pager_url = soup.find('a', attrs={"class": 'nextpage'})
        laster_pager_url = laster_pager_url.previous_sibling
        #<a href="zhongguofeng_89.html"><b>89</b></a>
        page_end_number = int(laster_pager_url.find('b').string)
        #print(page_end_number)
        self.page_count = merchant
        while self.page_count <= int(page_end_number):  # 翻完停止
            try:
                if self.page_count == 1:
                    self.sprider_detail(div_list,self.page_count,page_end_number)
                else:
                    if self.haved_sprider_count == self.sprider_count:
                        BaseFrame().debug("采集到达数量采集停止...")
                        BaseFrame().debug("开始写文章...")
                        self.builder_word(self.folder_name, self.save_path, self.word_content_list)
                        BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")
                        break
                    #https://www.a5xiazai.com/android/youxi/qipaiyouxi/list_913_1.html
                    #https://www.a5xiazai.com/android/youxi/qipaiyouxi/list_913_2.html
                    #next_url = sprider_url + "/list_{0}_{1}.html".format(str(url_index), self.page_count)
                    #  (self.base_url + "/" + first_column_name + "/" + second_column_name + "/"+three_column_name+"")
                    next_url =(self.base_url + "/" +  self.first_column_name + "/" + second_column_name + "_{0}.html").format(self.page_count)
                    # (self.base_url + "/" + self.first_column_name  + "/" + second_column_name + "")+"/list_{0}_{1}.html".format(str(self.url_index), self.page_count)
                    response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
                    response.encoding = 'UTF-8'
                    soup = BeautifulSoup(response.text, "html5lib")
                    div_list = soup.find('div', attrs={"class": 'ppt-list'})
                    div_list = div_list.find_all('div', attrs={"class": 'item'})
                    self.sprider_detail(div_list, self.page_count,page_end_number)
                    pass
            except Exception as e:
                print("sprider()执行过程出现错误" + str(e))
                pass
            self.page_count = self.page_count + 1  # 页码增加1
    def sprider_detail(self, element_list, page_count,max_page):
        try:
            element_length = len(element_list)
            self.sprider_start_index = int(self.sprider_start_count) % int(self.max_pager)
            index = self.sprider_start_index
            while index < element_length:
                a=element_list[index]
                if self.haved_sprider_count == self.sprider_count:
                    BaseFrame().debug("采集到达数量采集停止...")
                    break
                index = index + 1
                sprider_info = "正在采集第" + str(page_count) + "页的第" + str(index) + "个资源"
                BaseFrame().debug(sprider_info)
                title_image_obj = a.find('img', attrs={"class": 'lazy'})
                url_A_obj=a.find('a', attrs={"class": 'name'})
                next_url = self.base_url+url_A_obj.get("href")
                coder_title = title_image_obj.get("alt")
                response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
                response.encoding = 'UTF-8'
                soup = BeautifulSoup(response.text, "html5lib")
                #print(next_url)
                down_load_file_div = soup.find('div', attrs={"class": 'download-url'})
                if down_load_file_div is None:
                    BaseFrame().debug("需要花钱无法下载因此跳过哦....")
                    continue
                down_load_file_url = down_load_file_div.find('a').get("href")
                #print(down_load_file_url)
                image_obj = soup.find('div', attrs={"class": "one-img-box"}).find('img')
                image_src = "https:"+ image_obj.get("data-original")
                #print(image_src)
                if (DownLoad(self.save_path).__down_load_file__(down_load_file_url, coder_title, self.folder_name)):
                    DownLoad(self.save_path).down_cover_image__(image_src, coder_title)  # 资源的 封面
                    sprider_content = [coder_title,
                                       self.save_path + os.sep + "image" + os.sep + coder_title + ".jpg"]  # 采集成功的记录
                    self.word_content_list.append(sprider_content)  # 增加到最终的数组
                    self.haved_sprider_count = self.haved_sprider_count + 1
                    BaseFrame().debug("已经采集完成第" + str(self.haved_sprider_count) + "个")
            if (int(page_count) == int(max_page)):
                self.builder_word(self.folder_name, self.save_path, self.word_content_list)
                BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")
        except Exception as e:
            print("sprider_detail:" + str(e))
            pass

采集的文件名

2017恩师教师节快乐ppt模板

2020中国风元旦商务PPT模板

2021中国风新年快乐PPT模板

2021中国风春节PPT模板

2021福牛贺新春PPT模板

ppt动态中国风模板下载

中国风ppt模板

中国风PPT模板免费下载

中国风ppt模板图片下载

中国风七夕情人节活动策划PPT模板

中国风中国年春节拜年PPT模板

中国风中秋传统节日ppt模板

中国风京剧戏曲文化ppt模板下载

中国风传统中秋节ppt模板

中国风传统感恩重阳节ppt模板

中国风传统文化教育ppt模板

中国风传统节日绿色清明节ppt模板

中国风传统鼠年新春PPT模板

中国风信仰ppt模板下载

中国风儒雅文化清明节PPT模板

中国风儒雅茶文化ppt模板

中国风党政民法典婚姻家庭编详细解读PPT模板

中国风古典青花瓷ppt模板

中国风国企政府党政工作汇报PPT模板

中国风国庆水墨背景ppt模板

中国风大气简约素雅墨荷ppt模板

中国风年会贺岁风喜庆PPT模板

中国风建筑项目ppt模板下载

中国风形象展示ppt模板下载

中国风时尚商务ppt模板下载

中国风春节PPT模板下载

中国风水墨怀旧ppt模板

中国风水墨淡雅商务汇报PPT模板

中国风水墨清明节PPT模板

中国风水墨素雅ppt模板下载

中国风水墨背景儒雅教师节ppt模板

中国风水墨莲花ppt模板下载

中国风水墨项目策划ppt模板

中国风清廉竹林ppt模板下载

中国风特色建筑ppt模板

中国风猪年新春联欢晚会通用PPT模板

中国风祥云喜庆ppt模板

中国风素雅工作总结报告PPT模板

中国风红色新春晚会PPT模板

中国风茶艺ppt模板

中秋节传统习俗ppt模板

中秋节传统节日ppt模板

企业年会策划书PPT模板

传统中国风水墨ppt模板

传统文化弘扬ppt模板下载

传统文化春节PPT模板

公司年会策划方案PPT模板

典雅中国风策划书ppt模板下载

创意2018狗年ppt模板

创意中国风中秋赏月ppt模板

创意中国风剪纸狗年新春快乐ppt模板

创意古典风淡雅中国风工作汇总PPT模板

创意时尚中国风工作总结ppt模板

动态励志公司年会ppt模板

古典中国风ppt动态模板下载

古典中国风ppt模板

古典中国风艺术ppt模板

古典腊梅素雅ppt模板

可爱玉兔中秋ppt模板

吉祥好运仙鹤ppt模板

唯美中国风水彩画ppt模板下载

唯美中国风霜降节气ppt模板

团团圆圆中秋节ppt模板

复古中国风韵味国庆节PPT模板

大气中国风八一建军节91周年通用ppt模板

大气中国风欢度国庆PPT模板

大气古典中国风ppt模板

大红灯笼年味中国风商务PPT模板

山水风格党政党务PPT模板

年终总结春节喜庆PPT模板

弘扬优良家风党员学习党课ppt模板

恭喜发财大红色中国风商务汇报PPT模板

新年贺新春ppt模板

时尚极简中国风ppt模板下载

春节PPT模板主题下载

极简中国风九九重阳节ppt模板

水墨中国风ppt模板

水墨中国风ppt模板免费下载

水墨中国风大学生入党答辩ppt模板

水墨中国风工作总结PPT模板

水墨中国风总结ppt模板

水墨中国风意境ppt模板

水墨中国风清明节祭祖ppt模板

水墨中国风韵味清明节PPT模板

水墨中国风餐饮行业调查ppt模板

水墨元素中国风通用ppt模板

水墨风山清水秀PPT模板

沉稳黑灰水墨中国风工作报告PPT模板

淡雅韵味创意中国风ppt模板

清新简约廉政党政中国风PPT模板

清新简约竹子ppt模板

清明节祭奠PPT模板

灰色简约素雅古典中国风ppt模板

竹中国风ppt模板下载

简洁清新陶瓷ppt模板

素色清明节古风ppt制作模板

素雅中国风情怀中秋佳节ppt模板

素雅中国风茶道文化展示ppt模板

素雅古典中国风端午节ppt模板

红色中国风党政总结工作汇报PPT模板

红色中国风新春企业商业计划书PPT模板

绿色中国风浓情端午节PPT模板

茶韵中国风ppt模板下载

黑色个性极简ppt模板

目录
相关文章
|
2天前
|
数据采集 JSON API
如何实现高效率超简洁的实时数据采集?——Python实战电商数据采集API接口
你是否曾为获取重要数据而感到困扰?是否因为数据封锁而无法获取所需信息?是否因为数据格式混乱而头疼?现在,所有这些问题都可以迎刃而解。让我为大家介绍一款强大的数据采集API接口。
|
2天前
|
Web App开发 编解码 JavaScript
分享Python采集99个焦点图,总有一款适合您
分享Python采集99个焦点图,总有一款适合您
16 0
|
2天前
|
Python
Python 采集某网站音乐
Python 采集某网站音乐
20 0
|
2天前
|
Python
python 采集必备的随机useragent
python 采集必备的随机useragent
38 2
|
2天前
|
数据采集 数据挖掘 API
主流电商平台数据采集API接口|【Python爬虫+数据分析】采集电商平台数据信息采集
随着电商平台的兴起,越来越多的人开始在网上购物。而对于电商平台来说,商品信息、价格、评论等数据是非常重要的。因此,抓取电商平台的商品信息、价格、评论等数据成为了一项非常有价值的工作。本文将介绍如何使用Python编写爬虫程序,抓取电商平台的商品信息、价格、评论等数据。 当然,如果是电商企业,跨境电商企业,ERP系统搭建,我们经常需要采集的平台多,数据量大,要求数据稳定供应,有并发需求,那就需要通过接入电商API数据采集接口,封装好的数据采集接口更方便稳定高效数据采集。
|
2天前
|
监控 PHP Python
1688快速获取整店铺列表 采集接口php Python
在电子商务的浪潮中,1688平台作为中国领先的批发交易平台,为广大商家提供了一个展示和销售商品的广阔舞台;然而,要在众多店铺中脱颖而出,快速获取商品列表并进行有效营销是关键。
|
2天前
|
数据采集 存储 人工智能
Python采集数据保存CSV文件内容乱码解决
Python采集数据保存CSV文件内容乱码解决
29 1
|
2天前
|
JSON 网络协议 前端开发
【UR六轴机械臂源码】python脱离示教器控制UR机械臂实时采集机器人位姿(优傲机器人)
【UR六轴机械臂源码】python脱离示教器控制UR机械臂实时采集机器人位姿(优傲机器人)
|
2天前
|
人工智能 开发工具 git
第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片
人工智能时代,最需要学习的编程语言是:python 。笔者是个 python 小白,昨天花了两个小时,第一次成功运行起来 python 项目 。 项目是 powerpoint-extractor ,可以将 ppt 文件中的图片提取出来,并输出到固定的目录。
第一次运行 Python 项目,使用 python-pptx 提取 ppt 中的文字和图片
|
2天前
|
XML 搜索推荐 数据处理
【办公自动化】使用Python批量生成PPT版荣誉证书
【办公自动化】使用Python批量生成PPT版荣誉证书
41 0