分享68个Python爬虫源码总有一个是你想要的

简介: 分享68个Python爬虫源码总有一个是你想要的

 分享68个Python爬虫源码总有一个是你想要的

学习知识费力气,收集整理更不易。

知识付费甚欢喜,为咱码农谋福利。

源码链接:https://pan.baidu.com/s/1_9Yn_4LfXk-fLnMrR1lNIA?pwd=8888

提取码:8888

image.gif 编辑

项目名称:

get informationin CNKI by python&知网爬虫

python dht 爬虫,学习改装版

Python 人工智能爬虫 开发之旅

Python 新浪微博爬虫,支持模拟登陆,微博文字另存为本地文件

Python 某度图片爬虫下载

python 爬虫 Booking(缤客)、Tripadvisor(猫途鹰)

python 爬虫项目爬取猫眼评论数据,并做可视化分析

python 网络爬虫脚本

python,大众点评,爬虫

Python-FastAPI,Django,Docker 资料整理,数据结构,算法,OCR图像识别处理,爬虫,反向爬取,验证码,操作pdf,反爬策略及应对方案

python小说数据爬虫

Python招聘岗位信息聚合系统(拥有爬虫爬取、数据分析、可视化、互动等功能)

python新闻爬虫

Python期末大作业,基于selenium的51job网站爬虫与数据可视化分析

python照片墙设计,将爬虫获取的照片布局成爱心形状~( Python photo wall design, layout photos taken by reptiles into alove shape~)

python爬虫豆瓣明星剧照

python爬虫返回某东各类图书排行榜top20

Python爬虫10分钟速学教程

python爬虫bilibili搜索并进行数据分析

python爬虫下载器(html模板或网站前端源代码)

Python爬虫中国大学排名

python爬虫实战入门(爬取糗事百科)

python爬虫批量处理网站的图片和文字

python爬虫爬取文献信息

python爬虫爬取胡润榜,并进行分析

Python爬虫登陆教务系统查询成绩,附带均分计算和 GPA 计算,可自定义过滤科目

python爬虫练习,selenium+xpath 爬取某宝个人的历史购买数据并简单汇总

Python爬虫,自动登录某东网站,查询商品库存,价格,显示购物车详情等

Python爱好者社区历史文章代码实践,内容涵盖:python基础入门篇、进阶篇 、Python网络爬虫、机器学习、深度学习、数据分析与挖掘等系列

python相关的一些小程序,小想法,包括爬虫,数据分析,机器学习,计算机视觉,(card_ocr)

python笔记,油管爬虫,git用法

Python网络爬虫与信息提取

Python网络爬虫学习项目库

python网络爬虫,爬取安居客网站房源信息,并存入数据库,同时这也是个定时服务

spider formaoyan and douban website 适用于爬取猫眼电影top100榜单,以及豆瓣读书某类书籍特定信息的python爬虫程序

一个python爬虫程序用于爬海量中国财经法规存入mysql数据库当中,不断完善当中

一个由Python语言编写的爬虫项目,用于爬取国内某电商网站产品及商家数据

一些python好玩的小项目(某度音乐爬虫,人脸识别数据检测,图片爬虫)

东方头条新闻数据爬虫(python)

中国行政区域国家统计局标准统计用区划代码,省市区联动以及镇、街道、村、居委会等共5级行政区域数据的获取并建库,同时提供JSON数据文件与Mongodb数据库备份文件

从CNKI(知网)下载联合专利的爬虫、解析、CSV文件过滤及合并(python 2 7)

使用egg搭建的api(主要配合react-umi-admin后台模版)、jwt验证、权限模块、socket、爬虫模块(python)

image.gif 编辑

使用Python爬取了“南京大学实验室安全教育与考试系统”的所有题目,并制作成题库,方便学习以及在考试中查阅,并且记录了爬虫过程中遇到的问题

使用python爬虫下载图片

北航教务小助手-后端(Python Web、爬虫)

华南理工大学找到卷王,基于 Python 的综测系统数据爬虫

基于Python 3的综合性B站(哔哩哔哩弹幕网)数据爬虫

基于Python requests的人人词典数据爬虫,数据共10G左右,爬取时间1小时左右,爬取站点http &&www91dict com 包含:单词、单词词性及翻译、单词发音、单词例句剧照、单词例句及翻译、单词例句发音

基于Python多进程多线程爬虫-必应新闻、新浪新闻、某东商品评论、亚马逊中文商品评论、谷歌翻译

基于Python异步爬虫的易班打卡项目

基于Python的flask网络爬虫web项目

基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

基于python的批量下载pdf文档的简单爬虫程序

大众点评店铺信息爬虫程序,python、beautifulSoup,通过一个有规律的url,可以一页一页的获取到店铺的ID,从而完成所有的抓取工作

头歌平台Python程序设计作业报告爬虫

学习Java和Python爬虫

学习python爬虫框架Scrapy的一个小案例,参考刘硕《精通Scrapy网络爬虫》

小说爬虫服务,python实现

微博python爬虫并生成词云

支持自动m3u8爬取、密钥爬取、断点续传及文件清理的Python爬虫

某宝店铺爬虫-python

深度学习,python爬虫,Linux脚本的学习笔记

热搜榜-python爬虫+正则re+beautifulsoup+xpath

爬虫实例:爬取某度百科python相关词条

用Python写的爬虫,包括爬取当当,豆瓣,B站等

用python爬取github上信息的爬虫

石之家Python爬虫作业

豆瓣图书Python大爬虫

通过python爬虫获取人民网、新浪等网站新闻作为训练集,基于BERT构建新闻文本分类模型,并结合node js + vue完成了一个可视化界面

采集代码

 

# region 采集
    def spider_git(self):
        """
        采集git网
        :return:
        """
        spider_url = self.txt_spider_url.GetValue()
        # if os.path.exists(self.first_path):
        #     os.makedirs(self.first_path)
        # else:
        #     os.makedirs(self.first_path)
        edge_options = Options()
        diy_prefs = {'profile.default_content_settings.popups': 0,
                     'download.default_directory': '{0}'.format("D:\\Temp")}
        # 添加路径到selenium配置中
        edge_options.add_experimental_option('prefs', diy_prefs)
        edge_options.add_argument('--headless')  # 隐藏浏览器
        # 实例化chrome浏览器时,关联忽略证书错误
        browser = webdriver.Edge(options=edge_options)
        browser.set_window_size(1300, 1000)  # 分辨率 1280*800
        browser.get(spider_url)
        self.browser = browser  # 将浏览器的独行值赋予给全局
        title_element = browser.find_element(By.CLASS_NAME, "my-3")
        coder_title=str(title_element.text)
        # response = requests.get(spider_url,timeout=10, headers=UserAgent().get_random_header("https://github.com/"))
        # response.encoding = 'UTF-8'
        # soup = BeautifulSoup(response.text, "html5lib")
        # p_element = soup.find('p', attrs={"class": 'my-3'})
        # print(p_element.text.strip())
        try:
            folder_name = str(coder_title).strip()
            folder_name = folder_name.split("。")[0]
            folder_name = folder_name.strip().replace("⭐", "") \
                .replace("🍌", "") \
                .replace("/", "&") \
                .replace("⏰", "") \
                .replace("🌈", "") \
                .replace("🎉", "") \
                .replace("网易", "163") \
                .replace("京东", "某东") \
                .replace("淘宝", "某宝") \
                .replace("QQ", "企鹅") \
                .replace("腾讯", "鹅厂") \
                .replace("知乎", "zhihu") \
                .replace("斗鱼", "DY") \
                .replace("百度", "某度") \
                .replace("抖音", "电音") \
                .replace("天猫", "TCat") \
                .replace("美团", "MEITUAN") \
                .replace("今日头条", "今日头疼") \
                .replace(": ", " ").replace(".", " ").replace(":", " ").replace("开源", "")
            if len(folder_name) > 150:
                folder_name = folder_name[0:150]
                pass
            file_name=""
            files = os.listdir(self.base_path) #理论就一个文件
            for file in files:
                file_ext = os.path.splitext(file)[-1]
                if file_ext is None or file_ext == "":
                    continue
                if "zip" == str(file_ext.split(".")[1]):
                    file_name=file
            if file_name=="":
                self.lable_down_number.config(text="下载文件夹不存在ZIP文件因此程序停止...")
                self.is_spider = False
                return
            srcFile = self.base_path + os.sep + file_name  # 原始zip文件
            ZipTools.extract_zip(srcFile, self.three_path, "123123")  # 解压文件
            extract_folder_name = self.three_path + os.sep + file_name.replace(".zip", "")
            target_folder_name= self.three_path + os.sep + folder_name
            os.rename(extract_folder_name, target_folder_name)
            os.remove(srcFile)  # 移除原始文件
            self.down_number = int(self.down_number) + 1
            self.lable_down_number.config(text="下载文件数量:" + str(self.down_number))
            self.lable_message.config(text="文件解压及保存成功!")
            self.is_spider = False
        except Exception as e:
            print(e)
            self.lable_message.config(text=str(e))
            self.is_spider = False
            self.txt_spider_url.SetValue("")

image.gif

好了就写到这吧

你有时间常去我家看看我在这里谢谢你啦...

我家地址:亚丁号

最后送大家一首诗:

山高路远坑深,

大军纵横驰奔,

谁敢横刀立马?

惟有点赞加关注大军。

感谢您的支持


目录
相关文章
|
23天前
|
数据采集 JSON 算法
Python爬虫——基于JWT的模拟登录爬取实战
Python爬虫——基于JWT的模拟登录爬取实战
40 1
Python爬虫——基于JWT的模拟登录爬取实战
|
20天前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
1天前
|
数据采集 存储 机器学习/深度学习
构建高效的Python网络爬虫
【10月更文挑战第25天】本文将引导你通过Python编程语言实现一个高效网络爬虫。我们将从基础的爬虫概念出发,逐步讲解如何利用Python强大的库和框架来爬取、解析网页数据,以及存储和管理这些数据。文章旨在为初学者提供一个清晰的爬虫开发路径,同时为有经验的开发者提供一些高级技巧。
6 1
|
4天前
|
数据采集 存储 数据库
Python中实现简单爬虫的入门指南
【10月更文挑战第22天】本文将带你进入Python爬虫的世界,从基础概念到实战操作,一步步指导你如何使用Python编写一个简单的网络爬虫。我们将不展示代码示例,而是通过详细的步骤描述和逻辑讲解,帮助你理解爬虫的工作原理和开发过程。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往数据收集新世界的大门。
|
5天前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
20 4
|
19天前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
23天前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——使用Python模拟执行JavaScript
JavaScript逆向爬虫——使用Python模拟执行JavaScript
22 2
|
23天前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
38 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
156 4
|
3月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。