分享68个Python爬虫源码总有一个是你想要的

简介: 分享68个Python爬虫源码总有一个是你想要的

 分享68个Python爬虫源码总有一个是你想要的

学习知识费力气,收集整理更不易。

知识付费甚欢喜,为咱码农谋福利。

源码链接:https://pan.baidu.com/s/1_9Yn_4LfXk-fLnMrR1lNIA?pwd=8888

提取码:8888

image.gif 编辑

项目名称:

get informationin CNKI by python&知网爬虫

python dht 爬虫,学习改装版

Python 人工智能爬虫 开发之旅

Python 新浪微博爬虫,支持模拟登陆,微博文字另存为本地文件

Python 某度图片爬虫下载

python 爬虫 Booking(缤客)、Tripadvisor(猫途鹰)

python 爬虫项目爬取猫眼评论数据,并做可视化分析

python 网络爬虫脚本

python,大众点评,爬虫

Python-FastAPI,Django,Docker 资料整理,数据结构,算法,OCR图像识别处理,爬虫,反向爬取,验证码,操作pdf,反爬策略及应对方案

python小说数据爬虫

Python招聘岗位信息聚合系统(拥有爬虫爬取、数据分析、可视化、互动等功能)

python新闻爬虫

Python期末大作业,基于selenium的51job网站爬虫与数据可视化分析

python照片墙设计,将爬虫获取的照片布局成爱心形状~( Python photo wall design, layout photos taken by reptiles into alove shape~)

python爬虫豆瓣明星剧照

python爬虫返回某东各类图书排行榜top20

Python爬虫10分钟速学教程

python爬虫bilibili搜索并进行数据分析

python爬虫下载器(html模板或网站前端源代码)

Python爬虫中国大学排名

python爬虫实战入门(爬取糗事百科)

python爬虫批量处理网站的图片和文字

python爬虫爬取文献信息

python爬虫爬取胡润榜,并进行分析

Python爬虫登陆教务系统查询成绩,附带均分计算和 GPA 计算,可自定义过滤科目

python爬虫练习,selenium+xpath 爬取某宝个人的历史购买数据并简单汇总

Python爬虫,自动登录某东网站,查询商品库存,价格,显示购物车详情等

Python爱好者社区历史文章代码实践,内容涵盖:python基础入门篇、进阶篇 、Python网络爬虫、机器学习、深度学习、数据分析与挖掘等系列

python相关的一些小程序,小想法,包括爬虫,数据分析,机器学习,计算机视觉,(card_ocr)

python笔记,油管爬虫,git用法

Python网络爬虫与信息提取

Python网络爬虫学习项目库

python网络爬虫,爬取安居客网站房源信息,并存入数据库,同时这也是个定时服务

spider formaoyan and douban website 适用于爬取猫眼电影top100榜单,以及豆瓣读书某类书籍特定信息的python爬虫程序

一个python爬虫程序用于爬海量中国财经法规存入mysql数据库当中,不断完善当中

一个由Python语言编写的爬虫项目,用于爬取国内某电商网站产品及商家数据

一些python好玩的小项目(某度音乐爬虫,人脸识别数据检测,图片爬虫)

东方头条新闻数据爬虫(python)

中国行政区域国家统计局标准统计用区划代码,省市区联动以及镇、街道、村、居委会等共5级行政区域数据的获取并建库,同时提供JSON数据文件与Mongodb数据库备份文件

从CNKI(知网)下载联合专利的爬虫、解析、CSV文件过滤及合并(python 2 7)

使用egg搭建的api(主要配合react-umi-admin后台模版)、jwt验证、权限模块、socket、爬虫模块(python)

image.gif 编辑

使用Python爬取了“南京大学实验室安全教育与考试系统”的所有题目,并制作成题库,方便学习以及在考试中查阅,并且记录了爬虫过程中遇到的问题

使用python爬虫下载图片

北航教务小助手-后端(Python Web、爬虫)

华南理工大学找到卷王,基于 Python 的综测系统数据爬虫

基于Python 3的综合性B站(哔哩哔哩弹幕网)数据爬虫

基于Python requests的人人词典数据爬虫,数据共10G左右,爬取时间1小时左右,爬取站点http &&www91dict com 包含:单词、单词词性及翻译、单词发音、单词例句剧照、单词例句及翻译、单词例句发音

基于Python多进程多线程爬虫-必应新闻、新浪新闻、某东商品评论、亚马逊中文商品评论、谷歌翻译

基于Python异步爬虫的易班打卡项目

基于Python的flask网络爬虫web项目

基于Python的scrapy爬虫框架实现爬取招聘网站的信息到数据库

基于python的批量下载pdf文档的简单爬虫程序

大众点评店铺信息爬虫程序,python、beautifulSoup,通过一个有规律的url,可以一页一页的获取到店铺的ID,从而完成所有的抓取工作

头歌平台Python程序设计作业报告爬虫

学习Java和Python爬虫

学习python爬虫框架Scrapy的一个小案例,参考刘硕《精通Scrapy网络爬虫》

小说爬虫服务,python实现

微博python爬虫并生成词云

支持自动m3u8爬取、密钥爬取、断点续传及文件清理的Python爬虫

某宝店铺爬虫-python

深度学习,python爬虫,Linux脚本的学习笔记

热搜榜-python爬虫+正则re+beautifulsoup+xpath

爬虫实例:爬取某度百科python相关词条

用Python写的爬虫,包括爬取当当,豆瓣,B站等

用python爬取github上信息的爬虫

石之家Python爬虫作业

豆瓣图书Python大爬虫

通过python爬虫获取人民网、新浪等网站新闻作为训练集,基于BERT构建新闻文本分类模型,并结合node js + vue完成了一个可视化界面

采集代码

 

# region 采集
    def spider_git(self):
        """
        采集git网
        :return:
        """
        spider_url = self.txt_spider_url.GetValue()
        # if os.path.exists(self.first_path):
        #     os.makedirs(self.first_path)
        # else:
        #     os.makedirs(self.first_path)
        edge_options = Options()
        diy_prefs = {'profile.default_content_settings.popups': 0,
                     'download.default_directory': '{0}'.format("D:\\Temp")}
        # 添加路径到selenium配置中
        edge_options.add_experimental_option('prefs', diy_prefs)
        edge_options.add_argument('--headless')  # 隐藏浏览器
        # 实例化chrome浏览器时,关联忽略证书错误
        browser = webdriver.Edge(options=edge_options)
        browser.set_window_size(1300, 1000)  # 分辨率 1280*800
        browser.get(spider_url)
        self.browser = browser  # 将浏览器的独行值赋予给全局
        title_element = browser.find_element(By.CLASS_NAME, "my-3")
        coder_title=str(title_element.text)
        # response = requests.get(spider_url,timeout=10, headers=UserAgent().get_random_header("https://github.com/"))
        # response.encoding = 'UTF-8'
        # soup = BeautifulSoup(response.text, "html5lib")
        # p_element = soup.find('p', attrs={"class": 'my-3'})
        # print(p_element.text.strip())
        try:
            folder_name = str(coder_title).strip()
            folder_name = folder_name.split("。")[0]
            folder_name = folder_name.strip().replace("⭐", "") \
                .replace("🍌", "") \
                .replace("/", "&") \
                .replace("⏰", "") \
                .replace("🌈", "") \
                .replace("🎉", "") \
                .replace("网易", "163") \
                .replace("京东", "某东") \
                .replace("淘宝", "某宝") \
                .replace("QQ", "企鹅") \
                .replace("腾讯", "鹅厂") \
                .replace("知乎", "zhihu") \
                .replace("斗鱼", "DY") \
                .replace("百度", "某度") \
                .replace("抖音", "电音") \
                .replace("天猫", "TCat") \
                .replace("美团", "MEITUAN") \
                .replace("今日头条", "今日头疼") \
                .replace(": ", " ").replace(".", " ").replace(":", " ").replace("开源", "")
            if len(folder_name) > 150:
                folder_name = folder_name[0:150]
                pass
            file_name=""
            files = os.listdir(self.base_path) #理论就一个文件
            for file in files:
                file_ext = os.path.splitext(file)[-1]
                if file_ext is None or file_ext == "":
                    continue
                if "zip" == str(file_ext.split(".")[1]):
                    file_name=file
            if file_name=="":
                self.lable_down_number.config(text="下载文件夹不存在ZIP文件因此程序停止...")
                self.is_spider = False
                return
            srcFile = self.base_path + os.sep + file_name  # 原始zip文件
            ZipTools.extract_zip(srcFile, self.three_path, "123123")  # 解压文件
            extract_folder_name = self.three_path + os.sep + file_name.replace(".zip", "")
            target_folder_name= self.three_path + os.sep + folder_name
            os.rename(extract_folder_name, target_folder_name)
            os.remove(srcFile)  # 移除原始文件
            self.down_number = int(self.down_number) + 1
            self.lable_down_number.config(text="下载文件数量:" + str(self.down_number))
            self.lable_message.config(text="文件解压及保存成功!")
            self.is_spider = False
        except Exception as e:
            print(e)
            self.lable_message.config(text=str(e))
            self.is_spider = False
            self.txt_spider_url.SetValue("")

image.gif

好了就写到这吧

你有时间常去我家看看我在这里谢谢你啦...

我家地址:亚丁号

最后送大家一首诗:

山高路远坑深,

大军纵横驰奔,

谁敢横刀立马?

惟有点赞加关注大军。

感谢您的支持


目录
相关文章
|
3月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
4月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
4月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
570 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
3月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
4月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
833 19
|
3月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
3月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
4月前
|
小程序 PHP 图形学
热门小游戏源码(Python+PHP)下载-微信小程序游戏源码Unity发实战指南​
本文详解如何结合Python、PHP与Unity开发并部署小游戏至微信小程序。涵盖技术选型、Pygame实战、PHP后端对接、Unity转换适配及性能优化,提供从原型到发布的完整指南,助力开发者快速上手并发布游戏。
|
9月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
594 6

推荐镜像

更多