网络爬虫--之爬起校招信息代码

简介: 记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏。   于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。   重复的事情做久了,就有了自动化的想法。   于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招
记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏。 
  
于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。 
  
重复的事情做久了,就有了自动化的想法。 
  
于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招”、“Google”)先对校招信息进行过滤,然后存储到本机redis中。本机若搭有lamp环境,那么直接从redis读取信息到web页面上即可。 
  
这个小爬虫的目的,就是把各路校招信息聚合在一起并且过滤出自己感兴趣的校招信息如Google的校招、百度的校招等等。 
  
此外,这个小玩意还帮了我大忙,13届阿里补招的时候让我在单位时间内看到了补招信息,火速投出简历并最终抓住了机会。 
  
据我所知,后来投递的应届生简历都已经晚了。 
  
天下武功,唯快不破。 
  
这个小爬虫在我的机器上跑了快一年了,虽然对它挺有感情,但如今对我来说也没有什么用了。新的一轮校招快到了,我决定把它分享出来,有需要的童鞋直接拿去就可以用,有兴趣的同学也可以很容易地扩展它,满足自己的个性化需求。 
  
初步介绍可以见博文

抓取北邮人论坛和水木社区校招信息的爬虫程序, 直接运行main.py即可在本机(http://127.0.0.1:8888)访问,非常简洁,可以扩展。

此外,已经增加手机短信通知功能,移动、联通、电信都可以用。

Talk is cheap, show you the code:https://github.com/lizherui/spider_python.

Enjoy it.


  
Talk is cheap, show you the code. 
  

代码托管在github:https://github.com/lizherui/spider_python 

下载地址:http://download.csdn.net/detail/gshengod/5999879

  
感谢@mmoonzhu的patch。 
  
PS:已增加手机短信通知功能,利用了139邮箱短信通知的原理,移动联通电信都可以用。 
  
Enjoy it.  
目录
相关文章
|
1月前
|
安全 物联网 物联网安全
量子通信网络:安全信息交换的新平台
【10月更文挑战第6天】量子通信网络作为一种全新的安全信息交换平台,正逐步展现出其独特的优势和巨大的潜力。通过深入研究和不断探索,我们有理由相信,量子通信网络将成为未来信息安全领域的重要支柱,为构建更加安全、高效、可靠的信息社会贡献力量。让我们共同期待量子通信网络在未来的广泛应用和美好前景!
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
|
7天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
8天前
|
监控 安全 测试技术
网络信息系统的整个生命周期
网络信息系统规划、设计、集成与实现、运行维护及废弃各阶段介绍。从企业需求出发,经过可行性研究和技术评估,详细设计系统架构,完成设备安装调试和系统集成测试,确保稳定运行,最终安全退役。
21 1
网络信息系统的整个生命周期
|
25天前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
61 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
6天前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
8天前
|
存储 关系型数据库 MySQL
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息
151 1
|
8天前
|
安全 网络协议 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(8-1):主动信息收集之ping、Nmap 就怕你学成黑客啦!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(8-1):主动信息收集之ping、Nmap 就怕你学成黑客啦!
|
7天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
1月前
|
SQL 安全 算法
网络安全与信息安全:构建数字世界的防线在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系社会秩序、保障个人隐私与企业机密的重要基石。本文旨在深入探讨网络安全漏洞的本质、加密技术的前沿进展以及提升安全意识的有效策略,为读者揭示数字时代下信息保护的核心要义。
本文聚焦网络安全与信息安全领域,详细剖析了网络安全漏洞的形成机理、常见类型及其潜在危害,强调了及时检测与修复的重要性。同时,文章系统介绍了对称加密、非对称加密及哈希算法等主流加密技术的原理、应用场景及优缺点,展现了加密技术在保障数据安全中的核心地位。此外,针对社会普遍存在的安全意识薄弱问题,提出了一系列切实可行的提升措施,如定期安全培训、强化密码管理、警惕钓鱼攻击等,旨在引导公众树立全面的网络安全观,共同构筑数字世界的安全防线。