python获取拉钩岗位信息

简介: 获取拉钩岗位信息
#!/usr/bin/env python""" * project_name stu * package  * file_name  pt_craw_zh * <p> * description  * </p> * @author <a href="mailto:joshualwork@163.com">joshua_liu</a>  * @date 2022/1/4 15:49"""importjsonimportpymongoimportrequestsfromjsonpath_rwimportparseurl='https://www.lagou.com/jobs/v2/positionAjax.json?first=true&needAddtionalResult=false&city=%E9%83%91%E5%B7%9E' \
'&px=new&pn={}&kd=Java'max_pg=13# mongo_client = pymongo.MongoClient('localhost','27017')# mongo_client = pymongo.MongoClient('mongodb://localhost:27017')mongo_client=pymongo.MongoClient('localhost', 27017, username='db_python', password='**..!123')
db_list=mongo_client.list_database_names()
db=mongo_client.db_pythontb_lg_position=db.tb_lg_positionheaders= {
"Cache-Control": "no-cache",
"Host": "www.lagou.com",
"Accept": "application/json, text/plain, */*",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"x-l-req-header": "{deviceType:1}",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/96.0.4664.110 Safari/537.36"}
''' ' @param  ' @return  ' @description 分页获取数据 ' @author <a href="mailto:joshualwork@163.com">joshua_liu</a> ' @date 2022/1/4 21:35'''defquery_json():
foriinrange(1, max_pg):
temp_url=url.format(i)
print(temp_url)
request=requests.post(temp_url, headers=headers)
json_str=request.content.decode()
# print(json_str)fmt_json=json.loads(json_str)
json_path_hr_expr=parse("content.hrInfoMap")
json_path_pos_expr=parse("content.positionResult.result")
hr_infos=json_path_hr_expr.find(fmt_json)
pos_infos=json_path_pos_expr.find(fmt_json)
# content = fmt_json['content']# print(content)# print(hr_infos)formatchinpos_infos:
match_value=match.value# print(type(match_value))print(match_value)
tb_lg_position.insert_many(match_value)
# for match_value_child in match_value:#     print(json.dumps(match_value_child, ensure_ascii=False))defmain():
query_json()
if__name__=='__main__':
main()
#!/usr/bin/env python""" * project_name stu * package  * file_name  pt_craw_zh * <p> * description  * </p> * @author <a href="mailto:joshualwork@163.com">joshua_liu</a>  * @date 2022/1/4 15:49"""importjsonimportpymongoimportrequestsfromjsonpath_rwimportparseurl='https://www.lagou.com/jobs/v2/positionAjax.json?first=true&needAddtionalResult=false&city=%E9%83%91%E5%B7%9E' \
'&px=new&pn={}&kd=Java'max_pg=13# mongo_client = pymongo.MongoClient('localhost','27017')# mongo_client = pymongo.MongoClient('mongodb://localhost:27017')mongo_client=pymongo.MongoClient('localhost', 27017, username='db_python', password='**..!g1i2t3L')
db_list=mongo_client.list_database_names()
db=mongo_client.db_pythontb_lg_position=db.tb_lg_positionheaders= {
"Cache-Control": "no-cache",
"Host": "www.lagou.com",
"Accept": "application/json, text/plain, */*",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"x-l-req-header": "{deviceType:1}",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/96.0.4664.110 Safari/537.36"}
''' ' @param  ' @return  ' @description 分页获取数据 ' @author <a href="mailto:joshualwork@163.com">joshua_liu</a> ' @date 2022/1/4 21:35'''defquery_json():
foriinrange(1, max_pg):
temp_url=url.format(i)
print(temp_url)
request=requests.post(temp_url, headers=headers)
json_str=request.content.decode()
# print(json_str)fmt_json=json.loads(json_str)
json_path_hr_expr=parse("content.hrInfoMap")
json_path_pos_expr=parse("content.positionResult.result")
hr_infos=json_path_hr_expr.find(fmt_json)
pos_infos=json_path_pos_expr.find(fmt_json)
# content = fmt_json['content']# print(content)# print(hr_infos)formatchinpos_infos:
match_value=match.value# print(type(match_value))print(match_value)
tb_lg_position.insert_many(match_value)
# for match_value_child in match_value:#     print(json.dumps(match_value_child, ensure_ascii=False))defmain():
query_json()
if__name__=='__main__':
main()
相关文章
|
6天前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
31 10
|
2月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
2月前
|
存储 数据采集 数据库
用 Python 爬取淘宝商品价格信息时需要注意什么?
使用 Python 爬取淘宝商品价格信息时,需注意法律和道德规范,遵守法律法规和平台规定,避免非法用途。技术上,可选择 Selenium 和 Requests 库,处理反爬措施如 IP 限制、验证码识别和请求频率控制。解析页面数据时,确定数据位置并清洗格式。数据存储可选择 CSV、Excel、JSON 或数据库,定期更新并去重。还需进行错误处理和日志记录,确保爬虫稳定运行。
|
2月前
|
数据采集 Web App开发 iOS开发
如何利用 Python 的爬虫技术获取淘宝天猫商品的价格信息?
本文介绍了使用 Python 爬虫技术获取淘宝天猫商品价格信息的两种方法。方法一使用 Selenium 模拟浏览器操作,通过定位页面元素获取价格;方法二使用 Requests 和正则表达式直接请求页面内容并提取价格。每种方法都有详细步骤和代码示例,但需注意反爬措施和法律法规。
|
3月前
|
小程序 Python
利用Python编程提取身份证的信息
利用Python编程提取身份证的信息
40 2
|
3月前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
25 1
|
3月前
|
Python
Python实现系统基础信息
Python实现系统基础信息
38 0
|
1月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
30天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
19天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
103 80