python获取拉钩岗位信息

简介: 获取拉钩岗位信息
#!/usr/bin/env python""" * project_name stu * package  * file_name  pt_craw_zh * <p> * description  * </p> * @author <a href="mailto:joshualwork@163.com">joshua_liu</a>  * @date 2022/1/4 15:49"""importjsonimportpymongoimportrequestsfromjsonpath_rwimportparseurl='https://www.lagou.com/jobs/v2/positionAjax.json?first=true&needAddtionalResult=false&city=%E9%83%91%E5%B7%9E' \
'&px=new&pn={}&kd=Java'max_pg=13# mongo_client = pymongo.MongoClient('localhost','27017')# mongo_client = pymongo.MongoClient('mongodb://localhost:27017')mongo_client=pymongo.MongoClient('localhost', 27017, username='db_python', password='**..!123')
db_list=mongo_client.list_database_names()
db=mongo_client.db_pythontb_lg_position=db.tb_lg_positionheaders= {
"Cache-Control": "no-cache",
"Host": "www.lagou.com",
"Accept": "application/json, text/plain, */*",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"x-l-req-header": "{deviceType:1}",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/96.0.4664.110 Safari/537.36"}
''' ' @param  ' @return  ' @description 分页获取数据 ' @author <a href="mailto:joshualwork@163.com">joshua_liu</a> ' @date 2022/1/4 21:35'''defquery_json():
foriinrange(1, max_pg):
temp_url=url.format(i)
print(temp_url)
request=requests.post(temp_url, headers=headers)
json_str=request.content.decode()
# print(json_str)fmt_json=json.loads(json_str)
json_path_hr_expr=parse("content.hrInfoMap")
json_path_pos_expr=parse("content.positionResult.result")
hr_infos=json_path_hr_expr.find(fmt_json)
pos_infos=json_path_pos_expr.find(fmt_json)
# content = fmt_json['content']# print(content)# print(hr_infos)formatchinpos_infos:
match_value=match.value# print(type(match_value))print(match_value)
tb_lg_position.insert_many(match_value)
# for match_value_child in match_value:#     print(json.dumps(match_value_child, ensure_ascii=False))defmain():
query_json()
if__name__=='__main__':
main()
#!/usr/bin/env python""" * project_name stu * package  * file_name  pt_craw_zh * <p> * description  * </p> * @author <a href="mailto:joshualwork@163.com">joshua_liu</a>  * @date 2022/1/4 15:49"""importjsonimportpymongoimportrequestsfromjsonpath_rwimportparseurl='https://www.lagou.com/jobs/v2/positionAjax.json?first=true&needAddtionalResult=false&city=%E9%83%91%E5%B7%9E' \
'&px=new&pn={}&kd=Java'max_pg=13# mongo_client = pymongo.MongoClient('localhost','27017')# mongo_client = pymongo.MongoClient('mongodb://localhost:27017')mongo_client=pymongo.MongoClient('localhost', 27017, username='db_python', password='**..!g1i2t3L')
db_list=mongo_client.list_database_names()
db=mongo_client.db_pythontb_lg_position=db.tb_lg_positionheaders= {
"Cache-Control": "no-cache",
"Host": "www.lagou.com",
"Accept": "application/json, text/plain, */*",
"Accept-Encoding": "gzip, deflate, br",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"x-l-req-header": "{deviceType:1}",
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/96.0.4664.110 Safari/537.36"}
''' ' @param  ' @return  ' @description 分页获取数据 ' @author <a href="mailto:joshualwork@163.com">joshua_liu</a> ' @date 2022/1/4 21:35'''defquery_json():
foriinrange(1, max_pg):
temp_url=url.format(i)
print(temp_url)
request=requests.post(temp_url, headers=headers)
json_str=request.content.decode()
# print(json_str)fmt_json=json.loads(json_str)
json_path_hr_expr=parse("content.hrInfoMap")
json_path_pos_expr=parse("content.positionResult.result")
hr_infos=json_path_hr_expr.find(fmt_json)
pos_infos=json_path_pos_expr.find(fmt_json)
# content = fmt_json['content']# print(content)# print(hr_infos)formatchinpos_infos:
match_value=match.value# print(type(match_value))print(match_value)
tb_lg_position.insert_many(match_value)
# for match_value_child in match_value:#     print(json.dumps(match_value_child, ensure_ascii=False))defmain():
query_json()
if__name__=='__main__':
main()
相关文章
|
4月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
4月前
|
前端开发 数据安全/隐私保护 Python
虚拟物流单号生成器, 虚拟快递单号假物流信息, 虚拟快递单号在线生成【python框架】
这个虚拟物流单号生成系统包含以下功能:支持多种主流快递公司的单号生成
|
4月前
|
数据安全/隐私保护 数据格式 Python
快递单号模拟生成器, 虚拟物流信息在线生成,虚假快递单号生成器【python】
支持多种主流快递公司生成符合各快递公司规则的快递单号自动生成收发件人信息
|
4月前
|
JSON 前端开发 API
快递单号生成器在线, 快递单号模拟生成器, 虚拟物流信息在线生成【python】
项目包含三个主要模块:快递单号生成器核心逻辑、Flask Web应用程序和前端HTML页面
|
4月前
|
JSON API 数据安全/隐私保护
车辆五项信息查询 API 的实践指南:通过Python调用赋能车辆信息标准化
本API通过车牌号快速获取车辆五项核心信息,包括品牌、登记日期、车架号等,助力二手车评估、维修、保险等场景实现数字化转型。数据源自权威公安交管库,日更同步,毫秒级响应,满足高并发需求,符合隐私保护规范,是推动汽车后市场智能化的重要工具。
254 0
|
5月前
|
API Python
VIN码查询API的实战指南:获取二手车信息以Python为例
随着机动车保有量上升,中国二手车市场迎来发展机遇。本文介绍如何通过VIN码查询API获取车辆详细信息,提升交易透明度与安全性。
141 1
|
5月前
|
数据采集 存储 数据可视化
Python爬取招标信息并生成可视化分析报告
Python爬取招标信息并生成可视化分析报告
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息
244 0
|
SQL 关系型数据库 数据库连接
使用python3抓取pinpoint应用信息入库
使用python3通过pinpoint api来获取pinpoint中应用基础信息、上下游链路,并入库
2108 0
|
数据采集 供应链 机器人
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务
549 0
Python - 抓取 iphone13 pro 线下店供货信息并发送到钉钉机器人,最后设置为定时任务

推荐镜像

更多