背景描述
主要对“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析。数据主要来自“数据挖掘”、“机器学习”和“算法”这3个关键词下的数据。由于原始数据还比较脏,本文使用pandas进行数据处理和分析,结合seaborn和pyecharts包进行数据可视化。
数据说明
准备数据集以及一个空文件
1.datamining.csv
2.machinelearning.csv
3.mlalgorithm.csv
4.data_clean.csv(空文件,以便清洗后存放干净数据)
数据集来源
https://github.com/Alfred1984/interesting-python/tree/master/shixiseng
问题描述
该数据主要用于“实习僧网站”招聘数据挖掘、机器学习的实习岗位信息进行分析
分析目标以及导入模块
1.由于小E想要找的实习公司是机器学习算法相关的工作,所以只对“数据挖掘”、“机器学习”、“算法”这三个关键字进行了爬取;
2.因此,分析目标就是国内公司对机器学习算法实习生的需求状况(仅基于实习僧网站),以及公司相关的分析。
1. 数据导入
2. 数据基本信息和基本处理
3. 数据处理
3.1 新建data_clean数据框
3.2 数值型数据处理
3.2.1 “auth_capital”(注册资本)
3.2.2 “day_per_week”(每周工作天数)
3.2.3 “num_employee”(公司规模)
3.2.4 “time_span”(实习月数)
3.2.5 “wage”(每天工资)
3.3 时间数据处理
3.3.1 “est_date”(公司成立日期)
3.3.2 “job_deadline”(截止时间)
3.3.3 “released_time”(发布时间)
3.3.4 “update_time”(更新时间)
实习僧网站的实习岗位信息分析(中)https://developer.aliyun.com/article/1507866?spm=a2c6h.13148508.setting.17.1b484f0eMnwKQL