数据科学求职建议:掌握5种类型的数据科学项目

简介: 本文介绍数据科学求职应该掌握的五个相关项目,以便秋招者对应自身情况查漏补缺。

       一年一度的秋招已经打响了发令枪,从去年的薪酬排行来看,算法工程师和数据分析等工作排在前列,很多相关专业的学生一直在自学一些网络上的公开课并阅读一些专业书籍,比如“西瓜书”、“花书”等,如果你现在仍然什么也没有准备的话,然而还想从事数据科学领域这个似乎令人望而生畏的工作话,现在就要抓紧补补相关的知识了。在这里要提示一点,自我完善的知识不要局限于数据分析相关的知识,还要额外补充下相关领域的知识。另外,简历上展示个人技能的最佳方式是使用技能组合的形式,这样能让雇主相信你可以使用你已经学习的技能。为了展示这些技能,以下是你应该着重补充的5种数据科学项目组合类型:

1.数据清理

       数据科学家预计在一个新项目的清理数据处理上花费多达80%的时间,这对于团队来说是一个巨大的代价。如果你可以证明你在数据清理方面经验丰富,那么你将立即变得更有价值。练习这项能力的方法是创建一个数据清理项目,找到一些混乱的数据集并开始进行清理。

data_cleaning_1


       如果你使用Python语言进行编程,那么 Pandas是一个很好用的库,如果你使用R语言编程,那么你可以使用 dplyr数据包。你实践的数据清洗项目应该确保展示以下技能:
  • 导入数据
  • 加入多个数据集
  • 检测缺失值
  • 检测异常
  • 输入缺失的值
  • 数据质量保证

2.探索性数据分析

       数据科学的另一个重要方面是探索性数据分析(EDA),这是一个生成问题并用可视化方法对其进行调查的过程。 EDA允许分析人员从数据中得出结论来推动业务影响,它可能包括基于客户细分的有趣洞察,或基于季节效应的销售趋势。通常你可以通过探索性数据分析来得到一些有趣的发现。

2


       用于探索性分析的一些有用的Python库有 PandasMatplotlib。对于R用户而言, ggplot2软件包将会很有用。你实践的EDA项目应该显示以下技能:
  • 能够制定相关的调查问题
  • 识别趋势
  • 识别变量之间的协变
  • 使用可视化有效地传达结果(散点图,直方图,饼图等)

3.交互式数据可视化

       交互式数据可视化包括诸如仪表板之类的工具,这些工具对于数据科学团队以及更多面向业务的最终用户都是很有用的。仪表盘允许数据科学团队进行协作并共同绘制见解。更重要的是,它们为面向商业的客户提供了交互式工具,这些人专注于战略目标而不是技术细节。数据科学项目的交付成果往往以仪表板的形式出现。

interactive_data_visualizations_3


       对于Python用户而言, BokehPlotly库是非常适合用来创建仪表板的。而对于R用户,可以使用RStudio的 Shiny软件包。你实践的仪表板项目应该强调这些重要技能:
  • 包括与客户需求相关的指标
  • 创建有用的功能逻辑布局(易于扫描的“F模式”)
  • 创建最佳刷新率
  • 生成报告或其他自动操作

4.机器学习

       机器学习项目是数据科学产品组合的另一个重要组成部分。现在,在开始进行一些深度学习项目之前,请保持耐心。不要一开始就构建复杂的机器学习模型,而要坚持从基础知识开始学起。线性回归和逻辑回归是很好的开始,这些模型更容易解释并能清晰地与上层管理人员沟通。此外,我还建议专注于具有业务影响的项目,例如预测客户流失,欺诈检测或贷款违约等,这些比预测花型更实用。

machine_learning_4


       如果你是Python用户,请使用 Scikit-Learn学习库。而对于R用户,请使用 Caret软件包。你实践的机器学习项目应该传达以下技能:
  • 选择使用某个具体机器学习模型的原因
  • 将数据分成训练/测试集(k-fold交叉验证)以避免过度拟合
  • 选择正确的评估指标(AUC、adj-R ^ 2、混淆矩阵等)
  • 特征工程和选择
  • 超参数调整

5.沟通

       沟通是数据科学的一个重要方面,对于工科人员而言这点尤其欠缺。能够有效地传达结果是区分优秀的数据科学家与伟大的数据科学家的重要衡量标准之一。无论你的模型多么华丽,如果你不能向队友或顾客解释它,你都不会得到他们的支持,就如同对牛弹琴一般。幻灯片和Notebook都是很好的沟通工具,可以将你的机器学习项目按照项目过程以PPT的形式展示,也可以使用Jupyter NotebookRMarkdown文件进行沟通。

jupyter_communication_5


       确保了解你的目标受众是谁,向高管呈现的内容与向机器学习专家呈现的内容二者是完全不同的。确保具备这些技能:
  • 了解目标受众
  • 提供相关的可视化
  • 幻灯片不要写太多的内容
  • 确保演示文稿流畅
  • 将结果与业务影响联系起来(降低成本,增加收入)
           确保在Jupyter笔记本或RMarkdown文件中记录自己的项目。然后,也可以使用Github 免费将这些Markdown文件转换为静态网站。这是向潜在雇主展示个人技能组合的好方法,即GitHub主页或CSDN博客等。

       最后,在求职的道路上请保持积极的态度,作为应届生,不要被一次次面试、笔试所扰乱心态,请保持继续补充知识、练习项目并参加一些竞赛等。不要慌张,秋招过去,还有春招,春招过去还有社招,只要你一直努力提升自己,相信最终会有好的结果等着你,希望你能够快乐求职,并且在数据科学领域工作顺心。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

作者信息

John Sullivan,机器学习研究者
个人主页:https://twitter.com/DataOptimal
本文由阿里云云栖社区组织翻译。
文章原标题《5 Data Science Projects That Will Get You Hired in 2018》,译者:海棠,审校:Uncle_LLD。
文章为简译,更为详细的内容,请查看原文

相关文章
|
存储 安全 网络安全
手把手教你使用Python轻松搞定发邮件
手把手教你使用Python轻松搞定发邮件
695 0
|
算法 计算机视觉 Python
DSP技术在音频处理中的创新与实践
DSP技术在音频处理中的创新与实践
221 2
|
10月前
|
机器学习/深度学习 安全 开发工具
通义灵码开发者社区的构成——通义灵码团队与合作伙伴
通义灵码开发者社区的成功,得益于核心团队的引领和合作伙伴的支持。团队专注于产品开发、维护及社区管理,确保通义灵码的高质量与稳定性;合作伙伴则提供丰富的资源和资金支持,共同推动技术创新和市场应用,构建了一个充满活力的生态系统。
|
12月前
|
Web App开发 Java iOS开发
webp详解
WebP是一种由谷歌开发的图像文件格式,旨在提供更高效的图像压缩方法,以加快网页加载速度。它支持有损和无损压缩模式,并且在相同的视觉质量下,相比JPEG和PNG等格式,文件大小更小,从而优化了网络传输效率。此外,WebP还支持透明度和动画图像。
|
分布式计算 安全 OLAP
7倍性能提升|阿里云AnalyticDB Spark向量化能力解析
AnalyticDB Spark如何通过向量化引擎提升性能?
|
Dubbo 网络协议 Java
深入掌握Dubbo服务提供者发布与注册原理
该文章主要介绍了Dubbo服务提供者发布与注册的原理,包括服务发布的流程、多协议发布、构建Invoker、注册到注册中心等过程。
深入掌握Dubbo服务提供者发布与注册原理
|
弹性计算 固态存储 大数据
阿里云服务器租用一年多少钱?2024年最新版阿里云服务器租用价格表
阿里云服务器价格亲民,2024年最新优惠中,轻量应用服务器2核2G3M带宽仅82元/年,折合6.8元/月;ECS经济型e实例2核2G3M带宽99元/年,新老用户同享;2核4G5M带宽ECS u1实例199元/年。此外,4核16G10M带宽服务器70元/月起,8核32G10M带宽160元/月起。另有GPU服务器优惠,如gn6v最高配置月费4685.20元。系统盘提供高效云盘、SSD云盘和ESSD云盘等多种选择。续费优惠方面,续费一年享7.5折,最长可达3折。详情请参考官方页面获取最准确的报价与活动信息。
|
Web App开发 JavaScript 前端开发
JavaScript在IE和标准浏览器下的兼容性处理
JavaScript在IE和标准浏览器下的兼容性处理
393 0
|
数据可视化 Python
NumPy 泊松分布模拟与 Seaborn 可视化技巧
泊松分布是描述单位时间间隔内随机事件发生次数的离散概率分布,参数λ表示平均速率。公式为 P(k) = e^(-λ) (λ^k) / k!。NumPy 的 `random.poisson()` 可生成泊松分布数据。当 λ 很大时,泊松分布近似正态分布。练习包括模拟顾客到达、比较不同 λ 下的分布及模拟电话呼叫中心。使用 Seaborn 可进行可视化。关注公众号 `Let us Coding` 获取更多文章。
342 1
|
数据采集 弹性计算 供应链
阿里云ECS付费类型:包年包月、按量付费和抢占式实例区别详解
阿里云服务器付费模式:包年包月适合长期稳定服务,价格优惠;按量付费适合短期或波动需求,按小时计费;抢占式实例价格低但可能被系统释放,适合无状态应用。选择取决于业务场景和资源稳定性需求。
373 0