干货 :5种项目助你找到数据科学工作

简介:

或许您已经在网上看了许多的MOOC,阅读了很多工具书,但是您有可能仍然担心找不到工作或根本没有找到工作。在数据科学领域找到合适的工作的确有一定难度。最好的向HR展现您能力的方式就是准备一个文件夹。在文件夹中放入以下五种您做过的数据科学项目。

数据清洗

通常来讲,数据科学家在一个新的项目中预计会花80%的时间来清洗数据。这对于团队来说是一个长而痛苦的过程。如果您能展示您在清洗数据上具有丰富的经验,您就会变得很有价值。您可以找一些杂乱无章的数据集练习清理数据来增加您的经验。


如果您用的是Python,Pandas是一个很好用的包;如果您用的是R,dplyr包将会是一个不错的选择。确保您展示出以下的技能:

 ●  标注重点数据
 ●  连接多个数据集
 ●  检测缺失数据
 ●  检测异常值
 ●  填充缺失数据

 ●  确认数据质量

探索性数据分析

另一项有关数据科学的重要内容是探索性数据分析(EDA)。这是提出问题的过程,需要您用可视化技术来研究这个数据集。EDA使得分析师能够从数据中得出一些能驱动商业决策的结论。或许您能从客户的数据、销售的趋势、季节的影像中得到有趣的结论。甚至有时候您能有一些和您最初设想完全不同的发现。

用于探索性分析的一些有用的Python包是PandasMatplotlib。对于R用户,ggplot2包将很有用。EDA项目应该显示以下技能:


用于探索性分析的一些有用的Python包是PandasMatplotlib。对于R用户,ggplot2包将很有用。EDA项目应该显示以下技能:

 ●  能够为调查制定相关问题
 ●  识别趋势
 ●  识别变量之间的相关关系

 ●  使用可视化技术(散点图,直方图,箱线图等)有效地传达结果

交互式数据可视化

交互式数据可视化包括仪表板等工具。这些工具对数据科学团队以及更多面向业务的最终用户都很有用。仪表板允许数据科学团队进行协作,并一起绘制见解。更重要的是,它们为面向业务的客户提供了一种交互式工具。这些人专注于战略目标而非技术细节。通常,数据科学项目的可交付成果将以仪表板的形式出现。


对于Python用户,BokehPlotly库非常适合创建仪表板。对于R用户,请务必查看RStudio的Shiny软件包。您的仪表板项目应突出显示以下重要技能:

 ●  包括与客户需求相关的指标
 ●  创建有用的功能
 ●  逻辑布局(“F模式”便于扫描)
 ●  创建最佳刷新率

 ●  生成报告或其他自动操作

机器学习

机器学习项目是数据科学组合的另一个重要部分。在您开始构建一些深度学习项目之前,请退后一步。我们说的并不是建立复杂的机器学习模型,而是坚持基础。线性回归和逻辑回归是很好的开始。这些模型更易于解释和与上层管理层沟通。我还建议关注一个对业务有影响的项目,例如预测客户流失,欺诈检测或贷款违约。这比预测花型更贴近于工作实际。

如果您是Python用户,请使用Scikit-learn库。对于R用户,请使用Caret包。您的机器学习项目应该传达以下技能:

  • 您选择使用特定机器学习模型的原因

  • 将数据拆分为训练/测试集(k倍交叉验证)以避免过拟合

  • 选择正确的评估指标(AUC,adj-R ^ 2,混淆矩阵等)

  • 特征值的选择

  • 超参数调整


5
沟通能力

沟通是数据科学的一个重要方面。能否有效地传达结果是优秀数据科学家与优秀科学家之间的区别。无论您的模型多么花哨,如果您无法向队友或客户解释,您将无法获得他们的支持。幻灯片和笔记本电脑都是很好的沟通工具。尝试将您的一个机器学习项目放入幻灯片格式中。您还可以将Jupyter NotebookRMarkdown文件用于需要沟通的项目。


确保了解您的目标受众是谁。向高管们展示您的项目和向机器学习专家展示是非常不同的。一定要掌握这些技能:

 ●  了解您的目标受众
 ●  使用相关的可视化技术
 ●  请勿过多地提供幻灯片
 ●  确保您的演示文稿流畅
 ●  将结果与业务影响相结合(降低成本,增加收入)

确保在Jupyter笔记本或RMarkdown文件中记录您的项目。然后,您可以使用Github Pages将这些文件免费转换为静态网站。这是向潜在雇主展示您的项目的好方法。


原文发布时间为:2018-10-5

本文作者:John Sullivan

本文来自云栖社区合作伙伴“数据分析”,了解相关信息可以关注“数据分析”。

相关文章
|
26天前
|
敏捷开发 资源调度 数据可视化
2024年最适合职场人士的任务可视化工具盘点,你的工作利器已在此!
随着企业管理方式的不断创新,任务管理和团队协作的效率成为企业竞争力的关键。2024年,可视化办公软件因其直观、高效的特点,成为现代企业管理的核心工具。这些软件不仅帮助团队更好地进行任务管理、项目跟进和协作沟通,还通过多种功能如看板管理、任务分配、进度跟踪、团队协作、报告与统计等,显著提升了工作效率。例如,板栗看板、Jira、Basecamp、ClickUp和Smartsheet等工具,各自以其独特的功能和优势,满足不同规模和需求的企业,助力实现高效管理和协作。
|
7月前
|
机器学习/深度学习 算法 前端开发
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
2024年8个可以提高数据科学工作效率并节省宝贵时间的Python库,2024年最新记得把每一次面试当做经验积累
|
机器学习/深度学习 搜索推荐 数据挖掘
24个终极数据科学项目(可免费获取资源)
本文精选了24个数据科学项目,并囊括了各个领域和各种不同大小的数据集。另外,所有的数据集都是开源、可免费获取的。
6747 0
|
机器学习/深度学习 SQL 分布式计算
墙裂推荐!小白入门数据科学的几个宝藏学习网站
前方高能,准备开启收藏夹吃灰模式。 本篇东哥分享几个数据科学入门的学习网站,全部免费资源,且内容优质,是小白入门的不二选择。吃灰是常规操作,但也得吃,总比需要用的时候找不到强。 下面开始进入正题。
墙裂推荐!小白入门数据科学的几个宝藏学习网站
|
SQL 机器学习/深度学习 算法
资深数据科学家教你如何在求职过程中找到心仪的工作
本文是一篇关于数据科学家岗位的求职心路历程,情真意切,给予求职过程很多的建议,对于参加秋招和社招的朋友来说,是一份不可多得的心得。
7209 0
|
机器学习/深度学习 大数据 Apache
分类推荐&通俗易懂:数据科学与大数据技术专业领域的实用工具
数据科学与大数据技术是一门偏向应用的学科领域,因此工具就成为重要的组成部分。
2185 0
|
机器学习/深度学习
入行数据科学,仅需6步
数据科学转型之旅,打有准备的仗,规划一定要做好!
2514 0
下一篇
DataWorks