假设你刚刚被一家小型软件公司聘为数据科学家。你感到欣喜若狂!你的辛勤工作和坚持不懈终于得到了回报。是时候将你的统计数据和机器学习知识付诸实践了。那么恭喜你终于加入了数据革命。
第1天到来,每个人都很高兴见到这位“数据科学家”。该公司以前从未聘请过数据科学家,因此有些期望值并不切实际。更可怕的是你的主管可能不是数据科学家,你可能向她在第一天为你提供帮助。“请给我一些数据!”你可能认为数据很容易获得检索,或者至少它会以干净整洁的格式存储。很明显,雇用你的公司有一个宏伟的计划,在实现这个计划之前不可能什么都准备完毕,这也是你的价值所在!
对于大多数初级数据科学家加入小型公司(甚至是世界科技巨头之外的组织)。作为曾经又过这样经历的人,我想概述一些实用的想法,以帮助初级数据科学家在一家小型软件公司开始。这些步骤来自我个人的旅程和我之前的其他旅程。
1.获取公司领域专业知识
当我第一次在Nulogy担任数据科学家时,我急于绕过繁琐的入职流程,因为我只想玩数据。我花了几个月的时间才意识到,如果没有正确理解我所运营的域名,就很难提出并证明新项目的合理性,以便为业务带来哪些好处。
作为数据科学家,你需要了解你目前所属行业的细节。你还可以就如何进行探索性数据分析,自我批判你的发现并调查异常情况。拥有强大的专业知识使你能够执行更好的特征选择和工程设计。实际上,构建模型来优化系统而不了解当前系统如何工作的潜在细微差别是失败的一个因素。
2.能力提升
仅仅理解你的公司为数据科学家提供职位描述并不意味着他们对该职位的内容有深刻的理解。我的意思是让我们面对现实:有时我们也不会。我曾经读过一位数据科学主管的文章,他在开始担任新角色后,花了30%或更多的时间在整个组织内建立对数据科学和机器学习的共同理解(这是原始故事)。对于数据科学家在机器学习领域开展工作而言,这是一个很好的开始。你可以选择使用R或Python教授课程,或者提供课程让你及周围的人围绕统计分析和机器学习建立直觉。这对于帮助同事识别机器学习和数据科学有很大等帮助同时这也帮助你周围的人了解你的具体操作,这样在工作协同等时候更得心应手。
3.数据理解
这可能是最重要的,也是最容易解释的。一位新的数据科学家应该是这样理解的:
· 如何产生数据;
· 如何收集,存储和处理它;
· 数据库的基础架构;
了解数据的产生和收集方式至关重要,因为它使你能够确定你是否可以按原样信任数据,或者是否需要进一步预处理才能使用或呈现数据。了解数据库的基础架构将加快查询过程,并帮助你最大限度地减少在提取数据时所犯的错误。确定需要收集哪些数据以实现公司的数据科学战略(你应该在整个中发挥重要作用)也很重要。
4.构建知识库(民主化数据)
数据科学家的角色不应局限于A / B测试、建立模型和发现相关性。相反,数据科学家应该在组织中创建数据驱动的文化中发挥关键作用。一个很好的起点是使你对所有员工所做工作的访问民主化。Airbnb有一篇很棒的文章,关于建立它所谓的“知识回购”。知识回购的目的是促进整个组织的知识共享,最简单的方法是使用Jupyter笔记本和R降价文件记录所有数据科学工作,并使组织中的任何人都可以轻松访问它们。你可以通过共享使用Shiny创建的简单应用程序将其提升到新的水平,使你的同事能够操纵输入并观察输出(数字或绘图)如何变化。
5.专注于小胜利
当作为小公司的第一位数据科学家时,很可能不会立马有机器学习策略。通过识别机器学习机会并立即建立复杂模型来尝试开始工作可能会令人沮丧。这是因为你仍然不熟悉业务领域,你还没有沉浸在公司的数据基础架构中,甚至可能没有数据管道设置!
该怎么办?专注于小胜利。
组织中的每个级别都存在数据疏忽问题。你可以解决重要领域的实体,通过数据驱动的决策支持销售和营销,帮助产品团队设置,跟踪和评估KPI,同时在公司的数据科学路线图中并行工作。
这里的关键是让立即证明自己的价值。
6.重复After Me:ROI
我们中的许多数据科学家都陷入了解决数学复杂问题和构建机器学习算法的诱惑力。也就是说,现实情况是,我们认为“有趣”问题的很大一部分不会带来任何回报给我们的雇主。这些问题充其量只能充当冷静的对话启动者。
对于数据科学家而言,关注能够为其组织带来投资回报(ROI)的问题极为重要。问问自己,在这个项目上话费了多少美元?一个好的建议是让利益相关者参与构思过程,例如产品经理,客户经理或更好的实际客户。
同样,知道何时停止也很重要。例如,投资回报率是否会将模型的准确度提高5%,证明所需的努力和资源是合理的,还是模型在当前状态下足够好?让ROI和道德规范成为数据科学决策的两个指导原则。
7.数据科学路线图
在数据科学中,重要的是要提前考虑。你下一季度的数据科学游戏是什么?到年底怎么样?明年呢?从我卑微的经历来看,这项任务很难单独完成;你需要产品管理和高级管理人员的帮助,以了解数据科学最适合的位置以及最大化ROI的位置。然而,构建和传播数据科学路线图对于传达数据科学在组织中的作用和重要性至关重要。
将所有这些结合在一起
我没有数据可以证明这一点,但数据科学家在工作中不能长时间存在的理论已有详细记载。潜在的主题往往是数据科学家没有受到足够的挑战,因此他们总是在寻找“更性感”的事情。尽管如此,大多数中小型软件公司的原始现实是,数据科学不是一个具有深思熟虑战略和预定目标的预定义角色。这是一个具有巨大未开发潜力的新发现领域,其中大部分需要在利润、数据分析、统计和机器学习以及有针对性的数据通信之间确定和建立正确的桥梁。总而言之,数据科学是一个过程,有一个开始,有时不那么明确的结束。
本文由阿里云云栖社区组织翻译。
文章原标题《seven-practical-ideas-beginner-data-scientists》
作者:Wafic El-Assi 译者:乌拉乌拉,审校:。
文章为简译,更为详细的内容,请查看原文。