像数据科学家一样思考:12步指南(下)

简介: 数据科学家思维到底是什么样的?这篇文章告诉你!

第三-完成

一旦产品构建完成,你仍然需要做一些事情来使项目更加成功并使你的未来生活更轻松。那么我们如何完成数据科学项目呢?

10-交付

98321a50f569ba7238baa5536e01ecb75a794f97

完成阶段的第一步是产品交付。为了创建可以交付给客户的有效产品,首先必须了解客户的观点。其次,你需要选择最佳的方式将项目成果反馈给客户。最后,你必须选择要包含在产品中的信息和结果以及要放弃的内容。在产品创建和交付过程中做出好的选择可以大大提高项目的成功机会。

沟通媒介可以采取多种形式。在数据科学中,产品最重要的一个方面是客户是否积极参与产品并且能够使用产品来回答多种可能的问题。具体的沟通媒介有很多方式:

·       向客提交果可能是最简单的选项,其中包括文本、表格、表和其他信息,些信息可以解决你的目要回答的部分或全部问题

·       在一些数据科学目中,数据集的分析和果也可用目原始数据范之外的数据,其中可能包括原始数据生成的数据、其他不同来源的似数据、或由于某种原因尚未分析的其他数据。在这种情况下,如果你可以户创建可以行分析新数据集并生成果的分析工具对客户有所帮助。同时客可以有效地使用此分析工具,并继续在将来和各种(但似的)数据集中回答他的主要问题,这是最好的情况。

·       如果你想提供比分析工具更品,你可能需要构建某种型的完整的应用程。如果你正在考提供交互式用程序,那么你必须设计,构建和部署它。通常,些都不是一小任。如果你希望用程序具有多功能并且具有灵活性,那么设计它并构建它将得更加困

除了决定提供结果的媒介外,你还必须决定它将包含哪些结果。有些结果和内容可能是包含的明显选择,但对于其他信息位,可能不那么明显。通常,你希望包含尽可能多的有用信息和尽可能多的结果,但你希望避免客户可能误解或误用你选择包含的结果。在许多情况下,这可以是微妙的平衡,并且它在很大程度上取决于具体项目以及客户和其他人对结果的知识和经验。

11-进行修订

cf4e93b422bdb1acf9585eec0c216e894db2cce3

产品交付后,我们会在初步反馈后继续修改产品。一旦客户开始使用该产品,就有可能出现一系列全新的问题。尽管你付出了最大努力,但你可能没有预料到客户使用产品的方式的各个方面。即使产品完成了它应该做的事情,你的客户和用户也可能不会做这些事情并且有效地完成这些工作。

通常很难从客户、用户或其他任何人那里获得建设性的反馈。因此一些数据科学家提供完产品后就会忘记它们,一些数据科学家提供产品后会选择等待客户提供反馈。进行产品修订可能会非常棘手,找到合适的解决方案和实施策略取决于你遇到的问题类型以及你需要更改以解决问题的方法。如果在整个项目过程中,你始终保持对不确定性和许多可能结果的认识,那么你发现自己现在面临的结果与你之前预期的结果不同可能就不足为奇了。但是,如果你一直勤奋,问题很小,修复相对容易。

一旦你发现产品出现问题并弄清楚如何修复产品,仍然需要决定是否修复产品。一些人最初的倾向是每个问题都需要解决,这不一定是真的。如果有理由可以说服你不想进行修复问题,那就需要慎重考虑了,因为如果选择盲目地修复发现的每个问题,那一定会花费大量的时间和精力。

12-结束项

30671860a4ce788a93e2b25d920be4ab0744f852

数据科学过程的最后一步是将其包装起来。随着数据科学项目的结束,似乎所有的工作都已完成,剩下的就是修复任何剩余的错误,然后才能完全停止思考并继续下一个。但在完成项目调试之前,你可以采取一些措施来增加未来成功的机会,无论是扩展同一个项目还是完全不同的项目。

现在有两种方法可以增加你未来成功的机会。一种方法是确保在将来的任何时候你都可以轻松地再次获取该项目并重做、扩展或修改它。通过这样做,你将增加在后续项目中获得成功的机会,所以,你需要从现在开始开始挖掘项目材料和代码并记下你用什么做的或者你是怎么做到的。最实用的方法是通过文档存储

提高未来项目成功率的第二种方法是尽可能多地从这个项目中学习,并将这些知识带到每个未来的项目中。通过进行项目分解,你可以从中梳理出有用的知识,这包括审查旧目标、旧计划、技术选择、团队协作等。是否可以应用于未来项目,通过项目回溯在事后进行思考,可以帮助发现有用的知识,使你能够以不同的方式做事,并在下次更好。

不确定性充斥在我们每个人工作的方方面面,记住过去给你带来问题的所有不确定因素,可以防止类似的事情再次发生。从数据到分析再到项目目标,几乎任何事情都可能在短时间内发生变化。了解所有可能性不仅是一项艰巨的挑战,而且几乎是不可能的。良好的数据科学家和伟大的数据科学家之间的区别在于能够预见可能出现的问题并做好准备。

结论

数据科学仍然具有新领域的光环。它的大多数组成部分:统计学、软件开发、基于证据的问题解决等等,这些可能是属于旧领域的知识,但数据科学似乎是这些部分的新组合成新的东西。数据科学的核心并不关心特定的数据库实现或编程语言,即使这些对于从业者来说是必不可少的,其核心应该是数据内容,给定项目的目标以及用于实现这些目标的数据分析方法之间的相互作用。

本文由阿里云云栖社区组织翻译。

文章原标题《how-to-think-like-a-data-scientist-in-12-steps作者:James Le

译者:虎说八道 审校:袁虎

文章为简译,更为详细的内容,请查看原文

相关文章
|
机器学习/深度学习 人工智能 网络架构
Transformer原理解析——一种Open AI和DeepMind都在用的神经网络架构
Transformer模型是一种日益流行的神经网络结构。它最近被OpenAI用于他们的语言模型中。与此同时,近期也被DeepMind用于它们的程序“星际争霸”中击败了一名顶级职业星际玩家。 Transformer模型的开发是为了解决序列转换及神经机器翻译问题。
9031 0
|
9月前
|
人工智能 API 开发者
阿里CEO吴泳铭-2024互联网大会发言:AI的最大价值是推动生产力变革
11月21日,2024年世界互联网大会“互联网企业家论坛”在乌镇召开。阿里巴巴CEO吴泳铭表示,AI的最大价值在于推动各行各业的生产力变革,而非仅限于开发超级APP。他强调,发展AI需建设繁荣的技术、产品和市场生态。目前,30多万家企业已接入阿里“通义”大模型,应用于代码开发、药物研发等场景。阿里巴巴坚持开源路线,全球开发者基于“通义千问”开发的衍生模型已突破7.8万个。吴泳铭认为,AI的发展需要行业共同努力,建设繁荣生态以实现高质量持续发展。
|
12月前
|
机器学习/深度学习 计算机视觉
智慧教室—基于人脸表情识别的考试防作弊系统
智慧教室—基于人脸表情识别的考试防作弊系统
188 2
|
机器学习/深度学习 人工智能 数据挖掘
【AI 生成式】半监督学习和自监督学习的概念
【5月更文挑战第4天】【AI 生成式】半监督学习和自监督学习的概念
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
532 9
|
存储 安全 测试技术
《手把手教你》系列技巧篇(六十三)-java+ selenium自动化测试 - cookie -上篇(详细教程)
【6月更文挑战第4天】本文介绍了Cookie和Session的概念及其用途。Cookie是服务器发送到浏览器并存储在本地的小型文本文件,用于记录用户信息,如登录状态。它分为会话Cookie(关闭浏览器即消失)和永久Cookie(设置过期时间)。Session则是在服务器端保存用户状态的一种方式,比Cookie更安全,但会占用服务器资源。Selenium提供了操作Cookie的API,包括添加、删除和获取Cookie。文章还提到了Cookie的优缺点,如大小限制和潜在的安全风险。
282 1
《手把手教你》系列技巧篇(六十三)-java+ selenium自动化测试 - cookie -上篇(详细教程)
|
机器学习/深度学习 人工智能 算法
【深度学习之美】神经网络不胜语, M-P模型似可寻(入门系列之三)
“那些在个人设备里,谦谦卑卑地为我们哼着歌曲的数字仆人,总有一天会成为我们的霸主!”在“忍无可忍,无需再忍”这句俗语背后,也隐藏中神经网络常用的“激活函数”和“卷积”的概念。知其道,用其妙,THIS IS HOW!
33788 0
【深度学习之美】神经网络不胜语, M-P模型似可寻(入门系列之三)
|
编解码
qt中使用dll库的方法
qt中使用dll库的方法
238 2
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的银行贷款管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的银行贷款管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
429 0
|
机器学习/深度学习 运维 数据可视化