实现数据科学研究结果可复制的十条规则

简介:

实现数据科学研究结果可复制的十条规则

近年来,有越来越多的迹象表明,科研结果的可复现性出现了危机。对心理学和癌症生物学论文的检查发现,分别只有40%和10%的结果是可复现的。

《自然》杂志在2016年对科研人员的调查结果显示:

  • 52%的科研人员认为存在严重的可复现性危机
  • 70%的科学家试图复现另一位科学家的试验,但以失败告终

2013年,一群科研人员在一篇论文中,讲述了可复现性计算研究的十条规则。如果遵循这些规则,应该会产生更具可复现性的结果。

所有的数据科学都是研究。仅仅因为研究结果没有发表在学术论文中,这不会改变我们试图从庞杂数据中获取洞见的事实。因此,对于任何从事内部分析的数据科学家来说,那篇论文中的十条规则都应该引起重视。

规则1:对于每个结果,都要记录它的产生过程

知道研究结果的产生过程很重要。知道你如何从原始数据中得出该结论,这可以让你:

  • 为结果辩护
  • 发现错误时修改结果
  • 在数据更新时复现结果
  • 提交结果以供评审

如果你使用一种编程语言(R、Python、Julia、F#等等)来编写你的分析脚本,那么过程应该是清晰明了的,前提是避免了任何的手动步骤。如果使用“鼠标点击”工具(比如Excel),这会使你更难记录步骤,因为你必须描述一系列手动操作,而手动操作很难记录和复现。

规则2:避免手动数据操作步骤

你可能很想在编辑器中打开数据文件,手动修改格式错误或者删除异常值。而且,现代的操作系统使你可以轻松地剪切和粘贴应用。然而,你应该抵挡住这种走捷径的诱惑。手动数据操作是无法显示踪迹的操作。

规则3:存档你使用的所有外部程序的准确版本

理想情况下,你应该创建一个包含所有脚本运行软件的虚拟机。这使你可以生成分析生态系统的快照,轻松实现结果的可复现性。

不过,这并不总是可行。例如,如果你使用云服务,或者你分析的数据集非常庞大,那么你很难圈定整个环境进行存档。另外,商业工具的使用可能使你难以和其他人分享这样的一个环境。

至少,你必须记录你使用的所有软件的版本,包括操作系统的版本。软件的任何细微变化都可能影响到结果。

规则4:记录所有自定义脚本的版本

应该使用版本控制系统(比如Git)来记录脚本的版本。你应该标记(快照)多个脚本,并在你产生的任何结果中索引那个标记。这样一来,如果你后来决定修改脚本(你肯定会这么做),你就可以及时找到产生特定结果的确切脚本。

规则5:尽量用标准格式记录所有的中间结果

如果你遵循了规则1,应该就有可能从原始数据中重现任何结果。不过,虽然这在理论上是可能的,但在实践中存在种种限制。问题可能包括:

缺乏从头开始运行结果的资源(比如使用了大量的集群计算资源)

使用了商业工具,但没有某些工具的授权

使用某些工具的技术能力不足

在这些情况下,从原始数据的派生数据集着手不失为明智之举。这些中间数据集(比如CSV格式数据)提供了更多的分析选择,并且在出错的时候,更容易识别有问题的结果,不必重头来过。

规则6:对于带有随机性的分析,要记录潜在的随机种子

数据科学家常常没有为他们的分析设置种子值,因此不可能准确复现机器学习研究。很多机器学习算法都包含随机成分,虽然强劲的结果可能在统计上是可复现的,但没什么能比得上与其他人产生的精确数据相一致。

如果你使用脚本和源代码控制,你可以在脚本中设置种子值。

规则7:始终保存原始数据

如果你使用脚本/编程语言,图表常常将自动生成。但如果你使用Excel这样的工具来绘制图表,请确保你保存了原始数据。这使图表可以复现,也能对图表背后的数据进行更细致的检查。

规则8:生成层次分析输出结果,使越来越细致的层次可以被检查

数据科学家的工作是以某种形式总结数据,从数据中获取洞见。

不过,总结也容易导致数据误用,所以应该让相关方可以把总结分解成各个数据点。对于每个总结性结果,要与使用的数据联系起来,以便对总结进行推算。

规则9:把文本陈述和潜在结果联系起来

归根结底,数据分析的结果是以文字的形式呈现,而文字是不精确的。有时,结论和分析之间的联系很难确定。由于论文常常是科研中最具影响力的部分,因此把论文和结果联系起来至关重要,由于规则1的缘故,与原始数据联系起来也很重要。

这可以通过在文本中添加脚注的方式来实现。脚注引用的文件或URL应该包含引出论文中观察发现的特定数据。如果你无法建立这种联系,说明你可能没有充分记录所有步骤。

规则10:公开脚本、过程和结果

在商业环境中,可能不适合公开所有的数据。不过,向组织内部的其他人公开数据是可以的。基于云的源代码控制系统,比如Bitbucket和GitHub,允许创建私密存储,任何获得授权的同事都能访问。

众人的审视可以改善分析质量,所以分享得越多,你的分析质量就可能越高。 


本文作者:车品觉

来源:51CTO

相关文章
|
机器学习/深度学习 存储 人工智能
人工智能项目的十条建议—概念篇
随着各行各业希望通过提高自动化来改善工作流程,以及产品和服务的交付,对采用更先进的人工智能能力和项目的需求不断增长。 当然,只有在合适的前提下,深度学习和机器学习可以带来巨大的价值回报。在任何情况下,无论是从业务角度还是技术角度,人工智能项目都必须经历一些问题。为了让以后AI项目少踩坑,根据以往经验,我总结了“十条建议”,分为两篇:概念篇,指导篇,下文是概念篇的内容。
263 0
人工智能项目的十条建议—概念篇
|
机器学习/深度学习 人工智能 达摩院
2442 个专业术语!人工智能术语库 AITD 更新至 3.1 版
2442 个专业术语!人工智能术语库 AITD 更新至 3.1 版
2147 0
|
存储 分布式计算 监控
OushuDB 小课堂丨描述性分析如何利用数据做出更好的决策
OushuDB 小课堂丨描述性分析如何利用数据做出更好的决策
121 0
R数据科学|第十一章内容介绍
因子在 R 中用于处理分类变量。从历史上看,因子远比字符串更容易处理。因此,R 基础包中的很多函数都自动将字符串转换为因子。
185 0
R数据科学|第十一章内容介绍
R数据科学|第十章内容介绍(二)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
322 0
R数据科学|第十章内容介绍(二)
|
SQL
R数据科学|第九章内容介绍
在实际应用中,我们常会涉及到多个数据表,必须综合使用它们才能找到关键信息。存在于多个表中的这种数据统称为关系数据。本章中的很多概念都和SQL中的相似,只是在dplyr中的表达形式略微不同。一般来说,dplyr 要比 SQL 更容易使用
158 0
R数据科学|第九章内容介绍
R数据科学|第十章内容介绍(一)
本章通过学习字符串的处理,再结合正则表达式进行正确的模式匹配。
136 0
|
机器学习/深度学习 算法
一份数据科学“必备”的数学基础清单
一份数据科学必备的数学知识清单,给出了相应的学习资源,方便秋招者查漏补缺。
4724 0
|
算法 数据挖掘
写好一份数据分析报告的13个要点
写一份好的数据分析报告很重要,因为分析报告的输出是整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,更很可能是产品决策的参考依据。本文将写好一篇分析报告的要点总结如下。
2176 0
|
NoSQL 索引 Python
数据科学的原理与技巧 三、处理表格数据
三、处理表格数据 原文:DS-100/textbook/notebooks/ch03 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 索引、切片和排序 起步 在本章的每一节中,我们将使用第一章中的婴儿名称数据集。
1214 0