数据科学是一门跨学科的科学,它可以从结构化或非结构化的各种形式的数据中提取知识和见解。随着数据科学工具自动化程度的提高,无论是在接地气的零售领域,还是在高大上的基因领域,数据科学都在被用来进行知识发现和预测分析。同时,随着传感器、物联网的发展,未来几年数据科学对社会的推动有望加速。
那么,数据科学的典型步骤是什么样的?企业如何最大化其数据资产价值呢?
1.了解目标问题
在进行数据科学的具体操作之前,首先要充分了解你想要解决的问题,征求相关领域专家的帮助,包括解释业务问题、提供数据集、确定项目目标等。很多数据科学项目失败的原因就是一开始就没有非常明确的目标,导致最终效果不理想。为了了解问题,你可能要与市场营销、财务、运营、IT甚至人力资源部门的同事进行交流,而且会收到各方不同的意见或建议,尽管有时候这会让人崩溃,但是对于数据项目的健康推进来说,这个过程还是不可或缺的。
开始数据项目的正确方法是找出业务最短板,然后顺着这个问题抽丝剥茧,分析数据解决问题。有时候业务问题与数据项目之间会有非常明确的对应关系,但是有时候业务问题和数据项目之间的联系并不那么明显,需要分多个步骤来将业务问题与数据项目逐一映射起来。数据项目的发起和最终驱动力,往往都是来自业务部门需求(例如财务、销售、运营等),因此,多与这些部门的同事交流,会让之后的数据工作事半功倍。
2.找到合适数据
有些数据可能是来自内部业务,例如电商应用的数据,但是如今随着社交网络的发展,数据项目的数据已经不能局限于企业本身的数据,必须包含来自各种外部来源的数据,同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此,数据采集可能需要一定的创造力,在领域专家的帮助下更多地收集有用的数据。
3.数据清洗转换
在项目早期,数据清洗转换非常重要,以便将原始数据清理并转换为更适合机器学习的形式。鉴于一些企业数据的状态比较差,此步骤可能需要花费相当长的时间和精力,通常可占用高达75%的数据项目的时间和成本。在数据转换的过程中,记录所有数据转换日志很重要,因为转化过程会成为数据重新利用时的参考。
4.探索性数据分析
探索性数据分析是指使用统计方法和数据可视化来尝试发现数据中有趣的特征和趋势。有时,只需要基于原始数据(或原始数据的样本)的简单绘图就可以显示出非常重要的趋势或关系,这将有利于指导数据项目的方向。探索性数据分析可以在花费较少的时间和成本的情况下确定你的项目应该采用的特定机器学习算法和使用的最佳特征变量。这一步骤可能需要与业务专家探讨探索性数据分析过程中显示出来的特征,以免发生遗漏,错过重要的特征和线索。
5.选择合适算法
确定基本方向后就要选择适合于解决问题的机器学习算法,将数据分成训练数据、交叉验证数据和测试集。在这一阶段,需要对很多机器学习类型进行测试,是做定量预测、定性分类,还是只是使用聚类技术进行探索?在测试之后,你就能更容易地选出最适合用于特定应用的算法,如果之前有过此类研究,则在选择算法的时候会相对容易很多。
6.验证模型功效
没有一种算法能够在处理所有数据集时的各项指标都优于其他算法。在特定的数据集上,一种特定的算法可能最有效,而另一种算法可能在其他数据集上表现更好,选择最佳算法可能是实践中数据项目最具挑战性的部分之一。因此,模型的效率评估对于项目的成功与否至关重要。需要量化给定观测值的预测响应值在多大程度上接近该观测值的真实响应值。还需要确定模型在处理不同的数据集的误差。
7.讲述数据故事
数据项目的最终结果可以通过精心设计的可视化作品来获得最佳的展示效果。能够直观、准确传达信息的可视化作品创建起来难度很大,可能需要多次尝试才能成功。事实上,建立有效的可视化作品需要一定的创造力和艺术修养。好消息是网上有很多好的可视化的案例可以参考。
完成数据科学过程后,就可以将结果传达给管理层了。为了达到更好的效果,需要一个会讲“数据故事”的人,这个人可以根据数据以更生动的形式将数据作品要表达的意思传达出去。大多数管理人员没有数据分析或统计数据的背景,而数据科学家的工作就是将数据全部归结为业务人员可以理解的形式,因此,讲述数据的故事是数据科学的一个组成部分。
结论
在完成这些步骤之后,数据项目并没有结束,重要的是不断重复这个过程,get到查看不同特征变量的预测能力,评估不同的模型,评估预测精度的新能力。数据项目可能并非让人一直有成就感,因为数据科学家的真正目的是不断地证明自己或企业的一次又一次的错误。数据科学是定期寻找现有问题的新答案的过程,当你找到那个新答案时,它给你带来的成就感也是非常巨大的。
本文转自d1net(转载)