不知道这7个典型数据项目步骤，都不好意思自称大数据人-阿里云开发者社区

不知道这7个典型数据项目步骤，都不好意思自称大数据人

2017-07-04 1304

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

数据科学是一门跨学科的科学，它可以从结构化或非结构化的各种形式的数据中提取知识和见解。随着数据科学工具自动化程度的提高，无论是在接地气的零售领域，还是在高大上的基因领域，数据科学都在被用来进行知识发现和预测分析。同时，随着传感器、物联网的发展，未来几年数据科学对社会的推动有望加速。

那么，数据科学的典型步骤是什么样的?企业如何最大化其数据资产价值呢?

1.了解目标问题

在进行数据科学的具体操作之前，首先要充分了解你想要解决的问题，征求相关领域专家的帮助，包括解释业务问题、提供数据集、确定项目目标等。很多数据科学项目失败的原因就是一开始就没有非常明确的目标，导致最终效果不理想。为了了解问题，你可能要与市场营销、财务、运营、IT甚至人力资源部门的同事进行交流，而且会收到各方不同的意见或建议，尽管有时候这会让人崩溃，但是对于数据项目的健康推进来说，这个过程还是不可或缺的。

开始数据项目的正确方法是找出业务最短板，然后顺着这个问题抽丝剥茧，分析数据解决问题。有时候业务问题与数据项目之间会有非常明确的对应关系，但是有时候业务问题和数据项目之间的联系并不那么明显，需要分多个步骤来将业务问题与数据项目逐一映射起来。数据项目的发起和最终驱动力，往往都是来自业务部门需求(例如财务、销售、运营等)，因此，多与这些部门的同事交流，会让之后的数据工作事半功倍。

2.找到合适数据

有些数据可能是来自内部业务，例如电商应用的数据，但是如今随着社交网络的发展，数据项目的数据已经不能局限于企业本身的数据，必须包含来自各种外部来源的数据，同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此，数据采集可能需要一定的创造力，在领域专家的帮助下更多地收集有用的数据。

3.数据清洗转换

在项目早期，数据清洗转换非常重要，以便将原始数据清理并转换为更适合机器学习的形式。鉴于一些企业数据的状态比较差，此步骤可能需要花费相当长的时间和精力，通常可占用高达75%的数据项目的时间和成本。在数据转换的过程中，记录所有数据转换日志很重要，因为转化过程会成为数据重新利用时的参考。

4.探索性数据分析

探索性数据分析是指使用统计方法和数据可视化来尝试发现数据中有趣的特征和趋势。有时，只需要基于原始数据(或原始数据的样本)的简单绘图就可以显示出非常重要的趋势或关系，这将有利于指导数据项目的方向。探索性数据分析可以在花费较少的时间和成本的情况下确定你的项目应该采用的特定机器学习算法和使用的最佳特征变量。这一步骤可能需要与业务专家探讨探索性数据分析过程中显示出来的特征，以免发生遗漏，错过重要的特征和线索。

5.选择合适算法

确定基本方向后就要选择适合于解决问题的机器学习算法，将数据分成训练数据、交叉验证数据和测试集。在这一阶段，需要对很多机器学习类型进行测试，是做定量预测、定性分类，还是只是使用聚类技术进行探索?在测试之后，你就能更容易地选出最适合用于特定应用的算法，如果之前有过此类研究，则在选择算法的时候会相对容易很多。

6.验证模型功效

没有一种算法能够在处理所有数据集时的各项指标都优于其他算法。在特定的数据集上，一种特定的算法可能最有效，而另一种算法可能在其他数据集上表现更好，选择最佳算法可能是实践中数据项目最具挑战性的部分之一。因此，模型的效率评估对于项目的成功与否至关重要。需要量化给定观测值的预测响应值在多大程度上接近该观测值的真实响应值。还需要确定模型在处理不同的数据集的误差。

7.讲述数据故事

数据项目的最终结果可以通过精心设计的可视化作品来获得最佳的展示效果。能够直观、准确传达信息的可视化作品创建起来难度很大，可能需要多次尝试才能成功。事实上，建立有效的可视化作品需要一定的创造力和艺术修养。好消息是网上有很多好的可视化的案例可以参考。

完成数据科学过程后，就可以将结果传达给管理层了。为了达到更好的效果，需要一个会讲“数据故事”的人，这个人可以根据数据以更生动的形式将数据作品要表达的意思传达出去。大多数管理人员没有数据分析或统计数据的背景，而数据科学家的工作就是将数据全部归结为业务人员可以理解的形式，因此，讲述数据的故事是数据科学的一个组成部分。

结论

在完成这些步骤之后，数据项目并没有结束，重要的是不断重复这个过程，get到查看不同特征变量的预测能力，评估不同的模型，评估预测精度的新能力。数据项目可能并非让人一直有成就感，因为数据科学家的真正目的是不断地证明自己或企业的一次又一次的错误。数据科学是定期寻找现有问题的新答案的过程，当你找到那个新答案时，它给你带来的成就感也是非常巨大的。

本文转自d1net（转载）

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

不知道这7个典型数据项目步骤，都不好意思自称大数据人

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

不知道这7个典型数据项目步骤，都不好意思自称大数据人

热门文章

最新文章

相关课程

相关电子书

相关实验场景