不知道这7个典型数据项目步骤,都不好意思自称大数据人

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

数据科学是一门跨学科的科学,它可以从结构化或非结构化的各种形式的数据中提取知识和见解。随着数据科学工具自动化程度的提高,无论是在接地气的零售领域,还是在高大上的基因领域,数据科学都在被用来进行知识发现和预测分析。同时,随着传感器、物联网的发展,未来几年数据科学对社会的推动有望加速。

那么,数据科学的典型步骤是什么样的?企业如何最大化其数据资产价值呢?

1.了解目标问题

在进行数据科学的具体操作之前,首先要充分了解你想要解决的问题,征求相关领域专家的帮助,包括解释业务问题、提供数据集、确定项目目标等。很多数据科学项目失败的原因就是一开始就没有非常明确的目标,导致最终效果不理想。为了了解问题,你可能要与市场营销、财务、运营、IT甚至人力资源部门的同事进行交流,而且会收到各方不同的意见或建议,尽管有时候这会让人崩溃,但是对于数据项目的健康推进来说,这个过程还是不可或缺的。

开始数据项目的正确方法是找出业务最短板,然后顺着这个问题抽丝剥茧,分析数据解决问题。有时候业务问题与数据项目之间会有非常明确的对应关系,但是有时候业务问题和数据项目之间的联系并不那么明显,需要分多个步骤来将业务问题与数据项目逐一映射起来。数据项目的发起和最终驱动力,往往都是来自业务部门需求(例如财务、销售、运营等),因此,多与这些部门的同事交流,会让之后的数据工作事半功倍。

2.找到合适数据

有些数据可能是来自内部业务,例如电商应用的数据,但是如今随着社交网络的发展,数据项目的数据已经不能局限于企业本身的数据,必须包含来自各种外部来源的数据,同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此,数据采集可能需要一定的创造力,在领域专家的帮助下更多地收集有用的数据。

3.数据清洗转换

在项目早期,数据清洗转换非常重要,以便将原始数据清理并转换为更适合机器学习的形式。鉴于一些企业数据的状态比较差,此步骤可能需要花费相当长的时间和精力,通常可占用高达75%的数据项目的时间和成本。在数据转换的过程中,记录所有数据转换日志很重要,因为转化过程会成为数据重新利用时的参考。

4.探索性数据分析

探索性数据分析是指使用统计方法和数据可视化来尝试发现数据中有趣的特征和趋势。有时,只需要基于原始数据(或原始数据的样本)的简单绘图就可以显示出非常重要的趋势或关系,这将有利于指导数据项目的方向。探索性数据分析可以在花费较少的时间和成本的情况下确定你的项目应该采用的特定机器学习算法和使用的最佳特征变量。这一步骤可能需要与业务专家探讨探索性数据分析过程中显示出来的特征,以免发生遗漏,错过重要的特征和线索。

5.选择合适算法

确定基本方向后就要选择适合于解决问题的机器学习算法,将数据分成训练数据、交叉验证数据和测试集。在这一阶段,需要对很多机器学习类型进行测试,是做定量预测、定性分类,还是只是使用聚类技术进行探索?在测试之后,你就能更容易地选出最适合用于特定应用的算法,如果之前有过此类研究,则在选择算法的时候会相对容易很多。

6.验证模型功效

没有一种算法能够在处理所有数据集时的各项指标都优于其他算法。在特定的数据集上,一种特定的算法可能最有效,而另一种算法可能在其他数据集上表现更好,选择最佳算法可能是实践中数据项目最具挑战性的部分之一。因此,模型的效率评估对于项目的成功与否至关重要。需要量化给定观测值的预测响应值在多大程度上接近该观测值的真实响应值。还需要确定模型在处理不同的数据集的误差。

7.讲述数据故事

数据项目的最终结果可以通过精心设计的可视化作品来获得最佳的展示效果。能够直观、准确传达信息的可视化作品创建起来难度很大,可能需要多次尝试才能成功。事实上,建立有效的可视化作品需要一定的创造力和艺术修养。好消息是网上有很多好的可视化的案例可以参考。

完成数据科学过程后,就可以将结果传达给管理层了。为了达到更好的效果,需要一个会讲“数据故事”的人,这个人可以根据数据以更生动的形式将数据作品要表达的意思传达出去。大多数管理人员没有数据分析或统计数据的背景,而数据科学家的工作就是将数据全部归结为业务人员可以理解的形式,因此,讲述数据的故事是数据科学的一个组成部分。

结论

在完成这些步骤之后,数据项目并没有结束,重要的是不断重复这个过程,get到查看不同特征变量的预测能力,评估不同的模型,评估预测精度的新能力。数据项目可能并非让人一直有成就感,因为数据科学家的真正目的是不断地证明自己或企业的一次又一次的错误。数据科学是定期寻找现有问题的新答案的过程,当你找到那个新答案时,它给你带来的成就感也是非常巨大的。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
81 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
82 1
|
2月前
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
数据平台问题之在数据影响决策的过程中,如何实现“决策/行动”阶段
|
2月前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
2月前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
43 1
|
2月前
|
机器学习/深度学习 设计模式 人工智能
面向对象方法在AIGC和大数据集成项目中的应用
【8月更文第12天】随着人工智能生成内容(AIGC)和大数据技术的快速发展,企业面临着前所未有的挑战和机遇。AIGC技术能够自动产生高质量的内容,而大数据技术则能提供海量数据的支持,两者的结合为企业提供了强大的竞争优势。然而,要充分利用这些技术,就需要构建一个既能处理大规模数据又能高效集成机器学习模型的集成框架。面向对象编程(OOP)以其封装性、继承性和多态性等特点,在构建这样的复杂系统中扮演着至关重要的角色。
53 3
|
2月前
|
分布式计算 安全 大数据
MaxCompute 的安全性和数据隐私保护
【8月更文第31天】在当今数字化转型的时代背景下,企业越来越依赖于大数据分析来推动业务增长。与此同时,数据安全和隐私保护成为了不容忽视的关键问题。作为阿里巴巴集团推出的大数据处理平台,MaxCompute(原名 ODPS)致力于为企业提供高效、安全的数据处理解决方案。本文将探讨 MaxCompute 在数据安全方面的实践,包括数据加密、访问控制及合规性考虑等方面。
69 0
|
2月前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
68 0
|
2月前
|
消息中间件 大数据 Kafka
大数据 - DWD&DIM 业务数据
大数据 - DWD&DIM 业务数据
35 0

热门文章

最新文章

下一篇
无影云桌面