如何避免大数据分析项目的失败

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 如何避免大数据分析项目的失败

导语

大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。

遵循以下六个最佳做法来超越竞争对手,创造新的收入来源,更好地为客户服务。

 

大数据和分析项目可以是颠覆性的,它会使你具有洞察力来超越竞争对手,创造新的收入来源,更好地为客户服务。

 

大数据和分析项目也可能导致巨大的失败,导致浪费大量的资金和时间,更不用说会失去那些有才华的技术人才,他们对管理层犯得错误感到失望和厌烦。

image.png

如何避免大数据项目的失败呢?从基本业务管理的角度来看,有一些最佳做法值得推荐:一定要获得公司最高管理层的支持和认同,确保技术投入所需的资金充足,并配备所需的专业技术和/或提供良好的培训。如果你不首先解决这些基本问题,那么其他的事情都不重要。

 

假设你已经完成了这些基本的工作,那么在大数据分析项目中成功与失败的区别就在于你如何处理大数据分析的技术问题和挑战。你可以做以下几点来确保大数据分析项目的成功。


1谨慎选择你使用的大数据分析工具


许多技术上的失败都源于这样一个事实,即企业所购买和部署的产品,结果是完全不适合他们想要完成的工作。任何供应商都可以将“大数据”或“高级分析方法”一词放到产品描述中,以利用这些术语大肆炒作。

 

但产品在质量和效果以及侧重点上,都有很大的差别。因此,即使你选择了一种技术含量高的产品,它也可能并不擅长做你真正需要完成的工作。

 

几乎所有的大数据分析产品都具有一些基本的功能,比如数据转换和存储架构(比如Hadoop和Apache Spark)。但是在大数据分析产品中也有很多细分领域,所以你必须为你的技术战略实际所涉及到的领域来购买产品。这些领域包括过程挖掘、预测分析、实时解决方案、人工智能和商业智能控制面板等。

 

在决定购买任何大数据分析产品或存储平台之前,您需要清楚真正的业务需求和问题是什么,然后选择那些能有效解决这些具体问题的产品。

 

例如,由于编译海量数据集极具复杂性,您会选择认知大数据产品,这些产品会使用人工智能来分析非结构化数据。但是,您不会将认知大数据工具用于分析结构化和标准化数据,因为您可以从众多分析产品中选择一种产品进行部署,并且以更合理的价格实时获得高质量的洞察力,沃达丰电信公司大数据全局分析主管伊思雷尔·埃斯波西托(Israel Exposito)说。

 

埃斯波西托表示,在为你的生产环境选择一款产品之前,至少要使用两种产品来进行概念证明,这是很明智的。该产品还应该能够与您的相关企业平台进行交互。

 

每个大数据分析工具都需要在后端系统中开发一个数据模型。这是该项目中最重要的部分。 所以,您需要确保系统集成商和业务领域相关专家能携手合作,花些时间把工作第一次就做好。

 

务必记住,正确的数据应随时可以使用并翻译成业务语言,这样用户就可以充分理解这些输出结果,从而可以使用这些结果来推动商机或改进流程。


2确保工具易于使用


大数据和高级分析方法是很复杂的,但商业用户用来访问和理解这些数据的产品则并不需要很复杂。

 

为业务分析团队提供简单、有效的工具,用于数据发现、分析和可视化。

 

GoDaddy公司商业智能工具企业数据拓展专员莎伦·格雷夫斯(Sharon Graves)表示,对于域名注册商GoDaddy来说,寻找合适的工具组合是很困难的。它必须易于快速可视化,并且能够进行深入分析。GoDaddy公司能够找到这些产品,让商业用户可以利用这些产品轻松找到适当数据,然后自行生成可视化效果。这就让分析团队有时间来处理更多的分析工作。

 

最重要的是,不要向非技术性的商业用户提供程序员级别的工具。这样他们会变得沮丧,可能会使用他们以前的工具,而这并不能满足目前的工作(否则,你就不会实施大数据分析项目)。


3调整项目和数据,使其符合实际业务需求


寻找错误的数据分析工作可能失败的另一个原因是,因为这项工作最终变成用于寻找那些并不存在的问题的解决方案。这就是为什么你必须把你正在寻求解决的业务挑战/需求摆在正确的分析问题上,信息服务提供商益博睿(Experian)全球数据实验室的首席科学家Shanji Xiong说。

 

关键是要在项目早期就邀请具有很强分析背景的业务专家与数据科学家合作来定义问题。

 

这是益博睿公司自己的大数据分析项目的一个例子。在设计分析解决方案以打击身份欺诈过程中,所面临的挑战可能是评估个人身份信息(PII)(如姓名、地址和社会保险号码)是否合法。或者,面临的挑战可能是评估使用一组身份信息来申请贷款的客户是否是该身份信息的合法拥有者。或者这两种挑战可能同时存在。

 

Xiong说,第一个挑战是“合成身份”问题,这需要在消费者或个人身份信息级别开发出一个分析模型来评估合成身份的风险。第二个挑战是欺诈申请问题,评估欺诈风险的得分则需要在申请级别进行开发。益博睿公司必须理解这些是不同的问题,尽管它们可能最初被认为是同一问题的不同表述,然后建立了正确的模型和分析方法来解决这些问题。

 

当一组个人身份信息被提交给两家金融机构申请贷款时,通常要求对综合风险所返回的评分是相同的,但这通常不是欺诈申请评分的必要功能,Xiong说。

 

正确的算法必须应用于正确的数据,以获取商业智能并做出准确的预测。在建模过程中收集和包含相关数据集几乎始终是比微调机器学习算法更重要,所以数据工作应该被视为重中之重。


4建立一个数据湖,不要吝啬带宽


顾名思义,大数据涉及海量数据。在过去,很少有组织能够存储这么多数据,更不用说对数据进行组织和分析了。但是现在,高性能存储技术和大规模并行处理在云端和基于本地系统都得到广泛使用。

 

然而,存储本身是不够的。您需要一种方法来处理为大数据分析所提供的不同类型的数据。这正是Apache的Hadoop软件的功能,它可以对海量的和不同的数据集进行存储和映射。这种存储库通常被称为数据湖。一个实际的湖泊通常是由多个溪流汇集形成的,它包含许多植物、鱼类和其他动物,而数据湖通常由多个数据源提供数据,并包含许多类型的数据。

 

但数据湖不应该成为数据的垃圾场。亚利桑那州立大学(Arizona State University)计算机运算研究主任杰伊•埃切斯(Jay Etchings)表示,你需要考虑如何来汇总数据,并以一种有意义的方式来扩展属性。数据可以是完全不同的,但是如何使用像MapReduce和Apache Spark这样的工具对数据进行转换用于分析,这应该使用一个可靠的数据架构来完成。

 

建立一个数据湖,在这个数据湖中,数据的摄入、索引和标准化是大数据策略精心规划的组成部分。埃切斯说,如果没有清晰的理解和明确的蓝图,大多数数据为主导的项目注定要失败。

 

同样,拥有足够的带宽是至关重要的,否则,数据不会从不同的数据源移动到数据湖中,并且商业用户也不会很快获得效果。埃切斯说,要实现拥有海量数据资源,不仅需要每秒能够处理数百万I/O(IOPS)的快速磁盘,而且还需要对节点和处理引擎进行互联,可以随时访问数据。

 

从社交媒体发展趋势到流量路由,速度对于实时分析尤其重要。因此,要在最快的互连环境中创建你的数据湖。


5在大数据的方方面面进行安全性设计


计算基础架构组件的高度异质性大大加速了组织从数据中获取有用见解的能力。但也有一个缺点,即系统的管理和安全要复杂得多,埃切斯说。由于涉及海量数据以及大多数大数据分析系统的任务极为重要,未能在保护系统和数据方面采取足够的预防措施,那么这在很大程度上是自找麻烦。

 

公司所收集、存储、分析和共享的大部分数据都是客户信息,其中一些是个人的和可以识别的信息。如果这些数据落入不法分子之手,结果可想而知:公司会因诉讼而导致金钱损失、可能会受到监管部门的罚款、品牌和声誉受损,以及客户的不满。

 

您的安全措施应该包括部署基本的企业工具:实用的数据加密、身份和访问管理以及网络安全。但是,您的安全措施还应该包括有关正确访问和使用数据的培训和策略实施。 


6将数据管理和质量放在首位


确保良好的数据管理和质量应该成为所有大数据分析项目的标志,否则失败的可能性要大得多。

 

您需要实施控制措施,以确保数据是最新的、准确的并能够及时交付。作为大数据项目的一部分,GoDaddy公司实施了警报功能,如果数据更新失败或超时,则会通知管理人员。此外,GoDaddy公司还对关键指标实施了数据质量检查,当这些指标与期望值不一致时发送警报。

 

确保数据质量和治理的一个重要内容就是雇佣熟练的数据管理专业人员,包括数据管理主管或其他管理人员来监督这些领域。鉴于这些项目的战略重要性,企业拥有对数据管理、操作、治理和策略的数据所有权是极为必要的。

 

版权声明:本文为企业网D1Net编译,转载需注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。


相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
139 2
|
3月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
88 5
|
13天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
98 15
|
19天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
18天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
92 4
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
36 4
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
241 5
|
2月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
209 14
|
2月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
166 2