大数据项目遭遇失败的八个理由

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据目前已经成为万众瞩目的焦点,已经有众多企业在拼命把自己的数据投付使用、希望借此为重要决策提供支持。尽管大数据宣传与炒作可谓如火如荼,但仍有92%的企业始终保持中立态度,即计划在“合适的时间”着手实施或者表示不打算接触大数据项目。而在那些已经亲身实践大数据项目的企业中,多数遭遇失败、而且往往是掉进了同样的几个陷阱当中。

取得大数据项目成功的关键在于构建一套迭代型方案,鼓励现有员工参与并使用,从而在一系列无关紧要的失败中学习知识并积累经验。

从众心理

大数据绝对是项转折性的伟大技术成果。根据Gartner公司的调查,2013年中64%的受访企业表示已经购买或者正计划在大数据系统领域进行投资,这一比例高于2012年调查中的58%。越来越多的企业开始深入探索自己的数据,尝试利用蕴藏在其中的信息最大程度减少客户流失、分析财务风险并改善客户体验。

在这64%认同大数据思路的受访者中,又有30%已经在大数据技术方面投入资金、19%计划在未来一年中进行投资、另外15%则计划在未来两年内进行投资。不过在Gartner的全部720位调查对象中,只有不到8%已经实际部署了大数据技术方案。

这样的结果实在很糟糕,不过造成项目失败的理由明显更加糟糕:大多数企业根本不知道自己在迈入大数据领域后应该做些什么。难怪现在有那么多企业开出可观的薪酬数字来招徕并雇用数据科学家,目前其平均收入已经达到每年12万3千美元。

八种导致失败的理由

由于众多企业在探索自有数据的过程中完全是在胡打误撞,因此在意识到这一点后、他们决定向能带来更具可预测性方案的专业人士求援(包括认为数据科学家能够奇迹般地随手化解他们面临的现实难题,甚至还有不少更夸张的预期)。Gartnerwngr Svetlana Sicular为我们汇总出八种导致大数据项目失败的常见原因,它们分别是:

  1. 管理层阻力。尽管数据当中包含大量重要信息,但Fortune Knowledge公司发现有62%的企业领导者仍然倾向于相信自己的直觉,更有61%的受访者认为领导者的实际洞察力在决策过程中拥有高于数据分析结论的优先参考价值。
  2. 选择错误的使用方法。企业往往会犯下两种错误,要么构建起一套过分激进、自己根本无法驾驭的大数据项目,要么尝试利用传统数据技术处理大数据问题。无论是哪种情况,都很有可能导致项目陷入困境。
  3. 提出错误的问题。数据科学非常复杂,其中包含专业知识门类(需要深入了解银行、零售或者其它行业的实际业务状况);数学与统计学经验以及编程技能等等。很多企业所雇用的数据科学家只了解数学与编程方面的知识,却欠缺最重要的技能组成部分:对相关行业的了解。Sicular的观点很对,她表示大家最好能从企业内部出发寻找数据科学家,因为“学习Hadoop比学习相关行业的知识更简单”
  4. 缺乏必要的技能组合。这项理由与“提出错误的问题”紧密相关。很多大数据项目之所以陷入困境甚至最终失败,正是因为不具备必要的相关技能。通常负责此类项目的都是IT技术人员——而他们往往无法向数据提出足以指导决策的正确问题。在大数据技术之外遇到了其它意外状况。数据分析仅仅是大数据项目当中的组成部分之一,访问并处理数据的能力同样重要。除此之外,常常被忽略的因素还有网络传输能力限制与人员培训等等。
  5. 与企业战略存在冲突。要让大数据项目获得成功,大家必须摆脱将其作为单一“项目”的思路、真正把它当成企业使用数据的核心方式。问题在于,其它部门的价值或者战略目标有可能在优先级方面高于大数据,这种冲突往往会令我们有力无处使。
  6. 大数据孤岛。大数据供应商总爱谈论“数据湖”或者“数据中枢”,但事实上很多企业建立起来的只能算是“数据水坑儿”,各个水坑儿之间存在着明显的边界——例如市场营销数据水坑儿与制造数据水坑儿等等。需要强调的是,只有尽量缓和不同部门之间的隔阂并将各方的数据流汇总起来,大数据才能真正发挥自身价值。
  7. 回避问题。有时候我们可以肯定或者怀疑数据会迫使自身做出一些原本希望尽量避免的运营举措,例如制药行业之所以如此排斥情感分析机制、是因为他们不希望将不良副作用报告给美国食品药品管理局并承担随之而来的法律责任。

在这份理由清单中,大家可能已经发现了一个共同的主题:无论我们如何高度关注数据本身,都会有人为因素介入进来。即使我们努力希望获取对数据的全面控制权,大数据处理流程最终还是由人来打理的,其中包括众多初始决策——例如选择哪些数据进行收集与分析、向分析结论提出哪些问题等等。

通过迭代实现创新

由于很多企业似乎根本无力建立起自己的大数据项目,再加上大多数大数据项目往往最终遭遇失败,因此将迭代机制引入大数据是非常必要的。这不会迫使企业向咨询企业或者供应商支付大量费用,大家最好能构建起由内部员工参与的免费数据实验方案。

鉴于几乎所有主要大数据技术都属于开源成果,因此建立起一套“初始规模较小、能够快速发现问题”的方案其实完全可行。更重要的是,很多平台都能像云服务那样立即起效且成本低廉,从而进一步降低了进行项目实验与发现错误的资金投入。

大数据的关注重点在于提出正确的问题,这也是让企业内部员工参与项目如此重要的理由。但即使拥有卓越的相关行业知识,如果根本无法开始提出问题的流程、企业仍然无法收集到正确的数据。这类问题也应该被纳入预期并作好相应准备。

解决问题的关键在于使用灵活而开放的数据基础设施,保证其允许企业员工不断调整实际方案、直到他们的努力获得理想的回馈。通过这种方式,企业能够消除恐惧并最终以迭代为武器顺利迈向大数据有效使用的胜利彼岸。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 设计模式 人工智能
面向对象方法在AIGC和大数据集成项目中的应用
【8月更文第12天】随着人工智能生成内容(AIGC)和大数据技术的快速发展,企业面临着前所未有的挑战和机遇。AIGC技术能够自动产生高质量的内容,而大数据技术则能提供海量数据的支持,两者的结合为企业提供了强大的竞争优势。然而,要充分利用这些技术,就需要构建一个既能处理大规模数据又能高效集成机器学习模型的集成框架。面向对象编程(OOP)以其封装性、继承性和多态性等特点,在构建这样的复杂系统中扮演着至关重要的角色。
60 3
|
3月前
|
监控 Java 开发者
揭秘Struts 2性能监控:选对工具与方法,让你的应用跑得更快,赢在起跑线上!
【8月更文挑战第31天】在企业级应用开发中,性能监控对系统的稳定运行至关重要。针对流行的Java EE框架Struts 2,本文探讨了性能监控的工具与方法,包括商用的JProfiler、免费的VisualVM以及Struts 2自带的性能监控插件。通过示例代码展示了如何在实际项目中实施这些监控手段,帮助开发者发现和解决性能瓶颈,确保应用在高并发、高负载环境下稳定运行。选择合适的监控工具需综合考虑项目需求、成本、易用性和可扩展性等因素。
41 0
|
3月前
|
SQL 大数据 分布式数据库
SQL与大数据的神秘力量:如何用高效SQL处理海量数据,让你的项目一鸣惊人?
【8月更文挑战第31天】在现代软件开发中,处理海量数据是关键挑战之一。本文探讨了SQL与大数据结合的方法,包括数据类型优化、索引优化、分区优化及分布式数据库应用,并通过示例代码展示了如何实施这些策略。通过遵循最佳实践,如了解查询模式、使用性能工具及定期维护索引,开发者可以更高效地利用SQL处理大规模数据集。随着SQL技术的发展,其在软件开发中的作用将愈发重要。
70 0
|
4月前
|
弹性计算 分布式计算 大数据
MaxCompute产品使用合集之如何将用户A从项目空间A申请的表权限需要改为用户B
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何查询MaxCompute项目中的所有表及其字段信息
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之有什么命令可以看到当前账号拥有哪些项目的什么权限
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
存储 SQL 分布式计算
MaxCompute产品使用问题之如何查看项目空间耗用的存储大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之两个odps数据源绑定了同一个项目, 如何看另外一个数据源的同步数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
33 0
|
5月前
|
存储 分布式计算 大数据
MaxCompute产品使用问题之购买包年包月资源可以让同一个地域下的两个项目共用吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。