大数据项目成功的七大秘密

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据项目的成功有哪些法宝?又有哪些陷阱会导致大数据项目的失败?本文中的三位专家将对此进行详解。

如今,许多企业都理解了大数据的构成,但是要取得大数据项目的成功则是另一回事。Gartner公司的分析师,Doug Laney。 Forrester公司分析师Mike Gualtieri。International Institute for Analytics的高级研究学者,Robert Morison 都是大数据领域的专家,他们对于企业如何使用大数据有着独特的视角。 以下是他们认为可以帮助大数据项目成功的因素 ,以及那些可能会导致大数据项目失败的原因。

从小项目开始

CIO们以前也听到过这个建议,但从小项目开始到底意味着什么? “这意味着从一个你认为可以提高业务绩效的领域着手,从一个你认为分析更多数据可以获得更多信息的领域着手,” Institute的Morison说。

他举了一个制药企业的案例,这家企业想把它的产品收率提高1%到2%。使用传统的商业智能工具, 它可以分析一定数量的生产历史,从而发现生产流程中可以进行调整的部分。然后,企业想知道,如果分析更多的数据,是否可以帮助确定生产表现的真正推动力。随后,采用Hadoop相关的开源技术,该企业在一周内分析了过去三年的生产历史。

“很快,他们开始开发各种变量组合的热点地图——在这个案例中,压力,温度,搅拌和速率这些参数,都可以带来更高的产品收率,” Morison说。“因此,在几个月的时间内,他们从分析更多数据能带来什么成果,发展到在制造工厂开展实验,从而获得产量的提高。 ”

不断试验

是时候CIO们和业务主管从传统的消费,目标导向的IT项目管理风格中脱离出来了, Morison说。取而代之的,鼓励试验项目和创造性思维。在之前提到的制药企业案例中,“目标就是一边进行试验,一边进步和学习,”他说。“这一案例中真正有价值的是,一旦他们开始这样做,每一批新的产品,就成为了数据库的一部分。 他们拥有了一个持续的反馈回路。这个试验使业务表现越来越好。”

Gartner的Laney认为试验应该包括 “那些看似并不自然相关的数据源集成在一起。” 比如,零售商,分析监控录像数据“来了解商店内的客流量,”让他们有机会确定购物习惯和购物模式,他说。

采用Hadoop技术

大数据不是只有Hadoop技术,“但Hadoop是一个很大的催化剂”,因为它既廉价,又容易获取, Forrester的Gualtieri说。 许多获得大数据项目成功的企业,都或多或少以Hadoop技术为背景。“采用Hadoop。把它作为你的数据试验平台,因为你可以在相对成本更高效的情况下,整合所有数据, ”他说。

点亮“暗数据”

Laney把企业内存储后就再没有使用过的数据称为 “暗数据,”他鼓励CIO们考虑这些数据的价值。一些企业已经开始这样做了。比如,保险公司,使用文本挖掘工具分析以往的理赔报告,来更好地理解保险行业的欺诈行为或发展趋势,Laney说。

此外,让暗数据重见天日可能带来新的,有价值的收入来源。Dollar General公司通过和客户分享消费包装商品信息来支付他们的企业数据仓库费用, Laney说。软件即服务供应商Clothes Horse, 是一家新创立的,帮助在线购物者决定衣服是否合身的企业,它分析顾客数据来帮助零售商更好的了解顾客的偏好。更多新平台也不断出现,帮助分发,并销售各类供应商的数据,Laney说,包括: Microsoft;ProgrammableWeb,2013年被MuleSoft收购;Data Market,去年秋天被QlikTech收购;还有qDatum,一家总部位于德国的创业公司。

不要跟随R语言热潮

虽然开源编程语言R通常与数据科学相关联,CIO们不需要雇佣熟悉R语言的数据科学家来开始一个高级分析项目。现成的软件对于企业已经足够。Gualtieri认为,正如CIO们不会让Java开发人员对商业智能报告进行编程一样,这同样适用于高级分析项目。 Alpine Data Labs,Alteryx,SAS,RapidMiner和KNIME的工具足够成熟,来完成80%的预测分析工作,而不必从头开始创建一切,他说。

不要仅是报告数据

超越传统的分析方法,使用大数据进行分析的企业具有巨大优势。“这已经远不是饼图和柱状图了,”Gartner的Laney说。 “将数据集成到业务流程中,而不只是报告数据。”Gualtieri同时认为高级分析项目是一个优势。 “你能在继续传统报告的同时,使用大数据做出更好的报告吗?但是这并没有带来很多不同。 真正的竞争优势是当你使用那些数据,创建预测模型,”他说。遗憾的是,缺乏这样的数据科学家,Gualtieri说超越传统分析的想象力非常稀缺。

不要认为分析一定会被采纳

Morison认为分析项目失败的其中一个原因是 “相当不错的分析项目完成后,但没有被采用。”与业务部门密切合作,可以避免这类问题,他说,最近与几位首席分析师的谈话中,他得出这样的经验: “如果没有业务合作伙伴在过程中的支持,他们是不会开始项目的,即使这个项目很值得进行。”

原文发布时间为:2015年01月29日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
数据采集 大数据
大数据实战项目之电商数仓(二)
大数据实战项目之电商数仓(二)
153 0
|
7月前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
机器学习/深度学习 设计模式 人工智能
面向对象方法在AIGC和大数据集成项目中的应用
【8月更文第12天】随着人工智能生成内容(AIGC)和大数据技术的快速发展,企业面临着前所未有的挑战和机遇。AIGC技术能够自动产生高质量的内容,而大数据技术则能提供海量数据的支持,两者的结合为企业提供了强大的竞争优势。然而,要充分利用这些技术,就需要构建一个既能处理大规模数据又能高效集成机器学习模型的集成框架。面向对象编程(OOP)以其封装性、继承性和多态性等特点,在构建这样的复杂系统中扮演着至关重要的角色。
73 3
|
4月前
|
监控 Java 开发者
揭秘Struts 2性能监控:选对工具与方法,让你的应用跑得更快,赢在起跑线上!
【8月更文挑战第31天】在企业级应用开发中,性能监控对系统的稳定运行至关重要。针对流行的Java EE框架Struts 2,本文探讨了性能监控的工具与方法,包括商用的JProfiler、免费的VisualVM以及Struts 2自带的性能监控插件。通过示例代码展示了如何在实际项目中实施这些监控手段,帮助开发者发现和解决性能瓶颈,确保应用在高并发、高负载环境下稳定运行。选择合适的监控工具需综合考虑项目需求、成本、易用性和可扩展性等因素。
47 0
|
4月前
|
SQL 大数据 分布式数据库
SQL与大数据的神秘力量:如何用高效SQL处理海量数据,让你的项目一鸣惊人?
【8月更文挑战第31天】在现代软件开发中,处理海量数据是关键挑战之一。本文探讨了SQL与大数据结合的方法,包括数据类型优化、索引优化、分区优化及分布式数据库应用,并通过示例代码展示了如何实施这些策略。通过遵循最佳实践,如了解查询模式、使用性能工具及定期维护索引,开发者可以更高效地利用SQL处理大规模数据集。随着SQL技术的发展,其在软件开发中的作用将愈发重要。
119 0
|
5月前
|
弹性计算 分布式计算 大数据
MaxCompute产品使用合集之如何将用户A从项目空间A申请的表权限需要改为用户B
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何查询MaxCompute项目中的所有表及其字段信息
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之有什么命令可以看到当前账号拥有哪些项目的什么权限
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
存储 SQL 分布式计算
MaxCompute产品使用问题之如何查看项目空间耗用的存储大小
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
112 3