《智能数据时代:企业大数据战略与实战》一3.4 避免最差实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第3章,第3.4节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.4 避免最差实践

有很多潜在原因导致大数据分析项目不能达成原定的目标和期望。在某些情况下,学会“应该怎么做”还不如学会“不应该做什么”。这使我们能够形成识别“最糟糕做法”的观念,这样你就可以避免犯下与别人过去相同的错误。与自己犯错相比,从别人的错误中学习要更为可取。需要关注的某些最糟糕的做法如下:
认为“只要建成系统就行,问题会自然解决”。很多组织都会犯的错误是简单地认为只要部署了数据仓库或BI系统就自然能够解决关键业务问题并创造价值。然而,很多IT、BI和分析项目经理都在技术炒作中迷失并忘记了商业价值才是他们的首要任务,数据分析技术只是创造价值的一种工具。与盲目地运营和部署不同,大数据分析的支持者首先应该做的是确定该项技术要达成哪些商业目的,并依此来建立商业案例,只有这时他们才能根据手头的任务来选择和利用正确的分析工具。如不能充分理解自己的业务需求,项目团队最终很可能只是创建了一个对组织而言没有价值的大数据存储库,整个团队也会陷入“受冷遇”的尴尬境地。
认为软件可以解决所有问题。构建分析系统,尤其是涉及大数据的分析系统是一项复杂且耗费资源的工程。因此,许多组织希望其部署的软件能成为无所不能的魔豆,并瞬间解决所有问题。人们都知道这种想法并不现实,但在内心中却又总在期待这种情况发生。软件的确能产生助益,有时甚至能引起翻天覆地的变化。但大数据分析作为一种工具,它的作用大小要取决于正在分析的数据以及工具使用者的分析技能。
不能理解为什么要改变思路。重复采用同一方法并期望不同结果被认为是发疯的表现,在数据分析的世界中的确存在着某种形式的疯狂。人们往往会忘记,仅仅重复曾经有效的方法而不考虑情况是否已经发生改变的话,最终迎接他们的会是失败。在大数据方面,某些组织总是认为其中的“大”只是代表了更大的覆盖面和数据量,这种想法并不全错,但是很多大数据分析举措会涉及非结构化和半结构化信息,在管理和分析模式方面这些数据与企业应用和数据仓库中的结构化数据有着根本性的不同。由于以上原因,我们在面对大数据,至少是某一部分大数据时可能需要采用新的方法和工具来完成数据的获取、清洗、存储、汇总和访问。
忘记过去所有经验。有时企业又会走向另一个极端,即认为大数据的一切都是全新的,他们必须从头做起。对大数据分析项目而言,这种误解对项目成功的破坏力甚至要高于不能改变思路的错误。仅仅是待分析的数据在结构上有区别,并不意味着我们需要改写数据管理的基本规律。
不具备必要的业务和专业分析技能。技术万能论会带来的错误推论是认为自己只需要安排IT人员实施大数据分析软件即可。首先,正如前文对创造业务价值的讨论,除非能在系统设计和实际运行两个阶段整合并覆盖广泛的业务和行业知识,否则相应的大数据分析程序并不能真正实现目的。其次,很多组织都低估了所需分析技能的程度。如果大数据分析仅仅涉及报告构建和仪表板,那么相关企业只需利用其现有的BI专业知识即可。然而,大数据分析往往会用到数据挖掘和预测分析等更高级的过程,这就需要相关专业分析人员具备统计、精算和其他高级技能,对于首次进入高级分析领域的组织而言,上述情况意味着它们需要雇用新的职员。
以进行科学实验的态度实施项目。很多时候,公司认为只要能收集数据并对其加以分析就代表自己的大数据分析程序已经获得了成功。实际上,数据的收集和分析仅仅只是开始。要想通过分析产生业务价值就必须将分析数据纳入业务流程,并使业务经理和用户能够根据调查结果采取行动,并由此提高组织的绩效和业绩。要真正达成目标,相应分析程序还需要包含沟通功能,这样相关人士在依据分析结果取得行动成功后,能提供反馈,此后就可以基于业务成绩对分析模型进行深度改良。
承诺完成不切实际的目标。许多大数据分析项目都会陷入的一种重大误区是:支持者过度地夸大了系统的部署速度及其可能带来的业务收益。承诺过度而实现不足会影响相关企业对技术的信心,这往往会导致这些组织在很长时间内都不再愿意利用所涉及的技术,即使许多其他企业已经利用同等技术取得成功也不例外。除此以外,一旦已经认定自己可以轻易并快速地赢得收获,企业高管往往会低估了所需要的努力和专注度。在投入的资源不满足需求时,相关企业会发现收获并非如预期那般简单和快速,并由此认定项目已经失败。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
1天前
|
存储 SQL 运维
中国联通网络资源湖仓一体应用实践
本文分享了中国联通技术专家李晓昱在Flink Forward Asia 2024上的演讲,介绍如何借助Flink+Paimon湖仓一体架构解决传统数仓处理百亿级数据的瓶颈。内容涵盖网络资源中心概况、现有挑战、新架构设计及实施效果。新方案实现了数据一致性100%,同步延迟从3小时降至3分钟,存储成本降低50%,为通信行业提供了高效的数据管理范例。未来将深化流式数仓与智能运维融合,推动数字化升级。
中国联通网络资源湖仓一体应用实践
|
9天前
|
数据采集 机器学习/深度学习 人工智能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
数据驱动智能,智能优化数据——大数据与人工智能的双向赋能
56 4
|
1月前
|
存储 安全 数据挖掘
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
天翼云基于 Apache Doris 成功落地项目已超 20 个,整体集群规模超 50 套,部署节点超 3000 个,存储容量超 15PB
天翼云:Apache Doris + Iceberg 超大规模湖仓一体实践
|
1天前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
19 4
|
1月前
|
SQL 存储 消息中间件
vivo基于Paimon的湖仓一体落地实践
本文整理自vivo互联网大数据专家徐昱在Flink Forward Asia 2024的分享,基于实际案例探讨了构建现代化数据湖仓的关键决策和技术实践。内容涵盖组件选型、架构设计、离线加速、流批链路统一、消息组件替代、样本拼接、查询提速、元数据监控、数据迁移及未来展望等方面。通过这些探索,展示了如何优化性能、降低成本并提升数据处理效率,为相关领域提供了宝贵的经验和参考。
528 3
vivo基于Paimon的湖仓一体落地实践
|
1月前
|
SQL 分布式计算 运维
StarRocks 在爱奇艺大数据场景的实践
本文介绍了爱奇艺大数据OLAP服务负责人林豪在StarRocks年度峰会上的分享,重点讲述了爱奇艺OLAP引擎的演进及引入StarRocks后的显著效果。在广告业务中,StarRocks替换Impala+Kudu后,接口性能提升400%,P90查询延迟缩短4.6倍;在“魔镜”数据分析平台中,StarRocks替代Spark达67%,P50查询速度提升33倍,P90提升15倍,节省4.6个人天。未来,爱奇艺计划进一步优化存算一体和存算分离架构,提升整体数据处理效率。
StarRocks 在爱奇艺大数据场景的实践
|
1月前
|
传感器 机器学习/深度学习 人工智能
数据让农业更聪明——用大数据激活田间地头
数据让农业更聪明——用大数据激活田间地头
56 2
|
2月前
|
人工智能 算法 大数据
数据的“潘多拉魔盒”:大数据伦理的深度思考
数据的“潘多拉魔盒”:大数据伦理的深度思考
173 25
|
2月前
|
SQL 存储 HIVE
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目
本文整理自鹰角网络大数据开发工程师朱正军在Flink Forward Asia 2024上的分享,主要涵盖四个方面:鹰角数据平台架构、数据湖选型、湖仓一体建设及未来展望。文章详细介绍了鹰角如何构建基于Paimon的数据湖,解决了Hudi入湖的痛点,并通过Trino引擎和Ranger权限管理实现高效的数据查询与管控。此外,还探讨了湖仓一体平台的落地效果及未来技术发展方向,包括Trino与Paimon的集成增强、StarRocks的应用以及Paimon全面替换Hive的计划。
296 1
鹰角基于 Flink + Paimon + Trino 构建湖仓一体化平台实践项目

热门文章

最新文章

下一篇
oss创建bucket