《企业大数据系统构建实战:技术、架构、实施与应用》——第1章 企业大数据战略定位 1.1 宏观

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第1章,第1.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

企业大数据战略定位

企业大数据的战略定位,决定了企业大数据发展的可行性、持续性、稳定性和高效性,但如果要明确大数据战略定位,我们首先要了解什么是大数据,大数据平台技术与传统数据库的区别是什么?为什么要做大数据,大数据可以解决什么问题?

本章将从宏观和微观两个层面介绍企业大数据的战略定位,试图剖析如何将大数据摆在企业发展的正确位置上,以及如何统筹不同资源协同大数据的工作关系并最大化大数据价值。

1.1 宏观

大数据定义多种多样,其中较为典型的有:

研究机构Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

笔者认为:大数据是指无法用常规数据工具软件进行获取、存储、计算和管理的数据集合,是需要新IT技术才能使其具备更好的洞察发现力、流程优化能力,并提供智能决策力,以此来适应大量、高增长、多样化和有价值的信息资产。

大数据具有如下特征:

  • 容量(Volume):传统数据库容量一般以MB和GB为计量单位,而大数据是以GB、TB和PB为计量单位。
  • 种类(Variety):数据类型多种多样,包含结构化、半结构化和非结构化,例如文本、日志、图片、音频和视频等。
  • 速度(Velocity):指数据的响应速度,包括数据获取速度和数据输出速度都要优于传统数据库。
  • 真实性(Veracity):大数据存在噪声较多,需要经过筛选、填充和删除的过程,确保数据的真实性和有效性。
  • 复杂性(Complexity):数据量巨大,来源多渠道,包括自有数据、网络数据、合作伙伴数据,同时数据质量和类型又加深了大数据的复杂性。
  • 价值(Value):大数据蕴藏着既定的价值,价值程度取决于应用数据的对象,通过合理的商业目标即可挖掘出数据潜藏的金矿。

大数据平台技术与传统数据库的差异如表1-1所示。

image

大数据具有很多传统数据库不具备的优点,那么大数据可以解决哪些问题?

  • 连接数据孤岛:将企业各个孤立的信息孤岛进行连接,实现数据信息正向和反向的查询,由原来的单一信息查阅,变为全景式的鸟瞰企业数据内容。
  • 整合信息资源:通过虚拟化技术,整合IT信息资源,有效地展现软硬件和网络资源的使用和计算情况,更加合理地规划和使用IT资源。
  • 内部效率提升:通过信息孤岛的连接,缩短了往常数据提取、存储、整合和计算的时间,根据业务需求的难易程度,通过合理分配离线和实时计算,能够大幅度提高内部效率。
  • 供应链优化:数据连接不是局限于企业内部,而是延伸到企业的上下游,为合作伙伴提供数据共享平台,有利于提升供应链上下游的协同合作,进一步提升供应链效率和效果。
  • 企业业绩增长:大数据的模型算法包含有指导和无指导两种类型,有指导的算法能够帮助企业优化现有的业务流程,从中找到业务规律,更有效地帮助业绩增长,而无指导的算法结合全景式的数据,可以帮助企业找到业务增长或创新点,更好地帮助企业拓宽业务范畴。
  • 用户体验提升:用户包含内部和外部,内部指企业自有的管理人员以及员工,而外部则包含企业面对的客户,以及供应链上下游的合作伙伴,通过大数据全景式的数据集市,为企业用户提供更加完善和流畅的服务,有助于提升整体的体验。
  • 产业服务全景化:企业除了纵向地与上下游伙伴进行数据共享,还有另一种状态,即通过横向与其他伙伴进行数据连接,从而实现全产业的全景数据化。因为大数据最重要的理念是开放、共享和协作,只有连接更多有效有价值的数据才能使企业甚至整个产业屹立不倒。

了解了大数据能够解决的问题,那么企业的大数据战略应该是什么样子的,应该如何对企业大数据战略进行定位?我们需要考虑以下问题,如图1-1所示。

image

企业大数据战略定位可以自下而上或者自上而下地来进行确定,两种方式各有利弊,自下而上容易造成总体战略不明确,从而导致整体战略定位的失败,但自下而上的方式通常是更容易落地执行的办法;自上而下则相反,根据企业在市场中所处的地位、竞争对手情况、宏观经济环境、供应链状态和市场用户的实际需求,大数据的总体目标更能符合企业总体发展战略,但如果战略没能贯彻到底或者在没有获得认可的情况下,这个战略最后是很难落地执行的。因此通常是以自上而下为主,通过自下而上的办法来修正总体大数据战略定位的方式。不论企业最终以哪种方式来确定大数据的战略定位,以下内容都是必须在制定战略时考虑的:

(1)考虑企业有什么数据

数据分为三种类型,第一方数据(企业自有数据)、第二方数据(合作伙伴数据)和第三方数据(互联网数据),企业需要评估自身具备的数据条件(包括数据来源渠道可靠性、数据更新及时性、数据质量有效性、数据内容完整性等),来考虑或者设计规划总体大数据的战略定位,正所谓巧妇难为无米之炊,数据是大数据战略的根本,不清楚数据源的情况,就无法确定整体的大数据战略定位。

(2)通过哪些技术实现

大数据的处理技术多种多样,有硬件虚拟化技术、数据存储技术、数据检索技术、数据计算技术、数据挖掘技术和分布式协调技术等,同时每种技术中也包括各种不同功能的组件,企业应该根据自身的实际需求来选择,盲目贪多,容易导致架构不清晰,甚至影响整体的运行效率,拖累企业大数据战略进程。

(3)如何保证大数据顺利完成

有了数据源和实现技术,企业还需要考虑如何保证大数据战略定位的有效落地,因此,需要加入监督体系,主要是从应用需求的角度出发,明确应用需求的管理模式、管理职能和管理流程,监督体系还应该包含奖惩机制,有效的奖惩机制能够促进整体战略更加快速的推进。因此,通过相应的监督管理机制才能确保整体战略执行的有效性、持续性、稳定性和高效性,同时也可避免技术资源和人力资源的分散所导致的整体战略执行效率低下等问题。

(4)企业大数据的应用策略有哪些

企业大数据的应用策略是与各个职能部门相关的内容,应用策略需要从各职能部门中发起,同时又需要符合企业总体的大数据战略定位,应用策略的把控一般是通过PMO(项目管理办公室)来实现,而PMO需要对企业总体战略以及大数据战略定位非常清晰,这样才能有效地把控各个职能部门的应用策略能够在遵循总体方针的前提下,有效地执行下去,让大数据的应用战略真正地为企业带来效率和效益提升。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
143 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
1月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
122 2
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
184 4
|
1月前
|
存储 分布式计算 NoSQL
【赵渝强老师】大数据技术的理论基础
本文介绍了大数据平台的核心思想,包括Google的三篇重要论文:Google文件系统(GFS)、MapReduce分布式计算模型和BigTable大表。这些论文奠定了大数据生态圈的技术基础,进而发展出了Hadoop、Spark和Flink等生态系统。文章详细解释了GFS的架构、MapReduce的计算过程以及BigTable的思想和HBase的实现。
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
169 1
|
8天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
37 2
|
23天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
22天前
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
1月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
70 4
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用

热门文章

最新文章