《企业大数据系统构建实战:技术、架构、实施与应用》——第1章 企业大数据战略定位 1.1 宏观

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章计算机《企业大数据系统构建实战:技术、架构、实施与应用》一书中的第1章,第1.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

企业大数据战略定位

企业大数据的战略定位,决定了企业大数据发展的可行性、持续性、稳定性和高效性,但如果要明确大数据战略定位,我们首先要了解什么是大数据,大数据平台技术与传统数据库的区别是什么?为什么要做大数据,大数据可以解决什么问题?

本章将从宏观和微观两个层面介绍企业大数据的战略定位,试图剖析如何将大数据摆在企业发展的正确位置上,以及如何统筹不同资源协同大数据的工作关系并最大化大数据价值。

1.1 宏观

大数据定义多种多样,其中较为典型的有:

研究机构Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

笔者认为:大数据是指无法用常规数据工具软件进行获取、存储、计算和管理的数据集合,是需要新IT技术才能使其具备更好的洞察发现力、流程优化能力,并提供智能决策力,以此来适应大量、高增长、多样化和有价值的信息资产。

大数据具有如下特征:

  • 容量(Volume):传统数据库容量一般以MB和GB为计量单位,而大数据是以GB、TB和PB为计量单位。
  • 种类(Variety):数据类型多种多样,包含结构化、半结构化和非结构化,例如文本、日志、图片、音频和视频等。
  • 速度(Velocity):指数据的响应速度,包括数据获取速度和数据输出速度都要优于传统数据库。
  • 真实性(Veracity):大数据存在噪声较多,需要经过筛选、填充和删除的过程,确保数据的真实性和有效性。
  • 复杂性(Complexity):数据量巨大,来源多渠道,包括自有数据、网络数据、合作伙伴数据,同时数据质量和类型又加深了大数据的复杂性。
  • 价值(Value):大数据蕴藏着既定的价值,价值程度取决于应用数据的对象,通过合理的商业目标即可挖掘出数据潜藏的金矿。

大数据平台技术与传统数据库的差异如表1-1所示。

image

大数据具有很多传统数据库不具备的优点,那么大数据可以解决哪些问题?

  • 连接数据孤岛:将企业各个孤立的信息孤岛进行连接,实现数据信息正向和反向的查询,由原来的单一信息查阅,变为全景式的鸟瞰企业数据内容。
  • 整合信息资源:通过虚拟化技术,整合IT信息资源,有效地展现软硬件和网络资源的使用和计算情况,更加合理地规划和使用IT资源。
  • 内部效率提升:通过信息孤岛的连接,缩短了往常数据提取、存储、整合和计算的时间,根据业务需求的难易程度,通过合理分配离线和实时计算,能够大幅度提高内部效率。
  • 供应链优化:数据连接不是局限于企业内部,而是延伸到企业的上下游,为合作伙伴提供数据共享平台,有利于提升供应链上下游的协同合作,进一步提升供应链效率和效果。
  • 企业业绩增长:大数据的模型算法包含有指导和无指导两种类型,有指导的算法能够帮助企业优化现有的业务流程,从中找到业务规律,更有效地帮助业绩增长,而无指导的算法结合全景式的数据,可以帮助企业找到业务增长或创新点,更好地帮助企业拓宽业务范畴。
  • 用户体验提升:用户包含内部和外部,内部指企业自有的管理人员以及员工,而外部则包含企业面对的客户,以及供应链上下游的合作伙伴,通过大数据全景式的数据集市,为企业用户提供更加完善和流畅的服务,有助于提升整体的体验。
  • 产业服务全景化:企业除了纵向地与上下游伙伴进行数据共享,还有另一种状态,即通过横向与其他伙伴进行数据连接,从而实现全产业的全景数据化。因为大数据最重要的理念是开放、共享和协作,只有连接更多有效有价值的数据才能使企业甚至整个产业屹立不倒。

了解了大数据能够解决的问题,那么企业的大数据战略应该是什么样子的,应该如何对企业大数据战略进行定位?我们需要考虑以下问题,如图1-1所示。

image

企业大数据战略定位可以自下而上或者自上而下地来进行确定,两种方式各有利弊,自下而上容易造成总体战略不明确,从而导致整体战略定位的失败,但自下而上的方式通常是更容易落地执行的办法;自上而下则相反,根据企业在市场中所处的地位、竞争对手情况、宏观经济环境、供应链状态和市场用户的实际需求,大数据的总体目标更能符合企业总体发展战略,但如果战略没能贯彻到底或者在没有获得认可的情况下,这个战略最后是很难落地执行的。因此通常是以自上而下为主,通过自下而上的办法来修正总体大数据战略定位的方式。不论企业最终以哪种方式来确定大数据的战略定位,以下内容都是必须在制定战略时考虑的:

(1)考虑企业有什么数据

数据分为三种类型,第一方数据(企业自有数据)、第二方数据(合作伙伴数据)和第三方数据(互联网数据),企业需要评估自身具备的数据条件(包括数据来源渠道可靠性、数据更新及时性、数据质量有效性、数据内容完整性等),来考虑或者设计规划总体大数据的战略定位,正所谓巧妇难为无米之炊,数据是大数据战略的根本,不清楚数据源的情况,就无法确定整体的大数据战略定位。

(2)通过哪些技术实现

大数据的处理技术多种多样,有硬件虚拟化技术、数据存储技术、数据检索技术、数据计算技术、数据挖掘技术和分布式协调技术等,同时每种技术中也包括各种不同功能的组件,企业应该根据自身的实际需求来选择,盲目贪多,容易导致架构不清晰,甚至影响整体的运行效率,拖累企业大数据战略进程。

(3)如何保证大数据顺利完成

有了数据源和实现技术,企业还需要考虑如何保证大数据战略定位的有效落地,因此,需要加入监督体系,主要是从应用需求的角度出发,明确应用需求的管理模式、管理职能和管理流程,监督体系还应该包含奖惩机制,有效的奖惩机制能够促进整体战略更加快速的推进。因此,通过相应的监督管理机制才能确保整体战略执行的有效性、持续性、稳定性和高效性,同时也可避免技术资源和人力资源的分散所导致的整体战略执行效率低下等问题。

(4)企业大数据的应用策略有哪些

企业大数据的应用策略是与各个职能部门相关的内容,应用策略需要从各职能部门中发起,同时又需要符合企业总体的大数据战略定位,应用策略的把控一般是通过PMO(项目管理办公室)来实现,而PMO需要对企业总体战略以及大数据战略定位非常清晰,这样才能有效地把控各个职能部门的应用策略能够在遵循总体方针的前提下,有效地执行下去,让大数据的应用战略真正地为企业带来效率和效益提升。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
SQL 人工智能 分布式计算
ODPS十五周年实录|构建 AI 时代的大数据基础设施
本文根据 ODPS 十五周年·年度升级发布实录整理而成,演讲信息如下: 张治国:阿里云智能集团技术研究员、阿里云智能计算平台事业部 ODPS-MaxCompute 负责人 活动:【数据进化·AI 启航】ODPS 年度升级发布
170 9
|
4月前
|
机器学习/深度学习 人工智能 监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
322 0
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
|
4月前
|
监控 Java API
Spring Boot 3.2 结合 Spring Cloud 微服务架构实操指南 现代分布式应用系统构建实战教程
Spring Boot 3.2 + Spring Cloud 2023.0 微服务架构实践摘要 本文基于Spring Boot 3.2.5和Spring Cloud 2023.0.1最新稳定版本,演示现代微服务架构的构建过程。主要内容包括: 技术栈选择:采用Spring Cloud Netflix Eureka 4.1.0作为服务注册中心,Resilience4j 2.1.0替代Hystrix实现熔断机制,配合OpenFeign和Gateway等组件。 核心实操步骤: 搭建Eureka注册中心服务 构建商品
698 3
|
4月前
|
人工智能 数据可视化 算法
企业想做数智化,数据仓库架构你得先搞懂!
在数智化浪潮下,数据驱动已成为企业竞争力的核心。然而,许多企业在转型过程中忽视了数据仓库这一关键基础。本文深入解析数据仓库的重要性,厘清其与数据库的区别,详解ODS、DWD、DWS、ADS分层逻辑,并提供从0到1搭建数据仓库的五步实战方法,助力企业夯实数智化底座,实现数据治理与业务协同的真正落地。
企业想做数智化,数据仓库架构你得先搞懂!
|
3月前
|
SQL 存储 分布式计算
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们(如数分、算法、产品等)能够快速上手ODPS查询优化,实现高性能查数看数,避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。
1040 36
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
|
2月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
106 8
|
2月前
|
人工智能 JavaScript 前端开发
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
204 6
|
3月前
|
人工智能 Cloud Native 中间件
划重点|云栖大会「AI 原生应用架构论坛」看点梳理
本场论坛将系统性阐述 AI 原生应用架构的新范式、演进趋势与技术突破,并分享来自真实生产环境下的一线实践经验与思考。
|
3月前
|
机器学习/深度学习 人工智能 vr&ar
H4H:面向AR/VR应用的NPU-CIM异构系统混合卷积-Transformer架构搜索——论文阅读
H4H是一种面向AR/VR应用的混合卷积-Transformer架构,基于NPU-CIM异构系统,通过神经架构搜索实现高效模型设计。该架构结合卷积神经网络(CNN)的局部特征提取与视觉Transformer(ViT)的全局信息处理能力,提升模型性能与效率。通过两阶段增量训练策略,缓解混合模型训练中的梯度冲突问题,并利用异构计算资源优化推理延迟与能耗。实验表明,H4H在相同准确率下显著降低延迟和功耗,为AR/VR设备上的边缘AI推理提供了高效解决方案。
411 0
|
2月前
|
机器学习/深度学习 自然语言处理 算法
48_动态架构模型:NAS在LLM中的应用
大型语言模型(LLM)在自然语言处理领域的突破性进展,很大程度上归功于其庞大的参数量和复杂的网络架构。然而,随着模型规模的不断增长,计算资源消耗、推理延迟和部署成本等问题日益凸显。如何在保持模型性能的同时,优化模型架构以提高效率,成为2025年大模型研究的核心方向之一。神经架构搜索(Neural Architecture Search, NAS)作为一种自动化的网络设计方法,正在为这一挑战提供创新性解决方案。本文将深入探讨NAS技术如何应用于LLM的架构优化,特别是在层数与维度调整方面的最新进展,并通过代码实现展示简单的NAS实验。

热门文章

最新文章