《智能数据时代:企业大数据战略与实战》一2.3 自我评估、完善度、信息架构

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章出版社《智能数据时代:企业大数据战略与实战》一书中的第2章,第2.3节,作者 TalkingData ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.3 自我评估、完善度、信息架构

一个早期的对当前信息架构完善程度的自我评估,能使一个组织深刻认识到扩展自我当前结构的能力。如果一个组织还停留在基础数据仓库的落实阶段,那就最好不要期望通过实施大数据的项目来解决所有问题了。事实上,这样的项目可能会妨碍业务线希望尽快解决更高优先级的问题。
在出版物中我们发现了各种各样的关于信息架构的完善度评定量表。一般的组织通常走这样的路线:数据和信息仓库,数据和信息的标准化,高端业务优化,信息服务。图2-2展示了这种路径。

image

下面是每个阶段过程的详细阐述。
数据和信息仓库:数据在很多数据集市和工具中重复出现,主要在业务范围内进行管理,而且经常会产生哪个数据集才是真的数据集的争论。所以,所有来自数据的结论都会受到质疑。
数据和信息的标准化:集中管理的独立数据集和企业数据库由于注重数据的质量、一致性和安全性,通常被用到报告和即席查询上。IT和商业会在数据集拓展和新市场推广上进行合作。
高端业务优化:引入流数据来增强传统数据源。预测分析用于更好地理解和预测决策结果上。
信息服务:内部开发的可信赖的数据存储和分析工具,在公司和企业以外也极具价值。客户可以通过对生意伙伴提供支持,从业务运营中收益。用户乐于为享受服务而付费。
这些阶段并不总是按照一个连贯的顺序,一些组织可能同时经历好几个阶段。例如,一些组织经常在数据的存储和标准化这两个阶段之间周旋,尤其是IT行业的发展速度不足以满足来自行业不断改变的分析需求。当这种周旋发生的时候,预测分析和流动数据的增加有时会得以开发和实施。
当然,那些成功通过前三个阶段的组织会创造出难以置信的商业价值。在这一点上,一些人考虑建立“订阅”,这样就可以和他们行业的数据整合者展开竞争,因为他们开始作为服务商而提供信息了。
当你对组织的完善程度进行评估的时候,很重要的一点就是要认识到,当你作为一个服务商从存储发展到信息服务时,IT必须产生的角色和技巧变得越来越高端。开展新项目时,你应该考虑:为组织所采用的是不是一个有重要区别的技能,以及在获取这些技能时所需要的投资,是应该花在这个地方,还是应该花在其他同样赚钱却要求比较少的项目上。
在传统数据环境中,数据被存储于“仓库”里,这限制了人们获取数据的途径。与其不同的是,大数据环境建立在分布式存储的系统之中。
接下来通过运用来自各个产业的具体案例,分析了大数据对于不同产业的影响,强调了数据仓库与大数据系统这两种应用方式的不同。
了解目前的产业趋势以及最佳竞争者是如何重新定义这一产业趋势的信息构架的,对于我们构建未来信息构架是很重要的。大数据和物联网(IOT)正在许多产业中引领一场重新定义谁是真正竞争者的潮流。有些公司使用了能使受众了解数据的新方法,这种新方法使他们获得了新的业务切入点和解决方案。
最有效的信息构建方式总是与特定某类商业问题的解决相关联。下面是根据不同行业得出的数据仓库项目和包括Hadoop和IOT的信息构架清单。这份清单可能会给你带来些许探索新项目的启发,当你从事其中的某项业务时,可能会获得巨大的投资回报。
农业
数据仓库:农业生产和优化成本分析,产量分析,农产品定价分析,农产品贸易分析。
Hadoop/IOT:分析并优化耕作模式,施肥模式,收获时节,水分含量(数据来自土地里的传感器和天气预测)。
汽车制造业
数据仓库:汽车制造的成本和数量分析,供应链,汽车的保修期,市场和营销分析,人力资源管理。
Hadoop/IOT:顾客心理分析,车联网,服务需要和服务调度,驾驶历史,司机紧急监测和反应程度。
银行业
数据仓库:客户对金融产品渠道的感觉,财务分析,欺诈检测,信用价值,人力资源管理,营业网点优化。
Hadoop/IOT:欺诈检测,风险分析和客户情绪分析。
通信业
数据仓库:定价策略和财务,客户支持和服务,营销分析,供应链,物流和流程优化,合规性,营业网点优化和人力资源管理。
Hadoop/物联网:分析社交数据,移动设备使用,网络质量和可用性(使用传感器数据),网络欺诈检测,物联网中的扩展网络管理和优化。
消费性包装品(快速消费品)
数据仓库:销售,营销,供应商,制造,物流,消费趋势和风险分析。
Hadoop/IOT:促销有效性分析(通过社交媒体和店内传感器),供应链,运输过程中制成品的状态,零售产品的摆放和风险分析。
教育和科研
数据仓库:教育科研机构的财务或设施分析,人员配置和人力资源管理,校友介绍和捐赠形式。
Hadoop/IOT:风险学生分析(通过传感器数据),科研数据以及设备监控分析和优化。
医保承担者
数据仓库:护理成本,护理质量,风险和欺诈的分析。
Hadoop/IOT:客户情绪,风险和欺诈的分析。
医疗机构
数据仓库:护理成本,护理质量,人员配置和人力资源以及风险的分析。
Hadoop/IOT:疾病和流行病传染模式研究,患者检测,设备检测和优化,患者情绪以及风险分析。
高科技制造业
数据仓库:供应商和分销商分析,物流管理,产品质量和产品保修分析。
Hadoop/IOT:车间生产和质量分析,部件组装产品质量分析,产品故障和待定故障分析,自动化服务的服务请求分析。
保险(财产保险和人身保险)
数据仓库:市场营销分析,人力资源和风险分析。
Hadoop/IOT:客户情绪分析,风险分析。
执法状况
数据仓库:执法畅通,犯罪数据统计,执法人员配置优化分析。
Hadoop/IOT:威胁执法现状分析(信息来源于社交媒体和视频收集)。
媒体和娱乐
数据仓库:观看者偏好,频道收视率,广告销售额和营销促销的分析。
Hadoop/IOT:观看习惯分析(数据来自机顶盒),娱乐场所顾客娱乐方式分析,顾客情绪分析。
油气资源
数据仓库:钻井勘探成本分析,潜在勘探点,油气生产,人力资源和运输优化分析。
Hadoop/IOT:钻井检测分析(包括钻探故障预防)。
药品
数据仓库:临床试验(包括药物相互作用研究),药物测试对象结果分析,药物销售分析以及人力资源分析。
Hadoop/IOT:从来自医用传感器、普通大众的日常生活、疾病跟踪和基因组学研究的临床数据进行分析。
零售业
数据仓库:市场篮子分析,销售分析,供应链、仓库及物流派送优化分析。
Hadoop/IOT:全渠道零售分析和顾客情绪分析。
运输和物流业
数据仓库:物流和客运路线分析,营销分析,仓库选址优化,人力资源分析和优化。
Hadoop/IOT:交通流量分析(数据来自高速公路传感器),交通安全的分析和控制,设备性能和潜在故障分析(数据来自车载传感器),物流管理(数据来自物流传感器),以及客户情绪分析。
公用事业
数据仓库:传送方式的改善,(电、气等资源)运输网络供应能力的分析和提高,客户能源利用分析,人力资源分析和优化。
Hadoop/IOT:为了优化传输网络并时常进行维护,对来自智能电表的数据进行分析。
需要注意的是,上述清单仅列出了2015年决定实施或已经实施的部分项目。随着各种企业逐渐发现新方法并找到解决问题的方案,这份清单也会随之改变。
在本书的后面,我们将会讨论这些项目的优先顺序。一个项目要想获得优先地位,必须要从事与计算机信息技术(IT)相关的业务。当一个项目有了优先地位时,该项目获得成功的概率将大大提高。
在这一点上,我们已经对信息构架的成熟度进行了自我评估,同时审议了一些未来可能发展的项目。为了拓展这些项目,我们会小幅度修改现有的信息构架。举例来说,如果需要的数据大部分为结构化,并且数据仓库的基本构架是健全的,那么仅基于这一构架做出的分析可能就是完美的。然而,基本构架往往不能满足现实的业务需求,所以,当务之急是想出该如何应对日益增长的需求。
对现有构架进行修改的一个重要原因(你可能已经从本书的主题猜到)是为了新业务的需要,因为这些新型数据在传统的数据仓库中很难被分析。例如,新型数据可能包括流式数据和半结构化数据,这种数据会引入高速、大容量的数据摄取要求。这一要求可能使之前不需要的NoSQL数据库和Hadoop也被列入信息构架之中。研究Hadoop的数据科学家们也希望推进新兴数据收集工具和数据分析引擎的采用。
如何收集外界的数据需求?如何与他人合作开发未来的信息构架?一般是定期举行会议(有时称作研讨会)规划未来事物、收集客户需求。收集客户的初步需求可能只需要两到三小时,但它却可以确定我们今后要遵循的方向。
在研讨会中,参加者们会讨论当前的数据仓库、商业智能以及ETL工具和数据处理的解决方案等问题。也可能讨论包括服务器和存储器在内的基础设施,其中,对现有组件进行升级或替换往往是第一项讨论的内容。举例来说,如果目标数据仓库上的ETL所需的性能和资源出现问题,那么考虑利用流数据源所需的Hadoop集群也称为ETL引擎可能是有意义的。
事实上,Hadoop集群可以成为所有数据的初始着陆点。如果想知道如何进行预测分析或者如何重新评估预测分析的可行性,可以查阅Hadoop集群进行深入了解。
在这一阶段,很多技术工作人员可能会担心,当前我们进行信息构架的成熟度与正在规划的前景可能极度不符。IT或业务线上的技术与规划中要求的技术有明显差距,数据管理和操作问题也可能会随之出现。潜在成本和对预算的影响往往是IT高管们最关心的问题。
在初始阶段就对这些问题予以关注是有好处的。然而这只是最初阶段,我们正在构建未来信息架构可能成为什么样的愿景。我们所了解的业务案例还不足以确保全面地开展项目。同样,我们对数据细节的了解也很少。在后面的阶段中,我们将对前述业务案例和数据进行全面理解,同时也会更频繁地评估所需要的技能。在我们开始构建未来的信息架构时,将更充分地考虑潜在成本。
现在,我们只是在探索可能性的艺术。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
10天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
38 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
10天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
45 1
|
27天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
81 1
|
1月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
54 3
|
4天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
13 3
|
4天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
18 2
|
7天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
33 1
|
10天前
|
机器学习/深度学习 数据采集 搜索推荐
大数据与金融风控:信用评估的新标准
【10月更文挑战第31天】在数字经济时代,大数据成为金融风控的重要资源,特别是在信用评估领域。本文探讨了大数据在金融风控中的应用,包括多维度数据收集、智能数据分析、动态信用评估和个性化风控策略,以及其优势与挑战,并展望了未来的发展趋势。
|
9天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
36 2

热门文章

最新文章

下一篇
无影云桌面