大数据分析(数据建设)以后如何发展的思考?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据分析(数据建设)以后如何发展的思考?

image.png

一直在公司参与企业数字化、大数据、数据分析等方面的工作,阅读及研究过较多的资料,这个文章简单记录下对企业大数据建设的一些思考,及可能的发展,也是作为对各个数据分析平台及大数据的研究的一些总结。

经过二十多年的企业IT建设,很多企业从”无系统“发展到”系统太多“,不光有单独部署的内部系统,也有内容丰富的互联网系统,系统已经覆盖到企业经营的方方面面。企业的数据也从“无数据”发展到“数据丰富”的阶段,企业也从原来依靠手工记录,发展到依赖“信息和数据”来进行精细化运营,IT技术已经深入到企业运作的各个方面,为企业带来了便利,也为企业带来了新
image.png

在过去企业的IT建设过程中,都是按业务需要来建设系统(也是随着信息技术的发展及认知的深度决定),由于没有规划(也是办不到),逐渐形成了各种烟囱式的系统,虽然解决了很多企业信息化的问题,但也给企业带来了信息孤岛的问题。在过往信息化的建设过程中,也见到各种方法和工具,比如数据仓库(1980年开始提出)、报表工具、BI、商业智能BI、数据分析与挖握,到最近很火的大数据与智能决策,都是为了整合各个数据孤岛,给企业的管理人员/执行人员,提供各种维度的数据报表、数据指标,以支撑企业的运营人员,能可视化地看到数据,然后根据历史数据及当前的数据情况,对企业接下的运营提供决策帮助。

看似方法和工具都能较好地解决问题,但企业的经营者还是面临着一些其他方面挑战:企业在数字化的过程中,由于要整合已有的系统(如ERP、OA、WMS、CRM、SRM等),可能已有系统的数据表会有几百到几千的张,通过BI或者数据仓库的建设后,可能会产生到几百到几千张的报表,如果每张报表上有10个以上的数据指标,那就有几千到几万的业务指标,面对这么多的业务指标,查看及审核信息,将是每个企业运营者头痛的事情。另外一个,面对这么多的业务指标,它们的统计口径是否统一?是否全部都是在使用中?哪些是有价值的指标呢?这些问题正是数据分析与研究必然面对,也是推这个行业不断向前发展的动力。

通过对行业里现有的大数据分析平台及BI工具的调研与分析,再结合企业数据的建设过程,可以发现,数据化的建设过程,都是围绕数据源,数据ETL,数据可视化的方向来进行,数据只有可视化后(图表/excel/PDF/网页等),经营者才能接触到数据,才能拿到数据的价值。但是从发展过程来看,数据可视化配置越来越成为潮流,企业面对诸多的信息与数据,希望能做到所见即所得的效果,传统的报表开发模式已经不能满足当前需求,也与信息技术的发展相悖,而且传统报表的开发成本高,相当于是定制化开发,做不到通用性,面对不同的企业,会有不同的数据指标需求。灵活的可视化配置,支持企业按照自己的需求来配置自己的图表/报表。

在接触到大数据的建设过程,都会看到元数据,数据指标的建设,这些是为了解决业务指标统计口径不统一的问题,因为在传统的信息化系统中都会提供报表,它们都有各自的统计规则,如果照搬到BI或者大数据的数据仓库,那数据化的建设只是在堆积,会慢慢变成混乱的数据仓库,随着不同人员对数据项的需求,数据仓库会日益庞大,通过不同的原始表、宽表、维度表、分析表等加工后产生的结果表都有可能达到几十万到几百万,将需要消耗大量的IT资源。

那怎么去解决这种情况呢?在保持数据源不变的前提下,这里需要引入一个叫“指标平台”的概念,通过对元数据、数据指标的定义与提取的标准化,形成统一的基础指标,再交由一线业务去自由地进行组合,形成业务需要的业务指标,看似是一个技术问题,其实指标平台是一个管理系统,例如不同业务部门的指标归口不统一、指标使用情况、指标是否体现价值等,都属于管理的问题。观察指标平台的建设过程,它是一个收敛的方式,不会呈现爆发式增加,可以很大程度节省IT资源。另外一个指标平台建设的好处是,支撑可视化配置,实现DIY模式的图表/报表,以满足所见即所得的效果 。

回到前面的问题,大数据怎样才能更好地帮助企业的经营者呢?是像传统报表一样,提供丰富的图表/报表来满足呢?还是会有其他方式。我觉得数据在企业中主要发挥“发现异常”、“数据凭证”和“辅助决定”(从数据建设过程中可以看出)。如果不是这个,那可能就是一个普通的报表需求,而不是大数据中数据价值的体现。

“发现异常”:通过对业务指标(数据指标)的跟踪,结合指标预警的设置,发现重要经营业务指标的变动,来看企业的运营是好是坏,让经营者能及时作出调整。从这个角度出发,未来的数据分析平台的建设,未必要像现在行业里很多数据分析平台那样来建设(dataphin / quickBI/GrowingIO等),可能是提供业务指标自由组合的可视化配置,通过订阅及预警提醒机制,让不同职位的经营者来配置及订阅自己关注的业务指标,在业务指标发现变化或者定时的机制来提醒及发送指标的数据,而不是去面对一堆图表/报表,做到因人而异的数据驱动机制,让企业管理人员回归重点,随时掌握重点业务指标的动向。
这就好比在使用炒股软件的时候,可以对股票的关键指标进行设置,当股票的指标的波动达到预置的值时,会推送提醒,让投资可以及时看到波动,而不是时时盯着大盘/K线图看。

“数据凭证”:通过业务指标的数据,反映公司/部门/组织/个人的业绩,这里主要是提供数据的真实性验证,通过数据能看到公司/部门/组织的经营情况,并能通过数据的上下钻,了解到每个细项的数据,结合对比,发现好与坏的原因。对于个人也是一样,通过数据去了解个人在公司的效益(创造的价值/成本),如常见的企业营收、财务、业务员、月报季报分析等等。那么这块可以通过报表自助设计器来完成,达到按需及时调整的需要。

“辅助决策”:通过对业务指标的过往数据的分析,结合企业的内部因素与外部因素,来预测企业接下来的经营决策,但这块做起来没那么简单,需要通过不断的训练,及丰富规则来做。

企业数字化与数据的建设过程,是数据赋能企业的过程,是一个不断探索的过程。通过“指标平台”对指标的治理与建设,规范统一的指标定义,派生、衍生出复合指标,再由指标组织成模型。指标的标准化,实现指标的加工、计算、查询的口径统一。

当然,数据化的建设过程,需要结合企业的实际情况,不可能一步到位,这是一个慢慢的转变过程, 需要从管理层来进行带头,去深入试点,偿试后在进行铺开。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
258 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
43 2
|
1月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
102 2
|
3天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
2天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
28 4
|
21天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
43 4
|
22天前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
33 4
|
23天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
144 5
|
1月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
134 14
|
27天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4