大数据分析(数据建设)以后如何发展的思考?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据分析(数据建设)以后如何发展的思考?

image.png

一直在公司参与企业数字化、大数据、数据分析等方面的工作,阅读及研究过较多的资料,这个文章简单记录下对企业大数据建设的一些思考,及可能的发展,也是作为对各个数据分析平台及大数据的研究的一些总结。

经过二十多年的企业IT建设,很多企业从”无系统“发展到”系统太多“,不光有单独部署的内部系统,也有内容丰富的互联网系统,系统已经覆盖到企业经营的方方面面。企业的数据也从“无数据”发展到“数据丰富”的阶段,企业也从原来依靠手工记录,发展到依赖“信息和数据”来进行精细化运营,IT技术已经深入到企业运作的各个方面,为企业带来了便利,也为企业带来了新
image.png

在过去企业的IT建设过程中,都是按业务需要来建设系统(也是随着信息技术的发展及认知的深度决定),由于没有规划(也是办不到),逐渐形成了各种烟囱式的系统,虽然解决了很多企业信息化的问题,但也给企业带来了信息孤岛的问题。在过往信息化的建设过程中,也见到各种方法和工具,比如数据仓库(1980年开始提出)、报表工具、BI、商业智能BI、数据分析与挖握,到最近很火的大数据与智能决策,都是为了整合各个数据孤岛,给企业的管理人员/执行人员,提供各种维度的数据报表、数据指标,以支撑企业的运营人员,能可视化地看到数据,然后根据历史数据及当前的数据情况,对企业接下的运营提供决策帮助。

看似方法和工具都能较好地解决问题,但企业的经营者还是面临着一些其他方面挑战:企业在数字化的过程中,由于要整合已有的系统(如ERP、OA、WMS、CRM、SRM等),可能已有系统的数据表会有几百到几千的张,通过BI或者数据仓库的建设后,可能会产生到几百到几千张的报表,如果每张报表上有10个以上的数据指标,那就有几千到几万的业务指标,面对这么多的业务指标,查看及审核信息,将是每个企业运营者头痛的事情。另外一个,面对这么多的业务指标,它们的统计口径是否统一?是否全部都是在使用中?哪些是有价值的指标呢?这些问题正是数据分析与研究必然面对,也是推这个行业不断向前发展的动力。

通过对行业里现有的大数据分析平台及BI工具的调研与分析,再结合企业数据的建设过程,可以发现,数据化的建设过程,都是围绕数据源,数据ETL,数据可视化的方向来进行,数据只有可视化后(图表/excel/PDF/网页等),经营者才能接触到数据,才能拿到数据的价值。但是从发展过程来看,数据可视化配置越来越成为潮流,企业面对诸多的信息与数据,希望能做到所见即所得的效果,传统的报表开发模式已经不能满足当前需求,也与信息技术的发展相悖,而且传统报表的开发成本高,相当于是定制化开发,做不到通用性,面对不同的企业,会有不同的数据指标需求。灵活的可视化配置,支持企业按照自己的需求来配置自己的图表/报表。

在接触到大数据的建设过程,都会看到元数据,数据指标的建设,这些是为了解决业务指标统计口径不统一的问题,因为在传统的信息化系统中都会提供报表,它们都有各自的统计规则,如果照搬到BI或者大数据的数据仓库,那数据化的建设只是在堆积,会慢慢变成混乱的数据仓库,随着不同人员对数据项的需求,数据仓库会日益庞大,通过不同的原始表、宽表、维度表、分析表等加工后产生的结果表都有可能达到几十万到几百万,将需要消耗大量的IT资源。

那怎么去解决这种情况呢?在保持数据源不变的前提下,这里需要引入一个叫“指标平台”的概念,通过对元数据、数据指标的定义与提取的标准化,形成统一的基础指标,再交由一线业务去自由地进行组合,形成业务需要的业务指标,看似是一个技术问题,其实指标平台是一个管理系统,例如不同业务部门的指标归口不统一、指标使用情况、指标是否体现价值等,都属于管理的问题。观察指标平台的建设过程,它是一个收敛的方式,不会呈现爆发式增加,可以很大程度节省IT资源。另外一个指标平台建设的好处是,支撑可视化配置,实现DIY模式的图表/报表,以满足所见即所得的效果 。

回到前面的问题,大数据怎样才能更好地帮助企业的经营者呢?是像传统报表一样,提供丰富的图表/报表来满足呢?还是会有其他方式。我觉得数据在企业中主要发挥“发现异常”、“数据凭证”和“辅助决定”(从数据建设过程中可以看出)。如果不是这个,那可能就是一个普通的报表需求,而不是大数据中数据价值的体现。

“发现异常”:通过对业务指标(数据指标)的跟踪,结合指标预警的设置,发现重要经营业务指标的变动,来看企业的运营是好是坏,让经营者能及时作出调整。从这个角度出发,未来的数据分析平台的建设,未必要像现在行业里很多数据分析平台那样来建设(dataphin / quickBI/GrowingIO等),可能是提供业务指标自由组合的可视化配置,通过订阅及预警提醒机制,让不同职位的经营者来配置及订阅自己关注的业务指标,在业务指标发现变化或者定时的机制来提醒及发送指标的数据,而不是去面对一堆图表/报表,做到因人而异的数据驱动机制,让企业管理人员回归重点,随时掌握重点业务指标的动向。
这就好比在使用炒股软件的时候,可以对股票的关键指标进行设置,当股票的指标的波动达到预置的值时,会推送提醒,让投资可以及时看到波动,而不是时时盯着大盘/K线图看。

“数据凭证”:通过业务指标的数据,反映公司/部门/组织/个人的业绩,这里主要是提供数据的真实性验证,通过数据能看到公司/部门/组织的经营情况,并能通过数据的上下钻,了解到每个细项的数据,结合对比,发现好与坏的原因。对于个人也是一样,通过数据去了解个人在公司的效益(创造的价值/成本),如常见的企业营收、财务、业务员、月报季报分析等等。那么这块可以通过报表自助设计器来完成,达到按需及时调整的需要。

“辅助决策”:通过对业务指标的过往数据的分析,结合企业的内部因素与外部因素,来预测企业接下来的经营决策,但这块做起来没那么简单,需要通过不断的训练,及丰富规则来做。

企业数字化与数据的建设过程,是数据赋能企业的过程,是一个不断探索的过程。通过“指标平台”对指标的治理与建设,规范统一的指标定义,派生、衍生出复合指标,再由指标组织成模型。指标的标准化,实现指标的加工、计算、查询的口径统一。

当然,数据化的建设过程,需要结合企业的实际情况,不可能一步到位,这是一个慢慢的转变过程, 需要从管理层来进行带头,去深入试点,偿试后在进行铺开。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
48 1
|
2天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
26 14
|
5天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
14 3
|
5天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
22 2
|
9天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
8天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
35 2
|
9天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
10天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
38 2
|
12天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
12天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
下一篇
无影云桌面