数据即金钱,中小企业如何搭建数据平台分得一杯羹?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

据作为企业的核心竞争力,企业的DNA。那么什么是数据呢?

 

IT时代的IT主要是信息技术,即企业的一切信息例如:企业员工信息,客户信息,产品信息等。信息主要用于描述企业员工、描述客户、产品等,通过信息可以大致了解员工,客户,产品等的基本情况。

 

DT时代的DT主要是指数据技术。数据是用来准确衡量信息的,例如公司有多少员工,本科以上占比,客户总量,区域客户量等。某种程度上可以这样理解:信息是一种概括的描述,通过信息可以描绘出企业的大概情况,而数据可以精准的描述信息,将信息量化以展示。

 

当然了,信息和数据的区别上述只是我个人的理解,在我看来,单纯区分二者的区别可能没太大的意义,将二者结合起来,迎合时代浪潮,做好向DT数据时代的过渡才是关键。

 

数据平台作为企业数据化的一个重要组成因素,必不可少。现在有很多互联网包括传统企业等都在搭建自己的企业数据平台,通过数据平台量化企业各项经营指标,深度剖析企业经营状况,为企业的科学经营提供帮助,进而实现持续盈利的目的。可以说,企业不管是做信息化还是做数据化,都是为了帮助企业科学管理,科学经营决策,都是以实现持续盈利,最大化盈利的目的。

 

什么是数据平台

 

我个人的理解是:数据平台是指将公司的所有数据以及关联数据(例如行业数据,竞争对手数据等)进行收集,按照规则处理,并根据特定的主题进行分析,展示,以便准确地剖析企业经营情况,达到指导公司科学经营和决策,并以实现企业持续盈利,最大盈利为目的。一句话,数据平台就是将企业的数据转化为盈利。数据就是金钱,已经越来越成为各个行业各企业的共识。

 

 

在信息时代,其实也有一些数据平台的影子,并且一直持续到现在,例如报表;BI;数据仓库;ETL等这些技术很多企业或多或少的都接触过一些,现在一些比较流行的词汇如数据挖掘,Hadoop,Spark,大数据等,也都是围绕数据相关的。所有这些技术有效组合,共同为数据平台建设提供技术支持。

 

如何建立数据平台

 

首先这里要与大家分享的是中小企业的数据平台搭建之路,定位于中小企业,数据远达不到海量,甚至企业都还未有历史数据的积淀。在互联网企业可能更多描述的大数据平台,数据挖掘等;而在银行,电信等大型传统企业更多的是数据仓库,BI等,这些都是与中小企业有区别的。大数据、数据挖掘等对于技术人员的技术要求比较高,大型数据仓库,专业BI软件等往往需要大量的IT资金投入。

 

而中小型企业的IT技术人员和IT投入都是短板,加之数据量本身不大,故如何搭建针对中小企业的数据平台,还需平衡好企业自身技术实力,企业数据量,企业IT投入三个主要方面。平衡好三者的关系是搭建起适合自身的数据平台的关键之一。

 

 

1
 
定义数据源

 

个人认为数据平台搭建的一个前提是要有原始数据的积累。正所谓巧妇难为无米炊,没有数据,数据平台何来?所以企业一定要重视数据,并积累数据。数据的来源可能是已有企业的IT系统数据库中数据,例如ERP系统中的数据、通过各种渠道收集的竞争对手数据、手动录入的数据等等,这些作为数据源,需要做到统一的整理存放。

 

2
 
定义数据分析主题

 

数据源有了,做饭的米有了,接下来我们要明确自己是要烧米饭还是米汤了。即我们要定义自己的分析主题,中小企业按照内部部门划分分析主题就好,一般为人力主题,财务主题,销售或市场主题,客户主题等,另外需要规划一个特别的主题,即企业驾驶舱,作为各个主题的入口,企业驾驶舱负责展示各个主题中总括的数据以及各个主题中最核心,企业领导最关心的数据等。

 

3
 
数据处理

 

有了数据源,有了数据主题,接下来就是要将数据源中的数据,在数据主题中进行有效的处理,这包括:抽取->转换清洗->装载(ETL的过程)。通过ETL工具抽取源数据,清洗掉无效数据,转化数据主题需要的数据,然后在装载到数据主题中,这样就可以实现有效数据从数据源到数据主题的转变。

 

4
 
数据展示

 

经过上述三步的处理后,数据已经存储在数据主题中,接下来就需要通过report报表工具,将主题中的数据进行展示。当然有一些报表是直接查询数据源中的数据(需求方迫切需要的),而未经过数据集市,这也是允许的,尤其是平台建设前期。

 

 

经过以上四步,可以基本搭建起数据平台的雏形,此时的数据平台更多的只是报表平台,未包含数据预测,数据监控预警,数据挖掘等深层次功能。其实在作者看来,数据平台的第一步一定是报表平台,汇总公司已有或是各部门需求的报表,进行统一整理,分类展示,然后在此基础上进行一些深层次分析的数据挖掘、预测分析等。

 

当然,上述四步并不是串行进行的,可以在定义数据源的时候一并确定好数据分析主题,在理解抽取数逻辑的时候,并行进行ETL的开发工作等。搭建数据平台,尤其是在数据平台初期,一定要有一个原则,即:快速迭代。

 

接下来我要说的数据平台搭建方法论相关,主要三点:

  1. 快速迭代

  2. 自下而上与自上而下结合

  3. 技术储备与业务规划要前瞻

 

首先快速迭代。数据平台搭建初期需要快速迭代,不断实现各个业务部门的报表需求,分析需求,通过IT技术解放各个业务部门手动出报表的重复作业,将各个业务部门吸引到数据平台上来。

 

这个阶段甚至可以牺牲报表的性能,数据的规划等(极端情况)只有各个业务部门参与进来才能共同推动数据平台搭建,要采用自下而上与自上而下相结合的方法:“下”指数据平台建设人员,各个部门的业务同事等。“上”指IT领导,各个部门的总监领导,公司的中高层领导等。

 

数据平台的搭建一定是公司全体人员共同努力的成果,只有上下一心,共同参与,才能搭建起最符合企业自身业务实际、最有效、准确的数据平台。总的来说,数据平台的搭建需要遵循一个前提:历史数据积累;一个原则:快速迭代;贯彻一个方法:自下而上与自上而下相结合,全员参与。

 

数据平台的技术架构

 

接下来要介绍的是根据中小企业的特点,平衡了技术、投入、数据量三要素后总结出来的搭建数据平台的IT技术架构。

 

 

 

纵观该技术架构,可以看出以下特点:

 

层次性:从数据源到最后的展示分了多层,数据经过了多次转化,看似复杂,其实是将数据进行了“瘦身”,最终展示的数据可能只有几条,几十条,而这几条数据来源于多数据源,可以有效地提高最终的展示效率,全量DB的引入汇集了公司不同的数据源中数据,也统一了数据源类型;数据仓库的建立是一个循序渐进的过程,建立数据平台不能没有数据仓库,但在数据平台初期不能太过关注,否则会违反快速迭代的原则。

 

开源:数据库采用MySQL数据库,etl采用kettle,都是开源免费而且有广大用户群的技术,方便快速入手,且无经济负担。

 

时效:数据展示平台中的报表大多是非实时的展示,即从数据集市而来的,也有一部分需要实时展示的报表,这个时候采用的是直接查询数据源的方法,即图中白虚线。但当数据量增多的情况,直接查询比较缓慢,或是跨多数据源比较复杂的情况下,可以考虑一些新的实时计算的技术,例如Spark等,这在数据平台搭建的前期一般不会出现。

 

数据平台的搭建不能一蹴而就,不能作为一个短期项目,而应该作为一个长远规划、战略规划,不断迭代,不断优化等。同时也要注意时间的控制和里程碑的建立,不能三年下来还是没有数据仓库的雏形,还是没有完善的数据分析主题等。

 

随着时间的推移和数据的积累,会逐渐考虑大数据Hadoop,Spark实时计算的技术,这需要在数据平台建立的过程中循序渐进,并做好技术储备。

 

数据平台团队组建

 

明白了数据平台,懂得数据平台的建立方法,又清楚数据平台的技术架构,那么最后的执行者即数据团队如何组建呢?

 

首先数据团队的组建方式两种:一种是真实团队式,即为数据平台项目而组建的团队,从各个IT,业务部门抽取,专人专职,这种成本比较高;另一种是虚拟团队,即各个业务部门加IT团队出人,时间自由支配,给定工作量与时间节点。

 

虚拟团队成本比较低,不影响各自的正常工作,但是对员工的积极性要求比较高,所以前面讲过数据平台要全员参与,上下一心,上面跟进督促,下面环环相扣,充分把握时间与进度,完成数据平台的初期建设。数据平台经过了初期建设后,一定要有专门的团队的专业维护,这样便于以后数据分析,挖据,预测等的工作开展,也利于快速支持业务部门的需求。数据团队的演变大致如下:

 

 

刚开始的时候,只有开发跟业务人员采用,开发帮助业务人员出报表,解放业务人员的手动出报表,随着发展,后续会逐渐进入ETL工程师,数据分析师,架构师,产品经理等角色,而是数据平台的功能也由一开始的出报表逐渐转换为指导业务人员管理规划业务,慢慢成为公司或是行业的专业数据产品,进而包装成商业产品为公司实通过数据产品盈利。这是一个循序渐进的过程,不能一下子就企图招全各方面人才,否则会造成极大的人力浪费,大幅增加数据平台的成本。

 

平台搭建误区

 

数据平台的搭建其实是有一些误区的,作者结合自身经历真是企业案例,分享一下数据平台搭建的一些误区,希望能够起到警示提醒作用。

 

1
 
挖个大数据牛人

 

很多企业跟风搭建数据平台往往会选择从BAT等一线互联网公司高薪聘请技术人员来帮助建立数据平台,而高薪请来的人员有可能会根据以往大数据平台的经验和技术架构,建立起不符合企业现状的技术架构。

 

2
 
直接交给专业公司

 

直接交给专业公司,或是将整个外包出去,这也是一个常见的误区,外包公司等往往都是分期收费,按需收费,前期规划不明确,变动频繁,成本也会直线上升,更重要的是外包团队不了解企业自身的实际情况,往往做出来的数据平台不符合企业自身特点。不过专业公司,外包团队的行业经验,建设经验是很值得学习采取的。

 

3
 
A公司做的很好,直接COPY

 

合作单位或是其他公司做的很好,往往采用直接COPY的做法,这也是不可取的。

 

4
 
购买专业数据产品

 

购买专业的数据产品会提高工作效率,但是绝不会买到适合自己的数据平台,直接使用就可以。

 

综上4个误区,全是为说明一点,数据平台的搭建一定要切合企业自身的实际情况,量体裁衣,牛人的技术,专业公司的行业经验,合作单位的建设经验等都是可取,但是不能完全复制,要考量自身特点,有取有舍,循序渐进,条件允许的话利用专业的报表软件、数据产品等提高工作效率,实现数据平台的快速搭建。

 

总结

 

中小企业数据平台搭建之路漫漫,但易起步开始,初期搭建(报表平台)一般3月足够,在此基础上不断完善,将企业的数据提炼成金,为公司带来持久的最大化盈利,希望本篇文章能够为正在数据平台搭建之路上的同仁们提供帮助。

原文发布时间为:2017-01-09

本文来自云栖社区合作伙伴DBAplus

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
45 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
14 2
|
16天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1
|
11天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
25 3
|
11天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
39 2
|
13天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
46 2
|
15天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
48 2
|
18天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
21天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
47 2
|
1月前
|
NoSQL 大数据 测试技术
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
33 0