开发者社区> 袋鼠云> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

袋鼠云数据中台专栏2.0 | 数据中台之数据源

简介: 当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。
+关注继续查看

当今企业在发展和经营的过程中,「信息化」早已是建设标准,在企业运作的过程中,或多或少地,积累了很多数据。在进入到DT时代,数据成为企业未来成长的引擎也越来越被认可。有先见之明的企业更注重于从方方面面来收集各项数据。我们今天的话题就以数据产生和数据内容加以介绍。

企业的数据产生我们按照主动和被动原则来进行划分:

  • 被动数据:为企业事务和流程过程产生的必须数据,即我们一般理解的业务系统,以一般型企业为例,CRM系统、OA系统、ERP系统、交易系统等则为被动数据。

主动数据:则是辅助、记录、日志等非主线业务,需要额外付出人力和成本主动收集的数据,如:网页访问日志、系统运行日志、监控数据、门店用户进出数据等。

下面为数据存在的载体分布示意图:

1

在IT早期时代,硬件为瓶颈,存储和计算资源的不足,在构建数据模型的过程中,基本是以核心业务系统(即关系型数据库)为主,主动数据往往短暂保留或简单分析后即被丢弃。在进入到云计算、大数据的时代,存储和计算的相对廉价,数据的融合和催化效应也越发受到重视,主动数据开始走进公众的视野,成为数据中台之数据来源不可或缺的部分。

二、数据分类

2.1 按来源分类

数据按照来源分类,一般分为数据库、日志、API、FTP文件、IoT、埋点日志、互联网爬虫等。

数据的来源主要影响后续的数据集成和同步,我们需要以不同的技术手段将其同步至数据中台,以袋鼠云提供的组件支持如下:

image

上述FlinkX、JLogstash、DT.Trace、DT.Crawl 均为袋鼠云产品团队研发的技术组件,支撑袋鼠云数栈产品体系。

2.2 按结构分类

数据按照结构分类,一般分类结构化、半结构化、非结构化三种。

结构化数据:一般为二维数据,即行列清晰分明,每一行数据都能拆分成固定的列数,我们日常使用的关系型数据库(Oracle、MySQL)可以表示和存储结构化数据。

半结构化数据:一般为Key-Value型数据,数据格式不固定,如常见的Json和XML即可存储半结构化数据,一些非关系型数据库(HBase、MongoDB)也能存储半结构化数据。

非结构化数据:即没有固定的数据结构,如我们常见的文档、图像、影音、视频等。

我们先从数据中台的输出来看,一般来说都是以结构化数据提供服务,所以在数据清洗的过程中,会将半结构化数据转为结构化数据,然后再进行模型开发。对于非结构化数据,一般以链接的方式作为某个实体的属性来进行分析。

2.3 按主题分类

在构建业务主题的过程中,我们会对企业的数据按照主题来进行分类。以个人的经验来看,数据主题一般按照企业业务的核心实体和业务过程来进行划分。

以电商业务为例,我们一般按照以下八个主题来划分线上业务:

  • 会员:注册会员及潜在会员的各种基础信息数据。

商品:所有可售卖产品和商品数据,也包括类目、品牌,SPU,SKU等相关商品基础信息数据。

交易:交易包含线上从加入购物车到下单、支付、发货、退款退货及成功交易各个业务过程

营销:营销活动过程中的各个业务过程所沉淀的数据。

渠道:包含电商、门店等终端渠道的基础数据及这些终端渠道本身的创建、维护、关闭等业务过程数据。

日志:用户访问所有平台包含官网、微信公众号、电商平台、App等记录下的所有日志数据。

公共:包含企业的组织架构、员工、角色以及公共事务。

物流仓储:商品在仓储物流配送过程中的各个业务过程所沉淀的数据。

除此之外,企业的线下过程和企业内部业务,如生产制造、供应链、组织效能、财务也会认为是独立的数据主题。

数据主题的划分,是数据中台规范建模的重要部分,需要抽象提炼、并且长期维护和更新的,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响的被包含进已有的数据域或者扩展新的数据主题。

2.4 按模型分类

数据模型表一般分为维度表、事实表、聚合表三种,在一般的数据源中,很少直接存在聚合表的现象,所以我们将数据源按照维度表、事实表来进行分类。

维度表: 维度表可以看成是用来分析一个事实的窗口,维度表的主键为对应实体的ID,一般还存在一些实体的属性和特征说明,不同的维度表之间也会存在一些层级、映射关系。如常见的用户表、商品表即是维度表。

事实表:事实表其是通过维度、属性、度量的组合来确定一个事实的,比如通过时间维度、地域维度、度量值可以去确定在某个时刻的一些度量值怎么样的事实。事实表的每一条数据都是几条维度表的数据和度量值交汇而得到的。如交易记录表、用户访问行为表就是事实表。以交易表为例整理维度、属性、度量后如下:

4

在模型初期的整理过程中,可以用E-R图来清晰来表达维度、属性、事实之间的映射和关联关系,以下为顾客消费商品的示例图:
3

通过此图我们能快速了解顾客维度及属性、商店维度及属性、以及顾客和商品间发生的消费行为而产生的事实。

后记

本期内容对于数据的来源、分类进行了简单的说明,由于篇幅的原因未能展开,在后面的章节中,会继续对数据集成、数据模型、数据计算的经验和技术来进行介绍,敬请期待。

袋鼠云数据中台专栏V2.0第八期:

数据中台之数据集成

敬请期待!

本文作者

勒蔑

袋鼠云数据中台-技术总监,阿里云全球MVP。
阿里巴巴大数据架构亲历者,先后服务淘宝数据平台、集团数据平台、无线事业部数据服务、数据平台事业部等团队,参与集团内部天猫双11、用户分析系统、移动数据分析等项目。在袋鼠云期间,负责多个数据中台项目交付。

关于袋鼠云

袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。

数据智能,让未来变成现在

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
云数据库初体验
第一次使用云服务器的感受
9 0
“PG夜话” 之 云数据库那些事 --未来数据库上云的“伪”与“真”
● 云数据库在数据库体系里如何分类?如何选择? ● 云数据库在数据库行业里有什么贡献? ● 云数据库算国产化吗? ● 云时代的DBA生存空间在哪里?
179 0
MyCms 自媒体 CMS 系统 v2.8,支持织梦数据导入
MyCms 是一款基于Laravel开发的开源免费的自媒体博客CMS系统,助力开发者知识技能变现。
42 0
Fluid — 云原生环境下的高效“数据物流系统”
为了解决大数据、AI 等数据密集型应用在云原生计算存储分离场景下,存在的数据访问延时高、联合分析难、多维管理杂等痛点问题,南京大学 PASALab、阿里巴巴、Alluxio 在 2020 年 9 月份联合发起了开源项目 Fluid。Fluid 本质上是一个云原生环境下的数据密集型应用的高效支撑平台。本文将向大家介绍 Fluid 项目是如何将数据密集型应用更高效地运行于 K8s 环境中的。
852 0
阿里云基于OSS的云上统一数据保护方案2.0技术解析
近年来,随着越来越多的企业从传统经济向数字经济转型,云已经渐渐成为数据经济IT新常态。核心业务系统上云,云上的业务创新,这些都产生了大量的业务数据,这些数据也成为了企业最重要的资产、资源。 阿里云基于OSS的云上统一数据保护方案2.0,针对业务上云后数据保护所面临的挑战,提供多层次、全方位的数据保护解决方案,让您业务上云,数据无忧。
9229 0
袋鼠云数据中台专栏(五):数栈,企业级一站式数据中台PaaS
本文作者:江枫 袋鼠云CTO,花名江枫,本名宁海元。 2007年加入淘宝,曾是双十一大促技术指挥部成员,“去IOE”数据库负责人。 打造过千亿级实时日志平台、手机淘宝日志分析创始人、阿里云数加平台技术创始人。
9706 0
什么是数据库?什么是云数据库?
什么是数据库呢?云数据库又是什么呢?云数据库和传统数据库的区别是什么呢?本位就为大家分享。
9460 0
+关注
袋鼠云
袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。
99
文章
2
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载