袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 袋鼠云数据中台建设与策略已经脱离了一个单纯的产品概念范畴,更多的是关注于企业的整体数据化建设工作,希望通过数栈产品和七大数据服务贴身参与用户全方位与全过程的数据化建设。同时我们期待这样的数据化建设应当是高效率,高应用价值和低成本的。

bfc9136371e35e28326ec0d71f9aa54870b8fd4d

本文作者:张旭

袋鼠云技术总监、数据中台事业部副总经理。在袋鼠云工作期间,深入了解客户需求,负责多个大数据项目的落地实施,如贵州茅台、新华书店、轻松筹、贵州交警等等,对于企业应用大数据的痛点具有清晰的了解和丰富的实践经验。


正文:

数据中台是什么?

数据中台建设的价值在哪里?
数据中台和传统数仓还有数据中心有什么区别?
这几乎是笔者最近被别人问到的最多的问题。之所以有这些疑问,其一是不懂的同学真心想了解,其二是懂的同学对我们的考验。


b6c1434914c8373b58983ad6992e4721b013223f


数据中台,解决数据“存”、“通”、“用”难题

让一切业务数据化,一切数据业务化

 

具体而说,数据中台并不是一个跨时代的全新理念,就好比笔者当年学习SOA一样,发现其实质还是组件化,模块化,是设计模式与业务端的应用。数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。

首先先总结一下数据中台策略中的几个过人之处。

 

第一:数据汇聚,承上启下。

数据中台策略的基本理念是,将所有的数据汇聚到数据中台,以后的每个数据应用(无论是指标和分析类的,还是画像类和大数据类的)统统从数据中台获取数据,如果数据中台没有,那么数据中台就负责把数据找来,如果数据中台找不来,就说明当前真没有这个数据,数据应用也就无从展开。


按照这种模式,如果企业中数据应用数量大于3-5个,那么数据中台将整体上节约30%的成本,随着数据应用的增长,这样节约的成本还会更大。传统的数据仓库和数据中心,如果做得比较好,设计到位的话,也会做完整的数据模型设计,但是往往偏重于设计和技术,在执行的过程中,很难保障数据的全,也很难保证数据应用不跨过数据中心,重新做数据的话,那么后期数据则会比较混乱。

相对而言,数据中台策略中更加强调数据的“全”以及数据中台组织与数据应用组织之间的协作关系,从设计、组织、建设、流程角度保障了模式的落地。

     a431d52b9cc14e6621a3918fb184417c9adc95e2

袋鼠云数据中台策略

 

第二:纵观大局,推动全局

数据业务在企业中应当是一个完整业务,是一个亟需提高定位的业务,是企业的战略业务。

所以数据中台策略应当对应企业的数据战略,并提供更有力的支撑,而不是仅仅停留在把数据找到,把数据清洗,把数据算出来。
所以,构建数据中台建设,需要详实了解企业的数据情况,数据需求以及构建数据业务的推动蓝图。
上述内容应当通过相互衔接的七个数据服务进行完整的构建以及推动。

袋鼠云数据中台七大数据服务


  • 数据资源规划及获取

盘点数据资源、规划数据资源、获取数据资源,并将所有数据资源进行完整呈现;


  • 数据质量分析及提升

从基础数据、业务数据、大数据视角综合分析当前的数据质量问题;


  • 基于中台策略的数据整体建模与数据资产管理

企业可根据数据资源规划报告指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。


  • 实体画像及标签引擎

 对用户、产品、客商、营销各主题域进行标签提取,将其特征数字化,为后续进行精准 营销和用户画像提供必要条件。


  • 数据指标体系梳理及计算(BI)

构建企业标签体系,着重分析当前需要但是无法获取到的指标,描述使用不便的指标,分析问题原因,绘制数据供应链条;


  • 数据应用规划及实现(DI)

基于当前外部数据、IOT数据、非结构和半结构化数据进行大数据应用的规划,并论证实现过程和进行成本评估。一旦评估通过可以帮助企业进行大数据应用的完整开发和落地。


数据可视化大屏,讲述数据背后的价值。在最短的时间内用最具冲击力的视觉语言,将企业最重要的数据/信息传递给最重要的人。


0d7240da1c6d9c7caba1e7016471464706ed3a7d

袋鼠云数据中台七大数据服务


通过上述服务内容,希望将企业数据资源情况完整展现,数据问题展现,数据资产情况展现,数据需求展现(传统数据分析方面、大数据应用方面)从而绘制一张完整的数据供应链地图,最终利用这张地图,辅助数据业务推进。

 

第三:技术升级、应用便捷


大数据平台在很长一段时间,甚至直至现在都还是以开源产品为主流的状况,开源产品使用费力,配置繁琐,导致大数据开发门槛高,数据应用受到严重阻碍,甚至在很多地方一直把大数据技术平台和传统的数仓做区别对待,认为大数据产品的特点是流式计算和处理非结构化数据。


其实大数据产品如果能够降低使用门槛的话,会迅速替代传统数仓的技术产品。传统数仓无论在海量数据处理能力,节点扩展能力,实时计算能力,软件购买和维护成本等诸多方面都无法与当前的大数据平台进行抗衡。


目前业内比较典型的就是阿里云数加平台,数加平台基本让数据开发者能够像使用传统数据库一样的使用大数据平台了,所有操作方式都是通过可视化界面进行,大部分的开发都是通过SQL语句来实现。当笔者使用数加产品时,总是回想起第一次使用java IDE(JBuild、 Eclipse) 产品时的感受。


袋鼠云数据中台产品(数栈) 客观的说则是一款轻量化的,可私有部署的类数加产品,用以解决基于私有云的大数据平台的管理和开发问题。


数据中台产品在与数加产品功能对比上不分伯仲,同时又基于私有云大数据应用的特点定制开发了诸多功能以及数据治理模块用以推动企业整体数据化进程。


64673300ae0dbdcee5984087e7046df8187bde25

袋鼠云数栈产品体系

 

12ba6801e49e018a6a59f83a83a289e6165e300d

袋鼠云数栈产品一览


c68ead4f97dad3ed5d8df3fd504d28d0ef72ffcd

袋鼠云数栈产品一览

 

袋鼠云数据中台建设与策略已经脱离了一个单纯的产品概念范畴,更多的是关注于企业的整体数据化建设工作,希望通过数栈产品和七大数据服务贴身参与用户全方位与全过程的数据化建设。同时我们期待这样的数据化建设应当是高效率,高应用价值和低成本的。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
17天前
|
弹性计算 安全 关系型数据库
活动实践 | 自建数据库迁移到云数据库
通过阿里云RDS,用户可获得稳定、安全的企业级数据库服务,无需担心数据库管理与维护。该方案使用RDS确保数据库的可靠性、可用性和安全性,结合ECS和DTS服务,实现自建数据库平滑迁移到云端,支持WordPress等应用的快速部署与运行。通过一键部署模板,用户能迅速搭建ECS和RDS实例,完成数据迁移及应用上线,显著提升业务灵活性和效率。
|
1天前
|
数据采集 供应链 搜索推荐
商业案例 I AllData数据中台商业版落地实践
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
1月前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
121 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
1月前
|
存储 人工智能 安全
Snowflake在云数据平台中的创新实践
Snowflake在云数据平台中的创新实践
42 4
|
1月前
|
存储 安全 算法
Snowflake在云数据平台中的创新实践
Snowflake在云数据平台中的创新实践
50 2
|
1月前
|
机器学习/深度学习 存储 SQL
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第27天】Snowflake作为云原生数据仓库的领导者,以其多租户、事务性、安全的特性,支持高度可扩展性和弹性,全面兼容SQL及多种数据类型。本文探讨了Snowflake在现代化数据仓库迁移、实时数据分析、数据存储与管理及机器学习集成等领域的创新实践和应用案例,展示了其在云数据平台中的强大优势和未来潜力。
56 2
|
1月前
|
存储 运维 Cloud Native
数据仓库革新:Snowflake在云数据平台中的创新实践
【10月更文挑战第26天】随着大数据时代的到来,数据仓库正经历重大变革。本文探讨了Snowflake在云数据平台中的创新应用,通过弹性扩展、高性能查询、数据安全、多数据源接入和云原生架构等最佳实践,展示了其独特优势,帮助企业提升数据处理和分析效率,保障数据安全,降低运维成本,推动业务快速发展。
64 2
|
4月前
|
机器学习/深度学习 自然语言处理 搜索推荐
LangChain在个性化内容生成中的实践
【8月更文第3天】随着人工智能技术的发展,个性化内容生成已经成为许多应用的核心竞争力。LangChain 是一种开源框架,旨在简化语言模型的应用开发,尤其是针对自然语言处理任务。本文将探讨 LangChain 如何帮助开发者根据用户的偏好生成定制化的内容,从挑战到实践策略,再到具体的案例分析和技术实现。
275 1
|
7月前
|
机器学习/深度学习 人工智能
【LangChain系列】第九篇:LLM 应用评估简介及实践
【5月更文挑战第23天】本文探讨了如何评估复杂且精密的语言模型(LLMs)应用。通过创建QA应用程序,如使用GPT-3.5-Turbo模型,然后构建测试数据,包括手动创建和使用LLM生成示例。接着,通过手动评估、调试及LLM辅助评估来衡量性能。手动评估借助langchain.debug工具提供执行细节,而QAEvalChain则利用LLM的语义理解能力进行评分。这些方法有助于优化和提升LLM应用程序的准确性和效率。
586 8
|
7月前
|
存储 机器学习/深度学习 人工智能
【LangChain系列】第八篇:文档问答简介及实践
【5月更文挑战第22天】本文探讨了如何使用大型语言模型(LLM)进行文档问答,通过结合LLM与外部数据源提高灵活性。 LangChain库被介绍为简化这一过程的工具,它涵盖了嵌入、向量存储和不同类型的检索问答链,如Stuff、Map-reduce、Refine和Map-rerank。文章通过示例展示了如何使用LLM从CSV文件中提取信息并以Markdown格式展示
320 2
下一篇
DataWorks