数智化时代合格数据架构师如何养成?

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 数智化时代,“数据架构师”这样的角色起到越来越重要的作用。能力越大责任也就越大,因此对于这个角色也有了越来越高的要求。那到底对于数据架构师有什么要求呢?对于想成为数据架构师的同学职业方向需要如何做合理的规划呢?

文章将从云计算基建、大数据基建、数据构建、数据管理、数据应用5个角度,阐述数据架构师的必备技能和素养。

云计算基建

传统的IT架构已存在几十年,随着企业业务的快速发展,对于业务的可用性要求越来越高,对于成本的压力也越来大。是否存在一种方式能以更低成本、更高性能和可用性的方式支持新时代的企业信息化要求?
部分互联网公司由于自身业务快速发展的原因,做了大量尝试。阿里巴巴率先发起的“去IOE运动”:将IBM机器替换成云上服务器,将ORACLE数据库替换成云上数据库,将EMC存储替换成云上存储服务器。带来的不仅仅是成本的降低,同时也提供了更加稳定、安全的环境。云计算作为信息时代的水、电、煤已成为行业共识。随着云计算的兴起,企业全面上云的拐点已到。作为一名合格的数据架构师,对云计算基础设施需要有充分的理解。

  • 首先,相较于传统的服务器,架构师需要了解云上是如何实现稳定、弹性、安全、成本、易用、扩展的云上服务器的。还包括如何实现物理资源的虚拟化,如何通过弹性伸缩从容面对业务的峰谷,如何通过多地域多可用区实现容灾等。另外,数据架构师需要能评估服务器所需资源类型,通过技术调研和论证,得出所需要的服务器的资源,例如面对不同的业务和技术场景,企业需要的是紧凑型、通用型、均衡型、内存型、独享型哪种类型的服务器。
  • 其次,网络同样也是数据架构师必须掌握的基础知识,如何设计安全的网络机制、如何规划合理的网络配置、如何进行可靠的网络连接(包括不同虚拟网络之间以及与客户本地IDC进行连接方式等),都是数据架构师在工作中会遇到的各种挑战。
  • 最后,数据架构师需要了解各种云上数据库(包括关系型数据库、NoSQL数据库等)的应用场景、产品特性等。以及如何保障其可靠性,安全性、可用性、扩展性、成本。另外还有对象存储产品的特性,如何对视频、图片等数据进行有效的管理。如何通过CDN等手段提高用户访问响应速度。

大数据基建

大数据借着云计算的东风,也开始在信息时代发挥越来越重要的地位。阿里巴巴提出的数据中台概念和实践,也在云上落地开花。面对体量巨大、时效要求高、形式多样化、价值密度低的企业大数据,对于数据架构师,需要在采集、计算、存储等基础技术的原理和应用场景形成自己的知识体系。

  • 首先,数据架构师需要了解业界通用的PC端和无线端采集、爬虫采集等场景的具体方案。理解从埋点申请、可视化埋点实施、验证、发布到监控的全生命周期管理。
  • 其次,对于离线计算和实时计算的模式和原理,以及对应场景的离线计算和实时计算的产品都应该熟悉掌握,在洞察客户需求后,能合理的做计算模式的选择和判断。
  • 最后,大数据在存储上与业务系统在场景和目标上的本质区别,需要理解如HDFS的大数据存储原理、MPP架构的原理和常用场景、消息中间件用于实时计算的方式等。

数据构建

数据架构师很重要的职责就是思考如何对数据做合理有效的构建,形成标准、统一、可公用、可理解的公共数据,让业务能够尽情在建设好的数据上驰骋沙场,利用数据创造出业务价值。

  • 首先,好的数据体系能够对数据进行有效的横向分层,合理的纵向分类。通过数据体系的构建,能够让数据生产者更合理高效的组织数据,数据消费者能更有效的理解和获取所需数据,数据管理者能更高效的管理好数据。因此数据架构师需要能从全局上对数据体系有个整体上长远的规划。
  • 其次,数据需要能够被更好的组织和使用还需要有合理的数据建模方法论的支撑,例如基于维度建模的数据构建方式能够让数据以事实表和维度表的方式的方式向上提供数据服务,并且预先通过基于分析对象的汇总数据能够提供统一标准的业务指标定义。数据架构师需要有理解业务、抽象实体、形成模型的知识体系,并且在遇到问题时能从合理性、可扩展性、易用性、可理解性等各种角度给出模型设计的合理解决方案。
  • 最后,就算数据架构师不需要做代码开发,可是这个能力是对数据架构师最基本的要求,只有充分理解了数据加工的整个过程,才能基于数据的思维去设计好数据体系。在碰到项目开发同学遇到数据处理问题时,能够及时提供有效的帮助,对于建立项目中的信任关系也起到了关键的作用。

数据管理

数据质量是数据能被信任的关键,也是数据中台建设能否成功的关键。因此数据架构师需要设计事前、事中和事后的数据质量检测和处理机制,保证数据在完整性、准确性、及时性、一致性上满足业务的要求。

数据架构师还需要保证数据治理能够形成有效的闭环,从发现治理问题、推送给责任人、引导治理动作、治理效果评估、到下一次进行新的治理问题发现,根本上杜绝数据“有人生、没人养”的困局。就像环境治理一样,只有基于体系化的长效机制才能还我们绿水青山。

数据是一把双刃剑,因为它在给业务带来价值的同时,数据安全的问题是另一把可致企业于死地的利剑。数据架构师要对数据安全规划做在最前头,从数据产生到消亡全生命周期进行安全制度和流程的规划,同时需要通过如差分隐私、保序脱敏等各种技术手段保障数据安全。

数据只有让业务充分使用才能产生价值,因此首先数据架构师需要思考如何提高数据的易用性,包括从数据的业务视角组织形式、数据标准口径的定义方式、基于元数据帮助业务理解数据等方式。再次,数据是有成本的,因此需要能够更好的衡量数据带来的价值,形成数据资产ROI,再配合相应的数据运营手段,才能让数据资产化和价值化互相促进发展,相爱相生。

数据应用

数据架构师需要能够让数据更好的服务业务,但是应抛弃疲于奔命于各种跑数取数的深渊中,需要能跳出一个个单点的需求,能更全面的思考如何主动服务业务。

  • 首先,数据架构师需要有很强的业务理解能力,对客户的业务能基于行业视角有清晰的理解,并且能基于理解做进一步的抽象,抽象出业务的本质。
  • 其次,数据架构师能从业务方的需求、对业务和数据的理解沉淀出一系列的分析思路。也需要能通过算法结合数据,思考如何进行数据的深度挖掘,挖掘出高价值数据。最终能将思路和方法通过产品化的方式沉淀,主动服务业务,与业务共创数据价值。
  • 最后,数据的本质是为了赋能商业、创造商业,因此数据架构师需要有一定的商业思维,能理解数据如何使商业更加智能,如何驱动商业的发展,如何创造新的商业形态。

总结

技术到业务,方法论到产品化,全局规划到细节把控,数据架构师需要在大数据的方方面面都承担起重要的作用。更重要的是,需要有对大数据行业未来的信心、对职业发展方向的恒心、对漫长落地过程的耐心、对赋能商业的热心。


阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:

  • Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
  • Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
  • Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
8月前
|
运维 架构师 安全
架构师养成手册:架构师职责
小米是一名热情的技术爱好者和架构师,他探讨了架构师的角色和职责。主要涉及六个方面:顶层设计,需与企业战略目标对齐,制定架构原则;规划可适应未来变化的企业架构,分析需求并关注技术趋势;全局视角制定可落地的架构方案,兼顾全局与局部优化;技术选型与难题解决,选择合适技术并解决实际问题;关注方案与代码的广度与深度,确保宏观设计与微观实现的统一;同时,架构师还需具备管理能力,包括团队协作、资源调配和风险管理。
219 11
|
8月前
|
监控 负载均衡 架构师
架构师养成手册:性能指数
本文介绍了架构师关注的性能指标,包括QPS(每秒查询率)、TPS(每秒事务处理数)、RT(响应时间)、UV(独立访客数)、并发数和线程数。QPS和TPS衡量系统处理能力,RT影响用户体验,UV评估网站流量,高并发和线程管理关乎系统稳定性和效率。理解并优化这些指标有助于构建高性能系统。
95 8
|
8月前
|
存储 缓存 负载均衡
架构师养成手册:必知名词
本文介绍了五个对架构师至关重要的技术概念:1) 缓冲(Buffer)用于临时存储数据,解决I/O速度不匹配问题;2) 缓存(Cache)是高速存储技术,提高数据访问速度;3) 复用(Pool)如连接池,减少资源浪费,提高效率;4) 分治(Sharding)是大规模数据的分布式处理,实现数据并行处理;5) 粘性(Sticky)会话,保持用户数据在特定服务器,提升体验和稳定性。架构师需在性能、成本等因素间做出权衡(Trade-off)。
51 1
|
缓存 算法 NoSQL
程序员养成架构师之路
程序员养成架构师之路
217 0
|
1月前
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
50 3
|
2月前
|
Cloud Native 安全 数据安全/隐私保护
云原生架构下的微服务治理与挑战####
随着云计算技术的飞速发展,云原生架构以其高效、灵活、可扩展的特性成为现代企业IT架构的首选。本文聚焦于云原生环境下的微服务治理问题,探讨其在促进业务敏捷性的同时所面临的挑战及应对策略。通过分析微服务拆分、服务间通信、故障隔离与恢复等关键环节,本文旨在为读者提供一个关于如何在云原生环境中有效实施微服务治理的全面视角,助力企业在数字化转型的道路上稳健前行。 ####
|
1月前
|
Java 开发者 微服务
从单体到微服务:如何借助 Spring Cloud 实现架构转型
**Spring Cloud** 是一套基于 Spring 框架的**微服务架构解决方案**,它提供了一系列的工具和组件,帮助开发者快速构建分布式系统,尤其是微服务架构。
161 69
从单体到微服务:如何借助 Spring Cloud 实现架构转型
|
1月前
|
设计模式 负载均衡 监控
探索微服务架构下的API网关设计
在微服务的大潮中,API网关如同一座桥梁,连接着服务的提供者与消费者。本文将深入探讨API网关的核心功能、设计原则及实现策略,旨在为读者揭示如何构建一个高效、可靠的API网关。通过分析API网关在微服务架构中的作用和挑战,我们将了解到,一个优秀的API网关不仅要处理服务路由、负载均衡、认证授权等基础问题,还需考虑如何提升系统的可扩展性、安全性和可维护性。文章最后将提供实用的代码示例,帮助读者更好地理解和应用API网关的设计概念。
68 8
|
2月前
|
Dubbo Java 应用服务中间件
服务架构的演进:从单体到微服务的探索之旅
随着企业业务的不断拓展和复杂度的提升,对软件系统架构的要求也日益严苛。传统的架构模式在应对现代业务场景时逐渐暴露出诸多局限性,于是服务架构开启了持续演变之路。从单体架构的简易便捷,到分布式架构的模块化解耦,再到微服务架构的精细化管理,企业对技术的选择变得至关重要,尤其是 Spring Cloud 和 Dubbo 等微服务技术的对比和应用,直接影响着项目的成败。 本篇文章会从服务架构的演进开始分析,探索从单体项目到微服务项目的演变过程。然后也会对目前常见的微服务技术进行对比,找到目前市面上所常用的技术给大家进行讲解。
62 1
服务架构的演进:从单体到微服务的探索之旅

热门文章

最新文章