数据中台技术及业务发展史与未来趋势展望

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
数据可视化DataV,5个大屏 1个月
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 企业需要进行数智化转型,才能更有效地管理数据,更便捷地使用数据。阿里巴巴数据技术及产品部也认识到了数据处理方式必须有所改变,才能满足企业对数据开发效率,数据赋能业务产生价值和数据指导企业运营管理的需求,至此数据中台理念孕育而生。


-更多关于数智化转型、数据中台内容请加入阿里云数据中台交流群—数智俱乐部 和关注官方微信公总号(文末扫描二维码或点此加入

-阿里云数据中台官网 https://dp.alibaba.com/index

作者:陈晓勇、柯根

阿里巴巴数据技术编年 简史

2003年淘宝诞生于杭州一间民居。次年,Google发表了三篇大数据论文将计算技术引入大数据时代。

2004年Doug Cutting和Mike Cafarella根据Google的论文实现了Hadoop的HDFS和MR计算框架。

2006年 Hadoop项目进入Apache社区。

2008年9月Hive成为Hadoop的子项目,之后成为Apache的顶级项目。同年,淘宝开始实施基于Hadoop系统的数据计算平台搬迁-云梯1。

2009年阿里云诞生,阿里云开始写下Maxcompute第一行代码,中国的各种云端服务开始涌现。

2014年阿里巴巴实施登月计划,完成基于Maxcompute平台的数据平台迁移-云梯2,汇总全集团的数据业务到一个平台上,完成数据公共层建设,OneData体系和集团的数据中台渐趋成型。

2014年4月Intel投资Cloudera,放弃自主的Hadoop发行版,同年Cloudera进入中国市场。

2017年数据中台产品Dataphin产品问世,同时支持Maxcompute和Hadoop大数据平台,OneData内部的技术体系开始对外实现赋能。

2018年Cloudera和Hortonworks宣布了公司合并,Hadoop发行版从多个厂商竞争变成寡头间游戏。

2020年基于Dataphin、品牌数据银行,Quick Audience、Quick Stock数据中台产品的全域营销推出,阿里开始通过自有的数据体系赋能商家,数据中台从纯技术推广到业务价值体现。

数据中台理念应运而生时机

传统的数据处理方式,特别是传统的数仓平台,其软硬件采购成本,运维成本、技术门槛等都颇高。只有银行、运营商等大型企业才有能力和财力实现数据仓库和数据集市的平台建设。随着大数据技术和云上服务的普及,企业的运维成本和技术开发门槛大幅度降低,特别是具有极高性价比的云端服务,简单的部署,近乎无限的可扩展性和轻松的管理,综合使用成本和便捷性都大大优于传统数据平台。因此,企业开始将其数据仓库从传统的Teradata、Oracle/IBM等平台迁移到大数据平台或云服务中,时至今日,这一变化还在传统企业中不断的上演。

云计算兴起之后,数据库和弹性计算(ECS)是最为普遍的产品,但随着用户在云上业务的数据积累,企业开始对数据分析有了直接的需求。2011年阿里云maxcompute大数据平台上线,阿里云迈入大数据时代。

随着数据指数级的增长,数据处理的方式和模式发生了质的变化。传统面向经营管理人员和少部分业务人员的数据支撑方式不再能满足业务发展的需求。数据开发周期长、反应慢、应用面窄的弊端也越来越突出。企业及政府开始寻求应对市场变化和数据及时响应的方法,同时对数据的采集、开发、使用和管理提出了更高的要求。

企业需要进行数智化转型,才能更有效地管理数据,更便捷地使用数据。阿里巴巴数据技术及产品部也认识到了数据处理方式必须有所改变,才能满足企业对数据开发效率,数据赋能业务产生价值和数据指导企业运营管理的需求,至此数据中台理念孕育而生。它帮助阿里巴巴集团在之后几年的激烈竞争中脱颖而出,并继续帮助企业过渡到未来的竞争,这场趋势之战的背后是商业主导权的竞争。

数据中台实质是实现数据价值化与数据资产化

关键产品介绍:

Dataphin 是阿里云旗下智能数据构建与管理的数据中台建设引擎。旨在基于数据中台实践中沉淀的核心方法论和技术体系,提供从数据采,建,管,用的全链路、一站式的大数据能力,以助力企业打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系。

Dataphin的核心价值在于规范数据定义,用规范化、标准化的方式生产数据,提高数据开发的效率。

数据中台把面向全员开放数据,支撑业务的数据化运营作为目标。数据中台便捷的数据构建和业务价值视角的设计思路是与传统数据仓库的最大的不同。阿里巴巴通过数据为人人,基层小二才是数据主要使用者的理念,来进行数据加工和开发,让一线员工有数据可看,有数据支持运营决策,有数据做业务指导。

OneData是基于阿里巴巴数据技术团队多年经验沉淀出来的方法论,核心是数据公共层的建设,Dataphin是方法论固化到产品的一个形态,它帮助阿里巴巴经济体在业务转型的过程中推动业务变革,实现业务价值。企业同样可利用这些成功经验和工具来提高数据效率,支持他们的经营和可持续性战略。

OneData核心是数据公共层的建设。 阿里巴巴正是通过底层服务和敏捷开发的创新来赋能其庞大的客户群,为客户提供成熟的方法论和开箱即用的工具,帮助企业实现业务创新。在以创造业务价值为导向的今天,我们看到数据中台能推动企业数据价值利益链的传导。

在阿里巴巴经济体内,数百种数据应用服务于淘宝、天猫、优酷、飞猪、支付宝等各个业务部门。经济体外,生意参谋、品牌数据银行、全域消费者运营平台Quick Audience等数据应用帮助外部的商家在阿里巴巴经济体内实现业务价值。数据及数据工具将越来越多的实现人、货、场的连接和协作。

数据中台概念下,数据资产除了基础的存储容量、计算资源外,还需要根据企业的组织架构或开发形态来构建自己数据资产管理平台,用以洞察企业数据健康状况。在阿里巴巴企业内部也有资产平台提供数据健康状态信息,可为下一财年的系统扩容提供数据依据。Dataphin内置的数据资产管理模块能够体现开发者视角下的数据资产基础状况。

企业需要进行数智化转型,才能更有效地管理数据,更便捷地使用数据。阿里巴巴数据技术及产品部也认识到了数据处理方式必须有所改变,才能满足企业对数据开发效率,数据赋能业务产生价值和数据指导企业运营管理的需求,至此数据中台理念孕育而生。它帮助阿里巴巴集团在之后几年的激烈竞争中脱颖而出,并继续帮助企业过渡到未来的竞争。这场趋势之战的背后是商业主导权的竞争。

数据中台应用现状

一、通用行业数据中台建设场景

传统企业对数据中台的期待更多的是在业务运营和管理支撑这两方面。开箱即用的工具能实现企业高效的数据产出和数据资产的管理。在数据中台建设的场景设计阶段,会对传统企业进行深入的业务调研,抽丝剥茧地提炼业务场景,将用户最为关心的业务洞察视角通过BI数据分析报表可视化的展现在人们面前,辅佐决策者做出科学判断。

数据中台的业务场景设计阶段衍生出数千个派生指标,这些派生指标具有时间限定细、指标定义清晰无二义性,指标间组合条件多等特征。Dataphin能快速实现数据加工和开发,图形化设计降低数据中台开发和设计的门槛,并从数仓规划、数据集成、规范建模、通用开发IDE、运维调度到数据服务一站式快速达成传统企业数据建模和数据开发的目标。

数据中台内汇聚的数据资产就像一座“金矿”,对企业来讲,数据中台必须要解决数据如何管理,如何使用的问题。通过中心化的数据资产管理可以方便的对资产使用及其价值进行全面的评估,构建数据应用的全链路追踪体系,对数据成本、业务收益做到清晰、透明、可评估。传统企业由于业务系统多元、设计独立等原因导致形成数据烟囱式开发的局面。通过对数据资产的集中管理可以实现企业全局数据资产状况全掌握,纵向部门、横向层级的运营状况透明呈现,为科学的数据化决策打下坚实的数据基础。

某传统企业客户,他们在全国拥有大量零售商和门店,营销费用居高不下,由于经营数据都在门店和各个子系统中,总部难以发现原因。通过数据中台的建设,将各个系统数据和门店营销数据采集后,通过分析消费数据、积分积累和积分消耗数据,发现了异常行为会员,他们在门店的消费集中在晚上10点以后,这段时间恰是门店关门的状态,疑似羊毛党的作弊行为所导致。通过数据中台的数据集中化管理,可对各事业部下属门店的实际活动销量进行监督。通过数据中台定制化的“资产可视化门户”帮助企业对自有数据资产进行有效管理。

作为传统企业代表某电信运营商、某航空公司经过10多年的数据仓库建设,已经拥有一套数据分析平台,但传统的数据仓库只侧重数据开发,没有场景设计和资产管理的理念,当有一个新的数据开发任务,往往需要开发人员从贴源数据做层层加工实现,不仅耗时长而且存在定义不清晰的现象。而这些现象可以通过使用Dataphin,引入标准的数据公共模型来解决。

“推进业务和数据中台建设是航空公司今年八场硬仗之一,也是公司智能化转型过程中的关键性变革。过去,需要人工从不同系统采集、在各自电脑上跑几十小时才能取得的数据,现在几分钟就能实现数据从“云端”上轻松获取,极大地提升了分析工作的效率和质量。”航空公司数据中台项目负责人表述。

二、零售行业全域数据中台营销场景

新零售行业有着全新的业态销售模式,商家通过门店、线上网店、直播平台、品牌App、微信/支付宝小程序等各种渠道促销商品。针对营销形式多、渠道多的特点阿里巴巴推出了全域营销解决方案,集合全域数据通过AIPL/RFM数据模型进行深度洞察,通过精准投放,提升营销效率,实现业务价值。全域营销解决方案是基于阿里巴巴生意参谋、品牌数据银行、数据构建及管理平台Dataphin、全域消费者运营平台Quick Audience等一系列数据产品来实现的。

在全域营销中最为核心的是帮助用户找到目标人群,通过人群预测模型和营销投放为商家带来业务价值,因此全域营销预测技术实施的前提是汇聚各个业态/渠道产生的数据,并以阿里巴巴OneData方法论去处理以实现全域的数字营销,这一领域AI和算法平台的计算能力有直接的场景应用和业务价值体现。通过模型建设和数据输出使得商家对业务的运营状况、会员洞察、渠道和销售管理、门店管理等业务数据有全盘的管控。通过数据分析,决策者可以做出业务判断,也可以通过市场预测(predictive Marketing)模型为全域营销提供市场预测。

全域营销解决方案是企业构建数据中台后与阿里巴巴商业生态合作,取得业务价值的一个重要方式。由企业的数据中台沉淀的价值数据与阿里巴巴商业生态体系以及其他媒体渠道共建数字营销,并且可回流外部投放的数据,形成全链路数据闭环。

飞鹤乳业、良品铺子、伽蓝等新零售企业通过全域数据中台建设,使用Dataphin对天猫店铺、线下门店、小程序、自有网站等数据进行统一管理,构建统一、标准、高质量的数据,支撑数据决策和全域营销投放,实现业务价值。正如客户们所说:

“数据中台能够解放数据基础建设,让我们有更多的精力来思考如何运用数据来解决业务痛点、提升公司效率;那么在对组织的能力要求方面,我们也能够更偏向业务分析和架构的能力、数据模型算法能力、创新型应用产品设计和规划能力的发展。”良品铺子副总裁周世雄在接受采访时候如是说道。

伽蓝集团大数据中心总经理钟卫在接受采访中表述”我们手中有金矿(消费者数据),但缺乏开发的方法。数据中台体现的数字化技术相当于新的生产力,能够驱动企业通过建立与之相配新生产关系,比如组织升级、生态协同而促进企业经营模式、商业模式上的突破,这种突破所带来的改变是DNA级别的”。

数据中台未来趋势展望

一、数据中台的实时计算趋势

数据处理向准实时、实时趋势方向发展。传统的数仓设计限于技术体系无法实现实时计算。而采用分布式大数据技术不仅能实现构建PB级别的数据中台(历史上把这类计算场景叫数据仓库)而且还能将实时计算与历史数据结合,实现流批一体开发。满足新一代数据中台强调的数据时效性和分析能力。

阿里巴巴采用Blink(Flink开源版本)实时计算框架实现流批一体,Blink具有复杂事件处理能力(Complex Event Process),还能为不同需求和能力的开发者提供SQL/Table、实时流批数据处理、状态事件驱动应用API等多种特性,应对不同数据开发的需求。

数据中台的实时计算技术并不是对原有的业务流程进行再造,而是通过实时数据流与数据仓库指标结合的方式来实现更高效的业务分析。利用实时技术可以快速进行BI分析和业务预警,如实时营销策略、实时风控策略、实时反欺诈。这些场景都可以嵌入到实际的业务系统中。

阿里巴巴的新零售业务、 双11购物狂欢节也运用流批一体,对营销过程实时监控。

Dataphin产品在2018年开始就流批一体投入研发,在2019年底内部流计算产品成功迁移到Dataphin产品上。2020年Dataphin 发布v2.7版本,开始支持阿里云实时计算产品Flink,与阿里云大数据计算服务Maxcompute结合,通过流批一体技术满足数据及时性需求。用户可以通过Dataphin产品实现营销效果的实时反馈并与历史数据放在同一维度分析和比较,给业务人员提供即时精准的数据用以实时决策。

二、数据中台上层应用的移动终端化趋势

BI洞察分析是数据中台数据呈现的最重要的方式,现阶段绝大部分的BI呈现都是PC端为主,手机端为辅。互联网由PC端向移动终端发展的一个必然趋势是数据数据应用也随之移动终端化。这几年,在数字化分析领域,多个BI厂商都发布了移动终端展现的配套产品,但并未在市场上大规模普及,究其原因既有屏幕尺寸难统一等客观问题,又有移动终端受众场景个性化程度高的情况,因此数据中台的应用移动终端化必须适应终端的要求。

在数字BI领域,其终端化必定要考虑端上适配,更多的以数字指标看板的方式呈现,而不是像PC端一样去突出丰富的呈现效果及历史指标。其次是终端App与实时计算相结合,强调实时数据的分析能力,呈现的内容要具有时效性,更多的应用在业务流量、实时订单与历史订单分析及预测的场景中。

现有的移动终端化难点除了需要在iOS和Android两个系统上做App开发外,还面临多个端呈现问题,钉钉微应用和微信小程序已是企业除App外在数据BI终端化中的其他选择,但从技术层面上来说,纯H5页面开发面临下载数据量大,使用体验不佳,不能实现离线数据保持和浏览等问题,因此大多数移动终端应用依旧采用App方式实现。

由于终端App的开发和运维成本高,PV/UV运营效率问题,所以什么样的数据和应用模式才能提高数据用户的使用频率是摆在企业管理者和产品经理面前一个现实问题。数据中台大部分的分析数据是T+1的分析指标,对企业管理者有很重要的借鉴作用,但没有小时和分钟级别的使用频率,因此App上呈现的数据应该以企业业务及营销活动数据为主,特别是多端的埋点采集数据、PV/UV数据,再结合数据历史分析比较能更好的体现App BI的业务价值。

**
三、数据中台的智能化发展趋势**

AI技术最为重要的价值是能为现实场景所用,比如人脸识别的一个典型应用场景是替代密码实现手机登录。构建数据中台之后,企业用户可积累丰富的指标数据,这些数据都是算法和AI依赖的基础。数据中台用户比较普遍的AI应用场景是销量或流量预测,千人千面的推荐算法,营销活动的预测等。这些都是对业务决策提供直接辅助的场景。

受到激烈的市场竞争压力,企业都期望AI计算能在短时间内帮助实现销量增长或成本下降的效果。其实通过AI算法为一线员工提供数据的便利性使用也是提高生产效率的一大途径。阿里巴巴内部有这样一款数据产品,员工可以向它模糊提问,产品直接回复员工用户所关心的指标数据,降低了数据查询的门槛,方便一线员工的使用。

“人法地,地法天,天法道,道法自然”, 法是制约、管控,人以地为行为规范,地以天为规范,天以道为规范,道以自然为规范。企业亦之,企业的运营依赖数据支撑,数据支撑依赖系统、系统依赖于数据中台,数据中台遵循数据处理的方法论和多端的呈现,因此数据处理的处理是数据中台成功落地的一大关键所在。


数据中台是企业数智化的必经之路,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。

目前正通过阿里云对外输出系列解决方案,包括通用数据中台解决方案零售数据中台解决方案金融数据中台解决方案互联网数据中台解决方案政务数据中台解决方案等细分场景。

其中阿里云数据中台产品矩阵是以Dataphin为基座,以Quick系列为业务场景化切入,包括:

官方站点:
数据中台官网 https://dp.alibaba.com
钉钉沟通群和微信公众号
数据中台钉钉群二维码2.jpg

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
6月前
|
存储 自然语言处理 搜索推荐
ChatGPT 文本Embedding融合Qdrant向量数据库:构建智能问答系统的技术探索
向量数据库结合ChatGPT带来了什么 1. **语义搜索:** 使用向量数据库进行语义搜索,可以更准确地找到与查询相关的信息。ChatGPT可以理解用户的自然语言查询,而向量数据库可以根据语义相似性返回匹配的向量数据。 2. **智能推荐:** 结合ChatGPT的智能理解和向量数据库的相似性搜索,可以实现更智能的推荐系统。系统可以根据用户的历史行为和语境,向用户推荐相似的向量数据,如文章、产品或其他内容。 3. **自然语言处理与向量表示结合:** ChatGPT可以将自然语言转换为向量表示,这样就可以在向量数据库中进行更高效的查询。这种集成使得自然语言处理和向量数据库可以相互补充等
541 0
|
人工智能 Linux API
LangChain开发环境准备-AI大模型私有部署的技术指南
今天开始小智将开启系列AI应用开发课程,主要基于LangChain框架基于实战项目手把手教大家如何将AI这一新时代的基础设施应用到自己开发应用中来。欢迎大家持续关注
838 0
|
1月前
|
存储 搜索推荐 数据库
运用LangChain赋能企业规章制度制定:深入解析Retrieval-Augmented Generation(RAG)技术如何革新内部管理文件起草流程,实现高效合规与个性化定制的完美结合——实战指南与代码示例全面呈现
【10月更文挑战第3天】构建公司规章制度时,需融合业务实际与管理理论,制定合规且促发展的规则体系。尤其在数字化转型背景下,利用LangChain框架中的RAG技术,可提升规章制定效率与质量。通过Chroma向量数据库存储规章制度文本,并使用OpenAI Embeddings处理文本向量化,将现有文档转换后插入数据库。基于此,构建RAG生成器,根据输入问题检索信息并生成规章制度草案,加快更新速度并确保内容准确,灵活应对法律与业务变化,提高管理效率。此方法结合了先进的人工智能技术,展现了未来规章制度制定的新方向。
34 3
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
78 4
|
1月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
4月前
|
存储 SQL 分布式计算
从零到一建设数据中台 - 关键技术汇总
从零到一建设数据中台 - 关键技术汇总
102 0
|
4月前
|
存储 分布式计算 关系型数据库
从零到一建设数据中台 - 功能组织与实现技术
从零到一建设数据中台 - 功能组织与实现技术
233 0
|
6月前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
6月前
|
人工智能 测试技术 API
【AIGC】LangChain Agent(代理)技术分析与实践
【5月更文挑战第12天】 LangChain代理是利用大语言模型和推理引擎执行一系列操作以完成任务的工具,适用于从简单响应到复杂交互的各种场景。它能整合多种服务,如Google搜索、Wikipedia和LLM。代理通过选择合适的工具按顺序执行任务,不同于链的固定路径。代理的优势在于可以根据上下文动态选择工具和执行策略。适用场景包括网络搜索、嵌入式搜索和API集成。代理由工具组成,每个工具负责单一任务,如Web搜索或数据库查询。工具包则包含预定义的工具集合。创建代理需要定义工具、初始化执行器和设置提示词。LangChain提供了一个从简单到复杂的AI解决方案框架。
688 3
|
6月前
|
存储 缓存 算法
ICDE2024 |VDTuner:向量数据库自动调优技术
在CodeFuse接入实际业务的过程中,大模型的推理成本以及生成内容的准确性是产品规模落地的两个核心考量因素。为了降低推理成本,我们研发了CodeFuse-ModelCache语义缓存加速功能,通过引入Cache机制,缓存已经计算的结果,当接收到类似请求后直接提取缓存结果返回给用户。另一方面,为了提升代码生成的准确度,我们引入了few shot机制,在输入大模型之前拼接一些类似的代码片段,帮助大模型更好的理解希望生成的目标代码。上述两个核心功能的实现都依赖于向量数据库(Vector Data Management Systems, VDMS)存储并检索相似的请求或者代码片段。
168 1