面对各行各业日趋强烈的大数据建设、管理及应用诉求,2018年春季的MWC大会,阿里云重磅推出了智能数据构建与管理平台Dataphin——从数据接入到数据消费全链路,提供一站式的大数据能力,包括产品、技术和方法论等,致力于助力企业打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系。
Dataphin作为智能的大数据平台,能够协助各行各业智能地建设与管理属于自己的智能数据。自2018年2月28日MWC大会全球首发后,3月12日又推出了专有云v3.3首发V0.8版本,6月15日,则将推出专有云v3.5发布升级后最新的V1.0版本。
场景应用
数据急剧增长的情况下,企业会面临着多种数据问题:
-
- 数据构建过程艰辛,数据管理结果差强人意;
- 数据建设周期与效率越发难以保证。因为缺乏工具化支持,依赖专业人才设计数仓、开发过程繁杂,同时只有文档沉淀、不可持续迭代使用;
- 高效生产管理数据越发困难。因为缺乏一站式平台,导致设计与开发脱节、数据指标不一致,数据建设不规范而难维护、资源浪费而成本增高;
- 数据价值难发掘、难用于业务、难量化。因为缺乏系统化方法论和配套产品,无法输出智能易用的数据及数据服务以更好支持业务,数据投入产出不高也难追踪到问题;
- ......
因此对于数据量达到TB级别的客户,企业一方面需要尽力招聘更多专业的数仓人员或分析师满足数据需求,另一方面却依然存在数据重复建设、数据前后不一致的问题。此外,业务需求依然难以快速满足,数据资源成本指数级增长依然难以控制。
为此,Dataphin基于实践验证的OneData、OneID、OneService方法论与技术,提供了工具化、产品化的一站式数据构建与管理平台,既可以保证数据生产标准规范、数据模型设计即开发为代码、即时生成主题式数据服务,同时还能提供数据资产化管理的门户,有效降低了数仓建设门槛,提高生产效率、降低生产成本,让数据从成本中心真正变成价值中心。
在适用客户上,Dataphin服务于所有以数据业务(包括数据驱动业务、数据即业务)为核心的客户,可应用于数据量大或者增长过快、数据类型多样丰富的场景下,帮助快速生产管理标准规范的公共数据,快速服务业务使用(如经营报表、营销圈人)。
从具体的应用场景来看,Dataphin提供了四种能力:
有了Dataphin之后,如上问题弹指间即可解决。
Dataphin基于实践验证的OneData、OneID、OneService方法论与技术,既可以保证数据标准规范定义、数据模型设计即自动化开发、主题式数据服务即时生成,同时还能提供数据资产化管理的门户,有效降低数仓建设门槛,也提高生产效率、降低生产成本,轻松实现让数据从成本中心真正变成价值中心,且可量化呈现。
-
- 数仓规划与建模研发:建模研发支持通过可视化定义SQL表达式的方式完成模型设计,而系统自动发布生成任务与生产数据,且所有数据指标标准规范无二义性,适用于业务对数据需求多且及时性要求高而专业人才有限情况的客户,一般需要全局化数据监控;
- 数据萃取:支持通过自定义配置参数的方式三步完成以实体对象为中心的业务主数据提炼、DMP构建,实现ID识别连接、标签标准规范地自动化生产,消除数据孤岛,适用于可以有丰富数据自建DMP、有营销投放等对象识别分析需求、用数据驱动业务发展而专业人才有限情况的客户,一般需要数据化运营;
- 资产分析及治理:支持资产化视角构建及管理数据体系并一目了然数据价值,适用于数据类型多样、数据丰富、数据成本或者质量安全对企业很重要等需要统一管理数据的客户,特别是以数据为业务的、数据融入业务的;
- 数据服务:支持面向主题的逻辑表查询,保证数据被快捷方便地查找定位、数据查询SQL得到最大的简化,提高效率的同时,保证规范、标准、无二义的数据输出至业务应用,适用于有很多数据应用、需要API化或者其他非代码查询方式使用数据的客户,数据化运营或者数据业务化都会有需求。
目前,Dataphin已在大润发和海底捞两个项目进行测试。基于Dataphin平台,有望实现公司业务10%以上的数据开发工作工具化和标准化,还能形成一套以公共层数据支持为基础的经营报表分析和营销分析平台。
技术解读
6月15日,Dataphin将升级推出专有云v3.5发布后最新的V1.0版本。
作为PaaS层工具产品,这一版本最大的提升在于功能易用性,比如即可视化数据建模、代码自动化生成、数据资产图谱自动化生成,通过可视化配置方式建设数据模型,提交后系统自动化生成代码,同时有一个直观的可视化资产图谱揭示数据关系、便于确定数据使用方式。
其中,建模研发设计与开发的一体化完成,能够极大提高原有完全人工编写代码的效率(可视化勾选填写后,代码和数据自动化生产)、降低数仓建设复杂度。此外,利用工具将数仓模型的知识进行沉淀,那么后续的迭代也会更加便利。同时,Dataphin还申请了专利的智能黑盒技术,通过近一年的打磨,保证产品端简单的操作录入数仓建设信息后,经过智能黑盒可以输出稳定的、计算和存储机制最优的数据生成代码。
目前,业界也有多个项目聚焦数据建设相关方面,比如腾讯数据工坊、teradata、informatica都有相似做数据建设开发的工具,在代码编辑、提交调度等方面功能稳定性和性能度上的表现也都较为稳定。但是,它们都没有Dataphin所提供的全局数仓架构设计功能,也没有建模设计后立即自动化代码生成的功能。
实操接入
目前,Dataphin数据平台的技术水准遥遥领先于国内同类型产品的榜首。它具有很强的自动化代码生成能力,除去高效建设以降低生产资源(因业务差异),核心可以释放20%甚至以上的分析师和数据开发工程师的人力,还能将企业数据资产留在自己的系统工具内,对于广大企业来说,选择Dataphin绝对物超所值。
对于企业来说,借力阿里的智能数据引擎Dataphin,通过其结合数据中台实践沉淀的方法论和自动化代码生成等技术能力,能够极好地解决人才和工具两方面的问题。
想了解更多产品详情,请点击官网:https://www.aliyun.com/product/dataphin。