阿里十年经验输出,大数据平台“数加”的前世今生

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 阿里云大数据业务资深专家张金银和王峰在 “云栖大会上海峰会”的深度分享。核心是从历史发展的角度解读集阿里巴巴十年的大数据能力以及上万名工程师实战检验于一身,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条的阿里云一站式大数据平台“数加”。

2016 年1月20日,在云栖大会上阿里云发布了一站式大数据平台“数加”,该平台集合了阿里巴巴十年的大数据能力以及上万名工程师实战检验,该平台是一站式的解决方案,首批亮相20款产品,覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。


数加平台由大数据计算服务(MaxCompute)、分析型数据库(Analytic DB)、流计算(StreamCompute)共同组成了底层强大的计算引擎,速度更快、成本更低。计算引擎之上,“数加”提供了丰富的云端数据开发套件,包括数据集成、数据开发、调度系统、数据管理、运维视屏、数据质量、任务监控等在内。


“数加”还向有数据开发能力的团队开放,这些团队可入驻“数加”,借助数加上的工具为各行各业提供数据服务。大数据开发套件的优势包括:支持100人以上协同设计、开发、运维;具有良好的扩展性;提供各个产品功能模块的Open API,可二次开发;多个数据实例之间的数据授权机制,确保数据只能使用却不可见;提供白屏化的运维能力,以及字段级数据质量监控、机器预警、资源使用率监控等功能,让用户更好的掌控自己的数据及数据任务。

6小时处理100PB数据、Analytic DB支持百亿量级多维查询只需100毫秒

大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影。单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低。经测算,自建Hadoop集群的成本是数加的1.5倍,国外计算厂商AWS 的EMR成本更是数加的5倍。


此次发布的产品还覆盖数据采集、计算引擎、数据加工、数据分析、机器学习、数据应用等数据生产全链条。具体来看:

  • 数据采集方面:Datahub可为用户提供实时数据的发布和订阅功能;
  • 底层计算引擎:由大数据计算服务MaxCompute(原ODPS)、分析型数据库Analytic DB、流计算StreamCompute共同组成。

  1. 大数据计算服务可6小时处理100PB数据,相当于1亿部高清电影;单集群规模过万台,并支持多集群联合计算。做到了速度更快,成本更低;
  2. 分析型数据库Analytic DB可实现对数据的实时多维分析,百亿量级多维查询只需100毫秒;
  3. 流计算StreamCompute对实时流式数据进行分析,具有低延时、高性能的特点。每秒查询率可以达到千万级,日均处理万亿条消息、PB量级的数据。

  • 数据分析方面:

  1. Mobile Analytics 让开发者可快速搭建日志采集、分析系统,从而为用户提供个性化服务;
  2. DataV 通过数加BI报表产品,3分钟即可完成海量数据的分析报告。产品支持多种云数据源,提供近20种可视化效果;
  3. 通过数据可视化产品DataV,一星期就能做出双11同款大屏;
  4. 基于DataV,数加还发布了面向政府的行业应用产品“郡县图治”:通过这款产品,县长可以在一个屏幕下统览全县各项经济民生数据,为政府决策提供辅助。

  • 机器学习方面:

  1. 可基于海量数据实现对用户行为、行业走势、天气、交通等的预测;
  2. 图形化编程让用户无需编码、只需用鼠标拖拽标准化组件即可完成开发;
  3. 产品还集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等
  4. 提供了全面支持,包括规则引擎、推荐引擎、文字识别、智能语音交互等;比如规则引擎是一款用于解决业务规则频繁变化的在线服务,可通过简单组合预定义的条件因子编写业务规则,并做出业务决策。而文字识别提供自然场景下拍摄的图片中英文文字检测、识别以及常见的证件类检测和识别。智能语音交互基于语音和自然语言技术构建的在线服务,为智能手机,智能电视以及物联网等产品提供“能听、会说、懂你”式的智能人机交互体验。



阿里云的大数据平台数加的整体架构

二、追溯数加平台的前世今生

1. 数加平台的起源


第一个数据仓库——阿里大数据分析的雏形


在2004年5月,为了从大数据中分析当前状况,并预测未来的趋势,出现了第一个大数据仓库;到2008年,淘宝的业务量与数据量已达到04年的数千倍,按照这样的趋势,不出几年IOE的成本就会将公司拖到破产。鉴于Oracle的性能已经不足以支撑新的业务量,底层技术架构亟需升级。到2009年,新的数据公司成立。

2. 阿里云和阿里金融的诞生

当时,整个服务器与全部信息四处分散,整个数仓的逻辑是以很多脚本拼凑而成。由于其中的逻辑过于复杂,一旦系统出错,只有专人才能解决。彼时还存在诸多问题,包括:服务器利用率低、信息孤岛、数据冗余、基础建设一穷二白,而且由于云计算技术还是新兴技术,存在着安全隐患。

为了解决这些问题,阿里决定成立阿里云,从底层重构云计算及大数据技术。同时,为了实现自主可控,阿里金融成立。

阿里金融的成立意义重大,整个管理层从中真正看到了数据公司的雏形。总结来说,在这样的公司中:数据是它的生产资料;只有把这些数据集中融合,才能产生这种业务。


只有集中融合数据,才能产生这种业务

不过随着时间推移,到2010年,虽然大家承认这种模式很好,但实际上还存在着严重的问题:一是在生产资料方面:如何集中和打通这些数据,实际上历史数据是很欠缺的。之前大家并没有这方面的意识,因此没有保留历史数据,变更都是直接替换。二是在生产工具方面:阿里系统需要大量的计算,那么如何解决大规模计算问题?

三、大数据计算服务(ODPS)进化史


原ODPS,现MAXCOMPUTE的进化史


由于诸多问题,数据应用急需改革与整合:信息重复存储、标准不一,存在很多小集群,基础建设每年需投入几十亿;而且每一块业务都可能需要淘宝的内部表,因而研发成本较高;同时信息获取时间较长,一个数据需要等半年;另外搜索数据也很困难。

1. 数据平台部成立

最终,在2012年数据平台部(CDO)成立,具体执行的工作可以总结为三个词:存、通、用。“存”将数据大集中,存入ODPS;“通”:统一规范,打通各个业务单位;“用”:推动数据开放和交换,促发展,养生态。


一切业务数据化,一切数据业务化

2. 成立ODPS

2012年,我们还计划将集团内部几十个小集群进行统一,这个任务又称登月计划到了2013年,我们决定将整个集团的业务集中在一个平台上,不仅是阿里系统可以使用,其他业务也能使用。因此我们将原本的数据仓库改名为大数据计算服务(ODPS),并将所有金融业务所需要的数据放在云端,集中到ODPS上。

3. 大数据基础设施成熟,开始创业

2015年,大数据基础设施成熟,既然阿里在数据方面有这么多的经验,有这么多的能力,我们想要将这样的能力分享给其他创业者,让普惠大数据成为现实。所谓的“普惠大数据”这个概念,可以简单表述为:让大数据为人人可用;大家用得起、用的快,用的好;生态化,要和服务商共享三年,共享一万亿的计划。

4.  数加平台推出:

此时的问题在于产品化不足:如何将这个平台商业化,将内部使用的产品调整成公共平台;产品独立部署的问题:平台与之前内部系统联系紧密,需要剥离;需要适应具体客户的需求。

最终确定了下面的解决办法:将整个平台拆小,拆分成不同功能的模块;将产品从原有系统中剥离出来;3)既然阿里擅长平台,我们先把平台做好,再与所有行业伙伴一同合作。

直到2016年1月,数加平台支持对外服务。



数加平台支持对外服务

四、数加平台提供的服务

1. 如何为客户提供服务

简单来讲有以下三点,首先是回归商业本质:每笔业务有相应的费用;其次是解决业务问题:有专门的咨询团队,必要时可以与客户面对面沟通来协同客户开发;最后,拓展自己的商业边界:从已有数据总结,发现新的商业机会。

2. 具体业务问题的解决

在缺乏精准化运营的情况下,公司在决策时只能靠猜或者靠蒙。为了解决这个问题,首先需要树立指标。

  • 例如在叫车场景中:司机和乘客两端,乘客是降低等待时长,司机是降低空驶率,需要优化这两个指标。另外,不能盲目在中间流程加内容。

从微创型小点出发,从旁路来做优化设计,这就是典型的旁路设计。比如司机现在有个单子,想要不停地接单。设计方式如下,首先是标签:司机在过去二十分钟之内接过单;其次,当前司机手头上定单的终点有人在打车。将其拆成两条规则,把类似的接力单、返程单、交接班单统统用数据描述,这就是典型的用数据进行业务的产品。


  • 例如在商业WIFI公司通过创建O2O营销平台时:首先根据客流和商铺数据挖掘人物对商铺的兴趣图谱、商铺之间的关系网;其次整合标签做多维透视,深度刻画人群画像,为商铺提供分析平台;最后使用定向运营为商铺提活动定向,精准触达目标客户。

这样一来,通过强大的分析引擎,我们支撑了分析平台的功能研发,并实现了精准定向实现用户准确触达。


3. 关于数据可视化

针对不同角色,所需要设计的内容也不同,而且要具有启发式,利于公司领导者进行决策。

五、未来展望

“技术是没有门派的,服务也是没有边界的。任何的技术的诞生都是源于最终用户的需求和服务。”当阿里云与九州云、润和软件、创客+、国家气象局、NVIDIA签署战略合作时,阿里云资深总监李津这样说道。

通过技术融合服务于用户,这是整个数加平台真正的生态价值所在,也是未来云技术的发展趋势。

大数据在各行各业都发挥着自己的作用,包括水利、气象以及未来的海洋、地震、国土等重大基础资源管理的行业和部门;还有交通、娱乐、物流、健康等创新型行业;也包含人机交互、全渠道CRM等计算机相关领域。

有了这样的生态和阿里云的数加大平台在一起,阿里云计划用3年时间吸引1000家合作伙伴入驻,能够通过数加这个平台,能够培养一千位首席数据官,更希望能培养出五万名数据科学家。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
452 2
|
7月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
202 2
|
弹性计算 分布式计算 大数据
阿里云计算平台大数据基础工程技术论文入选 VLDB 2023
近日,在 VLDB 2023 上,由阿里云计算平台大数据基础工程技术团队主导,与计算平台 MaxCompute 团队、华东师范大学数据科学与工程学院、达摩院合作的论文入选 Industrial Track
|
7月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
108 2
|
6月前
|
存储 分布式计算 专有云
MaxCompute产品使用问题之阿里公有云的数据如何迁移到阿里专有云
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
69 10
|
5月前
|
数据采集 存储 数据可视化
数加产品家族图解:一站式大数据处理与分析解决方案
数加产品家族作为阿里云一站式大数据处理与分析解决方案的重要组成部分,以其全面的功能和强大的性能,为企业提供了从数据采集、存储、处理到分析的全链路解决方案。通过图解的形式,我们深入解析了数加产品家族的各个组成部分和优势特点,展现了其在大数据处理与分析领域的独特魅力。未来,随着大数据技术的不断发展和应用场景的不断拓展,数加产品家族将继续发挥其重要作用,为企业
|
5月前
|
存储 SQL 机器学习/深度学习
阿里云数加大数据计算服务MaxCompute学习路线图:从入门到精通
将所学知识应用于实际工作中并不断进行实践和创新是提升技术能力的关键所在。用户可以结合业务需求和技术发展趋势积极探索新的应用场景和解决方案,并在实践中不断总结经验和教训以提升自己的技术水平和实践能力。
|
7月前
|
人工智能 Cloud Native 数据管理
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
众所周知,在人工智能迅猛发展的现在,在AI驱动下的数据平台,正在向一站式、智能化的方向演进,还有就是云原生+Serverless的不断深入,一站式数据平台将让数据管理开发像“搭积木”一样简单实用,以性价比更高、体验更优的云数据库服务,助推用户业务提效增速。据悉阿里云数据库正在朝着Serverless与AI驱动的方向发展,构建一站式、智能化的数据平台,这一发展趋势将为用户提供更简单、实用的数据管理开发体验,以提高业务效率和降低成本。那么本文就来分享一下如何看待阿里云数据库的这一转变,并展望云原生和Serverless对数据管理与开发的未来带来的更多可能性。
147 1
阿里云数据库:向Serverless与AI驱动的一站式数据平台迈进
|
7月前
|
人工智能 运维 数据管理
阿里云数据库走向Serverless与AI驱动的一站式数据平台
阿里云数据库走向Serverless与AI驱动的一站式数据平台
328 2
|
7月前
|
大数据 BI
阿里十年大数据专家谈“云上数据中台之道”含内部PPT
从大数据的概念被正式提出,到马云老师预言人类正从IT时代走向DT时代,大数据浪潮迭起。大数据同仁共同认知的一点是,大数据会对社会创新、产业变革、业务创新及每个人的角色定位产生近乎决定性的影响。
下一篇
DataWorks