【转载】刚刚又传来好消息,硬核!新一代大国重器!MaxCompute

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 作者:杨国英 十年前,马云、马化腾和李彦宏坐在一起开会聊起它,马化腾说为时过早,李彦宏说没有新意,只有马云说,如果我们不做,将来会死掉!为了做它,整个公司几乎吵到分裂! 然而十年后的今天,它已经成为新一代大国重器,中国最硬核的技术,与美国巨头抗衡的唯一中国力量。

作者:杨国英

十年前,马云、马化腾和李彦宏坐在一起开会聊起它,马化腾说为时过早,李彦宏说没有新意,只有马云说,如果我们不做,将来会死掉!为了做它,整个公司几乎吵到分裂!

然而十年后的今天,它已经成为新一代大国重器,中国最硬核的技术,与美国巨头抗衡的唯一中国力量。

26205051urqn

26205052gq3m_jpeg
26205053in01_jpeg

大国之间的竞争力,是经济、军事实力等方面的竞争,从本质上来说,更是技术能力的竞争。

如果有一项技术,它短时间内不到收益,却关系着中国这个庞大消费市场的运转效率,以及许多产业的数字化转型升级;关系着数字政府的建设速度;关系着老百姓办事能从“最多跑一次”到“一次也不用跑”,你会不会投入?当然为此你要承担的是,较长的投入期,最开始像“无人区”一样的前途未卜,还被同行业者等着笑话。

大多数企业会犹豫、后退,以致丧失机会和担当,而阿里巴巴的选择不一样。

26205053a3jk_jpeg

01

人们从来不敢想象中国企业能在核心技术方面世界领先,但当这样的成绩真实的展现在我们面前,自豪感又油然而生。

7月25号,在阿里云峰会上,一组数据令人惊讶,也令人振奋:阿里云飞天大数据平台目前已经是当前国内规模最大的计算平台,可扩展至10万台计算集群(就像是把10万计算机组成一台计算机来运算),从这个角度而言已经是世界第一。它曾创下四项海量数据排序世界纪录,在阿里巴巴平台上支撑了全局数据存储和计算,单日数据处理量超过600PB。

“what’s the hell?!”几年前,不少硅谷的程序员们发现在北京时间的11月11号,有一个域名为网页链接(淘宝)和网页链接(天猫)的中国网站在这一天有惊人的量,那时候移动互联网尚未在中国全面普及,高峰时期网站的量,网站对此的应对方法,几乎是技术人员“华山论剑”一决高下的战场,神奇的是,中国程序员竟然撑住了。

26205054nrop_jpeg

但有几个人知道,如果按照以往的方式,很难再撑下去了。其中一个人就是2008年从微软研究院来到阿里巴巴的王坚。那年,淘宝用户接近1亿,这么多人的消费、支付、物流的数据在网络上穿梭,这意味着需要非常强大的技术来支撑。

但当时,世界最先进、应用最广泛的技术也快撑不住了。当时既有的Greenplum、Hadoop等开源技术,已经无法支撑阿里巴巴的庞大算力规模。

当时,大型网站往往使用“外来三件套”:IOE(IBM的小型机、Oracle的数据库、EMC的存储),这些驰骋多年的国外巨头,也在淘宝的海量用户面前败下阵来。

怎么办?满足用户需求意味着要买更多国外厂商的设备和软件许可,要花钱,要花大钱,但买的还是主动权不掌握在自己手里的国外IT企业的软件服务,安全性可控性都不好,这可持续吗?

时任阿里首席架构师的王坚判断,阿里必须解决大规模算力的瓶颈,这就是十年前阿里云成立的背景。从今天来,“买买买”剁手族所倒逼出来的,正是数字化时代里,大国核心技术之一:计算能力。中国数以亿计消费者、庞大的国内市场乃至数字政府、产业升级所需要的,需要拥有自主知识产权的超级计算平台。

2008年,阿里云带动整个阿里巴巴慢慢实现去IOE的自主技术之路。2009年,阿里云成立,阿里云飞天大数据平台起步。也是从那个时候开始,中国很多企业开始被阿里带动,开始了去IOE的自主技术之路,这场意义深远的技术革命,正是始自十年前。

2010年,在中国IT领袖峰会上,马云、马化腾和李彦宏讨论云计算的前景。“如果我们不做云计算,将来会死掉。”他认为于公(国家的计算能力)于私(阿里的发展前景)都必须要做。

马化腾认为,可能过几百年、一千年后,到“阿凡达”那种现象确实有可能,现在做云计算还是显得过早。李彦宏则直接表示,云计算是新瓶装旧酒,没有新东西。

这三个人对云计算的不同态度不仅决定这三年公司以后9年的发展,也决定了中国在云计算领域的世界位置。幸运的是阿里巴巴当时决定做云计算,中国的云计算,起步了。

26205055i127_jpeg

02

“计算”一个有几亿用户的平台不容易,更不容易的是,在这个平台高速发展的时候做彻底升级。这相当于开着飞机换螺旋桨。

“两拨人在我办公室吵,我觉得公司就像要分家了”,马云至今记忆犹新。

技术人员的分歧主要在于技术路线的选择:是选择已经比较成熟、技术人员感情很深但同时可控性、安全性成问题的Hadoop,还是另起炉灶,搭建拥有自主知识产权、能适应海量数据,安全性也更好的阿里云飞天大数据平台?

阿里技术保障部负责人刘振飞的一句话透出了这场争论背后的本质:“Hadoop的定位就是陪太子读书,而太子就是飞天大数据平台。”

当时,几家有条件的互联网公司,不少选择了稳妥但未来受限的Hadoop方案,而阿里却敢于放手一搏,选择短时间难见成效的自主知识产权的方案。

“从战略上来说,阿里云想做的事情实际上可以解读为Amazon+Google并有所超越”。当时阿里决策层的判断是,将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。阿里云必须攻克这道难关。

初心坚定则万难可破。2013年8月15日,MaxCompute(飞天大数据平台的核心技术来自自研的MaxCompute)历史性突破同一个集群内5000台服务器规模,阿里云也成为世界上第一个对外提供5K计算能力的科技公司。

这相当于什么呢?这就相当于把5000台计算机连起来,组成一个“计算机”巨来运算。2016年2月,这张网里的服务器单集群规模超过1万台,在全球范围内都寥寥可数。到现在,这个数字更新成了10万。

同时,阿里云飞天平台的运算能力也逐日攀升。阿里云飞天数据平台已经成为当前国内规模最大的计算平台,单日数据处理量从2015年100PB、2016年180PB、2017年320PB,到2018年超过600PB,仅用三年时间提升了5倍。

2015年,MaxCompute刷新“世界计算奥运会”SortBenchmark世界纪录,377秒完成100TB数据排序,打破了Apache Spark的1406秒纪录。2016年再次刷新SortBenchmark世界纪录,打破AWS(美国亚马逊云计算平台)自2014年起保持的世界纪录。

“十年苦读无人知,一朝成名天下闻”。从建立到如今达到世界领先水平,阿里云正好也经历了十年。这其中的艰难困苦,孤独和迷茫,不足为外人道。

2017年,飞天云操作系统获得中国电子学会16年来颁发的唯一一个科技进步奖特等奖。这个每一行代码都由自己敲下的大数据平台,现在服务了全球200多个国家和地区、数以百万计的政府部门和企业。

26205056ynkb_jpeg

03

硬核的核心技术,又是怎么跟每个人的日常生活、国家的产业升级发生关系呢?

“以淘宝为例,打开手机淘宝,每个人到的页面都是不一样的,这是阿里云平台每天离线计算的结果。每次输入一个搜索关键词,接下来,你下拉屏幕出现的内容都跟这个行为相关,每个人的购物喜好和变化,可以在秒级之内被计算出来。”

7月25号的阿里云峰会上,阿里巴巴CTO兼云智能事业群张建锋提到了一个细节。这让所有人明白,阿里云这项世界领先的技术,来就存在于7.21亿淘宝用户购物的滴中。

“能力这么多,怎么样让别人来更快地使用你的能力呢?”这项领先的技术的意义,当然不只是在于让7亿人的“买买买”更顺畅。从人类技术发展史来,对人类产生重大影响的技术,必须要可多行业应用,而且使用的门槛低。

一个普通的工程师也能使用这个领先的技术,不需要有非常深的人工智能知识,也能够开发大数据的应用。

最新的数据显示,重大技术的应用从来不是小打小闹,好技术都是“平易近人”,遍布在生活和生产的各个行业。

支持墨迹天气为4亿用户提供气象预报服务,每天用户询超过5亿次;

支持杭州城市大脑实时指挥1300个红绿灯路口、200多名交警,从2016年到2018年,杭州从全国最拥堵城市排行榜上下跌52名;

支持浙江最多跑一次,打通与老百姓办事最密切相关的100个事项70多亿条数据,老百姓甚至有可能一次都不跑。

除了民生和数字政府领域,在产业领域,阿里云所代表的运算能力也非常可观。

2016年阿里巴巴首次提出新零售。构建在阿里云上的盒马,门店线上订单达到70%,坪效是同业平均水平的3倍以上;

中国顶级服装企业8成与阿里云达成合作,开始新零售数字化转型。

在工业领域,阿里云的大数据处理技术帮助制造企业寻找上千个参数的最优搭配,提升制造的良品率。协鑫光伏、天合光能等行业龙头企业,都在尝试这一全新的生产模式。

截至目前,阿里云已经为民生银行、广发银行、浙商银行、南京银行、杭州银行、苏州银行、广东省农、重庆农商行等几十家银行和数千家其他金融机构提供金融智能技术。

如果说华为担当者中国从PC网络带到移动互联网时代的使命,那么阿里这样的互联网平台则担当中国产业与政府服务数字化转型的使命。

从十年前的担当,到现在中国唯一、世界第一的计算能力,由中国优秀技术人员打造的阿里云飞天平台还将在未来发挥更大价值,这群技术“疯子”创造的第一,还会创造更多奇迹。

d32a8b86d524cb1d4ebe8c6901de3e959dfcabb0_jpeg

欢迎加入“MaxCompute开发者社区2群”,点击链接申请加入或扫描二维码
https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
9天前
|
存储 人工智能 安全
喜报!阿里云荣获2024数据存储风云榜两大金奖
近日,由DOIT传媒主办的 “2024中国数据与存储峰会”在北京举行,大会期间重磅发布“2024年度存储风云榜”。经由行业大咖、技术专家及DOIT媒体三方的联合严格评审,阿里云文件存储CPFS凭借在性能、弹性、稳定安全、成本、Serverless化等多方位的持续创新获得2024年度AI存储产品金奖;阿里云云备份CloudBackup通过一系列安全可靠的企业级能力助力企业降本增效,获得2024年度数据保护产品金奖。
喜报!阿里云荣获2024数据存储风云榜两大金奖
|
架构师 前端开发 Cloud Native
国内首个开源架构治理平台 ArchGuard,专治分布式场景下各种不服
过去的 10 年间,软件的架构发生了巨大的变化,从早先流行的单体 MVC 架构,变成了所谓的 5:5 开,即分布式 vs 单体。只是呢,有大量的软件开发人员,无法看到系统的全貌,又或者是从单体的思维转变过来。于是,哪怕是在使用了微服务的情况下,但是实现的却又是一个一个的单体,只是它们变成了“分布式的单体”。
595 0
国内首个开源架构治理平台 ArchGuard,专治分布式场景下各种不服
|
机器学习/深度学习 分布式计算 DataWorks
|
存储 分布式计算 大数据
解决世界级大数据难题,阿里云自研MaxCompute再获科技大奖
5月14日,浙江省科学技术奖励大会正式召开,阿里云自研大数据计算平台MaxCompute荣获浙江省科技进步一等奖。
1917 0
|
分布式计算 大数据 MaxCompute
【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦!
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分 析处理海量数据。欢迎加入钉钉交流群11782920。
7224 0
|
新零售 人工智能 分布式计算
双11来临,阿里云大数据(数加)会出哪些绝招?
双11来临阿里云大数据数加会出哪些绝招 双11电商       一年一度的“双11狂欢节”就要到了眼看参加商家们都已经忙得不可开交备货、营销、广告、预售......以往作战一般会历经“预热”、“蓄势”、“爆发”、“返场”四个阶段前两个阶段尤其重要而眼看11
7510 0
|
人工智能 DataWorks 算法
大数据&人工智能的“淘宝平台”来了:突破围城,连接生态
概述 有人说人工智能&大数据领域是个围城,厚厚的技术门槛构成了这道城墙。懂技术的人在围城里面,懂技术的人不一定有足够的业务去施展技术。而很多有业务需求的的人被隔在围城外面,有业务需求的人又不一定有足够的技术能力。
2437 0
|
新零售 分布式计算 安全
|
分布式计算 Java 区块链
【云周刊】第172期:阿里云总裁胡晓明:"自主研发、共生共存、不碰数据是我们的三条生命线"
阿里云总裁胡晓明:"自主研发、共生共存、不碰数据是我们的三条生命线" ,Java新人必备,整理收集的一些常用Java工具,大数据计算MaxCompute北京高端峰会 ...更多精彩内容,尽在云周刊!
4456 0
|
存储 算法 数据挖掘
阿里云&数数科技联合打造新一代游戏数据分析系统正式上线
一、行业综述 随着游戏产业进入成熟期,行业竞争日益激烈,给企业的市场运营及拓展带来了极大挑战,主要体现在两方面: 1、流量质量堪忧,价格越来越高,获客成本在运营投入中的比例居高不下; 2、玩家对于品质的要求越来越高,游戏项目的生命周期越来越短,直接影响项目的投入产出比; 在这样的背景下,越来越多的公司开始重视数据化运营体系的构建,通过基于数据指导的精细化运营,替代传统的基于直觉、经验的运营模式,进而达到降低获客成本、延长项目生命周期,对各个阶段的业务走向进行精准把控的目的。
5772 0