带你读《Greenplum:从大数据战略到实现》之二:建立基于大数据的高阶数字化战略

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。

点击查看第一章
点击查看第三章

第2章 建立基于大数据的高阶数字化战略

第1章介绍了ABC及其内在技术关联,重点强调了云计算在最近10年的发展给大数据系统带来的算力方面的巨大优势,进而使得机器学习与人工智能有更好的效果。云计算的按需收费特性使得普通企业也能参与到大数据和人工智能的工作中。本章中,我们继续讨论企业如何抓住大数据发展在量变到质变的阶段中的机会,建立应用、大数据和AI模型互动的高阶数字化战略。本章的讨论还是着重于商业理论层面,考虑到实际案例对于企业实战的参考意义,读者可将作者的译著《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》作为本书伴侣。原著的两位作者为世界顶级咨询公司博思艾伦(Booz Allen Hamilton)的高管,他们在实践过程中搜集和整理了大量出色的案例,可供读者参考。
在《Cloud Foundry:从数字化战略到实现》一书中,我们谈到了建立在P层云基础上的初始数字化战略。本章将深入讨论为何需要在大数据和AI上升级数字化战略以及企业如何落地基于大数据的高阶战略。

2.1 基于云原生应用的数字化战略

在《Cloud Foundry:从数字化战略到实现》一书中,我们详细讨论过计算技术中以大型机为代表的第一代平台、以PC为代表的第二代平台和以云计算为代表的第三代平台,以及三代平台的变迁之路。三代平台的技术创新催生了不同的企业数字化商业模型。PC时代和云时代的数字化商业模式的特点如表2-1所示。

image.png

三代平台各自有其代表性技术以及背后的技术支撑公司,这些公司在时代的变迁中大浪淘沙,有成功过渡的,也有退出历史舞台的,还有正在从第二代平台向第三代平台转型的,当然还有很多后起之秀(比如,在几年前,作者所在的Pivotal公司还是一个独角兽企业,而现在已经成功登录纽约证券交易所上市,从创建到上市只用了5年时间)。对第三代平台,我们解释了I层云、P层云和S层云的定义和意义,着重强调了以Cloud Foundry为代表的P层云(亦叫作云操作系统)提出的必要性,以及如何帮助企业极大地降低云原生应用的准入门槛。
在企业数字化转型的实践方面,福特公司是一个典型代表。数字原生战略的第一个阶段是通过数字应用实现数字世界和物理世界的无缝交互。第一阶段的数字化应用强调对企业的传统业务进行数字化,从而建立在数字应用上的用户交互体验。这个阶段的主要目标是快速迭代开发应用,一方面用户通过各种APP和企业交互;另一方面,企业通过应用收集运营数据和用户的数据。应用和数据之间的关联关系如图2-1所示。

image.png

这类应用的交互方式表现为云原生应用,即后端运行在云端,前端表现为iOS程序、Web程序或者微信小程序等。后端的数据层设计也相对简单,通常为单节点的MySQL或者Post-greSQL系统管理的数据库。
随着数据量的积累,企业开始进入以数据为中心的战略。按照传统方法,企业开始建立数据仓库并把业务数据拷贝到数据仓库,在数据仓库中做统计报表或者数据挖掘。数据仓库的用户通常是企业本身的决策者而非终端用户。企业决策者根据报表或者用数据挖掘所获得的洞察来判断企业产品的改进点,然后将改进后的产品和服务交付给消费者。这样一个长链式的反馈机制,不仅因为周期长而导致反馈延迟,链中各个环节都可能因信息丢失而导致机会错失甚至决策错误。为此,企业需要建立一个新型的以大数据为基础、AI驱动的数字应用开发方式。
在AI驱动的开发模式下,企业会进入如图2-2所示的应用、大数据和模型的“铁三角”运营方式。通过在应用和数据之间引入模型,可以在应用的运营过程中,让企业根据累计的数据随时进行数学模型的创建和迭代。这些模型包括高阶的分析(Analytics)模型,甚至AI模型。模型产生的智能直接输入到应用里,给用户带来更加智能的体验。例如,现在的新闻阅读终端会根据用户阅读的内容实时推荐新的阅读内容,因此每个读者看到的内容列表是不一样的。而传统的新闻客户端则是由编辑决定内容编排,编排后的内容也是“一刀切式”地推送给所有用户。

image.png

更加高级的例子就是无人驾驶等自治应用,在这类应用里,模型根据收集的数据,结合历史的标签数据,实时判断、决定应用的输出,从而呈现出智能的效果。
这其实就是数字原生战略的第二个阶段—通过大数据平台实现数据积累,并通过数学模型支撑运行,从而实现AI驱动的开发。后面我们将着重讨论这个阶段。

2.2 大数据和AI:企业未来的终极竞争点

Gartner发布的2019年十大战略性技术趋势的前三项包括自主设备、增强分析和AI驱动的开发。虽然这三个趋势看上去不尽相同,但仔细分析,它们的交集就是大数据。自主设备是AI应用的体现,现在热门的自主设备包括机器人、无人机和自动驾驶汽车等,它们都建立在AI模型之上;AI驱动的开发是指企业高阶应用融合了AI模型,应用的开发是软件开发人员和数据科学家(Data Scientist)不断交互的过程。软件开发人员负责数字化应用的迭代开发,而数据科学家负责AI模型的迭代开发。根据第1章的讨论,大数据的使用对于所有AI模型的成功都是一个极其重要的因素。所以,对于企业而言,建立一个全局性的大数据战略是在数字化世界占据一席之地的必要条件。这就像建立健康的生活习惯,虽然效果无法在一朝一夕显现出来,但长远来看一定是大有益处的。
设想在20年以后,所有企业都完成了数字化转型,建立了数字化基础设施,数据的协作方式也更加合理。那时,企业核心能力就建立在高阶数据分析能力或者创建更加精准的AI模型的能力上。
仍以我们熟悉的汽车和金融行业为例。在汽车行业,面对无人驾驶,用户不再图新鲜感,而是要切实地比较安全性。这时,即使一个车企的安全系数比另一个车企高一点点,就可能获得极大的优势。而在智能养护方面,汽车保养的报警误报率下降一点点就可能令车企占据市场先机。作为一个客运公司,能够第一时间满足用户的用车请求将成为企业的核心竞争力,调度算法不仅要在调度请求进来以后发挥作用,更要根据人群的密集度实时调配自己的车队。
金融行业在大数据和AI方面的竞争其实早就广泛展开了。对金融企业来说,由于各种投资机会稍纵即逝,因此券商和投行很早就有雇佣大量物理、数学博士作为量化分析师(Quant)的习惯。现在,通过大数据和AI,金融企业可以利用金融模型时刻计算各个公开市场资产的投资机会,获得更多收益。大数据和AI也在影响传统银行业务,例如小额贷款业务。传统的商业银行一般提供固定利息来吸引储户存款,然后利用和大企业的关系获取将贷款投资给对方的机会,并从中获益。在吸引用户储蓄方面,传统的商业银行能够成功主要是政府担保,例如在美国主要是FDIC担保。在贷款方面,传统的商业银行一般有专员进行风险评估。这种人力审核成本对于大额贷款是可以接受的,但是对于小额贷款而言是无法承受的。所以,中小企业或者个体工商户要获得传统商业银行的贷款是非常困难的,反而是存储有大量用户交易、购物和社交数据的互联网企业,通过利用大数据和机器学习模型,很容易对小额用户贷款请求进行风险评估,进而快速放款投资。另外,随着知识密集企业的兴起,传统的资产抵押融资慢慢转变为股权融资,大量的私募投资的兴起,也给商业银行获得储蓄带来挑战。大型的私募基金通常有大量的行业分析师,他们逐步建立起一个行业知识系统,对于股权融资企业的风险模型构建得越发精准。作者也曾给一些商业银行提过战略建议,建议它们围绕现有的用户(存方和贷方)数据的动态来外推那些需要股权融资的企业的风险分数,从而获得低风险投资机会,在投资有效的情况下募资也必然容易。本质上说,金融机构的主要职责是资源分配,它要获得竞争优势,势必要从上游获取资金机会并从下游获得投资机会。根据现有的用户数据,做出精度高于竞争对手的模型就可以更好地捕捉这些机会。国内不少知名的商业银行已经认识到数字化、大数据和AI带来的机会,纷纷成立科技公司从事小额贷款和私募市场投资业务。
汽车行业和金融行业因为在数字化的过程中积极建立大数据和AI战略,提供更好的产品和用户体验而为人们津津乐道。读者不妨对比一下10年前汽车没有导航和金融业没有网上银行的体验。建立在大数据和AI之上的创新是真正的技术提供生产力的代表,它带来了更多、更加公平的红利。在数字化出现之前,很多企业和个人通过信息垄断获得套利。就像荧幕上塑造的传统西方银行家的形象:一边说服VIP客户存钱,一边与VIP客户社交以获取项目投资机会。虽然我们认为这些商人通过投机取巧获得财富是不公平的,但从通过信息流动达到资源优化配置的角度上来说,这种做法似乎无可厚非。深究一下,这里的不公平实际上来自于信息获取的不对等,因为这些商人利用掌握的信息为己牟利,而非创造更好的模型来为投资方和贷款方提供更好的服务。随着数字化程度的加深,信息获取、流通和使用将不断改善,企业获得的数据更多地被提供给数据科学家用于改善企业的服务。这就是Eric Schmit在《How Google Works》一书中提到的:“以前在离交易越近的地方获取的报酬越多,现在慢慢转变为离产品越近的人获取的报酬更多。”因为前者的优势建立在信息垄断上,后者的优势建立在信息的处理和再加工上。

2.3 大数据战略的落地

如果企业在云原生数字化应用运营一段时间后,建立了持续创新的文化并积累了一定数量的数据,就可以考虑建立基于大数据且由AI驱动的高阶数字化战略。在第二代平台时代,企业部署IT系统的时候通常会有咨询公司提供同行的成熟案例。企业只要把同行成功实施的软件大体不变地安装下来,再加入少量定制功能即可。而在基于大数据和由AI驱动的高阶数字化战略中,不能照搬同行的成熟案例和经验。首先,行业领袖的数字化软件基本上是在PaaS平台自主开发的,它的软件不能被拷贝。即使可以拷贝,它的软件的升级速度也使得拷贝版本很难跟上。其次,企业的高阶数字化战略的输出通常是训练过的并且符合自身需要的数学模型的参数。即使将这些模型和参数拷贝到自己的企业,也与企业的核心优势不匹配。那么,成功地将高阶数字化战略落地的企业案例是否可以被学习呢?答案是依然可以,但需要进行更高层次的抽象,学习这些大数据企业高阶数字化战略成功背后的“元数据”。所谓元数据,是数据库里面描述其他数据的数据。本节将讨论高阶数字化战略成功背后的元数据:

  • 大数据和AI人才
  • AI驱动的开发方法和文化
  • 大数据基础设施

一旦企业建立了基于这些元数据的数字化战略,就能在基于大数据的智能应用上推陈出新并持续创新。

2.3.1 大数据和AI人才

第一阶段的数字化应用开发的主角是软件工程师。他们可以根据数字化业务的需求,在PaaS云上采用云原生的方式持续迭代应用开发。进入基于大数据和AI的高阶数字化阶段以后,企业需要引入两个新的角色:数据工程师(Data Engineer)和数据科学家(Data Scientist)。
数据工程师主要负责企业大数据基础设施的建设以及企业内部数据的收集。这个角色和传统的DBA角色类似,但是比起传统的DBA,他们管理的数据基础设施的规模更大,采集的数据量更大。更明确地说,传统DBA一般管理Oracle、MySQL和PostgreSQL等关系数据库系统下的事务型数据库,而数据工程师不仅要管理这些关系数据库,还要创建和管理Hadoop或者Greeplum等系统下的分析型大数据系统。在这些大数据系统里,还需要创建一定的数据模型来存储和管理企业的数据。这类分析型数据模型也与传统事务型数据模型有很大差别。以用户的收货地址为例,传统事务型数据模型只需捕获到用户的当前地址,而分析型数据模型通常需要捕获用户历史中所有更新过的地址。作者所在公司就有一个专门的数据工程师团队,他们帮助企业建立基于Greenplum的大数据系统,创建分析型数据模型,收集企业运营产生的数据。数据工程师的教育背景通常是计算机专业,或者受过计算机专业培训。
数据科学家对于大部分管理者而言是个全新的职能岗位。相比软件工程师和数据工程师,他们未必需要有计算机专业背景,而是可能来自于数学、统计和物理专业。其实,华尔街早年的量化分析师就算得上数据科学家,他们的主要工作就是创建各种数学模型。早期的数学模型主要建立在统计方法上面,现在的机器学习模型主要建立在大数据上。因为AI驱动的数字化战略的崛起,使得数据科学家的人才缺口急剧扩大。数据科学家作为正式的工种与大数据的概念同时产生。《哈佛商业周刊》在2012年的10月刊上曾发表过一篇名为《数据科学家:21世纪最性感的工作》的文章。文章给出了一个例子:斯坦福大学物理学博士毕业生Goldman通过自己创建的数据模型来给领英用户推荐可能认识的朋友。这个模型给出的推荐相较其他来源的内容在领英同一个页面位置的点击率要高出30%。IBM在2017发布的报告中曾预测美国的数据科学相关的岗位数量到2020年将增加364?000个,总数将达到272万以上。可见,工作岗位需求的增长速度远高于人才供给增长速度。这也使得数据科学家的薪水涨幅惊人。
对于企业而言,建设数据工程师和数据科学家团队可以从以下两方面努力:
1)选择好的大数据和AI平台,尽量平民化数据模型,降低人才的进入门槛。
2)选择合作伙伴,在实践中培养人才。作者所在公司的数据科学家团队会通过结对方式,在实践中帮助转型企业建立他们的数据科学家团队。从供给端看,高等教育机构和产业领袖应重视数据科学人才的培养,并从产业和教育的角度共同促进人才培养。
因为数据工程师和数据科学家岗位的出现,企业通常会设置首席数据官(Chief Data Off?icer,CDO)来代表数据科学家出席公司执行层的圆桌会议。CDO在公司的战略建议权很大程度上能够反映该企业所处的数字化转型的阶段。如果CDO的决策影响力很大,通常意味着该企业已进入AI驱动的阶段。后面我们将在AI驱动的公司文化中深入讨论这个问题。
最后要强调的是,这三类人才不是互斥的。优秀的软件工程师通常具有扎实的计算机科学知识的功底,他们也可能同时擅长数据工程和数据科学。但是企业要同时在这三方面下功夫。原因有以下两方面:一是这类“三位一体”的通才可遇不可求;二是即使有这样“三位一体”的人才团队,也会因为工程量巨大而不得不分而治之。因此,作者建议,在人才培养方面,团队的每个成员都要有两方面知识的重叠。例如,软件工程师要懂得数据模型,数据工程师要懂得数据科学,数据科学家要懂得应用开发。这样的配置有助于提高团队的沟通效率,也能增强团队成员之间的同理心。

2.3.2 AI驱动的开发方法和文化

AI驱动的开发方法要求应用、数据和模型三位一体地螺旋迭代上升。《Cloud Foundry:从数字化战略到实现》一书中提到的测试驱动和持续交付的方法对此同样适用。这种情况下对于产品经理的要求比较高,他需要和各个团队的技术负责人一起协调创建产品开发的任务列表(Backlog)。为了确保敏捷性,在人才配备方面,应尽量确保人才具备应用、数据和模型这三种技能中的两种。各个团队在接口方面要保证一定的稳定性,例如,在模型团队的输入/输出比较明确的情况下,应用开发团队只要根据模型的输出来决定应用的输出即可。这样用户看到的应用输出就是稳定的,随着模型团队的改进,用户会感觉到应用的输出越来越智能。比如,前面提到过的新闻阅读终端的例子,用户会看到内容的版式相对稳定。同时,因为模型团队的精度提高,每个版面的内容将越来越精准地反映用户偏好。这里提到的方法听上去不难,但是要顺利实施,让这些方法发挥出最大的效用,企业的文化土壤也需要做出相应的调整。
AI驱动的开发文化要求企业在战略决策层面加入一个新的维度,即考虑如何将建立在大数据之上的模型智能第一时间通过数字应用反馈给用户。比如,新闻阅读终端的决策者要考虑如何根据用户的历史访问数据建立模型,以通过模型在第一时间把相关的内容推荐给读者;视频内容网站也要考虑同样的问题,因为准确的内容推荐会让用户消费更多的视频。
加入一个新的维度到决策过程中听上去很容易,但实施起来却非常困难。反过来考虑,如果这个事情很容易推进,那么传统的新闻浏览终端早就自动进化到类似于头条新闻这样的新一代新闻阅读终端。传统新闻阅读终端和现代应用终端的差别就在于我们所说的新维度:新的新闻终端从创立第一天就把竞争属性建立在用户内容推荐模型上。读者可以想象一下,假设一个提供传统新闻阅读服务的公司的董事长将一个知名的数据科学家引入公司担任首席数据官,让他帮助公司建立AI驱动的新闻阅读终端。很可能他进公司的第一天就要对各个业务部门提出各种要求:

  • 新闻采编部门要对内容进行更加精细的标注。
  • 应用开发团队需要注入大量的代码来获取用户阅读行为习惯数据。
  • 数据工程团队要建立大数据基础设施以收集用户数据。
  • 数据科学家团队要建立模型对内容进行推荐,应用开发团队要根据推荐呈现内容。

这个过程不是一次性完成的,而是螺旋性迭代的。更为糟糕的时候,在看到产出之前会经历一段时间的投资,甚至影响原有新闻终端发布内容的速度。用不了多久,原有的采编部门、开发团队和数据团队就开始向董事长抱怨,一次两次董事长可能坚持下来,但如果抱怨次数太多,董事长就可能放弃AI优先的战略。然后,得出一个错误的结论:现在实施AI驱动的战略为时过早。而事实上,AI驱动的战略是正确的,只是没有落地到对应的文化土壤。
在这样一种AI驱动的文化里面,CDO要从一开始就在公司执行层的圆桌会议中有一席之地,而且其他功能的主管(CIO/CTO)一开始就要习惯照顾到CDO的诉求。从公司战略层面,如果认为大数据和AI战略是突破性创新,按照《创新者的窘境》一书中的理论,最好还是成立一家新的机构。CDO成为那家新机构负责人,和现有的高管以业务关系合作,从而保持一定独立性。如果公司从战略层面认为大数据和AI还处于连续性创新阶段,那么CDO一开始就要避免设置过高的目标。在实施深度学习之前,可以利用高级分析功能找出一些小的改进点,采用持续改进的方法让其他高管看到效果。按照《Cloud Foundry:从数字化战略到实现》的方法论,其实软件应用开发的成功率已经非常高。但是相比软件应用开发,大数据和AI项目的失败率要高很多。

2.3.3 大数据基础设施的建设

前面提到,在大数据和AI驱动的企业数字化战略中,应用、数据和模型是螺旋式上升的。在企业实施大数据和AI战略之前,还有一项必要的前期工作,那就是大数据基础设施建设。通常,企业进入第一阶段的数字化转型以后,已经有了一些云上IT基础设施,包括一些简单的应用开发运维(DevOps)环境。这里将讨论建立第二阶段的大数据基础设施的必要性和实际选型中的考虑。

1. 必要性

在讨论大数据基础设施的建设之前,我们先看看其他的物理基础设施。2008年,作者从美国回国度假,看到国内正在飞速建设高速公路和高铁的基础设施。当时正值美国房产泡沫危机,雷曼兄弟公司倒闭。作者在想:“国内这些设施的建设是以刺激经济为目标呢?还是以应用(例如电子商务和春运)需求满足为目标,或者兼而有之?”经过10年的建设,我们看到很多不可能成为可能:游客乘坐高铁可以在10个小时内从一个城市到达国内的大部分其他城市,电商的物流可以在12小时内完成产品投递(美国的亚马逊需要24~48小时)。10年前一个经营生鲜产品的企业无法想象如何在线上进行交易,而今天,生鲜产品也面临线上的激烈竞争。
在我国基础设施蓬勃发展的时候,美国的云计算基础设施也在蓬勃发展。2006年,谷歌提出云计算的概念以后,亚马逊推出了第一款公有云计算服务AWS,虽然分析界对其并不看好,但是硅谷公司确实看到了一个基础设施带来的时代变更。作者当时在甲骨文公司(Oracle)的服务器技术部门从事网格计算的资源调控(Grid Control)工作。2007年,甲骨文公司看到了时代变更,它的网格计算部门也开始大规模部署到云计算,为甲骨文云计算奠定基础。2010年,阿里云已经在虹桥机场附近树立起云计算的广告牌。现在,腾讯云、阿里云和华为云将中国云基础设施建设推向新高潮。笔者在2008年做企业调研,了解企业对于云计算的接受度时,大家普遍的观点是不会把自己的软件运行在外部。到2017年,阿里云的营收额达到了66亿人民币(美国的亚马逊云更达到了180亿美元之巨),公有云已经成为企业的影子IT部门(换言之,如果企业自己的IT部门做得不好的话,业务部门就会采购公有云)。
如果感觉现在谈公有云基础设施和交通基础设施有些事后诸葛亮的话,那么我们回归到大数据正题,它是当今世界正在发生的一场如火如荼的数字化基础设施的建设。在交通基础设施的建设上,美国的高速公路建设领先于中国,但是中国的高铁网通过跃背(leapfrog)效应领先美国;在云基础设施方面,中国的云供应商紧跟美国;而在大数据基础设施的建设上,中国则和美国齐头并进。
在前面关于ABC关系的讨论中提到过,机器学习和AI模型是一个特定类型的数学模型。这些模型随着数据量的上升,精度会相应提高。可以预见,未来企业的竞争要么基于模型,要么基于数据,要么兼而有之。一般企业不具备模型的基础理论研究能力,而且学术机构一旦在模型上有所突破就会很快向所有机构开放。所以,企业要想在机器学习的竞争中获得优势,大数据基础设施更为关键。大数据基础设施建设是企业可以操作且必须操作的。进取型企业为了在未来竞争中获得优势,已经开始脚踏实地建设大数据基础设施,这不仅有利于支持现有的机器学习应用,也为现在尚未知道的未来模型做好准备。就好像从前建设高铁和高速公路的时候,虽然没有预见到今天蓬勃发展的物流业,但是却为今天的物流创新做好了准备。
在作者接触过的中国500强企业中,大部分企业在大数据的基础设施中投入了千台以上的服务器,并且设有专门的数据基础设施团队。这些基础设施上一般运行了Greenplum和Hadoop等多个现代大数据平台软件,支持着企业业务团队的各种请求。同时,大数据基础设施也遵循独立原则,以保证数据的完整性和安全性。

2. 选型

在今天五花八门的产品和技术当中,商业决策者选择一个适合自己的技术作为基础来投资十分重要。作者在为大型公司战略层提供咨询的过程中,通常建议它们从以下几个维度考虑:

  • 硬件标准开放性
  • 软件源代码开放性
  • 原创技术团队稳定性
  • 云化

(1)硬件标准开放性
虽然技术提供方可以直接提供生产好的硬件,但是企业应该考虑是否可以获得硬件配置规格,并且这个配置规格需要建立在商品化的硬件组件上面。所谓商品化,就是可以从市场上直接购买,而非定制生产和研发。这个考量可以帮助企业避免被锁定在特定的硬件上而失去自主可控的创新能力。
(2)软件源代码开放性
这是指技术提供方给出的基础源代码是否对外开源,而且是否建立在Apache许可等比较好的开源许可上面。通常,技术提供方的兴趣主要在于获得软件许可收入,所以他们提供的服务数量有限。基于开放源代码的技术一般有庞大的服务社群,企业能够获得更加丰富的第三方支持渠道。另外,开源也能避免企业被锁定在闭源软件上,从而丧失自主可控创新能力。
(3)原创技术团队稳定性
这一点可能是当今最重要的一个考量因素。在开源和开放经济学的理念下,企业支付的软件许可费最终是为了获得原创技术团队的创新能力,或者说是企业分摊原创技术团队需要获得市场定价的成本和合理利润。但市场上的开源技术有诸多误区:
第一种误区是继承技术供应商放弃开发的开源产品。市场上的很多开源软件产品是技术供应方不再想维护,从公益的角度将源码开放出来的。这意味着原创技术团队不再持续投入。继承这样的开源代码和自己从头开发的成本几乎等同乃至更高。
第二种误区是认为知名企业的团队创建的开源项目就是好技术。很多互联网公司本身的利润来源不是软件收入,所以为了提高技术团队的实力,公司会鼓励技术团队写出好的开放性代码并提供给社区。这样的产品和代码很难长时间保持热度,随着主业产品方向的改变,代码的原创团队很可能被分配到其他项目上而不再对源代码进行维护和改进。
第三种误区就是使用社区业余爱好者发起的开源产品。大家都希望看到兴趣爱好支撑的创新,这也是一个好的起点。如果社区团队不能探索出一套稳定的自治模式,最终会失去原创团队。在一个好的自治模式下,通常会出现一个持续稳定的商业公司来支撑对应的开源产品。举个例子,Redhat和Linux社群就是一个非常健康的关系。相比之下,OpenStack技术和Hadoop技术在多年之后还没有形成一个维系原创团队持续投入的模式。
(4)云化
目前主流的大数据技术都可以直接运行在物理硬件上,而且它们通常也实现了《Cloud Foundry:从数字化战略到实现》中定义的云计算的基本功能。例如,它们实现了软硬件分离、横向水平扩展等。具体来说,像Greenplum这样的大数据系统中的任何一个物理机器故障,插入新的硬件系统都可以重构这个故障的硬件,同时业务的增长也可以通过加入更多的服务器来满足。它的缺点是企业要维护两套系统:大部分数字化应用运行在一套基于I层云和P层云的云计算系统上;大数据系统运行在几百台服务器的物理裸机上面。这种配置会导致管理成本上升。现在的主流技术供应商都把大数据系统加入云计算的PaaS层云服务里面,例如AWS的Redshift和Alibaba基于开源Greenplum的HybridDB。截至本书完稿时,这个技术变迁还在进行中。
这里作者想强调的是,不要等待技术供应商把运行在物理机器上的大数据系统向I层云上迁移而成为PaaS云技术的一部分,作为数字化转型高阶阶段的管理者要关注把PaaS云的云原生应用迁移到PaaS云的大数据上。也就是说,不是从数字化应用的需要来考虑大数据的建设,而是要考虑大数据的建设能够为应用提供的可能,从而实现从满足需求到创造需求的观念转变。

2.4 大数据和AI的展望

AI驱动的数字化文化和战略才刚刚起步,我们要清醒地认识到,现在报以重大期望的AI应用还需要一个漫长的逐步改进的过程。但是,这种文化下驱动的大数据基础设施的建设,就好像高铁网的建设,会带来很多意想不到的惊喜。
大数据基础设施用来存取企业和用户数据。企业会使用Greenplum等软件把企业的运营数据和产品服务相关的用户数据存储起来;用户个人免费或者付费使用邮件、社交和网盘等应用的时候,直接或者间接地使用了互联网公司提供的共享基础设施。当数据基础设施越来越完善,企业和用户不必再定期删除数据,也不用担心数据丢失。哪怕遇到火灾或地震这样的天灾人祸,数据都有异地灾备能力。数据的组织更加便于访问,数据的访问速度也在继续提高。消费互联网的崛起创造了大量的应用,诞生了一批新的公司,投资圈通常将其称为“互联网的上半场”。但是,地球上70%以上的数据还在各行业的企业手中,这些企业因为大数据基础设施的建设也具备了实施AI驱动的战略和文化的基础。投资圈把这个机会叫作产业互联网,也就是“互联网的下半场”。
大数据基础设施的建设不仅带来了各种AI应用的可能,也对企业文化乃至社会的生产合作方式产生了巨大的影响。读者不妨想象一下一个未来机构因为数据基础平台完善而拥有的问题求解方式和招聘方式的变化。假设一个国家的城市规划相关部门进行招聘,它可以利用大数据完成简洁而高效的面试:把一个关于城市拥堵数据模型的实际项目发布在网上,让应聘者根据现有的数据找到改善城市拥堵的方法。如果那时已经通过各种应用实现了数字世界和物理世界的数字化交互,例如红绿灯的等待时间、地铁网的车次调度、双向车道动态调配、无人公交车的时间和路线都可以通过APP设置,而数据已为政府机构所掌握。通过这些数据,面试者会发现无人驾驶车的调度总是落后于城市人群拥挤,例如凌晨两点因某个大型演出结束导致拥堵,这时调车过去就会因落后于拥挤事件而造成恶化。此时,面试者可以设计一个人群热度预测模型,提前调度无人驾驶汽车在即将发生拥堵的地方等候,从而及时疏散人群。规划部门就可以利用这个模型把大型活动和无人驾驶公交系统进行关联,从而改进交通系统。试想,能提供这种模型的应聘者还会被拒吗?而且新的模型提交到大数据基础设施平台后,交通部门可以看到立杆见影的效果。
数据基础设施的完善带来的创新敏捷性也会影响生活的方方面面。与写5万文字的文档来解释一个商业机会相比,数字工作者可以直接将5000行代码和模型加载到大数据基础设施上展现结果。大数据基础设施支撑着模型和人的协作互动,拥有数据和模型的人可以快速创造价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 数据采集 NoSQL
收藏!一张图帮你快速建立大数据知识体系
对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术,而大数据技术又涉及了分布式计算、高并发处理、高可用处理、集群、实时性计算等,可以说是汇集了当前 IT 领域热门流行的 IT 技术。本文对大数据技术知识体系进行划分,共分为基础技术、数据采集、数据传输、数据组织集成、数据应用、数据治理,进行相关的阐述说明,并列出目前业界主流的相关框架、系统、数据库、工具等。(文末福利:下载大数据知识体系图)
17289 2
收藏!一张图帮你快速建立大数据知识体系
|
6月前
|
人工智能 监控 Java
Java数字化智慧工地管理云平台源码(人工智能、物联网、大数据)
Java数字化智慧工地管理云平台源码(人工智能、物联网、大数据)
132 0
|
SQL 存储 大数据
大数据Hive函数高阶 2
大数据Hive函数高阶
52 0
|
SQL 大数据 数据挖掘
大数据Hive函数高阶 1
大数据Hive函数高阶
90 0
|
机器学习/深度学习 人工智能 Cloud Native
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
IDC认为,从提升企业中长期发展质量、降低综合投入成本的角度出发,大数据技术领域将呈现出两个显著趋势:一体化和融合化。企业应以战略和顶层设计为先导,用体系化的思维全面构建大数据能力架构,避免形成新的数据、业务和能力孤岛。 【下载地址见文末】
【大数据趋势白皮书下载】IDC: 发挥数据智能价值,推动企业数字化创新
|
机器学习/深度学习 存储 分布式计算
飞天大数据平台助力轻松筹数字化运营
本文讲述了轻松筹是如何利用阿里云大数据平台搭建低成本的数据中台,实现数据化运营。数据中台支撑了轻松筹丰富的运营活动,通过智能化的手段,为用户和企业创造了价值。
6887 0
|
数据库 NoSQL 存储
带你读《Greenplum:从大数据战略到实现》之三:数据处理平台的演进
这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
|
大数据 人工智能 云计算
带你读《Greenplum:从大数据战略到实现》之一:ABC:人工智能、大数据和云计算
这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
|
数据可视化 大数据 数据管理
下一篇
无影云桌面