《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (1) https://developer.aliyun.com/article/1228533?groupCode=ClouderaCDP
一、 CDH/HDP 平台现状
4. Cloudera 产品许可证变化
Cloudera 在两家公司合并完之后,将产品许可证也做了一些调整,使得它更加类似于成熟的 Red Hat 的开源模型。
首先,所有的产品源都是符合 OSI 批准的许可证,包括 Apache 的开源许可证和AGPL 的许可证。其次,从 2019 年 11 月 Cloudera 再发布的所有产品不再提供社区版,只有企业版,用户需要订阅才能正常下载和使用 Cloudera 发布的产品。但它还是会提供试用版,60 天的试用期,使得用户可以做功能的验证和尝试。
从 2021 年 1 月份开始,Cloudera 还把以前对外公开的 CDH/HDP 所有版本都拿到了 Paywall,使得用户都需要订阅 Cloudera 产品,获取到对应的授权才能下载。
对大家来说,这听起来是一个坏消息,其实也不尽然。为什么呢?接下来我们来分析一下国内大数据生态的供应商情况。
5. 国内大数据生态挑战
大家对 Hadoop 已经比较熟悉了,大家可以到 Hadoop 官网随便下载和使用,在我们的传统思维中,门槛很低,基本上是免费。但大家只考虑了软件获取成本,而忽略了软件使用成本和后续的运营成本。
据信通院在 2019 年 6 月数据整理,当时国内有 39 家基于 Hadoop 的平台供应商,这些供应商里面有 70%多是基于 Cloudera 的 CDH 和 HDP 的社区版封装成产品来提供给用户的,有 24%是基于 Apache 封装,还有一家自研的产品。大部分供应商基本都是在 CDH/HDP 社区版进一步封装,同时替换掉CDH/HDP 的 Logo,就发布出来自己的版本。这种行为对用户和这些供应商有什么挑战?
Cloudera 的许可证模式变更之后,再把 CDH/HDP 的 logo 替换掉,是商业盗版行为,面临商业合规的风险。
那么,直接使用 Apache 的版本进行封装是否可以?可以,但可能存在如下风险:
• 风险 1
在于国内大部分供应商没有足够的 Apache 的 PMC 和 Committer 资源,导致出现问题之后不能够快速定位问题,只能依靠自己的经验去猜,或到社区上去获取对应的支持,这必然没办法满足企业对应用 SLA 的需求。
• 风险 2
这些供应商没有足够的 Hadoop 平台开发的资源,也就没有足够的能力和权限进行Apache 社区的代码修复。为了维护产品,就会出现产品分支,供应商需要维护多个不同的版本,容易造成维护混乱和功能不一致。使用这样的产品,使得大部分非互联网企业需要享受互联网企业的试错待遇,而同时又没有办法满足他们的 SLA,导致他们没有办法去上 A 类应用来满足它的使用需求。同时随着国家对安全漏洞的安全要求增强,大部分企业没有办法跟踪和解决 CVE 相关的安全审计,因为这些厂商不了解第三方库如何引用,不知道下一代产品如何更新。特别重要的是,金融业客户没有办法面对“护网”的工作需求。
我们时不时会接触到护网行动,在护网行动中会扫描出一大堆安全漏洞。而这些安全漏洞是需要对应厂商来提供解决方案的,不了解 CVE 的厂家是没有办法对此提供支持的。最近爆发的 Log4J 的 CVE-2021-44228 对于这类供应商就是一个巨大的挑战。
把整个中国大数据生态分析下来,我们会发现,Hadoop 使用的门槛很低,但是我们没办法真正把它运用到生产上,因为国内的厂商,没有办法去提供足够的支撑该平台可以运行在生产上。可是,Hadoop 平台作为比 RDBMS 更新的一代平台,能够解决我们很多问题,这时候我们要怎么办?是不是就放弃?答案是:否。
我们还有全球公司可以来提供支持,例如 Cloudera 就可以提供这种专业的平台服务支持。Cloudera 的 CDP 里面涉及 39+个 Apache 的开源组件,拥有超过 30 个组件的控制权,使得 Cloudera 可以修改里面的一些安全漏洞 CVE 和 bug,也可以增加新功能和性能增强等等。对于其他组件,也有 PMC 和 Committer 来保证代码修复的权利。
第二,Cloudera 可以决定未来产品发展的路线。我们会根据社区的反馈,和对新产品新功能研究创新,来决定对哪一些组件进行引入,对哪些组件选择废弃。
第三,Cloudera 因为有足够的 PMC 和 Committer,可以自行决定第三方库的引用和替换,使得用户可以放心地使用。当然这只是产品平台的一个能力,只有这些还不够。
此外,Cloudera 还有完善的 400 售后支持体系,Cloudera 在中国有 30 多人的中文售后支持团队,可以支持整个中国甚至包括部分东南亚的售后。同时 Cloudera 在全球有 10 来个售后支持中心可以提供 7×24 小时售后服务。
对于企业来讲,要把关键的应用上到生产里,也需要完善的安全解决方案。Cloudera为此提供了业界最完整最成熟的安全解决方案,来帮助用户满足安全合规需求。
6. 自研用户的压力
大数据平台除了向第三方厂商购买之外,还可以进行自研。那么自研的成本或者价值估算怎么样,我们这里用一张图表来进行说明。
自研的话,需要 30 到 50 人来完成整个平台的构建、组件的升级、安全的实施以及平台使用的支持。目前国内有这种能力的工程师成本需要人民币 30~50 万元左右/人/年,每年会需要 200~400 万美金的人工成本,这对于大部分企业来说还是比较高的。
如果使用 Cloudera 订阅,费用会是怎么样?
假设我们使用 50 个节点的列表价来计算,差不多是一年 50 万美元左右。在这每年50 万美元的订阅费用里面我们能获取到什么?第一个是产品的使用支持,Cloudera有庞大的工程师团队和 Apache 的 PMC、Committer 能够支持企业产品的创新和更新;同时还有 300 多个技术支持专家可以提供 7×24 小时售后支持,有专业的知识库帮助我们快速解决问题,还提供了知识库等其他增值服务。这对于大部分厂商来说这是一个成本更低、风险更小的解决方案,同时让员工主要做业务应用,可以创造更大的业务价值。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (3) https://developer.aliyun.com/article/1228530?groupCode=ClouderaCDP