离线计算部分,Nox 主要使用了 MaxCompute。几乎使用了 MaxCompute 来解决各类数据计算问题,BI 数据、广告报表、反作弊、标签抽取、特征数据计算、统一用户标识、爬虫数据处理等。其实在一开始,Nox 也是自建 Hadoop 集群,购买了阿里云的 ECS 搭建集群,从最开始的 6 台一直到后来的十几台,这时候实在扛不住了,机器经常宕机,因为使用的是 Spark,因此内存很容易占满,某一天用户突然多了,数据就没了。此外,这样的成本也非常高,因为当时主要运行 BI 数据,所以基本上都是在晚上运行的,而白天机器则处于空闲状态,因此成本很高。
后来采用了 EMR 的按量付费集群,晚上申请之后跑数据,但是白天能够释放掉,但是这样的过程则是比较漫长的,需要 10 到 20 分钟。后来 Nox 开始接触到 MaxCompute,使用起来非常好,其带来了很多优势。首先,不再需要运维集群了,此外其计算速度很快,虽然说 Spark 的计算速度很快,但是小集群的 Spark 和大集群的 Hadoop是无法比拟的,所以大集群的 Hadoop 其实计算速度是很快的。MaxCompute 是真正的按量付费,因此成本也能够大大降低,而自建 Hadoop、使用 EMR 以及使用 MaxCompute 的成本是成量级降低的。差距也是非常大的。主要使用 SQL 开发,效率比较高,也便于调试,文档也比较清晰。此外,MaxCompute 还提供了一个还不错的调度系统,如果是自己搭建这样调度系统还是比较困难的。
以上内容摘自《5天入门视觉AI》电子书,点击https://developer.aliyun.com/topic/download?id=31可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。