1、大数据平台中,mapreduce、spark、sparkstream、flink几种计算引擎配置如何规划,包括服务器的CPU要求、内存容量、网卡配置、硬盘配置等? 2、若采用yarn作为资源管理,计算引擎和yarn等管控节点的数量配比是多少?6-100台计算引擎配置7台管控引擎?还是如何?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MapReduce:
Spark:
Spark Streaming:
Flink:
YARN作为资源管理系统,其管控节点(ResourceManager和NodeManager)的数量和配置应独立于计算引擎考虑。理想情况下,YARN的管控节点设计应确保高可用性和扩展性:
关于计算引擎与YARN管控节点的比例,并没有固定的公式。通常,YARN的ResourceManager和少量备用节点足以管理成百上千的计算节点。例如,7台管控节点(包括ResourceManager HA和备用NodeManager)可以有效管理6-100台计算引擎,但这取决于具体的工作负载、集群规模、以及对故障恢复速度的需求。实际部署时,还需考虑网络架构、数据本地性等因素进行适当调整。
综上所述,配置规划需综合考量业务需求、数据量、计算复杂度及成本预算,灵活调整硬件配置和软件参数,以达到最佳性能与成本效益。