开发者社区 问答 正文

大数据平台几种计算引擎配置和资源规划?

1、大数据平台中,mapreduce、spark、sparkstream、flink几种计算引擎配置如何规划,包括服务器的CPU要求、内存容量、网卡配置、硬盘配置等? 2、若采用yarn作为资源管理,计算引擎和yarn等管控节点的数量配比是多少?6-100台计算引擎配置7台管控引擎?还是如何?

展开
收起
游客mpsz4e2mgibqc 2021-12-24 21:36:24 749 分享 版权
阿里云 AI 助理回答

大数据平台配置规划

1. 计算引擎配置规划

  • MapReduce:

    • CPU: 中等主频,根据任务并行度和复杂度调整。通常选择与内存配比均衡的处理器。
    • 内存: 需要较大的内存容量以支撑数据处理过程中的中间结果存储,建议至少32GB起,依据作业需求可增加至64GB或更高。
    • 网卡配置: 高网络吞吐能力,支持高带宽低延迟的网络环境,如10Gbps网卡。
    • 硬盘配置: 高I/O性能的磁盘,推荐使用SSD(如ESSD云盘),用于HDFS存储,确保数据读写效率。
  • Spark:

    • CPU: 同样需要中等到高主频CPU,以加速计算密集型任务。
    • 内存: Spark对内存要求较高,一般建议至少64GB,对于大数据集或复杂运算,可能需要128GB以上。
    • 网卡配置: 与MapReduce类似,需保证高网络吞吐,10Gbps网卡是常见选择。
    • 硬盘配置: 快速的磁盘I/O,ESSD云盘为佳,尤其是当有频繁的shuffle操作时。
  • Spark Streaming:

    • 类似于Spark配置,但需额外考虑流处理的实时性要求,可能需要更优化的内存管理策略和更快的磁盘响应。
    • 网络配置上,稳定性和低延迟更为关键,以减少数据处理的延时。
  • Flink:

    • CPU: 高主频,因Flink在状态管理和窗口计算上有更高的CPU需求。
    • 内存: 较大,且需细致调优,因为状态存储在内存中,建议从64GB起步。
    • 网卡配置: 高性能网络,保障数据流的实时传输。
    • 硬盘: 高速磁盘,用于checkpoint和状态后端存储,快速恢复和持久化需求。

2. YARN资源管理与计算引擎配比

YARN作为资源管理系统,其管控节点(ResourceManager和NodeManager)的数量和配置应独立于计算引擎考虑。理想情况下,YARN的管控节点设计应确保高可用性和扩展性:

  • ResourceManager: 通常部署为HA模式,至少两台,负责全局资源分配,对CPU和内存要求不高,但需稳定可靠。
  • NodeManager: 每个计算节点上部署一个,负责本节点资源管理和任务执行监控。因此,NodeManager的数量直接与计算节点数量匹配。

关于计算引擎与YARN管控节点的比例,并没有固定的公式。通常,YARN的ResourceManager和少量备用节点足以管理成百上千的计算节点。例如,7台管控节点(包括ResourceManager HA和备用NodeManager)可以有效管理6-100台计算引擎,但这取决于具体的工作负载、集群规模、以及对故障恢复速度的需求。实际部署时,还需考虑网络架构、数据本地性等因素进行适当调整。

综上所述,配置规划需综合考量业务需求、数据量、计算复杂度及成本预算,灵活调整硬件配置和软件参数,以达到最佳性能与成本效益。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答