开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

请问阿里云E-MapReduce报这个错是什么原因？

展开

收起

真的很搞笑 2023-12-10 17:28:05 147 版权

阿里云 AI 助理回答

根据您提供的错误信息，虽然未明确指出具体的错误内容，但结合阿里云E-MapReduce常见问题的知识库资料，我可以为您总结可能的原因及解决方案。以下是针对不同错误场景的详细分析和处理方法：

1. RM组件OOM（Out of Memory）

如果您的错误与ResourceManager（RM）组件的内存溢出相关，可能是以下原因导致的： - 原因：RM所在节点上的线程数达到系统上限，无法创建新线程。 - 解决方法： 1. 检查当前系统的线程数限制： bash ulimit -a | grep "max user processes" cat /proc/sys/kernel/pid_max 2. 如果线程数配置过低，调整系统配置以增加可用线程数。通常小规格节点需配置数万量级，大规格节点需配置十几万或几十万量级。 3. 如果线程数配置正常，检查是否存在个别进程占用过多线程。执行以下命令查看占用线程数最多的Top10进程： bash ps -eLf | awk '{print $2}' | uniq -c | awk '{print $2"\t"$1}' | sort -nrk2 | head 格式为：[进程ID] [占用线程数]。

2. 资源本地化失败或任务日志无法采集

如果错误与资源本地化失败或任务日志采集相关，可能是HDFS配置异常导致的。 - 现象：NodeManager（NM）日志中提示java.io.IOException: Couldn't create proxy provider class org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider。 - 解决方法： 1. 开启DEBUG级别日志以定位根因： - 在Hadoop客户端命令行环境中，设置环境变量： bash export HADOOP_LOGLEVEL=DEBUG - 在Log4j配置文件末尾添加以下内容： log4j.logger.org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider=DEBUG 2. 检查是否修改过NameServices配置（如将emr-cluster修改为hadoop-emr-cluster），并确保扩容节点时使用了正确的配置。 3. 在EMR控制台的HDFS服务配置页面，检查各项配置是否正确。

3. 磁盘问题：local-dirs 或 log-dirs 不可用

如果错误与磁盘问题相关，可能是ACL规则未满足导致的。 - 现象：访问NodeManager Log页面时提示local-dirs are bad或log-dirs are bad。 - 解决方法： - 确保远程用户符合以下任一条件： 1. 是admin用户。 2. 是app owner。 3. 满足app自定义ACL规则。

4. HTTP ERROR 401 或 403

如果错误与HTTP认证相关，可能是YARN启用了Simple认证且不允许匿名访问导致的。 - 现象：访问UI或REST API时提示HTTP ERROR 401 Authentication required或HTTP ERROR 403 Unauthenticated users are not authorized to access this page。 - 解决方法： 1. 方式一：在URL参数中显式指定远程用户，例如： ?user.name=<用户名> 2. 方式二：在EMR控制台的HDFS服务配置页面，搜索参数hadoop.http.authentication.simple.anonymous.allowed，将其值修改为true以允许匿名访问，然后重启服务。

5. Flink作业相关错误

如果错误与Flink作业相关，可能是以下原因之一：

5.1 TaskManager心跳超时

原因：TaskManager堆内存不足或作业代码存在内存泄漏。
解决方法：
1. 调大TaskManager的内存配置。
2. 分析作业内存使用情况，定位内存泄漏问题。

5.2 OutOfMemoryError

原因：作业设定的内存不足，导致GC超时。
解决方法：
1. 在重新运行作业前，通过JVM参数保存HeapDump文件：
```
-D env.java.opts="-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/dump.hprof"
```
2. 在flink-conf.yaml中添加以下配置：
```
env.java.opts: -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/dump.hprof
```
3. 使用工具（如MAT或jvisualvm）分析HeapDump文件，确定问题根因。

5.3 NoSuchFieldError: DEPLOYMENT_MODE

原因：作业JAR包中引入了与集群Flink版本不兼容的flink-core依赖。

解决方法：

在pom.xml中将flink-core依赖的scope设置为provided：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-core</artifactId>
<version>1.16.1</version>
<scope>provided</scope>
</dependency>

注意：version需替换为您实际使用的Flink版本。

6. ClickHouse内存限制错误

如果错误与ClickHouse内存限制相关，可能是以下原因之一：

6.1 Memory limit (for total) exceeded

原因：内存超过了server可使用的总内存。
解决方法：
1. 在EMR控制台的ClickHouse服务配置页面，新增参数max_server_memory_usage。
2. 参数最大值为机器物理内存大小 * max_server_memory_usage_to_ram_ratio。

6.2 Memory limit (for query) exceeded

原因：内存超过了单次Query可使用的最大内存。
解决方法：
- 全局方式：新增参数profiles.<your_profile_name>.max_memory_usage。
- 针对某次会话：执行SET max_memory_usage=xxxx。
- 针对某次Query：在SQL中添加配置，例如：
```
SELECT column FROM table SETTINGS max_memory_usage=xxxx;
```

6.3 Memory limit (for user) exceeded

原因：内存超过了单个用户可使用的最大内存。
解决方法：
- 全局方式：新增参数profiles.<your_profile_name>.max_memory_usage_for_user。
- 针对某次会话：执行SET max_memory_usage_for_user=xxxx。

7. StarRocks相关错误

如果错误与StarRocks相关，可能是以下原因之一：

7.1 数据查询缓慢

解决方法：
1. 开启Profile并在StarRocks UI上查看Profile信息：
```
SET is_report_success = true;
```
2. 调整并行度：
  - Pipeline模式：
```
SET pipeline_dop = 8;
SET enable_pipeline_engine = true;
```
  - 非Pipeline模式：
```
SET enable_pipeline_engine=false;
SET parallel_fragment_exec_instance_num=8;
```
3. 查看tablet分布，建议tablet大小在1 GB~10 GB之间。