开源计算爱好者
使用pyspark时需要指定一个“mysql-connector-java” jar包,运行命令行如下:
/opt/apps/spark-1.6.1-bin-hadoop2.6/bin/pyspark --driver-class-path /opt/apps/apache-hive-2.0.0-bin/lib/mysql-connector-java-3.1.14-bin.jar
我碰到的场景是修改zeppline的解释器的Spark master参数为yarn-client解决的
目前还不支持方便地加载OSS中的jar包,建议执行计划中加一个hadoop作业: hadoop fs -get oss://xxx localpath绕过。
自定义解析jar需要打成一个fat包,将需要的依赖包打进去
检查OSS的endpioint是否正确
E-MapReduce产品文档https://help.aliyun.com/document_detail/28116.html?spm=5176.product9091098_28066.6.137.i8mWzk 说明了emr-sdk支持了ODPS数据源的操作接口
所以需要添加
<dependency>
<groupId>com.aliyun.emr</groupId>
<artifactId>emr-sdk_2.10</artifactId>
<version>1.1.2</version>
</dependency>
可以给ECS提工单开通高配机型。另外如果有集群需求的话可以了解下阿里云的E-MapReduce。