问题
在EMR 5.21中,Spark-Hbase集成被破坏。
df.write.options()。format()。save()失败。
原因是json4s-jackson版本3.5.3在spark 2.4,EMR 5.21
它在EMR 5.11.2,Spark 2.2,son4s-jackson版本3.2.11中工作正常。
问题是这是EMR所以我不能用较低的json4s重建spark。
有没有解决方法?
错误
py4j.protocol.Py4JJavaError:调用o104.save时发生错误。:java.lang.NoSuchMethodError:org.json4s.jackson.JsonMethods $ .parse(Lorg / json4s / JsonInput; Z)Lorg / json4s / JsonAST $ JValue;
spark-submit --master yarn \
--jars /usr/lib/hbase/ \
--packages com.hortonworks:shc-core:1.1.3-2.3-s_2.11 \
--repositories http://repo.hortonworks.com/content/groups/public/ \
pysparkhbase_V1.1.py s3:///
快速检查SHC POM并不会直接导入json文件,因此您不能自己更改pom并构建工件。
您将不得不与EMR团队交谈,以使他们同步构建连接器和HBase。
FWIW,让jackson同步是发布大数据堆栈的重点之一,而AWS SDK更新他们每两周要求的习惯释放一个压力点...... Hadoop纯粹停止了移动到aws阴影SDK AWS工程决策为每个人定义选择。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。