开发者学堂课程【大数据实时计算框架Spark快速入门:JSON数据源、JDBC数据源、standalone 集群测试3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1712
JSON 数据源、JDBC 数据源、standalone 集群测试3
内容介绍:
一、实操
一、实操
①将 spark 删掉,点代码,将它 expart 出去,导一个单独的类就行,其他通通都不用,将那个文件拖到服务器上来,但是并没有将咋包关联上,要将它放到spark集群里面去,所以让spark连接它,肯定不行,我们就要让mysql_connector连接加进去,
②然后在 master spark 或者 spark801 或者 7077 选一个模式来执行,然后再指定路径看要那个炸包在 jars 下面可以加上额外的炸包。
③最后就是你要执行程序的炸包,应该 myskill 是一个驱动的包,连接数据库,通常需要将 driver 作为驱动的炸包,还需要 class—pass 将它驱动出来,在这个地方,虽然能允许,但是如果用 class 模式来运行的话,我们就不能直接通过class_pass 来执行,因为用 standalone cluster 模式来运行,配置 spark_env.sh 里面需要多配置 一个spark classpath. 需要将炸包配置到spark_env.sh 里面去,才可以来运行 cluster 模式,将上面的模式配置成spark classpath.
那 standalone cluster 模式也能刨起来,但是会发现亚模式来刨不起来。
因为亚模式需要在 conf/spark_defaults.conf 文件里面配置spark.driver.extraClasspath=/usr/hadoopsoft/spark 和spark.executir.extraClasspath 两行,都要将mysell的链接配置起来,所以统一的方案就是在 spark—defaults.con 下面直接配置,前面所有模式都能够执行了,就不需要一一修改了,这个文件在 conf 下面有一个 templete 先 cope 再进行修改一下。
这种配置特别像 conf ,一个给 driver 配置,一个给 executor 配置将两个都配置 mysql connect 就行了,然后退出将文件远程发过去,接着运行程序了,bin/spark_submit master 用一个 collect 模式来执行接着是炸包在那个地方,需要给 class 传达参数。
因为没有连接,所以可以直接作为参数,接下来就可以跑这个程序了。