暂无个人介绍
2020年02月
哈喽,其实我建议使用EMR,半托管的方式搭建。方便高效。
有一个使用平台的问题,因为首先这个是最早,开源,且相对来说最完善的开发场景,所以开发者,贡献者都多,导致你换工作的成本也相对较低。
是否有前置nginx,看一下access日志信息。
如果是ide开发,可以debug里面看线程和使用,如果是线上环境推荐使用Arthans在线debug。
sql的子查询嵌套很耗时,不走索引的,建议通过join的方式进行查询
sql的子查询嵌套很耗时,不走索引的,建议通过join的方式进行查询
先确认一下表是否分库分表,然后可以加一下id范围,比如 select count(1) FROM table WHERE id < 10000; 看一下是否正常
建议借助于DataWorks,数据集成同步的功能,可以指定partition的导入导出。
大数据开发,是指数据开发,还是开发大数据相关产品,如果是数据开发,可能需要更多侧重于SQL,统计信息的学习,如果是数据产品开发,偏底层或者上层,底层的话研究hadoop或者flink,应用层的话可以看一下BI类,DataWorks这类产品
看您的适用场景具体如何,比如数据是否敏感,网络环境是否打通等,如果内部条件允许,建议使用集团内的DataWorks或者Dataphin,如果数据都在公有云只能使用公有云的Dataworks
-------------------------
总的来说还不错,但是也要看方向。
去创业公司用的比较多,毕竟上手快,迭代快,产出快
大公司还是比较喜欢java等体系东西
做算法或者数据相关,python还是比较吃香的