暂无个人介绍
2020年07月
2020年06月
2020年05月
2020年04月
2020年03月
2020年02月
是的,可以大致这样理解。是行级别的,但下面存储格式基本上还是以 Parquet/ORC 列式为主;delta 小文件要及时合并的,否则性能很差。数据库这个提法不一定好,因为并不会用于 OLTP;可以说是数据仓库,OLAP 场景为主的。关于这个区别,我的一篇文章里面讲得比较细。可以看看。
https://yq.aliyun.com/articles/699919?spm=a2c4e.11153959.0.0.4f427507ntu6fX
这个问题很高级,你们是不是已经在玩了?不过工作流的定义过程里面,必然会形成各个工作流节点之间的依赖关系,定义工作流本身就是定义各个节点和他们之间的上下游关系,也就形成了这些依赖关系。如果你问的是多个工作流之间是不是还可以形成更高层次的依赖关系,我没有深入去看,感觉目前还比较早一点,不一定已经支持了。
分享里面(4月28日钉钉群分享)提到的 Hydrogen 项目就是要系统支持这些深度学习框架的。Spark 3.0 会包含进去。你找到相关 SPIP,JIRA 和 PPT 挖一下。
如果您没有使用 EMR 的统一元数据库功能,可以关闭公网 IP。
理论上可以在不破坏集群环境的前提下安装。但是这些软件的运行可能会影响到集群的稳定可靠性,不建议进行此类操作。
目前还不能支持,用户要创建 EMR 集群需要在 EMR 控制台上来创建 ECS。
EMR 支持自动续费操作,支持 EMR 和 ECS 的自动续费。
续费操作请参考集群续费。经常会有用户反馈续费了但是还是会通知说没有续费。这是因为 EMR 现在有 2 块,一块是 EMR,一块是 ECS,大部分的用户都只是续费了 ECS 而没有续费 EMR。您可以打开续费界面查看 ECS 和 EMR 到期时间。
一般是用户的按量节点数量的上限到了。ECS 根据不同用户,按量节点上限是不一样的。需要用户去申请加大。如果确认不是上述的原因,还有一种可能是用户是没有创建的机型的权限,需要去 ECS 开通这个机型的使用权限。