说到事务,衍生了一个问题,请教一下,像hive/mlsql/deltalake或者说spark 支持某级别事务 的意义在哪?是否会演变会支持大部分事务?
你说某级别是隔离级别吗?隔离级别越高,并发性能越弱。对于 hive spark sql 这种并发很小的情况,支持多种隔离级别意义不是很大。
平台化,让我执行完sql以后,获取输出的表或分区,对碎片文件进行合并,合并完以后任务才算执行完。最开始我们是通过质量分数强制用户自己去合并,用户很麻烦,换了这样的就解决了用户合并文件的问题。
平台化可以这么做。缺点就是用户量上来之后有并发可能问题。但是也没有什么更好的办法,都是 trade off
碎片文件比较多的时候比较花费时间。用户可以设置参数,关闭合并,避免影响下游任务运行。等表不被使用了某个时间点用户自己去合并。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。