入湖引擎使用了阿里云 EMR 团队自研的 Spark Streaming SQL 以及 EMR Spark 引擎,Streaming SQL 基于 Spark Structured Streaming,提供了相对完善的 Streaming SQL 语法,极大简化了实时计算的开发成本。对于实时增量模板,上层入湖 模板部分将入湖模板翻译成 Streaming SQL,然后提交 Spark 集群运行。我们在 Streaming SQL 里面扩展了 Merge Into 语法来支持 update、delete 操作。对于 RDS 等全量模板,则直接翻译成 Spark SQL 运行。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。