大佬们有谁用过iceberg 这个
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Iceberg 是一个开源的表格式,设计用于大规模的数据分析,特别强调数据湖场景中的可伸缩性和可靠性。它支持事务、 schema 演进以及数据版本控制,能够很好地与大数据处理引擎如 Spark 集成,适用于需要高性能读写和复杂数据管理的场景。
在阿里云E-MapReduce(EMR)集群中使用Iceberg时,您需要注意以下关键点和操作步骤:
配置命令会根据您的EMR集群版本有所不同,例如对于EMR-5.6.0及后续版本,您可以使用如下命令启动Spark SQL:
spark-sql \
--conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
--conf spark.sql.catalog.iceberg=org.apache.iceberg.spark.SparkCatalog \
--conf spark.sql.catalog.iceberg.catalog-impl=org.apache.iceberg.aliyun.dlf.hive.DlfCatalog
具体配置请参照您EMR集群的实际版本进行调整。
CREATE DATABASE IF NOT EXISTS <catalog_name>.iceberg_db;
CREATE TABLE IF NOT EXISTS <catalog_name>.iceberg_db.sample(
id BIGINT COMMENT 'unique id',
data STRING
)
USING iceberg;
综上所述,Iceberg是一个功能强大的数据湖存储格式,通过遵循上述步骤,您可以在阿里云EMR集群中有效利用其特性进行数据分析和管理。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。