🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨AllData官方文档:https://alldata-document.readthedocs.io
✨AllData社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo
「 AIIData数据中台—主页 」
(用户需要通过浏览器访问AllData数据中台的Web界面)
「 湖仓平台中心 - 功能描述 」
1.湖仓平台中心基于开源项目Amoro建设。
2.Amoro 是基于开放数据湖格式构建的 Lakehouse 管理系统,与 Flink、Spark、Trino 等计算引擎协同,为 Lakehouse 带来可插拔、自管理的特性,提供开箱即用的数据仓库体验,帮助数据平台或产品轻松构建底层解耦、流批融合、湖原生的架构。
3. Amoro支持3种表格式
3.1 Iceberg格式:即使用Apache Iceberg原生的表格式,具有Iceberg的所有功能和特性。
3.2 Mixed-Iceberg格式:建立在Iceberg格式之上,可以加速使用LogStore的数据处理,在CDC场景下提供更高效的查询性能和流式读取能力。
3.3 Mixed-Hive格式:具有与Mixed-Iceberg表相同的功能,但兼容Hive表。支持将Hive表升级为Mixed-Hive表,升级后允许使用Hive原生的读写方式。
4.Amoro支持的引擎
4.1 Iceberg数据湖是一种用于大型分析表的高性能格式。Iceberg 为大数据带来了 SQL 表的可靠性和简单性,同时使 Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎能够同时安全地使用相同的表。
4.2 Paimon数据湖是一种 Lake 格式,支持使用 Flink 和 Spark 构建实时 Lakehouse 架构,用于流式和批处理操作。创新地结合了 Lake 格式和 LSM 结构,将实时流式更新引入 Lake 架构。
4.3 Hudi数据湖是一个开放数据湖库平台,基于高性能开放表格式构建,为您的数据湖带来数据库功能。Hudi 重新构想了缓慢的老式批量数据处理,采用强大的新增量处理框架,实现低延迟的分钟级分析。
4.4 Mixed数据湖,Amoro 支持多种混合格式处理引擎,Flink/Spark/Trino/Hive
「 湖仓平台中心 - 模块功能汇总 」
1.Amoro的核心架构组件,包括:
AMS:提供Lakehouse管理功能,如自优化、数据过期等,并为所有计算引擎提供统一的目录服务。
优化器:自优化执行引擎插件支持异步执行表的合并、排序、去重、布局优化等操作。
Terminal终端:SQL命令行工具,支持多种实现如local模式Spark和Kyuubi。
LogStore:提供毫秒到秒级的SLA,用于实时数据处理消息队列,如基于Kafka和Pulsar的消息队列。
2.Amoro支持多种表格式,包括:
Iceberg格式:使用Apache Iceberg的原生表格式,具备所有Iceberg的功能和特性。
Mixed-Iceberg格式:基于Iceberg构建,利用LogStore加速数据处理,适合CDC场景。
Mixed-Hive格式:与Hive表格兼容,支持将Hive表格升级到Mixed-Hive表格3。
「 湖仓平台中心 - 功能点展示 」
湖仓总览
湖仓探索分析-CreateTable
湖仓探索分析-DeleteTable
湖仓探索分析-EditTable
湖仓探索分析-SetProperties
湖仓探索分析-UnsetProperties
湖仓探索分析-ShowDatabases
湖仓探索分析-ShowTables
湖仓探索分析-Describe
湖仓目录管理
新建内外部数据目录
湖仓数据表管理
湖仓性能优化-湖仓数据表管理
湖仓优化器
创建湖仓优化器-FlinkGroupPro
创建湖仓优化器-SparkGroupCenter
湖仓优化器组
湖仓优化器组-添加组
湖仓优化器组-编辑组
系统设置
容器设置
「 湖仓平台中心 - 使用注意事项 」
1.数据质量与校验
设置数据校验规则来检查数据的完整性、一致性和准确性。使用查询语句来删除重复数据、修正错误数据和填充缺失数据。
2.实时监控与日志记录
实时监控查询任务的执行状态,确保数据查询的及时性和准确性。记录查询日志,以便在出现问题时进行故障排查和性能优化。
3.持续学习与改进
随着业务需求的变化和技术的不断发展,持续学习和掌握新的查询工具和技术是非常重要的。定期评估和优化查询性能,确保数据查询的高效性和稳定性。