【重磅发布】AllData数据中台核心功能:湖仓一体化平台

简介: 杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨AllData官方文档:https://alldata-document.readthedocs.io
✨AllData社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo

「 AllData数据中台 - 主页 」

「 湖仓一体化平台 - 功能描述 」

1、AllData数据同步平台基于开源项目kyuubi核心技术建设。

2、在数据同步与处理方面,湖仓一体化平台展现了其强大的实力。它能够实时捕获并同步各类数据源的变化,确保数据的及时性和准确性。同时,平台融合了Flink的流处理能力和Spark等计算引擎的批处理能力,实现了数据湖上的批流一体处理。这种处理方式不仅降低了数据处理的复杂性和成本,还提高了数据处理的效率和灵活性。

3、在生态集成方面,湖仓一体化平台与Hive、Trino、Presto等大数据主流计算引擎深度整合,为用户提供了统一的数据存储和访问接口。这种深度整合不仅简化了数据访问的复杂性,还提高了数据的可用性和共享性。此外,平台还支持多种数据源的无缝接入和统一管理,满足了企业多样化的数据需求。

4、在存储与查询性能方面,湖仓一体化平台采用了先进的存储架构和技术,如LSM树等,确保了高效的数据写入和查询性能。同时,平台还通过数据压缩和优化技术,进一步提升了存储效率和查询速度。

5、kyuubi湖仓一体化平台以其强大的功能、高效的处理能力、良好的生态集成以及卓越的存储与查询性能,成为了适用于各种大数据场景的存储解决方案。它不仅为企业提供了坚实可靠的数据基础,还为数据分析和实时计算提供了有力的支持。

「 湖仓一体化平台 - 模块功能汇总 」

0湖仓一体化平台.png

「 湖仓一体化平台 - 功能点展示 」

「 湖仓查询 」统计概览
1_湖仓查询_统计概览.jpg

「 湖仓查询 」管理中心-会话中心
2_湖仓查询_管理中心_会话中心.jpg

「 湖仓查询 」管理中心-操作中心
3_湖仓查询_管理中心_操作中心.jpg

「 湖仓查询 」管理中心-引擎中心
4_湖仓查询_管理中心_引擎中心.jpg
5_湖仓查询_管理中心_引擎中心.jpg

「 湖仓查询 」管理中心-服务端
6_湖仓查询_管理中心_服务端.jpg

「 湖仓查询 」接口文档
7_湖仓查询_接口文档.jpg

「 湖仓查询 」查询中心
8_湖仓查询_查询中心.jpg

「 湖仓查询 」查询中心-SparkSQL

from pyspark.sql import SparkSession

# 创建支持 Hive 的 SparkSession 对象
spark = SparkSession.builder \
    .appName("SparkSQLHiveQuery") \
    .enableHiveSupport() \
    .getOrCreate()

# 编写 Spark SQL 查询语句,假设存在一个名为 'your_hive_table' 的 Hive 表
query = "SELECT * FROM your_hive_table WHERE some_column = 'some_value'"

# 执行 SQL 查询,结果存储在一个新的 DataFrame 中
result = spark.sql(query)

# 显示查询结果
result.show()

# 停止 SparkSession,释放资源
spark.stop()

9_湖仓查询_查询中心_SparkSQL.jpg

「 湖仓查询 」查询中心-FlinkSQ

from pyflink.table import EnvironmentSettings, TableEnvironment

# 创建基于 Blink 计划器的批处理环境设置
env_settings = EnvironmentSettings.new_instance() \
    .in_batch_mode() \
    .use_blink_planner() \
    .build()

# 创建表环境
table_env = TableEnvironment.create(env_settings)

# 配置 Hive 连接
hive_catalog_ddl = """
CREATE CATALOG my_hive_catalog WITH (
    'type' = 'hive',
    'hive-conf-dir' = '/path/to/your/hive/conf'
)
"""
# 执行创建 Hive 目录的 SQL 语句
table_env.execute_sql(hive_catalog_ddl)

# 使用 Hive 目录
table_env.execute_sql("USE CATALOG my_hive_catalog")

# 编写 Flink SQL 查询语句,假设 Hive 中有一个名为 'your_hive_table' 的表
query = "SELECT * FROM your_hive_table WHERE some_column = 'some_value'"

# 执行查询
result_table = table_env.sql_query(query)

# 将结果转换为 Pandas DataFrame 并显示
result_pandas_df = result_table.to_pandas()
print(result_pandas_df)

10_湖仓查询_查询中心_FlinkSQL.jpg

「 湖仓查询 」查询中心-Trino

-- 首先使用 CTE(公共表表达式) subquery 计算每个客户的总订单金额
WITH subquery AS (
    SELECT 
        c.customer_city,
        c.customer_name,
        SUM(o.order_amount) AS total_order_amount
    FROM 
        hive.<your_database>.customers c
    -- 通过客户 ID 关联 customers 表和 orders 表
    JOIN 
        hive.<your_database>.orders o ON c.customer_id = o.customer_id
    -- 按客户所在城市和客户姓名分组
    GROUP BY 
        c.customer_city, c.customer_name
),
-- 接着使用 CTE rank_subquery 对每个城市的客户按总订单金额进行排名
rank_subquery AS (
    SELECT 
        customer_city,
        customer_name,
        total_order_amount,
        -- 使用 RANK() 函数为每个城市内的客户按总订单金额降序排名
        RANK() OVER (PARTITION BY customer_city ORDER BY total_order_amount DESC) as ranking
    FROM 
        subquery
)
-- 从 rank_subquery 中筛选出排名为 1 的记录,即每个城市中总订单金额最高的客户
SELECT 
    customer_city,
    customer_name,
    total_order_amount
FROM 
    rank_subquery
WHERE 
    ranking = 1;

11_湖仓查询_查询中心_Trino.jpg

「 湖仓查询 」查询中心-HiveSQL

-- 使用 CTE 对员工按部门进行薪资排名
WITH ranked_employees AS (
    SELECT 
        employee_id,
        employee_name,
        department_id,
        salary,
        -- 使用 ROW_NUMBER() 窗口函数为每个部门内的员工按薪资降序排名
        ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY salary DESC) as ranking
    FROM 
        employees
)
-- 从 ranked_employees 中筛选出排名在前三的员工信息
SELECT 
    employee_id,
    employee_name,
    department_id,
    salary
FROM 
    ranked_employees
WHERE 
    ranking <= 3;

12_湖仓查询_查询中心_HiveSQL.jpg

「 湖仓查询 」查询中心-JDBC

SELECT 
    c.customer_name,
    SUM(o.quantity) AS total_quantity,
    SUM(o.quantity * p.price) AS total_amount
FROM 
    customers c
JOIN 
    orders o ON c.customer_id = o.customer_id
JOIN 
    products p ON o.product_id = p.product_id
GROUP BY 
    c.customer_name
HAVING 
    SUM(o.quantity * p.price) > 1000;

13_湖仓查询_查询中心_JDBC.jpg

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
数据可视化 关系型数据库 MySQL
基于python大数据的的海洋气象数据可视化平台
针对海洋气象数据量大、维度多的挑战,设计基于ECharts的可视化平台,结合Python、Django与MySQL,实现数据高效展示与交互分析,提升科研与决策效率。
|
7月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
6月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
7月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
1020 0
|
4月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
390 0
|
7月前
|
存储 数据采集 监控
什么是数据中台,一文读懂数据中台核心功能
在数字化浪潮下,数据成为企业核心资产。然而,数据分散、质量参差、使用效率低等问题困扰企业发展。数据中台应运而生,作为企业的“中枢神经”,它通过整合、治理、分析和共享数据,打破信息孤岛,提升数据价值,助力企业在营销、风控、产品创新和运营等方面实现数据驱动决策。本文深入解析数据中台的概念、功能、应用场景及建设路径,帮助企业理解如何构建高效的数据能力平台,推动业务增长。
|
7月前
|
分布式计算 算法 大数据
大数据时代的智能研发平台需求与阿里云DIDE的定位
阿里云DIDE是一站式智能大数据开发与治理平台,致力于解决传统大数据开发中的效率低、协同难等问题。通过全面整合资源、高度抽象化设计及流程自动化,DIDE显著提升数据处理效率,降低使用门槛,适用于多行业、多场景的数据开发需求,助力企业实现数字化转型与智能化升级。
332 1
|
10月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
10月前
|
机器学习/深度学习 存储 分布式计算
AllData数据中台商业版1.2.9版本重磅发布
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
10月前
|
机器学习/深度学习 运维 Kubernetes
AllData数据中台升级发布 | 支持K8S数据平台2.0版本
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。

热门文章

最新文章