轻量级云原生大数据平台"CloudEon"正式开源

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 一款基于Kubernetes的云原生大数据平台,致力于简化Kubernetes上大数据集群的运维管理,旨在为用户提供一种简单、高效、可扩展的大数据解决方案。


 随着云原生技术的发展,越来越多的业务场景需要使用容器来部署和管理应用程序,而Kubernetes作为容器编排平台的事实标准,自然也受到了越来越多的关注和使用。


但是如果想在Kubernetes上部署和运维大数据服务是有比较高的学习成本,需要专业的运维人员来进行管理和维护,在这种情况下,我们开发出CloudEon平台,致力于简化多种大数据服务在Kubernetes上的部署和管理,同时还能更好地利用Kubernetes的资源调度和管理能力,使用户更加简单、方便、高效地搭建和管理大数据集群。


特性

  • 快速搭建大数据集群:在Kubernetes上快速搭建部署大数据集群,省去了手动安装和配置的繁琐过程
  • 容器化运行大数据服务:大数据服务以容器方式运行,服务的部署和管理更加灵活和便捷,更好地利用Kubernetes的资源调度和管理能力
  • 支持监控告警等功能:帮助用户实时监控集群运行状态,及时发现和解决问题
  • 支持配置修改等功能:使用户能够更加灵活地管理和配置自己的大数据集群
  • 自动化运维:降低集群管理的难度和人力成本,提高集群的可用性和稳定性
  • 可视化管理界面:用户能够更加直观地管理和监控自己的大数据集群
  • 灵活的扩展性:提供插件机制,让用户可以自定义拓展和安装更多的大数据服务

整体架构

实现思路

轻量级应用

CloudEon是一个轻量级应用,没有采用分布式架构,本质上只是一个Kubernetes的客户端,负责将用户的操作转换为Kubernetes的资源或指令。例如,它可以调度一个大数据服务启动(如Doris)、停止某个服务角色(Dori Be)或让某个服务挂掉后自动拉起,这些都是由Kubernetes自行调度完成的。 由于CloudEon只是一个单体应用,安装部署非常简单。

部署前提

在部署 CloudEon前, 所需要准备的一些先决条件。

Kubernetes环境准备(必须)

CloudEon需要一个可访问的Kubernetes集群,目前已知支持的版本是1.21+,如果没有Kubernetes环境可以使用kubekey快速搭建一个。 也支持在k3s上部署。 container runtime目前只支持docker,后续会逐渐适配,欢迎大家一起来完善。

SSH服务准备(必须)

CloudEon需要访问Kubernetes集群中节点的SSH服务,所以必须保证网络可通

数据库环境准备(非必须)

CloudEon默认使用H2作为内置数据库,当然也支持Mysql作为数据库,可以通过修改application.properties文件进行配置


Docker部署

Cloudeon 在 dockerhub 中的公共镜像地址为peterpoker/cloudeon。如果你本地已经安装了 docker,执行以下命令可以一键安装:

docker run -p7700:7700 peterpoker/cloudeon


如果国内访问比较慢,也可以用

docker run  -p7700:7700  --name cloudeon --rm registry.cn-hangzhou.aliyuncs.com/udh/cloudeon:1.0.0

镜像启动成功后,在浏览器中访问 http://docker_ip:7700 进入登录页。镜像中提供初始账户,用户名 admin 密码 admin

配置应用数据库

在默认情况下,Cloudeon 使用内置的 H2 作为应用程序数据库。 如果将 Cloudeon 用于生产环境,建议使用 MySQL 作为应用程序数据库。配置步骤如下: 新建一个名为 application.properties 的空文件,将以下内容填写完整,然后粘贴到到文件中

# Http server portserver.port=7700spring.main.banner-mode=log
# dbspring.jpa.open-in-view=falsespring.jpa.hibernate.ddl-auto=none
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.datasource.url=jdbc:mysql://localhost:3306/cloudeon?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
spring.datasource.username=root
spring.datasource.password=root
####### flyway properties #######spring.flyway.enabled=truespring.flyway.clean-disabled=truespring.flyway.validate-on-migrate=true# Configuration for uploading files.spring.servlet.multipart.enabled=truespring.servlet.multipart.file-size-threshold=0spring.servlet.multipart.max-file-size=209715200spring.servlet.multipart.max-request-size=209715200# temporary skip circular references checkspring.main.allow-circular-references=true####### cloudeon properties #######cloudeon.stack.load.path=${cloudeon.home.path}/stack
cloudeon.remote.script.path=${cloudeon.home.path}/script
cloudeon.task.log=${cloudeon.home.path}/log
cloudeon.work.home=${cloudeon.home.path}/work
logging.config=${cloudeon.home.path}/conf/logback.xml

配置文件挂载

运行以下命令,使用新建的 application.properties 配置启动镜像

docker run -d--name cloudeon -v your_path/application.properties:/usr/local/cloudeon/conf/application.properties -p7700:7700 peterpoker/cloudeon

安装高可用HDFS使用示例:

CloudEon开源计划

  • CloudEon目前已实现在k8s上管理部署大数据服务,包括节点管理、服务角色的重启、启动、停止等操作,还可以进行服务的配置、删除、告警提示以及实时日志查看等功能。支持在Kubernetes上运行多种服务,例如hdfs、yarn、zookeeper、doris、hive、spark、dolphinscheduler、hbase、kafka、prometheus、grafana、alertmanager等。
  • 不久将支持kyuubi、Arctic、streampark、dinky、trino、alluxiio、iotdb、iceberg、kylin、seatunnel等服务在Kubernetes上运行
  • 未来将支持包括服务日志分析模块、RSS支持、集群健康分析、集群巡检功能、构建kerberos、openldap、ranger安全体系等功能。此外,还支持大数据服务客户端一键下载功能以及可视化在线SQL编辑器,并支持ARM平台

参与贡献

欢迎提交pr到Gitee或者Github参与贡献。

如果您有任何问题可以提交issue到Gitee或者Github。

如果觉得CloudEon对您有帮助,请在Gitee和Github点一下star⭐️,谢谢!


【Gitee地址】:https://gitee.com/dromara/CloudEon

【Github地址】:https://github.com/dromara/CloudEon

CloudEon官网】:https://cloudeon.top/

【CloudEon文档】:https://docs.cloudeon.top/en/latest/

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
438 4
|
10月前
|
Kubernetes Cloud Native 开发者
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
310 61
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源:云原生数据库的新篇章
阿里云自研的云原生数据库PolarDB于2023年5月正式开源,采用“存储计算分离”架构,具备高性能、高可用及全面兼容性。其开源版本提供企业级数据库解决方案,支持MySQL、PostgreSQL和Oracle语法,适用于高并发OLTP、核心业务系统等场景。PolarDB通过开放治理与开发者工具构建完整生态,并展望更丰富的插件功能与AI集成,为中国云原生数据库技术发展贡献重要力量。
709 17
|
8月前
|
人工智能 Cloud Native 虚拟化
VMware vSphere 7.0 Update 3v 下载 - 数据中心虚拟化和云原生平台
VMware vSphere 7.0 Update 3v 下载 - 数据中心虚拟化和云原生平台
2127 4
|
9月前
|
人工智能 Cloud Native 虚拟化
VMware vSphere 7.0 Update 3u 发布 - 数据中心虚拟化和云原生平台
VMware vSphere 7.0 Update 3u 发布 - 数据中心虚拟化和云原生平台
314 0
VMware vSphere 7.0 Update 3u 发布 - 数据中心虚拟化和云原生平台
|
运维 Cloud Native Serverless
Serverless Argo Workflows大规模计算工作流平台荣获信通院“云原生技术创新标杆案例”
2024年12月24日,阿里云Serverless Argo Workflows大规模计算工作流平台荣获由中国信息通信研究院颁发的「云原生技术创新案例」奖。
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
866 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
SQL 运维 大数据
轻量级的大数据处理技术
现代大数据应用架构中,数据中心作为核心,连接数据源与应用,承担着数据处理与服务的重要角色。然而,随着数据量的激增,数据中心面临运维复杂、体系封闭及应用间耦合性高等挑战。为缓解这些问题,一种轻量级的解决方案——esProc SPL应运而生。esProc SPL通过集成性、开放性、高性能、数据路由和敏捷性等特性,有效解决了现有架构的不足,实现了灵活高效的数据处理,特别适用于应用端的前置计算,降低了整体成本和复杂度。
|
人工智能 Cloud Native 算法

热门文章

最新文章