轻量级云原生大数据平台"CloudEon"正式开源

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 一款基于Kubernetes的云原生大数据平台,致力于简化Kubernetes上大数据集群的运维管理,旨在为用户提供一种简单、高效、可扩展的大数据解决方案。


 随着云原生技术的发展,越来越多的业务场景需要使用容器来部署和管理应用程序,而Kubernetes作为容器编排平台的事实标准,自然也受到了越来越多的关注和使用。


但是如果想在Kubernetes上部署和运维大数据服务是有比较高的学习成本,需要专业的运维人员来进行管理和维护,在这种情况下,我们开发出CloudEon平台,致力于简化多种大数据服务在Kubernetes上的部署和管理,同时还能更好地利用Kubernetes的资源调度和管理能力,使用户更加简单、方便、高效地搭建和管理大数据集群。


特性

  • 快速搭建大数据集群:在Kubernetes上快速搭建部署大数据集群,省去了手动安装和配置的繁琐过程
  • 容器化运行大数据服务:大数据服务以容器方式运行,服务的部署和管理更加灵活和便捷,更好地利用Kubernetes的资源调度和管理能力
  • 支持监控告警等功能:帮助用户实时监控集群运行状态,及时发现和解决问题
  • 支持配置修改等功能:使用户能够更加灵活地管理和配置自己的大数据集群
  • 自动化运维:降低集群管理的难度和人力成本,提高集群的可用性和稳定性
  • 可视化管理界面:用户能够更加直观地管理和监控自己的大数据集群
  • 灵活的扩展性:提供插件机制,让用户可以自定义拓展和安装更多的大数据服务

整体架构

实现思路

轻量级应用

CloudEon是一个轻量级应用,没有采用分布式架构,本质上只是一个Kubernetes的客户端,负责将用户的操作转换为Kubernetes的资源或指令。例如,它可以调度一个大数据服务启动(如Doris)、停止某个服务角色(Dori Be)或让某个服务挂掉后自动拉起,这些都是由Kubernetes自行调度完成的。 由于CloudEon只是一个单体应用,安装部署非常简单。

部署前提

在部署 CloudEon前, 所需要准备的一些先决条件。

Kubernetes环境准备(必须)

CloudEon需要一个可访问的Kubernetes集群,目前已知支持的版本是1.21+,如果没有Kubernetes环境可以使用kubekey快速搭建一个。 也支持在k3s上部署。 container runtime目前只支持docker,后续会逐渐适配,欢迎大家一起来完善。

SSH服务准备(必须)

CloudEon需要访问Kubernetes集群中节点的SSH服务,所以必须保证网络可通

数据库环境准备(非必须)

CloudEon默认使用H2作为内置数据库,当然也支持Mysql作为数据库,可以通过修改application.properties文件进行配置


Docker部署

Cloudeon 在 dockerhub 中的公共镜像地址为peterpoker/cloudeon。如果你本地已经安装了 docker,执行以下命令可以一键安装:

docker run -p7700:7700 peterpoker/cloudeon


如果国内访问比较慢,也可以用

docker run  -p7700:7700  --name cloudeon --rm registry.cn-hangzhou.aliyuncs.com/udh/cloudeon:1.0.0

镜像启动成功后,在浏览器中访问 http://docker_ip:7700 进入登录页。镜像中提供初始账户,用户名 admin 密码 admin

配置应用数据库

在默认情况下,Cloudeon 使用内置的 H2 作为应用程序数据库。 如果将 Cloudeon 用于生产环境,建议使用 MySQL 作为应用程序数据库。配置步骤如下: 新建一个名为 application.properties 的空文件,将以下内容填写完整,然后粘贴到到文件中

# Http server portserver.port=7700spring.main.banner-mode=log
# dbspring.jpa.open-in-view=falsespring.jpa.hibernate.ddl-auto=none
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.datasource.url=jdbc:mysql://localhost:3306/cloudeon?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
spring.datasource.username=root
spring.datasource.password=root
####### flyway properties #######spring.flyway.enabled=truespring.flyway.clean-disabled=truespring.flyway.validate-on-migrate=true# Configuration for uploading files.spring.servlet.multipart.enabled=truespring.servlet.multipart.file-size-threshold=0spring.servlet.multipart.max-file-size=209715200spring.servlet.multipart.max-request-size=209715200# temporary skip circular references checkspring.main.allow-circular-references=true####### cloudeon properties #######cloudeon.stack.load.path=${cloudeon.home.path}/stack
cloudeon.remote.script.path=${cloudeon.home.path}/script
cloudeon.task.log=${cloudeon.home.path}/log
cloudeon.work.home=${cloudeon.home.path}/work
logging.config=${cloudeon.home.path}/conf/logback.xml

配置文件挂载

运行以下命令,使用新建的 application.properties 配置启动镜像

docker run -d--name cloudeon -v your_path/application.properties:/usr/local/cloudeon/conf/application.properties -p7700:7700 peterpoker/cloudeon

安装高可用HDFS使用示例:

CloudEon开源计划

  • CloudEon目前已实现在k8s上管理部署大数据服务,包括节点管理、服务角色的重启、启动、停止等操作,还可以进行服务的配置、删除、告警提示以及实时日志查看等功能。支持在Kubernetes上运行多种服务,例如hdfs、yarn、zookeeper、doris、hive、spark、dolphinscheduler、hbase、kafka、prometheus、grafana、alertmanager等。
  • 不久将支持kyuubi、Arctic、streampark、dinky、trino、alluxiio、iotdb、iceberg、kylin、seatunnel等服务在Kubernetes上运行
  • 未来将支持包括服务日志分析模块、RSS支持、集群健康分析、集群巡检功能、构建kerberos、openldap、ranger安全体系等功能。此外,还支持大数据服务客户端一键下载功能以及可视化在线SQL编辑器,并支持ARM平台

参与贡献

欢迎提交pr到Gitee或者Github参与贡献。

如果您有任何问题可以提交issue到Gitee或者Github。

如果觉得CloudEon对您有帮助,请在Gitee和Github点一下star⭐️,谢谢!


【Gitee地址】:https://gitee.com/dromara/CloudEon

【Github地址】:https://github.com/dromara/CloudEon

CloudEon官网】:https://cloudeon.top/

【CloudEon文档】:https://docs.cloudeon.top/en/latest/

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
57 1
|
3月前
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
|
27天前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
135 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
14天前
|
机器学习/深度学习 监控 搜索推荐
电商平台如何精准抓住你的心?揭秘大数据背后的神秘推荐系统!
【10月更文挑战第12天】在信息爆炸时代,数据驱动决策成为企业优化决策的关键方法。本文以某大型电商平台的商品推荐系统为例,介绍其通过收集用户行为数据,经过预处理、特征工程、模型选择与训练、评估优化及部署监控等步骤,实现个性化商品推荐,提升用户体验和销售额的过程。
54 1
|
25天前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
2月前
|
Kubernetes 监控 Cloud Native
Cluster Optimizer:一款云原生集群优化平台
**Cluster Optimizer** 是一款云原生集群优化平台,旨在通过自动化和智能化工具帮助企业降低云成本,解决云原生架构中的成本管理难题。面对资源闲置、配置不当和缺乏自动化优化机制等挑战,Cluster Optimizer能够深入分析云资源、应用和用户行为,精准识别优化机会,并给出具体建议,涵盖节点组、节点、GPU 节点、磁盘、持久卷和应用等多个维度。通过优化实例类型、自动扩缩容和资源分配,帮助企业降低成本、提升性能和效率。[点击此处](https://www.wiseinf.com.cn/docs/setup/) 免费安装和试用 **Cluster Optimizer 社区版**。
89 9
|
3月前
|
存储 边缘计算 Kubernetes
边缘计算问题之边缘计算平台建设中业务应用践行云原生体系如何解决
边缘计算问题之边缘计算平台建设中业务应用践行云原生体系如何解决
56 1
|
3月前
|
搜索推荐 OLAP 流计算
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
OneSQL OLAP实践问题之基于 Flink 打造流批一体的数据计算平台如何解决
48 1
|
3月前
|
运维 监控 Cloud Native

热门文章

最新文章