TStack运维笔记(14)- 运维管理

简介: TStack运维笔记(14)- 运维管理

1. 主机集合

主机集合,又称主机聚集,即一系列有共同属性的物理机组成的一个逻辑的小集群,通常用于更好的分配和调度计算资源。一般情况下,一个主机集合对应一个可用区域。

2. 数据中心管理

当云管平台采用云管独立部署模式时,支持多数据中心统一管理和部署。能够解决用户数据中心投入成本高、运维工作量大、扩展性差等问题,保护IT资产,提升管理和运维效率。

3. 节点管理

  • 加入集群:当集群资源不够用时,云管平台支持通过添加节点的方式进行资源扩容。新节点灌装系统并且配置完成后,可以在云管平台查看新增节点信息,此时节点显示状态为“未配置”。然后通过配置网卡、网络及硬件信息,以及加入集群操作后,将新增节点添加到集群中,进而为云管平台提供计算管理相关服务,支持业务高性能需求。
  • 激活/维护虚拟资源节点:当虚拟资源节点出现硬件问题时,对虚拟资源节点进行维护,将该节点上所有的云主机动态迁移到其它节点上。
  • 导入硬件信息:将节点的IPMI信息导入云管平台,云管平台监控节点的硬件状态,并对硬件故障进行告警。
  • 删除虚拟资源节点:当服务器出现故障或损坏的情况,通过删除节点操作将节点从注册信息库中删除。
  • 强制删除虚拟资源节点:当云管平台部署了多个数据中心,由于某种原因直接重装了某个数据中心,导致数据库有残留的节点信息。通过强制删除操作将残留的节点信息删除。
  • 设置主机别名
  • 批量导入主机别名
  • 节点高可用
  • 集群规格参数

4. 存储管理

5. Ceph存储池PG比例管理

对接超融合Ceph后,需要调整存储池比例,同时调整每个池的PG个数,使得Ceph的PG在OSD上分布更均匀,提高性能。

6. 计划任务

数据被写入了云硬盘后,可以定期创建快照作为数据备份使用。定时快照使用增量的方式创建快照,即仅创建与上一次快照相比更改了的数据,因此在数据量改动不大的情况下能够在较快的时间内完成快照的创建。尽管快照是以增量的方式保存的,但是快照删除流程不会相互制约。未删除的快照均能将云硬盘回复至该快照状态。

常见的策略:

  • 非核心业务的数据盘:可设定每周一零点进行一次自动快照备份,保存一个月后自动删除。
  • 核心业务数据盘:每个12小时进行一次快照备份,保存1周后删除。

7. Ceph管理

对当前Ceph存储中各服务器的每块硬盘健康进行监控,并将健康状态反馈到页面中,且对错误状态硬盘进行告警。

建议使用容量一直的盘来部署Ceph OSD。如果磁盘容量不同且相差很大,则需要按容量比例来设置权重。

通过图形或者列表事展示出当前所有服务器上Ceph硬盘(区分固态硬盘SSD和机械硬盘HDD的状态、硬盘空间使用率和当前健康状态情况)

8. 物理机GPU

在系统设置中开启物理节点GPU信息同步,物理节点的GPU信息将在页面中展示,包含GPU型号、PCI地址、物理节点。

9. vGPU

云管平台支持对物理GPU进行分片虚拟化,多个云主机共享物理GPU,满足客户图像视频处理、机器学习、深度学习等应用场景,实现物理GPU资源共享。

10. 透传设备管理

已有的一些物理服务器上原本挂载了USB设备,将这些服务器迁移部署到云管平台后,需要把这些USB设备映射给云主机,或者云主机需要使用USB设备,需要将插在物理服务器上USB设备映射给云主机。

常见场景:

  • 存储设备拷贝文件到虚拟机,例如U盘、移动硬盘等
  • 其它外设,如打印机,数字证书等

11. 多外网管理

运维人员添加外部物理网络后,可以通过云管平台网络管理界面激活外部网络。当某个物理网络被添加后,用户在“虚拟资源管理 > 网络 > 外部网络”界面创建该物理网络的映射。

12. 云平台物理网络互通

支持配置云平台物理网络互通,系统自动创建一个共享网格,云主机加载虚拟网卡(集群网网段或存储网段),能够访问集群网或存储网。

13. 租户网络类型管理

租户网络用于OpenStack中云主机之间的相互通信。TStack云管平台默认使用VLAN进行租户网络隔离,同时支持启用VXLAN进行租户网络隔离。用户可以根据租户网络类型的设置,选择VLAN或VXLAN创建私有网络。

14. DPDK管理

DPDK数据平面开发工具集,为IA处理器架构下用户空间高效的数据包处理提供库函数和驱动支持,它不同于Linux系统以通用性设计为目的,而是专注于网络应用中数据包的高性能处理。DPDK应用程序是运行在用户空间上利用自身提供的数据平面库来收发数据包,绕过Linux内核协议栈对数据包处理过程。加速数据的处理,用户可以在用户空间定制协议栈,满足自己的应用需求。相对传统的基于内核的网络数据处理,DPDK对从内核层到用户层的网络数据流程进行了重大突破。

DPDK功能用于加速云主机和物理主机处理网络数据包的速度。配合大页内存和CPU Affinity等一系列技术,绕过系统对网络数据包处理的繁琐过程,提升网络性能。

15. SR-IOV网络管理

SR-IOV单个I/O虚拟化。SR-IOV使一个单一的功能单元(比如,一个以太网端口)能看起来像多个独立的物理设备,即支持SR-IOV功能的物理设备能被配置为多个功能单元。

SR-IOV网络管理参数列表:

16. 大页内存管理

17. 大屏展示

系统将当前环境的健康状态通过可视化的组件展示,并生成URL地址供用户在大屏设备上访问。实施显示的动态曲线图结合不同监控项目的颜色区分,可直观告知用户当前全部资源使用状态及性能状态。且数据实时刷新。

18. 系统巡检

对整个云管平台全面进行巡检,查看集群状态,了解平台的使用情况,及时发现问题。

在巡检过程中,云管平台通常有如下操作:

19. 镜像库迁移

云管平台支持多次迁移镜像库到存储设备。后续创建的镜像文件会直接保存至共享存储,操作可以进行多次,可以将本地存储迁移到共享存储,但不能从共享存储迁回本地。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
5月前
|
存储 运维 安全
2024.3.18隐语训练营第1讲笔记:数据可信流通,从运维信任到技术信任
数据二十条提出了要建立数据可信流通体系,使得数据可以安全的流转起来。但由于在数据流通中存在的各种风险,使得信任四要素全部遭到破坏,导致信任降级甚至崩塌。为了应对这些风险,要实现从运维信任到技术信任的转变,针对信任的各个要素,提出了解决方案。最后简要介绍了安全可信基础设施的融合布局。
87 3
|
5月前
|
运维 Oracle 容灾
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
Oracle dataguard 容灾技术实战(笔记),教你一种更清晰的Linux运维架构
|
5月前
|
运维 Linux Docker
Docker笔记(个人向) 简述,最新高频Linux运维面试题目分享
Docker笔记(个人向) 简述,最新高频Linux运维面试题目分享
|
22天前
|
运维 Java 关系型数据库
【Java笔记+踩坑】SpringBoot基础2——运维实用
SpringBoot程序的打包与运行、临时配置、多环境配置、日志
【Java笔记+踩坑】SpringBoot基础2——运维实用
|
2月前
|
应用服务中间件 API 网络安全
运维笔记:宿主机转发实现多容器复用CA证书
运维笔记:宿主机转发实现多容器复用CA证书
30 4
|
2月前
|
数据采集 运维 监控
运维笔记:流编辑器sed命令用法解析
运维笔记:流编辑器sed命令用法解析
45 5
|
2月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
79 1
|
2月前
|
SQL 存储 关系型数据库
运维笔记.MySQL.基于mysqldump数据备份与恢复
运维笔记.MySQL.基于mysqldump数据备份与恢复
42 0
|
5月前
|
运维 安全 区块链
隐语训练营第1讲笔记:数据可信流通,从运维信任到技术信任
数据可信流通需要从运维信任转向技术信任,需要安全可信基础设施的融合布局。
67 1
|
5月前
|
存储 运维 安全
[隐私计算实训营笔记]第一课——数据可信流通,从运维信任到技术信任
本课以数据要素可信流通,重构技术信任体系为主题,介绍了信任四要素,以及其对应破环的原因,因此需要从运维信任走向技术信任的路线,并最终完成安全可信基础设施的融合布局。 感谢授课人韦韬老师~

热门文章

最新文章

下一篇
无影云桌面