TStack运维笔记(14)- 运维管理

简介: TStack运维笔记(14)- 运维管理

1. 主机集合

主机集合,又称主机聚集,即一系列有共同属性的物理机组成的一个逻辑的小集群,通常用于更好的分配和调度计算资源。一般情况下,一个主机集合对应一个可用区域。

2. 数据中心管理

当云管平台采用云管独立部署模式时,支持多数据中心统一管理和部署。能够解决用户数据中心投入成本高、运维工作量大、扩展性差等问题,保护IT资产,提升管理和运维效率。

3. 节点管理

  • 加入集群:当集群资源不够用时,云管平台支持通过添加节点的方式进行资源扩容。新节点灌装系统并且配置完成后,可以在云管平台查看新增节点信息,此时节点显示状态为“未配置”。然后通过配置网卡、网络及硬件信息,以及加入集群操作后,将新增节点添加到集群中,进而为云管平台提供计算管理相关服务,支持业务高性能需求。
  • 激活/维护虚拟资源节点:当虚拟资源节点出现硬件问题时,对虚拟资源节点进行维护,将该节点上所有的云主机动态迁移到其它节点上。
  • 导入硬件信息:将节点的IPMI信息导入云管平台,云管平台监控节点的硬件状态,并对硬件故障进行告警。
  • 删除虚拟资源节点:当服务器出现故障或损坏的情况,通过删除节点操作将节点从注册信息库中删除。
  • 强制删除虚拟资源节点:当云管平台部署了多个数据中心,由于某种原因直接重装了某个数据中心,导致数据库有残留的节点信息。通过强制删除操作将残留的节点信息删除。
  • 设置主机别名
  • 批量导入主机别名
  • 节点高可用
  • 集群规格参数

4. 存储管理

5. Ceph存储池PG比例管理

对接超融合Ceph后,需要调整存储池比例,同时调整每个池的PG个数,使得Ceph的PG在OSD上分布更均匀,提高性能。

6. 计划任务

数据被写入了云硬盘后,可以定期创建快照作为数据备份使用。定时快照使用增量的方式创建快照,即仅创建与上一次快照相比更改了的数据,因此在数据量改动不大的情况下能够在较快的时间内完成快照的创建。尽管快照是以增量的方式保存的,但是快照删除流程不会相互制约。未删除的快照均能将云硬盘回复至该快照状态。

常见的策略:

  • 非核心业务的数据盘:可设定每周一零点进行一次自动快照备份,保存一个月后自动删除。
  • 核心业务数据盘:每个12小时进行一次快照备份,保存1周后删除。

7. Ceph管理

对当前Ceph存储中各服务器的每块硬盘健康进行监控,并将健康状态反馈到页面中,且对错误状态硬盘进行告警。

建议使用容量一直的盘来部署Ceph OSD。如果磁盘容量不同且相差很大,则需要按容量比例来设置权重。

通过图形或者列表事展示出当前所有服务器上Ceph硬盘(区分固态硬盘SSD和机械硬盘HDD的状态、硬盘空间使用率和当前健康状态情况)

8. 物理机GPU

在系统设置中开启物理节点GPU信息同步,物理节点的GPU信息将在页面中展示,包含GPU型号、PCI地址、物理节点。

9. vGPU

云管平台支持对物理GPU进行分片虚拟化,多个云主机共享物理GPU,满足客户图像视频处理、机器学习、深度学习等应用场景,实现物理GPU资源共享。

10. 透传设备管理

已有的一些物理服务器上原本挂载了USB设备,将这些服务器迁移部署到云管平台后,需要把这些USB设备映射给云主机,或者云主机需要使用USB设备,需要将插在物理服务器上USB设备映射给云主机。

常见场景:

  • 存储设备拷贝文件到虚拟机,例如U盘、移动硬盘等
  • 其它外设,如打印机,数字证书等

11. 多外网管理

运维人员添加外部物理网络后,可以通过云管平台网络管理界面激活外部网络。当某个物理网络被添加后,用户在“虚拟资源管理 > 网络 > 外部网络”界面创建该物理网络的映射。

12. 云平台物理网络互通

支持配置云平台物理网络互通,系统自动创建一个共享网格,云主机加载虚拟网卡(集群网网段或存储网段),能够访问集群网或存储网。

13. 租户网络类型管理

租户网络用于OpenStack中云主机之间的相互通信。TStack云管平台默认使用VLAN进行租户网络隔离,同时支持启用VXLAN进行租户网络隔离。用户可以根据租户网络类型的设置,选择VLAN或VXLAN创建私有网络。

14. DPDK管理

DPDK数据平面开发工具集,为IA处理器架构下用户空间高效的数据包处理提供库函数和驱动支持,它不同于Linux系统以通用性设计为目的,而是专注于网络应用中数据包的高性能处理。DPDK应用程序是运行在用户空间上利用自身提供的数据平面库来收发数据包,绕过Linux内核协议栈对数据包处理过程。加速数据的处理,用户可以在用户空间定制协议栈,满足自己的应用需求。相对传统的基于内核的网络数据处理,DPDK对从内核层到用户层的网络数据流程进行了重大突破。

DPDK功能用于加速云主机和物理主机处理网络数据包的速度。配合大页内存和CPU Affinity等一系列技术,绕过系统对网络数据包处理的繁琐过程,提升网络性能。

15. SR-IOV网络管理

SR-IOV单个I/O虚拟化。SR-IOV使一个单一的功能单元(比如,一个以太网端口)能看起来像多个独立的物理设备,即支持SR-IOV功能的物理设备能被配置为多个功能单元。

SR-IOV网络管理参数列表:

16. 大页内存管理

17. 大屏展示

系统将当前环境的健康状态通过可视化的组件展示,并生成URL地址供用户在大屏设备上访问。实施显示的动态曲线图结合不同监控项目的颜色区分,可直观告知用户当前全部资源使用状态及性能状态。且数据实时刷新。

18. 系统巡检

对整个云管平台全面进行巡检,查看集群状态,了解平台的使用情况,及时发现问题。

在巡检过程中,云管平台通常有如下操作:

19. 镜像库迁移

云管平台支持多次迁移镜像库到存储设备。后续创建的镜像文件会直接保存至共享存储,操作可以进行多次,可以将本地存储迁移到共享存储,但不能从共享存储迁回本地。

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
30天前
|
缓存 网络协议 数据安全/隐私保护
[运维笔记] - (命令).Windows server常用网络相关命令总结
[运维笔记] - (命令).Windows server常用网络相关命令总结
124 0
|
23天前
|
存储 运维 监控
「笔记」某移动 SRE 运维体系交流
「笔记」某移动 SRE 运维体系交流
|
30天前
|
存储 运维 JavaScript
[运维笔记] PowerShell (模块).模块的查找、安装、卸载、更新、保存、发布
[运维笔记] PowerShell (模块).模块的查找、安装、卸载、更新、保存、发布
43 0
|
30天前
|
运维
[运维笔记] PowerShell (模块).模块清单
[运维笔记] PowerShell (模块).模块清单
20 0
[运维笔记] PowerShell (模块).模块清单
|
2月前
|
运维 安全 数据中心
和你开玩笑了?阿里P8用这份448页IT系统运维笔记,征服你
古人云,墙高基下,虽得必失。这也正是我对IT基础架构重要性的看法。关于它的千言万语,全都汇聚在这一部——有故事、有思想、有收获、接地气儿的书中。在这个冬天,我愿邀您一起来品读书香。
|
2月前
|
运维 关系型数据库 MySQL
阿里大牛的595页MySQL笔记,透彻即系数据库、架构与运维
数据库运维的变革,经历从手工造到脚本化、系统化、平台化、智能化的转变,逐步实现DBA对数据库的规范化、自动化、自助化、可视化、智能化、服务化管理,从而保障数据库的安全、稳定、高效运行。
|
2月前
|
运维 监控
分布式运维监控平台WGCLOUD 之 【常用命令笔记】
WGCLOUD 在 v3.4.9版本 新增了一个模块【常用命令笔记】
|
3月前
|
运维 API 虚拟化
TStack运维笔记(17)-混合云设置
TStack运维笔记(17)-混合云设置
16 0
|
3月前
|
存储 运维 安全
TStack运维笔记(16)-系统设置
TStack运维笔记(16)-系统设置
30 0
|
3月前
|
运维 BI 数据中心
TStack运维笔记(15)- 运营管理
TStack运维笔记(15)- 运营管理
25 0

相关产品

  • 云迁移中心