基于KVM的H3C云计算平台CAS的一些运维经验

简介: 前言 在写本文时,CAS版本为3.0 (E0306H23),虚拟机操作系统主要以CentOS Linux 7.2.1511Minimal为主,有少部分Windows Server 2008 R2(包括标准版和企业版)、Windows Server 2003(包括标准版和企业版)、CentOS7.3、CentOS7.4、CentOS6.X。

前言

在写本文时,CAS版本为3.0 (E0306H23),虚拟机操作系统主要以CentOS Linux 7.2.1511Minimal为主,有少部分Windows Server 2008 R2(包括标准版和企业版)、Windows Server 2003(包括标准版和企业版)、CentOS7.3、CentOS7.4、CentOS6.X。

一、资源调整

(一)CPU

1.虚拟机在运行时,CPU的核数是不能进行调整的,只能调整CPU的个数。并且,个数只能增加不能减少。大部分虚拟机支持CPU个数热添加,有少部分虚拟增加CPU资源之后机需要重启。CentOS7.2-1511系统CPU资源在线添加之后立即生效。

2.CPU核心总数=CPU个数*每个CPU的核心数,CAS的CPU核心数是指每个CPU的核心数。

3.CAS平台的CPU是可以超额分配的。一般情况下,不需要绑定物理CPU。

(二)内存

1.在修改内存时我们会看到:“若虚拟机处于运行或者暂停状态,修改内存预留后,必须重启虚拟机才能生效,且修改后的内存值必须大于原内存大小”。实际在操作过程中是这样的,对于在线的虚拟机,增加虚拟机内存后是实时生效的,不能在线减少内存。如需减少内存资源配置,那就需要关闭虚拟机修改数值之后,再次启动。

2.虚拟机一般情况下内存不设预留值。

3.CAS的内存不能超配。如果CAS系统开启了系统预留内存,那么就必须保证至少剩余宿主机总内存的10%左右的预留值。主机内存预留值不足的情况下虚拟机是无法正常启动的,遇到紧急情况,可以暂时关闭CAS系统的主机内存预留,一小段时间后,启动虚拟机之后再开启主机内存预留。

(三)磁盘

1.关于磁盘的修改,系统提示:若虚拟机处于运行或者暂停状态,修改缓存方式、存储大小(对于支持Virtio磁盘在线扩容的虚拟机操作系统,Virtio磁盘在线扩容后无需重启虚拟机)、限制I/O速率(读/写)、限制IOPS(读/写)后,必须重启虚拟机才能生效 。由于新建虚拟机时一般都采用高速智能硬盘,因此是可以在线增加磁盘容量,无需重启系统的。

2.磁盘容量只能增加,不能减少,每次操作的时候需要谨慎考虑,不要过分浪费资源。

3.对于一些P2V、V2V迁移过来的虚拟机,有些硬盘接口需要特别考虑。

4.在CAS平台增加磁盘资源后,需要回到虚拟机操作系统对新分配的磁盘资源进行分区、挂载、LVM操作。目前一般使用LVM对磁盘进行管理,如遇特殊情况还需特别处理。

(四)网络

1.虚拟机创建时就要注意选择正确的虚拟交换机、网络策略模板。

2.一些特殊的网卡设备,还需对应型号进行设置。

3.如果是克隆过来的虚拟机,那么需要特别注意MAC地址。MAC地址出现冲突时,关闭虚拟机,更新MAC地址后再次启动虚拟机操作系统,系统启动后检查其他网络配置。其他网络配置无误,网络依然不通,则需要找出多余的网卡网络配置,删除或者更新配置文件内容,偶尔还需要手动更新MAC地址。此部分可以使用NetworkManager来进行操作。

4.虽然NetworkManager已经厂商设置开机启动,但是该工具并不能正常开机启动,使用NetworkManager时,必须先启动再使用。这一部分最常用的的命令为:mntui,网络配置、主机名修改等都非常有用。

二、运维要点

1、如果CVM进行过更改,那么更改完成之后第一件最重要的事是要检查CVM上的NTP服务,查看配置文件,时钟源配置是否正确,同步是否正常。CVM的DNS也是必须配置的项目,配置完成以后务必检查是否生效。CVM的状态、NTP服务、CVM的DNS解析是日常重点监控的对象,需要格外注意!

2.把CAS的CVM设置成主NTP。

3.虚拟机创建完成后,第一件事是卸载虚拟机自带的NTP软件,CentOS7.2无需操作,CentOS7.4自带了chrony的NTP服务软件,需要卸载,卸载完成安装CAStools后开启时间同步。由于CentOS7.3是奇数版本,日常较少使用,此处需要综合CentOS7.2和CentOS7.4进行考虑。Windows系统同样,关闭NTP同步,安装CAStools,开启时间同步。

4.对于新安装的CVK主机,安装完之后第一件事是对系统进行升级,必须保持版本与CVM一致,升级完毕之后才能将CVK主机增加到CAS平台被CVM管理。

5.为了降低物理主机宕机、重启造成的影响,需要在虚拟机上设置“主机启动后,自动启动虚拟机”,具体操作步骤为:修改虚拟机->更多->引导设备-自动启动-是。

6.CVK、CVM的安装过程中,需要主要的是,磁盘分区选择整块硬盘LVM管理,以便后期扩展磁盘空间。

7.CAS平台的虚拟机迁移不支持无中断业务迁移模式,在线迁移会造成虚拟机状态暂停,迁移完成之后部分服务可能需要重启。迁移都会造成业务中断,需要特别注意。但是可以采取克隆、切换业务的方式来减低业务中断带来的风险,需要具体情况具体分析。

8.CentOS7.4自带了firewalld防火墙,并且厂商预置状态为开机自动启动,很多时候端口不通的原因就来源于此,日常运维中注意即可。

9.Windows Server 2008 R2标准版增加内存需要关闭主机。常规的在虚拟机操作系统内关机的方式并未结束CVK上的相关虚拟机的进程,需要使用系统的关机菜单进行关机之后,修改内存重启,这样,新增的内存才能被系统正常使用。具体流程为:关闭(CAS主控制面板)->修改内存->启动虚拟机,企业版则不需要如此操作,增加后直接生效。

10.CVM配置文件的备份。这是一个很重要的操作,原则上每周至少备份一次,并且需要注意保持异机备份。每次版本升级之前必须进行备份,并且将备份文件保存到CAS系统以外的存储上。养成每次版本升级后系统确认无误后第一时间备份配置文件的习惯。

11.在虚拟机迁移之前需要在目标主机配置好虚拟交换机网络配置。如果使用网卡聚合功能,则需要提前在对应的网卡上进行相关的网络配置操作。

三、总结

1.本文是在本人运维H3C的CAS平台半年以后总结出来的经验,本着对自己或读者负责的态度,在写作本文时又进行了再次验证,但疏漏之处无法避免,希望诸位发现问题后第一时间告知本人,本人会在第一时间内完成验证并更正。

2.由于截图太浪费时间,本文无截图,敬请谅解。因为我是这样觉得的:能点进此文来的朋友应该都比较熟悉CAS云计算平台,很多地方只需点到为止即可,希望也给读者朋友带来思考质疑的空间,这样利于大家一起进步。

3.由于时间仓促,暂且写到此处,以后发现新内容再次更新。能力有限,疏漏之处,万望指出,感谢!

相关文章
|
7月前
|
运维 监控 自动驾驶
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
202 29
|
机器学习/深度学习 人工智能 云计算
Intel 平台新特性助力龙蜥 OS 云计算 | 龙蜥大讲堂101期
本次分享的主题是Intel平台新特性助力龙蜥OS云计算。内容涵盖英特尔第四代和第五代至强处理器的新特性,如性能提升、内置加速器等,并详细介绍TDX、SGX、AMX等技术原理及其在虚拟化环境中的支持情况,旨在帮助云用户充分利用英特尔新平台的优势。
408 5
|
10月前
|
运维 监控 Linux
WGCLOUD运维平台的分布式计划任务功能介绍
WGCLOUD是一款免费开源的运维监控平台,支持主机与服务器性能监控,具备实时告警和自愈功能。本文重点介绍其计划任务功能模块,可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划,WGCLOUD提供直观界面,通过添加cron表达式、执行指令或脚本并选择主机,即可轻松完成任务设置,大幅提升多主机任务管理效率。
|
12月前
|
传感器 人工智能 安全
云计算平台如何支持智慧工地?
云计算平台作为智慧工地的核心技术,通过整合数据、算力与智能分析能力,为工地管理提供全流程数字化服务。其主要作用体现在五个层面:一是构建数据中枢,实现多源数据整合与边缘计算协同;二是通过AI模型训练和大数据预测,提供智能分析与决策支持;三是多端协同与弹性扩展,满足不同场景需求;四是强化安全与绿色施工,优化能耗并保障数据安全;五是打造生态化平台,开放API接口并采用微服务架构扩展功能。云计算推动工地管理从经验驱动转向数据驱动,未来结合5G与数字孪生技术,将进一步提升实时模拟能力。
528 2
|
存储 资源调度 云计算
什么是云计算平台?如何打造云平台核心要件?
云计算平台基于虚拟化和分布式计算技术,提供灵活、可扩展的计算资源与服务框架,支持跨地域的数据处理和应用运行。它通过集中管理资源、优化分配,提高系统可用性和响应速度,降低运营成本,增强用户体验。平台分为IaaS、PaaS和SaaS三层架构,具备动态资源调度、多租户隔离和服务可靠性等优势。构建要素包括基础框架设计、关键技术组件及运维支撑体系,确保高效、安全的云服务交付。
2422 3
|
存储 人工智能 运维
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
817 2
|
机器学习/深度学习 人工智能 运维
人工智能在云计算中的运维优化:智能化的新时代
人工智能在云计算中的运维优化:智能化的新时代
1195 49
|
存储 人工智能 数据库
通义灵码与云计算平台的融合:基础与概述
在数字化时代,云计算已成为企业和开发者构建应用的核心基石,其高可用性、可扩展性和成本效益等优势重塑了IT架构。通义灵码作为先进的人工智能代码生成工具,能将自然语言转换为高质量代码,大幅提高开发效率。本文将探讨通义灵码与云计算平台的融合,开启开发新纪元。
通义灵码与云计算平台的融合:基础与概述
|
运维 监控 安全
云计算环境下的运维挑战与解决方案
本文探讨了云计算环境中运维面临的主要挑战,包括资源管理、自动化部署、安全性问题等,并提出了相应的解决策略。通过案例分析和最佳实践,为云环境下的运维工作提供了指导和参考。
789 28
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。