云产品评测|云服务诊断 (两项功能诊断测评)

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 从阿里云官方了解到云服务诊断这个产品,作为一位云运维工程师,对这方面是比较持续关注的;本次基于产品的两个常见功能进行体验测试,整体感受下来的效率和体验感是很不错的,实用可靠,推荐使用!

简述:

我是一名云运维工程师,在日常工作中负责对各个业务系统的运维工作,包括服务ecs实例,监控告警,网络排查等;这次在阿里的社区了解到云服务诊断这个功能,与我的工作内容有很大的贴合性,就在官方文档的说明下,简单测试一下该功能的实用性,欢迎社区各位技术大牛一起讨论~~~


准备工作:

  1. 建议先了解下官方文档,在文档中可以先初步了解下云服务诊断这个功能的说明,简单的说就是知道他是干嘛的,然后才能为后面的操作奠定一个基础思路。

  官方文档地址:https://help.aliyun.com/zh/management-console/what-is-cloud-service-diagnostics?spm=a2c6h.29849083.J_9175035460.6.7ffe34c81w0M07

  1. 申请一台阿里云账号,试用或者自主申请一台测试ecs服务器(可以自己随意操作),在服务器创建好后,操作前可以做一个快照备份,避免操作测试后想要恢复却没有备份!
  2. 了解首页的功能点的作用,选择想要诊断的项目;可以通过创建诊断任务,来观察检测各方面的状态。

  96d5b5c2bf3db512fbd655436ec17e1.png

 这个诊断的功能中有很多项目可以进行操作,选择自己想要尝试的或者常见的进行下模拟,这样和之前的感受可以做一个对比;这里我选了两种工作中比较常见的项目进行诊断!

5d81578e72e406117c1eed6be4b0b4e.png

  • --Ecs远程无法访问诊断--

首先我找了一台测试服务器把网卡down掉后(也可以使用防火墙/iptables配置阻止规则模拟),导致的结果是这台服务器现在是无法访问的,这种无法远程的场景在日     常工作中比较常见(例如机器重启后网卡配置文件识别有问题,就会导致网卡起不来),然后我就使用了检测平台的诊断功能;

查看当前机器网卡名称

ip a

关掉网卡

ip link set down 网卡名称

101b79948b21c51f303fac596539eb5.png


下面是诊断结果:

2dc56919c9278f7c4ed639ff509e18e.png

a311af8c763910c392d7af5ae1dfd85.png


整个诊断下来的过程是很快速的,在时间的反馈上很及时;诊断下来后给了我两个结果提供了一定的解决思路,包括检测内网连通性和云上安全组配置,dns配置的排查步骤,但是与我实际发生的情况还是有一定出入的,希望在这可以补充常见基于实例本身的排查思路,以及一些常见问题的解决方法!

总体来说这输出的解决思路适用的范围比较广泛,该故障诊断给的参考性是比较好的;如果要逐一细心排查,希望补充一部分不限于平台上网络安全产品的排查思路作为参考。

  • --Ecs实例负载高诊断--

服务器:测试ecs

模拟工具: stress

操作步骤:

更新最新yum库:

yum update -y

    安装模拟测试软件:

yum install stress -y

创建cpu模拟:

stress --cpu $(nproc) --timeout 300s

创建内存模拟:

stress --vm 1 --vm-bytes 1024M --timeout 300s

下面我们来看诊断结果

cab675a2cba8bfd3bd4c70f2f9a4564.png


在执行命令后,机器的负载已经开始到达高水位,进行诊断操作从开始到结束很快速,准确的定位到了问题的点,这一点给使用者一个很好的反馈;可以根据结果对后面的信息进行详情查看。


14cd46b360100bd0801bb7a1e79a557.png


本次模拟测试我只使用了一台服务器,这样看下来效率提升不是很直观,因为直接就可以在实例控制台就能看见;但如果是一个大的生产环境,涉及多套业务系统,几十台或者上百台服务器,那这个监控诊断给的效率可以说是大大提高!


最后来看一下我的服务器整个健康状态:

7d95aa63b42fd154a8fda06b9b8951b.png


每个记录都很详细,可以准确的看出来我的服务问题的点,简洁方便。

总体来说,这个云服务诊断的功能是很不错的,在日常工作运维中可以提供不少的帮助和参考内容~~~

目录
相关文章
|
5天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
112378 10
|
13天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201920 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
2天前
|
供应链 监控 安全
|
5天前
|
SQL 安全 前端开发
预编译为什么能防止SQL注入?
SQL注入是Web应用中常见的安全威胁,攻击者通过构造恶意输入执行未授权的SQL命令。预编译语句(Prepared Statements)是一种有效防御手段,它将SQL代码与数据分离,确保用户输入不会被解释为SQL代码的一部分。本文详细介绍了SQL注入的危害、预编译语句的工作机制,并结合实际案例和多语言代码示例,展示了如何使用预编译语句防止SQL注入,强调了其在提升安全性和性能方面的重要性。
|
8天前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
403 34
Qwen2.5-7B-Instruct Lora 微调
|
30天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9909 29
|
2天前
|
机器学习/深度学习 存储 人工智能
【科普向】我们所说的AI模型训练到底在训练什么?
人工智能(AI)模型训练类似于厨师通过反复实践来掌握烹饪技巧。它通过大量数据输入,自动优化内部参数(如神经网络中的权重和偏置),以最小化预测误差或损失函数,使模型在面对新数据时更加准确。训练过程包括前向传播、计算损失、反向传播和更新权重等步骤,最终生成权重文件保存模型参数,用于后续的应用和部署。理解生物神经网络的工作原理为人工神经网络的设计提供了灵感,后者广泛应用于图像识别、自然语言处理等领域。
|
14天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
15天前
|
Java Maven
Maven编译报错:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.13.0:compile 解决方案
在执行Maven项目中的`install`命令时,遇到编译插件版本不匹配的错误。具体报错为:`maven-compiler-plugin:3.13.0`要求Maven版本至少为3.6.3。解决方案是将Maven版本升级到3.6.3或降低插件版本。本文详细介绍了如何下载、解压并配置Maven 3.6.3,包括环境变量设置和IDEA中的Maven配置,确保项目顺利编译。
Maven编译报错:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.13.0:compile 解决方案