云服务诊断体验测评

简介: 一文带你了解云服务诊断产品的优与劣

云服务诊断是面向客户运维工程师及开发者提供的一款阿里云资源运维工具,它主要包含“健康状态”和“诊断”两大核心功能。

产品体验

我如今是一家能源科技公司的产品经理,曾几何时我也是某家公司某个技术团队的成员之一,对于及时发现业务异常和服务状态,一般技术人员均会通过多种工具来辅助实现,比如使用范围很广的Zabbix、Prometheus、Grafana等,而这些工具的使用都有一个限制,那就是需要安装所谓的代理监听程序,对于小公司而言,多则几十台机器批量安装代理还凑合,可接入这几十台机器的数据到工具上就非常耗时耗力了,一是需要弄懂工具的具体指标配置,二是如何根据业务运行规律设置告警阈值。面对这些不方便和疑问,云服务时代如何管理成上千万,甚至更多云资源时,又该如何实现及时发现快速处置呢,这就是接下来要深入体验的云服务诊断产品。

在正式体验开始前,有必要对云服务诊断服务当前支持的产品进行必要了解,两个核心功能所支持的产品也有所差异,链接如下:

健康状态支持产品及说明

诊断支持场景及说明

为了尽可能通过实际的场景来体验云服务诊断两大核心功能,这里以一个ECS结合OSS的个人网盘实践开始。对于ECS创建和OSS创建的具体步骤这里就不再赘述了,想了解的朋友可以直接前往官网学习了解。下面直接开始,登录ECS开始安装对应程序组件。

进入ECS管理控制台,点击远程链接,这里直接通过Workbench进行登录,当然你可以选择你习惯的方式登录,比如第三方SSH工具链接。

image.png

输入密码点击确定进行登录,首先我们通过如下命令下载一个安装包并进行安装运行,如下:

#下载安装包到ECS
wget https://developer-labfileapp.oss-cn-hangzhou.aliyuncs.com/ECS/cloudreve_3.3.1_linux_amd64.tar.gz
#解压安装包
tar -zxvf cloudreve_3.3.1_linux_amd64.tar.gz
#赋予可执行权限
chmod +x ./cloudreve
#运行程序
./cloudreve

image.png

这里要注意的是,程序登录的默认用户名和密码要记住,后面登录会用到。下面直接通过浏览器访问网盘服务,如下:

image.png

这样,一个简单的网盘应用就搭建完成了。由于现在网盘还没有存储空间,这里用到了OSS对象存储,所以接下来还需要将OSS挂载到ECS上进行使用。这里先停止网盘服务,进行OSS文件系统的挂载,命令如下:

#下载ossfs包
sudo wget https://gosspublic.alicdn.com/ossfs/ossfs_1.91.3_anolisos8.0_x86_64.rpm
#安装ossfs
sudo yum install -y ossfs_1.91.3_anolisos8.0_x86_64.rpm
#配置账号访问权限(为了安全,这里账号和密码均做了隐藏处理)
echo adc-lab-a8***nyt-hla2dgdn:LTAI5tJnC3**vAkW5U**N*xB:DDQ****Rn8**WpYcVaKt7N5pQRCB > /etc/passwd-ossfs
#为文件赋权
chmod 640 /etc/passwd-ossfs
#创建挂载目录
mkdir oss
#执行挂载(这里的url是OSS的内网Endpoint)
ossfs adc-lab-a8***nyt-hla2dgdn oss -o url=oss-cn-shanghai-internal.aliyuncs.com

image.png

通过命令df -h可查看到当前已经实现了对OSS挂载。

image.png

接着,登录网盘程序,将OSS添加到程序中。

image.png

完成后更改下管理员的存储策略,调整为OSS。

image.png

接着,到网盘首页,直接拖拽文件实现上传。

image.png

到这,一个完整的网盘就完成了搭建并关联了OSS存储。接下来就可以通过云服务诊断看看这些服务的状态了。

健康状态

健康状态是指阿里云资源的可用性状态,分为“可用”(正常)和“不可用”(异常)两种状态。

进入主控制台就可以看到当前账号下所有服务的一个健康状态了,这里绿色代表正常,红色则异常。

image.png

如果你觉得这里涉及的产品状态太多,可以进入云服务诊断的控制台,根据产品类型查看对应状态。

image.png

如果你产品下存在多个实例,也可以同时查看到多个实例的一个健康状态。

image.png

也可以点击“查看全部”来到详情。

image.png

在详情页,你可以从两种维度查看状态,一个是产品维度,一个是时间维度。如下:

image.png

image.png

相对于产品维度的简洁明了,时间维度就更有助于日常实际运维场景,你可以随时查看各个时间状态下服务的健康状态,精准定位异常。

我认为健康状态非常有用且很必要,尤其是针对全业务都运行在云资源上的业务和公司来说,这个一目了然的健康状态就显得非常必要且重要了,一方面可以极大降低传统运维人员日常巡检的工作量,二来可以协助技术人员通过状态颜色及时发现服务异常和业务风险,可以说在一定程度上为业务可持续性提供了坚实的质量保障。

一键诊断

如果说健康状态检测的是服务或者产品的是否正常的指标,那诊断就是对一个或多个云资源某种工作状态(配置、功能、性能、连接、安全等)的检测分析,并对异常进行详细描述并提供修复建议。比如ECS是否可以正常访问,其上运行的服务能否正常访问等。

云服务诊断有多种方式可以实现,下图列举了三种常用方式,如下:

image.png

image.png

image.png

下面我们创建一个诊断任务,看看上述的网盘服务能否正常访问,在诊断场景的其他中选择网络连通性。

image.png

在角色及权限说明弹窗中点击确定。

image.png

发起端为本机IP,目的端是ECS,网盘服务的端口,点击开始诊断。

image.png

在服务未开启的情况下,我们发现无法访问

image.png

点击红色异常的节点,可以查看异常的详细信息。

image.png

从这个异常提示可以看出,是ECS的安全组阻断了访问,这个对于运维工程师排查问题太实用了。我们再来创建一个针对ECS的诊断任务,模仿一个非常经典的场景,就是ECS无法通过远程连接。

image.png

image.png

通过诊断,可以非常直观看到异常的点在哪里,并提供了具体的处理建议。

image.png

image.png

从诊断结果来看还是非常实用的,一是安全组没有放开,一是账号密码不正确或未设置,诊断非常准确。对于运维人员来说,遇到问题不再需要将主机逐个进行排查了,通过一键诊断可以快速定位问题所在,从而降低问题影响的时间,提高业务健壮性。

我认为诊断非常必要且有用,对于一线运维人员来说,一个可以一键诊断并反馈业务现状的工具是多么急需的,尤其在重大业务保障和节假日安保期间,通过一键诊断可以及时发现服务和资源的瓶颈和风险在哪,从而提前做好防范和预案。

体验总结

整体感受

1、官网提供的文档和教程都挺详细的,不仅有功能的使用说明和对应截图,还提供了对应实践供参考。此外,如果文档提供的帮助不是太全面,还可以通过AI助理或者平台客服及时获得支持。

2、控制台界面设计简洁明了,用户可以快速找到所需的功能选项。比如健康状态和诊断功能的入口就非常清晰,用户进入控制台就可以找到。

3、操作方便快捷,各个服务的健康状态一目了然,当云资源出现异常时,用户可以快速定位并采取相应的修复措施,避免业务中断。针对不同的资源提供了场景和典型问题的诊断模板,用户可以通过控制台快速发起诊断,只需选择对应的诊断场景并配置相关参数,即可开始诊断。在诊断过程中,用户可以随时查看诊断进度和结果,操作流畅且直观。特别需要提到的功能是一键诊断,它大大简化了诊断流程,提高了诊断效率,尤其适用于需要快速排查和解决问题的场景。此外,诊断报告详细且专业,包括每个诊断项的结果、异常详情和修复建议。用户可以根据修复建议快速解决问题,提升运维效率。

4、实用性强,云服务诊断提供了实时的诊断结果和修复建议,用户可以在第一时间获取到问题的解决方案。诊断结果的准确性高,用户可以根据修复建议快速解决问题,避免了因误判而导致的额外工作。

美中不足

1、诊断结果可能受限制:虽然提供了全面的诊断功能,但在某些特定情况下,诊断结果可能受到云资源本身或基础设施的限制。比如云资源存在硬件故障或数据中心故障等问题,诊断结果就无法准确反映问题的根源或提供有效的解决方案。

2、虽然当前两大功能所支持的产品和服务很多,但还是没能达到全面兼容,比如数据库就不支持云数据库 ClickHouse、OceanBase。

3、诊断模板虽然可以涵盖大多数的场景,但也仅仅是针对ECS的场景多而已,对于数据库目前只有RDS白名单检测。作为服务可用性的一个关键应用,我希望诊断可以涵盖更多实用的场景,比如web应用无法访问更深层次的诊断,比如配置文件错误,服务进程假死等。此外,目前的诊断局限于单个云资源,不能对多个云资源进行综合诊断,这也就无法达到真实场景的诊断全面性。

4、一键诊断功能非常好,不应局限于个别场景,应该跟更多服务和资源进行深入融合,打造成诊断专家。此外,能否考虑接入AI大模型,让诊断更智能,更全面,更好用。

对于云服务诊断产品,我希望可以有更多的用户使用起来并将真实体验反馈出来,大家一起努力为云服务诊断产品的不断迭代更新贡献微小的力量。我的分享链接如下,欢迎前往阅读打卡。云服务诊断体验测评-CSDN博客

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
数据可视化 搜索推荐
Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手
Ollama Deep Researcher 是一款完全本地化的网络研究助手,可使用Ollama托管的任何 LLM 。输入一个主题,它将生成网络搜索查询,收集网络搜索结果(默认通过Tavily),总结网络搜索结果,反思总结以检查知识差距,生成新的搜索查询以解决差距,搜索并改进总结,循环次数由用户定义。它将为用户提供最终的 markdown 摘要,其中包含所有使用的来源。
620 2
|
存储 人工智能 Serverless
《AI 剧本生成与动画创作》解决方案测评
这篇评测介绍了2025年首个AI剧本生成与动画创作解决方案。该方案结合阿里云的函数计算、对象存储OSS和百炼大模型服务,通过API调用实现剧本生成、语音合成及字幕生成等功能,适用于教育、短视频、游戏娱乐等领域。评测详细描述了部署流程,包括开通相关服务、准备物料、应用体验等环节,并对视频生成过程中的用户体验进行了总结和优化建议。整体而言,方案操作简便,但视频生成耗时较长且存在一些功能限制,如缺少进度条、多任务支持不足等。希望开发者们积极参与分享真实体验,共同推动技术进步。
904 4
|
弹性计算 运维 自然语言处理
操作系统智能助手OS Copilot新功能测评
一文带你了解操作系统智能助手OS Copilot的三大新功能
654 10
|
SQL 数据可视化 BI
Quick BI产品测评:从数据连接到智能分析的全流程体验
瓴羊智能商业分析-Quick BI是阿里云旗下的云端智能BI平台,连续五年入选Gartner ABI魔力象限。它提供从数据接入到决策的全链路服务,支持零代码操作、40+可视化组件与OLAP分析,实现跨终端呈现。其创新点包括云原生架构、企业级安全体系及智能决策引擎,适用于零售、金融等行业。评测中,通过免费试用与官方文档,体验了数据准备、仪表板搭建及智能小Q功能,发现智能化能力强大但部分文档需更新优化。
1186 67
|
云安全 安全 API
“安全体检”测评:安全自动化背后的隐忧与突破
本文围绕阿里云安全检查服务展开,从技术深度、场景适配和安全边界三个维度分析其价值与短板。该服务定位为自动化风险治理工具,涵盖漏洞扫描、合规基线和配置修复。体验中发现,其优势在于云原生体系耦合、资源拓扑感知及成本效益;不足则体现在量化指标缺失和攻击面覆盖有限。改进建议包括优化风险排序、引入AI分析及提供场景化助手。文章总结,该产品在基础风险治理和合规提效上表现良好,但需强化自动化修复与业务场景适配能力,以实现从工具到平台的跃迁。
571 65
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
1250 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
人工智能 Cloud Native Serverless
阿里云爸爸发福利!DeepSeek-R1满血版深度体验,4种部署攻略+隐藏羊毛大公开💎
本文介绍了四种部署DeepSeek-R1模型的方式:基于百炼调用满血版API、基于PAI部署、基于函数计算部署和基于GPU云服务器部署。每种方式各有优劣,适合不同需求的用户。其中,基于百炼调用满血版API无需部署,提供满血版模型和100万免费Token,适合快速体验;基于PAI部署适合需要微调模型的用户;基于函数计算部署提供WEB交互界面;基于GPU云服务器部署则适合技术能力强、有硬件资源的用户。方案还提供了免费试用入口和实践体验总结,帮助开发者更好地理解和使用DeepSeek-R1模型。
738 62
|
人工智能 Java 测试技术
通义灵码2.0·AI程序员加持下的智能编码实践与测评
通义灵码2.0是阿里云推出的新一代智能编程助手,集成DeepSeek模型并新增多项功能,显著提升开发效率。本文通过实际项目体验新功能开发、跨语言编程、单元测试自动生成和图生代码等功能,展示其在代码生成、质量内建和人机协作方面的优势。相比1.0版本,2.0在模型选择、代码质量和用户体验上均有显著提升。尽管存在依赖网络和多语言混合项目中的不足,但整体表现优异,极大优化了开发流程。[了解更多](https://lingma.aliyun.com/)
1695 59
|
人工智能 搜索推荐 物联网
线上共学 | Mac本地玩转大模型
本文介绍如何在Mac本地部署和使用大模型,包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路,并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
3926 8
|
人工智能 弹性计算 运维
ECS控制台,AI助手与极简管控体验
本文介绍了ECS控制台的演进及最新AI工具功能。控制台作为运维平台,需兼顾用户体验、可靠性和安全性。针对不同用户(个人开发者、企业级用户、资源管理员和架构师),控制台提供了定制化AI助手,涵盖售前选型、售中购买、售后运维等全链路支持。AI助手可智能分析用户需求,推荐合适规格,并提供实例诊断、命令解释等功能,简化操作流程。此外,还推出了简洁版控制台,优化了小资源量用户的使用体验,减少复杂度,提升效率。未来,控制台将朝着更智能、个性化的chat ops方向发展。