通勤路上修故障?钉钉机器人+ OOS AI 助手实现 7×24 小时运维自由

简介: 阿里云OOS AI助手通过自然语言交互,实现免登录、跨设备的智能运维。结合钉钉机器人,用户可随时随地发送文字指令完成云资源操作,快速响应突发故障,保障业务稳定运行。

一、背景:移动时代的运维挑战

在传统运维场景中,工程师往往依赖电脑登录控制台完成资源管理。然而,突发故障可能发生在任何场景——会议中、通勤路上,甚至深夜家中。此时若无法及时响应,可能导致业务中断、客户投诉,甚至经济损失。


痛点场景:

  • 设备限制:电脑未随身携带,无法登录控制台。
  • 响应延迟:需等待同事协助或寻找临时设备,耗时数分钟至数小时。
  • 操作复杂:通过手机浏览器登录控制台,界面受限且操作繁琐。


解决方案:

阿里云系统运维管理 OOS AI助手是一款基于自然语言交互的智能运维工具,通过文字指令即可完成云资源查询、监控等操作。通过钉钉机器人配置阿里云OOS AI助手,您可直接在钉钉群内发送文字指令,实现免登录、跨设备、秒级响应的运维操作。


二、实战案例:深夜故障的10分钟逆袭

时间:凌晨1:23

地点:运维工程师张伟的家中

张伟的手机突然震动,钉钉群弹出一条告警通知:

【阿里云监控】北京ECS 内存使用率98%,持续5分钟

他翻身起床,却发现电脑落在公司。情急之下,他打开钉钉群,@AI助手发送指令:

“重启北京ECS实例i-******* ”

机器人返回确认弹窗:

“即将调用ECS RestartInstance API重启实例i-******* ,确认执行?(Y/N)”

张伟输入“Y”,扩容操作自动完成。5分钟后,监控显示内存使用率回落至30%,业务恢复。他长舒一口气,继续入睡。

次日晨会,主管问:“昨晚怎么这么快恢复的?”

张伟笑答:“有了钉钉机器人,运维终于不再‘看电脑脸色’。”


三、如何使用OOS AI助手

1. 通过阿里云系统运维管理(OOS)控制台快速体验

1. 登录阿里云系统运维管理控制台[1],在右侧菜单栏找到“OOS AI助手”,点击后启用“OOS AI助手”。

2. 点击预设问题或直接输入您的需求与“OOS AI助手”进行对话。

2. 将OOS AI助手集成到钉钉机器人

您可以参考“四、配置步骤”进行配置,将OOS AI助手集成到钉钉机器人使用,通过此方式使用具有如下优势:

1. 免登录操作:

  • 无需登录控制台,直接通过钉钉群完成资源查询、监控、操作。

2. 应急响应无死角:

  • 突发故障时,即使电脑不在身边,也能通过手机端快速处理。

3. 权限分级管控:

  • 支持RAM角色绑定,按需分配群成员可执行的指令范围(如仅允许“运维组”执行扩容)。

4. 告警联动自动化:

  • 云监控告警自动推送至钉钉群,可根据监控情况对云资源进行运维操作。

四、配置步骤

方案概览

在钉钉中添加一个 AI 机器人,只需几步:

1. 创建钉钉应用:创建一个钉钉应用,在您的钉钉组织中提供机器人问答服务。

2. 在OOS创建机器人聊天配置:在OOS创建聊天配置信息,OOS会自动创建阿里云AppFlow连接流[2], AppFlow连接流可以实现钉钉机器人和阿里云OOS AI助手的关联,最终实现在钉钉聊天中访问OOS AI助手。

3. 配置钉钉机器人:为钉钉应用配置机器人,添加到群聊中可以访问您的阿里云资源。

1. 创建钉钉应用

接下来您需要在您的组织中创建钉钉应用,作为 AI 助手回答用户问题。

重要

创建钉钉应用需要您的钉钉账号有开发者权限。您可以联系您的组织管理员获取钉钉开放平台的开发权限,具体操作请参见获取开发者权限[3]。

1.1 创建应用

1. 访问钉钉开放平台[4],点击创建。如果创建过应用未展示应用开发指引,点击立即开始进入钉钉应用页面。

2. 在应用开发的左侧导航栏中,点击钉钉应用,在钉钉应用页面右上角点击创建应用

3. 在创建应用面板,填写应用名称应用描述,上传应用图标,完成后点击保存


1.2 查看应用 Client ID 和 Client Secret

在左侧菜单选择凭证与基础信息,复制 Client IDClient Secret,用于下一步创建连接流。


1.3 创建消息卡片

钉钉机器人通过卡片消息支持流式返回结果,您需要创建卡片模板供消息发送使用。

1. 访问卡片平台[5],点击新建模板

2. 在创建模板输入框,填入模板信息。

3. 在模拟编辑页面,保存发布模板。然后点击返回模板列表页面。

4. 复制模板ID,用于创建钉钉连接流使用。


1.4 授予应用发送卡片消息权限

创建卡片后,您需要给应用授予发送卡片消息的权限。

1. 访问钉钉应用列表[6]。找到刚刚创建的应用,点击应用名称进入详情页面。

2. 在左侧菜单选择开发配置 > 权限管理,在左侧搜索框分别输入Card.Streaming.WriteCard.Instance.Write,并在操作列点击申请权限

2. 在OOS创建机器人聊天配置

您可以在系统运维管理控制台ChatOps配置页面[7],根据上述钉钉配置信息创建OOS ChatOps配置。OOS会自动帮您创建一个AppFlow连接流,AppFlow连接流可以将OOS AI助手和钉钉连接起来。

1. 在系统运维管理控制台ChatOps配置页面点击创建配置,填写配置名称,类型选择“钉钉(DingTalk)”, 填入之前获取到的钉钉应用的 Client ID、Client Secret和卡片模板ID, 选择授信给OOS的服务角色(为OOS服务设置RAM角色并授权[8]),点击创建。

2. 创建完成后查看详情,找到WebhookUrl并复制。

3. 配置钉钉机器人

有了webhook地址后,接下来您可以在钉钉应用中配置机器人来访问您的云资源了。

3.1 配置钉钉机器人

1. 访问钉钉应用列表。找到刚刚创建的应用,点击应用名称进入详情页面。

2. 在添加应用能力页面,找到机器人卡片,点击添加

在机器人配置页面,打开机器人配置开关,您可以参考下图完成配置。消息接收模式请选择HTTP模式消息接收地址为刚刚的 WebhookUrl。然后点击发布

重要:

消息接收模式请选择HTTP模式,目前AppFlow仅支持HTTP模式,选择Stream模式会导致无法返回消息。

3.2 发布应用版本

应用创建完成后,如果需要将应用供企业内其他用户使用,需要发布一个版本。

1. 点击应用开发,在钉钉应用页面,点击目标应用(智能运维服务)。

2. 在目标应用开发导航栏,点击版本管理与发布,在版本管理与发布页面,点击创建新版本。进入版本详情页面,输入应用版本号版本描述信息,选择合适的应用可见范围,完成后点击保存。并在弹窗中点击直接发布

3.3 测试机器人

你可以创建群聊或在已有群聊中添加机器人,并与机器人对话,查看效果。

1. 在钉钉群管理中添加机器人。进入钉钉群群设置页面,点击机器人卡片区域,在机器人管理页面,点击添加机器人。在添加机器人搜索文本框中输入目标机器人名称,并选中要添加的机器人。点击添加,完成后再点击完成添加

2. 在钉钉群中或私聊时@机器人,进行交流互动。

  • 在钉钉群发送指令:
@AI助手 杭州运行中的ecs实例信息
  • 机器人返回:自动调用阿里云OpenAPI完成实例信息查询。

  • 根据查询的信息继续追问(此时不需要再输入地域和产品信息,AI助手会根据上次对话的内容自动填充相关信息):
@AI助手 查看 i-bp1j******5da 10分钟内cpu使用情况

  • 机器人返回:带有折线图的监控信息


五、适用场景与价值

六、注意事项

1. 权限最小化原则:

  • 为RAM角色分配最小必要权限(如实习生组仅允许查询)。

2. 敏感操作二次确认:

  • 所有写操作(如删除、扩容)默认触发二次确认,防止误触。

通过钉钉机器人与OOS AI助手的结合,企业可真正实现“随时随地运维”,让故障响应不再受设备与场景限制,为业务稳定性保驾护航。

使用过程中有任何问题,可以加钉钉群(群号:23330931)反馈。

参考链接:

[1] 阿里云系统运维管理控制台:

https://oos.console.aliyun.com/overview?utm_content=g_1000405370

[2] 阿里云AppFlow连接流:

https://help.aliyun.com/zh/compute-nest/create-a-connection-flow?utm_content=g_1000405371

[3] 获取开发者权限:

https://open.dingtalk.com/document/orgapp/obtain-developer-permissions

[4] 钉钉开放平台:

https://login.dingtalk.com/oauth2/challenge.htm

[5] 卡片平台:

https://login.dingtalk.com/oauth2/challenge.htm

[6] 钉钉应用列表:

https://login.dingtalk.com/oauth2/challenge.htm

[7] 系统运维管理控制台ChatOps配置页面:

https://account.aliyun.com/login/login.htm?utm_content=g_1000405375

[8] 为OOS服务设置RAM角色并授权:

https://help.aliyun.com/zh/oos/use-cases/grant-ram-permissions-on-oos?utm_content=g_1000405373

[9] AppFlow 连接流:

https://help.aliyun.com/zh/compute-nest/create-a-connection-flow?utm_content=g_1000405376



来源  |  阿里云开发者公众号

作者  |  王博(祎程)

相关文章
|
15天前
|
人工智能 运维 监控
别再满世界找日志了:聊聊如何用AI帮运维团队快速排查故障
别再满世界找日志了:聊聊如何用AI帮运维团队快速排查故障
179 15
|
1月前
|
机器学习/深度学习 人工智能 运维
运维不只是“修电脑”:聊聊运维如何助力 AI 优化服务质量
运维不只是“修电脑”:聊聊运维如何助力 AI 优化服务质量
139 9
|
3月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
19天前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
1月前
|
存储 人工智能 监控
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
如今的量化交易已远超传统技术指标,迈向多智能体协作的新时代。本文介绍了一个基于 **LangGraph** 构建的多智能体交易系统,模拟真实投资机构的运作流程:数据分析师收集市场情报,研究员展开多空辩论,交易员制定策略,风险团队多角度评估,最终由投资组合经理做出决策。系统具备记忆学习能力,通过每次交易积累经验,持续优化决策质量。
247 8
LangGraph实战:从零构建智能交易机器人,让多个AI智能体像投资团队一样协作
|
21天前
|
人工智能 运维 监控
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
AI加持下的容器运维:别再当“背锅侠”,让机器帮你干活!
120 8
|
1月前
|
人工智能 运维 安全
AI来了,网络安全运维还能靠“人海战术”吗?
AI来了,网络安全运维还能靠“人海战术”吗?
142 28
|
2月前
|
人工智能 运维 资源调度
AI加持的资源调度:运维人也能轻松当“指挥家”
AI加持的资源调度:运维人也能轻松当“指挥家”
126 9
|
1月前
|
存储 人工智能 机器人
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
科技云报到:西湖大学、智元机器人都选它,存储成为AI下一个风口
|
2月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
160 11

热门文章

最新文章