企业实训:AI运维工程师实训——某外资商业银行

简介: 11月下旬至12月上旬,TsingtaoAI为汇丰银行定制AI运维工程师实训课程,融合LLM技术与真实运维场景。课程分三阶段:模型部署、智能分析与自动化运维,涵盖Transformer架构、日志分析、故障预测、脚本生成等内容,结合Docker容器化与金融业务实操,提升学员从部署到智能化运维的全链路能力,助力企业实现AI驱动的运维升级。

11月下旬到12月上旬,singtaoAI技术团队为汇丰银行量身定制交付AI运维工程师实训课程,深度融合LLM技术与真实运维场景。课程分三阶段系统授课:首阶段详解Transformer架构与ChatGLM-6B、LLaMA3-8B等轻量模型特性,通过Docker容器化实现GPU/CPU资源优化部署;第二阶段聚焦日志智能分析、故障预测与安全事件识别,基于历史数据分析生成预测模型并构建实时预警机制;第三阶段实现自动化升级,包括性能瓶颈诊断、资源调度优化及自动生成运维脚本与标准化文档。全程结合真实运维数据实操,学员将掌握从模型部署到智能运维的闭环能力,显著提升系统稳定性与运维效率,精准匹配金融行业对AI驱动运维的高阶需求,助力企业实现运维智能化升级。

第1课:LLM基础与模型部署

课程目标

  • 理解LLM的架构与工作原理
  • 掌握小模型的选择、部署与运维数据管理
  • 能够搭建基础LLM环境并准备训练分析数据

实训方案

LLM基础与模型部署

  • 1.1 LLM Transformer架构与工作原理 Transformer架构、注意力机制、训练与推理流程
  • 1.2 主流LLM及其特点 GPT、BERT、LLaMA、ChatGLM等模型的优势与适用场景
  • 小模型的部署
  • 2.1 小模型的选择与使用场景:轻量级模型在资源受限环境中的优势
  • 2.2 Docker/GPU-CPU模型部署技术栈:Docker、资源分配、模型加载
  • 运维数据整理
  • 3.1 数据收集与管理的最佳实践
  • 3.2 运维数据的分类与标注
  • 3.3 构建高质量的训练数据集

实操练习

  • ChatGLM2-6B/LLaMA3-8B环境搭建与模型部署:容器化部署轻量级开源模型
  • 运维数据处理:收集示例日志、分类与标注,为后续分析准备高质量数据集
  • 输出成果:小组生成基础模型部署与数据整理报告

总结与课后作业

  • 课程总结:回顾LLM架构、模型部署和运维数据管理
  • 课后作业:提交一份部署小模型并整理自有日志数据的报告


第2课:LLM在运维中的应用

课程目标

  • 掌握LLM在日志分析、故障诊断与预防性维护中的应用
  • 能够使用LLM生成诊断报告和维护建议

实训方案

LLM在运维中的应用

  • 日志分析与故障诊断
  • 4.1 日志分析的必要性与挑战
  • 4.2 LLM在日志分析中的应用
  • 故障模式识别与分析
  • 自动生成故障诊断报告
  • 故障诊断与预防性维护
  • 5.1 LLM在故障预测中的应用:历史数据分析生成预测模型、实时监控与告警系统集成
  • 5.2 预防性维护建议生成:根据故障模式生成维护计划、经验知识库的构建与利用
  • LLM网络安全中的应用
  • 6.1 恶意流量检测:LLM自动识别恶意流量特征、实时监控与响应机制设计
  • 6.2 安全日志分析:LLM在安全事件识别中的应用

实操练习

  • LLM日志异常检测与分析:使用LLM识别异常日志模式并分类
  • 故障诊断报告生成:输出故障定位报告与预防性维护计划
  • 安全事件模拟:分析日志并生成安全事件响应报告

总结与课后作业

  • 课程总结:强调LLM在运维诊断与安全中的价值
  • 课后作业:提交基于时序监控数据或安全日志的故障预测与安全事件分析报告


第3课:性能优化与自动化运维

课程目标

  • 掌握LLM在性能优化和自动化运维中的应用
  • 能够生成运维脚本、自动化文档,并设计资源调度方案

实训方案

性能优化与自动化运维

  • 性能优化
  • 7.1 性能瓶颈分析:LLM在性能分析中的角色、生成性能瓶颈识别报告
  • 7.2 资源调度优化:LLM基于数据生成最优资源调度方案
  • 自动化运维
  • 8.1 自动化脚本生成:LLM生成常见运维脚本、自动生成安全事件报告与响应措施、自适应脚本设计与实施
  • 8.2 自动化文档生成:运维文档标准化流程、自动更新与管理文档内容

实操练习

  • 自动化脚本生成:根据自然语言任务生成可执行脚本
  • 运维文档自动生成:生成标准化文档,并支持实时更新
  • 输出成果:小组完成性能优化方案与自动化运维文档


课件节选


实训技术专家

陈老师 AI智算技术专家

CS硕士,高性能计算方向

研究方向:分布式计算、深度学习模型优化、GPU加速计算。

曾就职中国电⼦科技集团高性能计算研发工程师,一线智算厂商高性能AI Infra工程师,现就职TsingtaoAI公司AI框架及AI应用研发工程师。


专业领域

华为昇腾技术栈: 深入掌握华为昇腾AI计算平台,包括昇腾算子开发、HCCL集合通信优化、智算集群建设与性能调优。

智算集群建设与优化: 专注于大规模智算集群的设计、部署、设备选型、网络配置及系统集成,提升集群性能和稳定性。

深度学习与高性能计算: 研究和应用分布式训练框架、优化技术,进行大规模计算任务的高效处理。

网络与系统集成: 在复杂网络环境下进行系统集成,确保数据传输的高效性与系统的稳定性。

AI开发框架: 熟悉多种AI开发框架,包括NCE fabric、NCE insight fabric、MindX和ModelArts平台的高阶使用。


代表性项目经验

GFDX智算集群项目

负责内容: 主导智算集群的整体设计与交付,包括设备选型、系统集成和网络设备配置。负责优化集群性能以满足高负载计算需求。

实际项目交付经验: 成功实施了62.5P的智算集群交付,确保系统的高效能和稳定性。


首都在线智算集群项目

负责内容: 主导智算集群的设计与部署,负责设备选型、集群网络架构设计和HCCL集合通信的优化配置。

实际项目交付经验: 成功交付了80P的智算集群项目,实现了高效的数据处理和计算能力。


北京昇腾人工智能计算中心

负责内容: 智算集群项目的建设与交付,包括设备选型、系统集成、网络设备配置与调优,以及昇腾平台的算子开发与优化。

实际项目交付经验: 主导了100P的智算集群交付,显著提升了计算能力和系统性能,满足了大规模AI应用需求。


教学与培训经验

昇腾技术培训: 为多家企业和研究机构提供昇腾技术栈的定制化培训,涵盖昇腾算子开发、HCCL通信优化、智算集群建设等内容。

教学方法: 善于将复杂的理论知识与实际应用相结合,通过案例分析与实践操作,帮助学员在短时间内掌握核心技术,并能在实际项目中独立应用。


实训案例

某智算中心运维厂商:

  1. IB网络
  1. IB网络的概述与原理
  2. IB网络的传输协议与数据传输原理
  3. 深入讲解InfiniBand的传输协议,包括RC、UC和UD,并解释数据传输机制。
  4. 描述IB网络的硬件架构,包括交换机、路由器、HCA和TCA等。
  5. IB网络的故障诊断与排除
  6. 实操环节,教授如何诊断和解决IB网络中可能出现的问题。
  • GPU架构与CUDA编程
  • NVIDIA GPU架构与特性
  • 介绍GPU的基本概念和CUDA编程模型。
  • 提供CUDA编程的基础知识和入门指导。
  • GPU内部结构与性能优化关键点
  • 分析GPU加速计算的实际案例,包括性能提升和应用场景。
  • 讲解如何优化CUDA程序的性能,以及CUDA生态系统中的各种工具和库。
  • GPU加速计算与案例分析
  • 高级CUDA库与工具链详解
  • 性能优化与CUDA生态系统
  • 算力集群规划与设计
  • 算力集群架构与设计
  • 软件栈设计与集群性能评估
  • 集群性能调优的高级技巧与实践
  • 集群性能调优


智算集群的开发调优-某运营商研发中心

昇腾算子开发相关

2. 常见错误码与问题排查

3. 自定义算子的调用与调试

4. 高阶融合算子实现方法

HCCL集合通信相关

5. HCCL常见错误码与处理方法

6. HCCL通信算法与算子开发

7. HCCL新特性与调优

昇腾智算集群网络设备管理

8. NSLB1.0和2.0方案实现细节

9. 端网协同机制

10. 集合通信建链与mpirun测试

华为AI开发框架与工具链

11. 华为CCAE与NCE系统使用

12. MindX与ModelArts框架使用

13. 昇腾环境适配的AI开发框架


基于华为昇腾的分布式训练技术咨询-某科研学术机构

利用 PyTorch DDP 在多 GPU 上并行训练 ResNet-18,加速 CIFAR-10 训练并保持高准确率。通过环境配置、数据分发与采样、模型分布式包装和自动梯度同步,实现高效训练。结合混合精度、梯度压缩和自适应批大小等策略,大幅减少通信开销、提升计算效率。针对分布式任务调度与容错机制进行深入探索,保障大规模训练的稳定性与可扩展性,提供了高效、易扩展的分布式深度学习解决方案。


张老师 AI运维资深技术专家

泰健科技CTO,《SRE原理与实践:构建高可靠性互联网应用》作者。

曾任虎牙资深运维专家和架构师,拥有20年软件开发、架构、运维、SRE经验。历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。

为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定性保障体系,在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。

同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。《运维前线》一书的联合作者。多次参与GOPS、MSUP/EE、GDevops、Takintalks技术大会分享。


关于TsingtaoAI

TsingtaoAI企业实训业务线专注于提供LLM、具身智能、AIGC、智算和数据科学领域的企业实训服务,通过深入业务场景的案例实战和项目式实训,帮助企业应对AI转型中的技术挑战。其实训内容涵盖AI大模型开发、Prompt工程、数据分析与模型优化等最新前沿技术,并结合实际应用场景,如智能制造、医药健康、金融科技和智能驾驶等。通过案例式学习和PBL项目训练,TsingtaoAI能够精准满足企业技术团队的学习需求,提升员工的业务能力和实战水平,实现AI技术的高效落地,为企业创新和生产力提升提供强有力的支持。

同时,TsingtaoAI公司并不是一家单纯的实训机构,我们同样是一家AI产品开发公司,公司核心团队主要也都是由技术和产品人才构成,公司团队大部分成员在大模型时代之前就在从事AI产品相关的工作。公司在过去一年里,为10余家客户开发了AI相关的产品,涵盖医疗、教育、智能制造、人力资源等领域。相信我们在AI产品开发和客户服务的过程所形成的认知和方法论,能对贵司的需求有更深更细的洞察和理解,也能提供更深入业务肌理的“AI能力获得”。

目录
相关文章
|
14天前
|
弹性计算 搜索推荐 应用服务中间件
定了!阿里云服务器租赁优惠价格表11月最新,一年、1个月和1小时收费标准
2025年11月阿里云服务器最新优惠:轻量应用服务器200M带宽38元起/年,ECS 2核2G 99元/年,2核4G 199元/年,4核16G仅89元/月,8核32G 160元/月,香港轻量25元/月起,爆款低至1折,新老用户同享,续费同价,速查活动页面获取详情!
182 13
|
11天前
|
人工智能 供应链 算法
TsingtaoAI荣膺2025澳门首届DSA国际创新创业大赛奖项,RISC-V AI机器人引领行业新突破
2025澳门首届DSA国际创新创业大赛圆满落幕,TsingtaoAI凭借RISC-V AI协作机器人项目摘得优胜奖。该项目融合轻量设计与2.0TOPS算力,支持图形化编程与模块化扩展,已落地高校实验室并构建开源生态,获澳门专项孵化及产业链支持,助力中国芯赋能实体经济。(238字)
84 27
|
7天前
|
机器学习/深度学习 传感器 自动驾驶
具身智能核心突破:物理模拟器与世界模型协同技术拆解
本文系统综述了物理模拟器与世界模型在具身智能发展中的协同作用,提出五级智能机器人分类体系(IR-L0至IR-L4),分析其在运动、操作与交互中的进展,并对比主流仿真平台与世界模型架构,探讨其在自动驾驶与关节机器人中的应用及未来挑战。
219 113
|
20天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
360 116
|
27天前
|
机器人 数据挖掘 API
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
Dify 作为一款低代码 AI 应用开发平台,凭借其直观的可视化工作流编排能力,极大降低了大模型应用的开发门槛。
376 22
一个销售数据分析机器人的诞生:看 Dify 如何在 DMS 助力下实现自动化闭环
|
4天前
|
数据采集 监控 NoSQL
基于n8n创建自愈式用例库及质量知识图谱
本文分享了如何基于n8n构建自愈型质量管理系统。通过自动化采集缺陷、需求等数据并构建知识图谱,系统能智能分析、自动修复用例库。方案大幅降低了维护耗时与缺陷逃逸率,将测试团队从重复劳动中解放,转向质量策略设计,实现了质量数据的持续流动与优化。
|
28天前
|
运维 监控 数据可视化
故障发现提速 80%,运维成本降 40%:魔方文娱的可观测升级之路
魔方文娱携手阿里云构建全栈可观测体系,实现故障发现效率提升 80%、运维成本下降 40%,并融合 AI 驱动异常检测,迈向智能运维新阶段。
258 39
|
16天前
|
存储 分布式计算 数据库
ETL vs ELT:到底谁更牛?别被名字骗了,这俩是两种世界观
ETL vs ELT:到底谁更牛?别被名字骗了,这俩是两种世界观
105 12
|
17天前
|
传感器 人工智能 监控
LLM为何难以胜任复杂任务?探索AI认知局限
大语言模型在复杂任务中常因缺乏执行反馈闭环而表现不佳。本文指出LLM存在状态管理、环境感知和结果验证等局限,需要结合工具执行、状态存储和监控验证构建系统化方案。成功关键在于建立可验证的工程体系,而非依赖模型本身,这对AI系统设计与测试提出了更高要求。
|
14天前
|
图形学 Android开发 开发者
《PNG转ETC2的底层逻辑与跨平台实践指南》
纹理优化是Unity跨平台项目性能提升的核心环节,而PNG转ETC2作为兼顾画质与效率的关键手段,其价值常被开发者忽视。ETC2凭借硬件级解码优势,可在视觉无损前提下将纹理数据压缩至原PNG体积的四分之一,大幅降低显存占用与CPU解压缩开销,实现加载速度、帧率的双重提升。本文结合实战经验,系统解析ETC2的适配逻辑与优化要点:从设备GPU兼容性判断、纹理场景权重筛选,到Unity中纹理类型设置、尺寸调整、Mipmap配置等精细化操作,再到纹理图集打包、动态资源管理等进阶策略,完整覆盖全链路优化流程。
71 14