We Make AI-Ops Happen!

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在云计算、大数据、人工智能、物联网、区块链技术的发展日新月异的今天,2018杭州·云栖大会于9月19-22日在杭州云栖小镇举办,本届云栖大会的会议主题为“驱动数字中国”,在170多场的前沿峰会和分论坛中,9月19下午200人的“智能运维”专场各位引人注目,现场爆满。

在云计算、大数据、人工智能、物联网、区块链技术的发展日新月异的今天,2018杭州·云栖大会于9月19-22日在杭州云栖小镇举办,本届云栖大会的会议主题为“驱动数字中国”,在170多场的前沿峰会和分论坛中,9月19下午200人的“智能运维”专场各位引人注目,现场爆满。

image.png

本次的“智能运维”专场中,来自清华大学、阿里巴巴基础设施、阿里巴巴研发效能、阿里巴巴计算平台事业部的小伙伴们,为全球开发者分析了及我们分享了,智能运维的学界、业界前沿以及阿里巴巴全链路(供应链、数据中心、集群运维、应用运维)的智能化运维探索之路。

《阿里巴巴智能运维体系建设》

刘国华 阿里巴巴集团研究员

阿里巴巴集团研究员刘国华首先开场,分享了阿里巴巴智能运维方面的探索和实践。阿里巴巴的运维系统随着基础设施规模的发展,经历了一个从人工到平台化和智能化的自然的演进过程。目前,阿里基础设施的高复杂、高安全、高可靠、高效率方面的要求完全超出了人所能处理的范围,需要全面依赖机器智能才能面对快速发展的趋势。

运维的场景中需要通过机器智能解决的问题是多种多样的。这个需要我们把机器学习、优化算法和在各个专业领域方面的知识完美结合起来,针对具体的优化场景,产生令人满意的解决方案。智能运维的实现是运维平台实现信息化和数字化之后的自然发展。同时运维平台的宽度和厚度决定了上面智能实现的深度和厚度。如果把DC当做一台计算机,那么运维平台就是这台超级计算机的操作系统。需要从全局的角度,统一整个数据中心的管控、调度体系,来提升整体的数据中心应用率,内容包含能耗、电力、利用率等,各个维度实现整体调度最优化。

刘国华把运维体系建设设计的思路总结为四个方面:系统思维、底线思维、安全思维、全局思维。智能化是整个自动化的终极状态。目标就是要把复杂留给自己,把简单留给用户。阿里在供应链、服务器运维、集群和应用运维等职能运维方面都已经做出了有益的尝试并取得了不错的效果。后面还会有更大的投入,建立一个完善的智能维护体系,成为阿里巴巴业务的核心支撑。

image.png

《Robust design of a reverse supply chain network planning 》

张智海 清华大学工业工程系副教授

张智海教授本次分享结合一个光伏电池回收网络的规划与运营问题,探讨了如何利用鲁棒优化方法对不确定系统进行建模,并开发了一个高效的优化算法对建立的模型进行优化求解,进而分析了系统运营规律和特点。

各种不确定因素(例如价格、需求)给供应链网络运营带来极大挑战,“我们为什么要做这个东西?”张智海教授说到,这是实际应用的案例,当我们设计一个系统或者设计一个方案的时候,设计的过程往往是对未来参数的值的期望,基于期望值做的设计和规划,在实际的运营过程中,当期望值发生变动的时候,如果系统设计足够强壮的话,设计可能就失效了。一方面,我们设计的系统要有最优的成本表现,但是如果值发生变动以后,成本可能变得非常恶劣,当然这样的情况是极端的情况,设计就完全失效了。即使参数和当时设计的参数有一定的偏差,设计的方案依然可以有效的运行,为了实现这样所以我们用了分步优化方法。

image.png

《智能化应用运维》

黄心懿 阿里巴巴高级技术专家

本次分享将向大家介绍了阿里最大的运维平台是如何转型的,如何以智能化方式实现监管控一体的自动化体系建设,如何稳定,高效,低成本的完成百万级服务器的运维。

他介绍了阿里的运维平台的演进历史,以及DevOps的最佳实践。并通过一次发布过程,介绍了“无人值守发布”实现关键的技术方案,无人值守发布做为阿里在智能化运维领域的全新探索,探索出一套适应于阿里的应用智能化发布部署体系并实现系统化。通过这套系统,首次描绘出了一个应用在变更部署过程中的数据画像,通过机器学习以及优化算法能及时有效地发现并拦截异常的变更,把变更类故障剿灭在萌芽状态。

image.png

《MSP引领运维的智能化变革》

李云(Brad Lee) 北京贝斯平云科技有限公司 总裁

本次分享从第三方独立MSP运营商的角度,分析解释在新的互联网运维时代,运维管理的变革推动了MSP成为行业新趋势,并探讨如何建设MSP的高效运作模式,助力行业,为客户提供稳定、高效、一站式的智能化业务运维服务。

他说到,“在AI-Ops时代,MSP企业在积累经验,经验是来自于逐步性的动作,AI是有场景的,AI是有数据的,AI是有算法的,我们作为MSP,有些东西是海量数据,包括海量经验,数据是我们自己提供运维的时候,我们平台的数据,经验是最宝贵的部分,从标记、特征、决策树等,采集之后成为AI-Ops的方向。”

image.png

《数据化运维构筑智能运维能力》

孙永华 阿里巴巴运维专家

本次分享将向大家介绍阿里巴巴大数据SRE在数据化运维的体系化建设历程,为企业客户构建数据化运维体系带来可落地的思路和帮助。在AIOps的实践过程中,发展数据化是一个必经之路。正如坊间的一句话,要做AI先做BI。

因此他提出了DataOps的概念,在DataOps之上构建相应的数据应用场景,解决业务的各类问题。在运维数据仓库之上,提到了3个重要的运维应用场景,知识图谱(搜索和Chatops)、智能监控、运筹优化。

在构建DataOps的过程中,需要先构建运维数据仓库,通过阿里云的大数据技术栈以及数据仓库的维度模型可以很方便地构筑出运维数据仓库;通过基于数据仓库的应用,通过对机器打标签建立画像,进行服务器的治理;以及另外一个数据应用领域是智能监控,讲到了指标监控的2种方法以及日志异常检测的方法。

image.png

《智能化大规模集群运维》

菅骁翔 阿里巴巴资深技术专家

本次分享为大家介绍阿里巴巴在云战略中的智能化实践。如何通过自动化和智能化手段运营大规模集群,如何在计划内变更稳定性及异常处理方面应用智能算法辅助决策,提高大规模集群稳定性并降低运营成本。

从单机到多机,单数据中心到多数据中心,IT基础设施规模化管理成为降低日常运营成本的重要手段,整个的自主优化,我们把数据化结合自动化、智能化的方法,最后达到持续学习优化的过程。

他举例说到“我们的集群变更模式,分为两类:一种是计划内,主要关键点是灰度模型,具体的服务实现自己所需要的策略,我们把所有的服务作为服务巩固把模型实现出来,把整个计划内的风险控制得非常低。另外一种异常处理,在大部分环境下可以积累数据进行更优化的判断,保障变更的稳定性。”

image.png

《智能化数据中心运营》

焦靖 阿里巴巴高级技术专家

本次分享向大家介绍了阿里巴巴智能化数据中心运营的体系化建设历程。随着电商,阿里云等业务的快速发展,给IDC建设,服务器交付,运维等带来了越来越多的挑战。整个DC运营体系,经过了数据化,自动化二个阶段的演进与发展,正在往着智能化方向迈进。通过全方位的数据监控和采集,提供统一视角的IDC监控中心,对核心指标进行监控告警。基于大数据的积累,和自动化的产品流程,在关键节点使用AI技术进行针对性的优化提升,推动运维模式的变革,从被动响应到主动,预防性维护演进。

image.png

《智能化数据中心供应大脑》

朱婉怡 阿里巴巴高级技术专家

本次分享向大家介绍了阿里巴巴数据中心供应链大脑的主要发力点:如何对数据中心端到端的供应链进行精准预测链接和对资源分配做主动预先式优化管理,如何结合运筹优化和长期预测智能化系统化制定DC建设长远战略,以最佳的成本和最小的供应风险保障资源的交付和使用。

她讲到通过预测技术演进,从完全被动到粗略估计到单线数据进行统计预测,开始尝试结合多元因子进行需求预测,有了大数据和人工智能帮助我们建造持续演进的需求预测的系统,随着数据层的丰富,预测技术的丰富,预测技术是不断演进,从而精确抓住产品的采购,帮助供应链的管理由被动变主动,降低成本,控制风险。

image.png

《智能化故障管理》

王肇刚 阿里巴巴高级技术专家

分享了阿里巴巴在故障处理领域进行智能运维实践的成功案例,助力企业客户在实际的业务和技术环境中推进智能运维的实践进程,提升运维工作的质量和效率。

介绍“智能基线”的框架,解决的是精准监控的问题,通过算法框架,在时间序列分解预测加上机器学习的方式解决业务精准监控的问题,并通过一些方案把异常指标关联应用,数据及基础设施,最后基于在线的运维数据仓库,查询到在这个瞬间哪些应用上有问题,最后得到可疑事件。并通过一些策略,把可能是一类原因的业务聚合起来,然后会把跟下跌相关的业务指标推荐出来,通过这种方式让我们出现应急事件的时候,协作效率提高。

image.png

《智能化应急协同》

郭锐 阿里巴巴技术专家

分享了阿里巴巴在应急处理领域,基于IM的机器人,通过大数据分析,意图训练等进行应急协同作战的最佳实践。

基于复杂的生态体系,一旦出现应急的时候,如果不及时处理,可能会带来更不好的结果,阿里巴巴在应急这块的处理流程,还是比较规范,从故障发现到信息情报,中间有应急调度、故障定位、故障恢复,通过一系列的手段进行应急统一搜索,统一调度到把事情处理掉,最后把相互之间协同起来,最后收集到统一的协同中心。

对于未来的畅想,他说到“我们今天的主题是智能运维,那是我们理想的彼岸,其实我们一起在前进的道路上,在前进的道路上,我们的人参与定规则、定算法,很多离不开自己的参与,我们有很多的成长空间,但是未来的方向和机制是不变的。”

image.png

通过本次云栖大会 “智能运维专场”的分享,我们针对运维的智能领域分享智能运维的成功案例以及阿里全局性应急决策与指挥经验,为企业客户构建智能化运维体系带来可落地的思路和帮助。

我们正在建设的DC Brain结合了AI和对应的专业领域去建设自动交付,主动优化和自主演进的智慧化运维体系,打造“Towards a Self-driving Data Center”!

更多

精彩瞬间
200人的场地座无虚席

现场异常火爆

We Make AI-Ops Happen!

image.png

image.png

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
运维 监控 云栖大会
We Make AI-Ops Happen 杭州云栖大会——智能运维专场即将开启
支持百万级规模服务器管控,保障双十一世界级工程生产运行安全的智能运维体系;直击阿里全球运行指挥中心双11的隐形战场;大规模文件分发系统,承载了整个阿里集团文件分发。We Make AI-Ops Happen 杭州云栖大会——智能运维专场即将开启!
3079 0
|
人工智能
The 4 ethical issues in AI we're all thinking about
Everyone's keeping an eye on artificial intelligence. This technology has advanced at such a rapid rate that its impact on people's lives so far has been mind-blowing.
2409 0
|
人工智能
5 AI Trends We Can Expect to See in 2017 and Beyond
Artificial Intelligence (AI) continues to make big strides as a changemaker across various industries, unlocking significant opportunities to transf
2158 0
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
65 10
|
2天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
9天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
14天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
20天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
305 34
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
49 17

热门文章

最新文章