阿里大数据SRE专家池枫:做Tesla,是因为传统运维方式已不能满足业务发展需求

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: “大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。”对于Tesla的由来,池枫如此说到。
4月20日20:00-21:30,一场别开生面的技术大会—— “运维/Devops在线技术峰会”将在线举办。从网络基础架构实践和演进,到同城容灾架构剖析;从如何稳定、安全的使用云数据库,到企业如何在云上安全加固最佳实践;从阿里云专家理解的DevOps,到如何构建一个通用化的智能运维平台……不仅一一告诉你云上的运维重点在哪、运维人应该如何思考,也手把手教你如何做。同时,对于处于转型中的企业,我们也邀请了有代表性的互联网公司来分享他们的亲身体验。

阿里云运维/Devops在线技术峰会官网: https://yq.aliyun.com/activity/188
峰会统一报名链接: https://yq.aliyun.com/webinar/join/167

0d7328d37929ca775c85f1040390f9a86dd4b0e3
阿里大数据SRE技术专家池枫说,他希望Tesla是一个创新、高效的自动化、智能化平台

池枫,阿里大数据SRE技术专家。2011年加入阿里巴巴大数据SRE团队,见证阿里大数据产品最快速的发展过程。先后负责阿里Hadoop、Hbase、Apsara、ODPS等产品运维, 全程负责大数据运维自动化体系建设。历时2年时间带领团队完成Tesla智能运维体系设计,开发,落地,进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。

在4月20日20:00举行的运维/Devops在线技术峰会上,池枫将会分享《如何构建一个通用化的智能运维平台(Tesla)——大数据SRE实践》议题。为此云栖社区采访了这位在大数据SRE浸淫多年的技术专家。

以下是本次采访内容:

云栖社区:历时三年,你带领团队建设了Tesla智能运维体系,能聊聊什么是Tesla?为什么要建设它?

池枫:先回答为什么要建设Tesla,这个还要从2014说起,那个时期大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。如何破解,我们选择建设一个能够长期发展的自动化平台,这就是Tesla的由来。

什么是Tesla,我们希望它首先是一个创新、高效的自动化平台,还希望它是一个通过数据驱动由自动化向智能化转变的平台,借助Tesla体系的不断完善提升我们运维的价值。

云栖社区:Tesla开发过程中,有没有遇到什么困难,又是怎么解决的?

池枫:Tesla的建设过程对我们整个大数据SRE团队来说是一个非常巨大的机会和也是挑战。碰到的许多困难,最重要的一块就是团队内部产品研发的组织模式,换句话说我们对传统工具团队开发模式进行了优化,Tesla 分两部分的研发人员完成,一部分提供框架级别的服务开发,另一部分提供了业务逻辑实现的服务,我们摒弃了传统B2C模式,采用了C2C共享协作的开发模式共建我们的Tesla平台。这种方式使Tesla从无到有,从小到大,发展的速度大大加速,迭代的目标更加明确,质量控制更容易达成,也保证我们以现有的人力做到今天的规模的。

云栖社区:Tesla能解决哪些典型问题?哪些地方可能还需要继续完善?

池枫:Tesla 面向的场景都是最典型的的运维运营场景 ,我们产品几乎打通了所有关键的运维环节:例如应用环境管理 ,变更操作执行,需求智能处理,事件关联处理,故障分析诊断,运维数据挖掘。我们希望沉淀运维经验的决心非常坚决,因为我们认为这种沉淀好比是对运维的格式化存储,只有格式化的数据将来才能被机器所学习和挖掘,积累这样的数据的能力是智能化的关键。

所有我们正在建设的产品都仍然有很大的进步空间,尤其是与智能化相关的如:问题的分析、故障的预测、行动的决策,对我们来说仍然处在探索关键期,能够给与我们借鉴和帮助实践特别少,所以这块今年我们集中了团队中最优秀人员去整合我们运维、运营数据,期待在这块有突破性的成果。

云栖社区:目前Tesla内部的应用情况是?

池枫:Tesla目前服务所有的阿里大数据产品研发团队和运维团队。产品线覆盖ODPS ,HBase ,ADS,Galaxy,tt,datahub等集团核心的大数据产品,覆盖上十万级业务服务器规模,运营站点PV 5000+p/日,平台自动化事件:近百次/日,自动化时间近万分钟/日(此处的近万分钟是指单人顺序执行需要的耗时),是整个部门的运维工作的根基。 

云栖社区:Tesla未来的发展计划是什么?

池枫:关于Tesla未来发展方向 ,近1年的思考中已经非常明确:就是成为更+的智能化。

我们不仅希望在Tesla上运维事务丝滑平顺,而且希望自然人对整个业务产品线的决策影响越来越少,所有的服务运行,更依赖于对格式化数据的分析驱动。具体到落地详细的计划,我们会分两个方向齐头并进,分别为“内和外”,对内我们强调数据仓库的完善,运维模型训练,借助内部海量的数据资源完成我们智慧化演进。对外 我们会借助大数据专有云项目的推进Tesla在私有云场景 的企业化支持能力,并且我们会在2017年完成Tesla核心子产品集成版本的开源目标,希望能推动运维智能化做一份贡献。

云栖社区:你认为一个完善的大数据运维自动化体系应该具备哪些特征?其工作中的重点、难点是什么?

池枫:“完善”的定义各有所见 ,我理解一个体系必须发源于其服务的业务产品,能够灵活适应“变”和快速的实现“通”。抽象不同产品中各种运维环节,具备层次化服务产品结构,能够连接 资源、事件,人各个维度的产品体系。

如何设计一个能够兼顾多种异构的大数据产品的运维平台体系是首先要解决的重点,另一个是人的因素,传统Ops需要转型,Ops+Dev+Data 人才的聚集是完成智能化运维的充要条件。

78a770e80b677fe24453151eb66e51c34c60c071
想和阿里大数据SRE专家池枫面对面技术交流?快拿起微信扫码吧!


池枫演讲提纲:
  1.  大数据SRE 运维产品的发展变迁;
  2.  智能运维产品体系理念;
  3.  分享核心套件的设计思路,使用场景及案例展示;
  4.  对自动运维生态的生态的展望。
听众收益:
  1. 复杂运维事务自动化沉淀方案。
  2. 智能运维模式的实践案例。
欢迎报名,聆听干货: https://yq.aliyun.com/webinar/join/167
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
30天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
5月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
83 0
|
3月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
123 10
|
2月前
|
运维 Kubernetes 网络协议
运维之道:从新手到专家的成长之路
【10月更文挑战第21天】 本文旨在探讨运维领域的成长路径,通过分享个人经历和行业见解,为读者提供一条从入门到精通的清晰路线图。我们将从基础技能的学习开始,逐步深入到高级技巧的应用,最终达到专业水平的提升。文章强调了持续学习和实践的重要性,并鼓励读者在面对挑战时保持积极态度,不断探索未知领域。
39 6
|
2月前
|
运维 Kubernetes 网络协议
运维之道:从新手到专家的成长路径
【10月更文挑战第22天】 本文将探讨运维领域内,个人如何从一名初学者成长为行业专家的过程。通过分析学习路线、必备技能、实践经验积累以及持续学习的重要性,旨在为那些渴望在IT运维领域取得成就的人提供指导和启发。
|
2月前
|
机器学习/深度学习 运维 Kubernetes
运维之道:从新手到专家的转变
【10月更文挑战第24天】 本文旨在探讨运维人员如何从初学者成长为领域专家,通过分析运维行业的现状、面临的挑战以及必备技能,提供一系列实用的建议和策略。文章强调了持续学习、实践经验积累和技术趋势把握的重要性,并结合具体案例,展示了运维专家的成长路径。
|
2月前
|
运维 Prometheus 监控
运维之道:从新手到专家的旅程
【10月更文挑战第24天】 在数字化时代,运维工作如同一座桥梁,连接着技术与业务,确保系统的稳定运行。本文将带你踏上一段从运维新手成长为专家的旅程,探索运维的核心价值、技能提升路径以及面对挑战时的应对策略。通过深入浅出的语言和生动的案例,让你领略运维世界的奥秘与魅力。
28 0
|
3月前
|
运维 监控 网络协议
运维的艺术:从新手到专家的旅程
在数字化时代,运维(Operation)是确保技术系统稳定运行的关键角色。本文将探讨运维的核心职责、面临的挑战以及如何通过持续学习和实践成长为一名出色的运维专家。我们将深入了解自动化工具的应用、故障排查技巧和性能优化策略,这些都是运维人员必须掌握的技能。此外,文章还将讨论软技能的重要性,如沟通协调能力和团队合作精神,这些对于处理紧急情况和提升工作效率至关重要。最后,我们将分享一些实用的资源和建议,帮助读者在运维领域取得成功。
|
6月前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18535 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践

热门文章

最新文章