阿里大数据SRE专家池枫:做Tesla,是因为传统运维方式已不能满足业务发展需求

简介: “大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。”对于Tesla的由来,池枫如此说到。
4月20日20:00-21:30,一场别开生面的技术大会—— “运维/Devops在线技术峰会”将在线举办。从网络基础架构实践和演进,到同城容灾架构剖析;从如何稳定、安全的使用云数据库,到企业如何在云上安全加固最佳实践;从阿里云专家理解的DevOps,到如何构建一个通用化的智能运维平台……不仅一一告诉你云上的运维重点在哪、运维人应该如何思考,也手把手教你如何做。同时,对于处于转型中的企业,我们也邀请了有代表性的互联网公司来分享他们的亲身体验。

阿里云运维/Devops在线技术峰会官网: https://yq.aliyun.com/activity/188
峰会统一报名链接: https://yq.aliyun.com/webinar/join/167

0d7328d37929ca775c85f1040390f9a86dd4b0e3
阿里大数据SRE技术专家池枫说,他希望Tesla是一个创新、高效的自动化、智能化平台

池枫,阿里大数据SRE技术专家。2011年加入阿里巴巴大数据SRE团队,见证阿里大数据产品最快速的发展过程。先后负责阿里Hadoop、Hbase、Apsara、ODPS等产品运维, 全程负责大数据运维自动化体系建设。历时2年时间带领团队完成Tesla智能运维体系设计,开发,落地,进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。

在4月20日20:00举行的运维/Devops在线技术峰会上,池枫将会分享《如何构建一个通用化的智能运维平台(Tesla)——大数据SRE实践》议题。为此云栖社区采访了这位在大数据SRE浸淫多年的技术专家。

以下是本次采访内容:

云栖社区:历时三年,你带领团队建设了Tesla智能运维体系,能聊聊什么是Tesla?为什么要建设它?

池枫:先回答为什么要建设Tesla,这个还要从2014说起,那个时期大数据在业界初露峥嵘,阿里巴巴内部大数据的业务也快速发展,产品种类,服务规模双双增长,并且产品的迭代周期极大缩短,各种异构的集群级大数据产品造成了多种多样的运维模式,给我们团队带来了相当大的压力,大家明显感到传统的运维方式,已经远不能满足快速的业务发展。如何破解,我们选择建设一个能够长期发展的自动化平台,这就是Tesla的由来。

什么是Tesla,我们希望它首先是一个创新、高效的自动化平台,还希望它是一个通过数据驱动由自动化向智能化转变的平台,借助Tesla体系的不断完善提升我们运维的价值。

云栖社区:Tesla开发过程中,有没有遇到什么困难,又是怎么解决的?

池枫:Tesla的建设过程对我们整个大数据SRE团队来说是一个非常巨大的机会和也是挑战。碰到的许多困难,最重要的一块就是团队内部产品研发的组织模式,换句话说我们对传统工具团队开发模式进行了优化,Tesla 分两部分的研发人员完成,一部分提供框架级别的服务开发,另一部分提供了业务逻辑实现的服务,我们摒弃了传统B2C模式,采用了C2C共享协作的开发模式共建我们的Tesla平台。这种方式使Tesla从无到有,从小到大,发展的速度大大加速,迭代的目标更加明确,质量控制更容易达成,也保证我们以现有的人力做到今天的规模的。

云栖社区:Tesla能解决哪些典型问题?哪些地方可能还需要继续完善?

池枫:Tesla 面向的场景都是最典型的的运维运营场景 ,我们产品几乎打通了所有关键的运维环节:例如应用环境管理 ,变更操作执行,需求智能处理,事件关联处理,故障分析诊断,运维数据挖掘。我们希望沉淀运维经验的决心非常坚决,因为我们认为这种沉淀好比是对运维的格式化存储,只有格式化的数据将来才能被机器所学习和挖掘,积累这样的数据的能力是智能化的关键。

所有我们正在建设的产品都仍然有很大的进步空间,尤其是与智能化相关的如:问题的分析、故障的预测、行动的决策,对我们来说仍然处在探索关键期,能够给与我们借鉴和帮助实践特别少,所以这块今年我们集中了团队中最优秀人员去整合我们运维、运营数据,期待在这块有突破性的成果。

云栖社区:目前Tesla内部的应用情况是?

池枫:Tesla目前服务所有的阿里大数据产品研发团队和运维团队。产品线覆盖ODPS ,HBase ,ADS,Galaxy,tt,datahub等集团核心的大数据产品,覆盖上十万级业务服务器规模,运营站点PV 5000+p/日,平台自动化事件:近百次/日,自动化时间近万分钟/日(此处的近万分钟是指单人顺序执行需要的耗时),是整个部门的运维工作的根基。 

云栖社区:Tesla未来的发展计划是什么?

池枫:关于Tesla未来发展方向 ,近1年的思考中已经非常明确:就是成为更+的智能化。

我们不仅希望在Tesla上运维事务丝滑平顺,而且希望自然人对整个业务产品线的决策影响越来越少,所有的服务运行,更依赖于对格式化数据的分析驱动。具体到落地详细的计划,我们会分两个方向齐头并进,分别为“内和外”,对内我们强调数据仓库的完善,运维模型训练,借助内部海量的数据资源完成我们智慧化演进。对外 我们会借助大数据专有云项目的推进Tesla在私有云场景 的企业化支持能力,并且我们会在2017年完成Tesla核心子产品集成版本的开源目标,希望能推动运维智能化做一份贡献。

云栖社区:你认为一个完善的大数据运维自动化体系应该具备哪些特征?其工作中的重点、难点是什么?

池枫:“完善”的定义各有所见 ,我理解一个体系必须发源于其服务的业务产品,能够灵活适应“变”和快速的实现“通”。抽象不同产品中各种运维环节,具备层次化服务产品结构,能够连接 资源、事件,人各个维度的产品体系。

如何设计一个能够兼顾多种异构的大数据产品的运维平台体系是首先要解决的重点,另一个是人的因素,传统Ops需要转型,Ops+Dev+Data 人才的聚集是完成智能化运维的充要条件。

78a770e80b677fe24453151eb66e51c34c60c071
想和阿里大数据SRE专家池枫面对面技术交流?快拿起微信扫码吧!


池枫演讲提纲:
  1.  大数据SRE 运维产品的发展变迁;
  2.  智能运维产品体系理念;
  3.  分享核心套件的设计思路,使用场景及案例展示;
  4.  对自动运维生态的生态的展望。
听众收益:
  1. 复杂运维事务自动化沉淀方案。
  2. 智能运维模式的实践案例。
欢迎报名,聆听干货: https://yq.aliyun.com/webinar/join/167
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
307 2
|
存储 分布式计算 专有云
MaxCompute产品使用问题之阿里公有云的数据如何迁移到阿里专有云
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
223 10
|
运维 知识图谱 Python
专为运维工程师设计!阿里藏经阁出品的Python实战手册被我搞来了
Python 可能是极少数既简单又强大的编程语言中的一种。更重要的是,用它来编程是非常快乐的事。 今天给小伙伴们分享的是阿里“藏经阁”出品的专门给运维工程师设计的Python实战手册
|
SQL 运维 Linux
SQL基础(1),从三流Linux运维外包到秒杀阿里P7,
SQL基础(1),从三流Linux运维外包到秒杀阿里P7,
|
监控 关系型数据库 MySQL
【Zabbix 6(2),2024最新阿里Linux运维面经
【Zabbix 6(2),2024最新阿里Linux运维面经
|
7月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
503 14
|
9月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
337 4
|
8月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
678 0
|
7月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
242 14
下一篇
开通oss服务