一文了解蚂蚁金服今年KubeCon全部重磅分享

简介: 内附KubeCon蚂蚁金服具体分享内容~

6 月 24 日,国内云原生领域最重要的会议即将来袭!KubeCon + CloudNativeCon + Open Source Summit China 2019 将在上海召开,蚂蚁金服此次也会重度参与,由多名技术专家进行分享并组织 workshop,为参会者献上技术的饕餮盛宴。

本次大会上,蚂蚁金服将会重点分享 Kubernetes 集群的管理、深度学习任务在 Kubernetes 上的大规模部署和调优、互联网金融、安全容器等前沿课题。从 2016 年起,蚂蚁金服开始深度使用 Kubernetes,并作为最终用户案例被 CNCF 官方推荐:

2

目前,蚂蚁金服不仅在围绕 CNCF 的云原生开源技术方面做出贡献,也开源了自己的金融级云原生分布式解决方案 SOFAStack,本次大会上蚂蚁金服将以 Workshop 的形式展示使用SOFAStack 来快速实现 Service Mesh 和 Serverless,欢迎关注。

具体分享内容如下:

议题一览

1、通过托管 CPU 和 GPU 工作负载,实现资源的高效利用

  • 蚂蚁金服平台数据技术系统部技术专家 岑鹏浩
  • 阿里云容器平台高级技术专家 何剑

议题简介
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是通过混部各种 workload 提高资源利用率,从而节省资源。我们会从各个不同的维度包括 Qos class, cgroup, scheduling 等等来描述我们如何实现混部,以及如何评估利用率。过去几个月中,我们构建了一个几百节点的 GPU 和 CPU 混部集群,我们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。

2、不再混乱:大规模 Kubernetes 审计和检查

  • 阿里云容器平台技术专家 陈杰
  • 蚂蚁金服高级开发工程师 马金晶

议题简介
众所周知,准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中,有着不计其数的监控指标数据。仅以我们的 Kubernetes 集群为例,我们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标,对它们有效的进行记录和分析,变成简单易懂的可视化展示,变成准确的告警信息,是一个非常有挑战性的工作。

在这个演讲中,我们希望与大家分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先,我们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标,以及如何去理解它们。我们会以案例的形式,具体讲一讲我们如何对这些数据和指标进行整合与解析。最后,我们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。

3、有效可靠地管理大规模 Kubernetes 集群

  • 蚂蚁金服高级开发工程师 张勇
  • 蚂蚁金服技术专家 林志贤

议题简介
随着业务的增长,我们需要将 Kubernetets 部署到世界各地的多个数据中心。单个数据中心中就拥有超过数万个节点。我们面临的关键挑战是如何高效、可靠地在数据中心内管理多个大规模 Kubernetes 集群。

在本次演讲中,我们将分享实现大规模集群管理自动化的经验和实践。首先,我们将介绍全自动化节点生命周期管理,以及如何基于 NPD、Autoscaler 和自定义运算符自动发现和恢复节点故障。然后,我们将分享部署和升级 Kubernetes 集群的经验和解决方案。最后,我们将分享基于 Prometheus 和运算符的风险防控系统,该系统可确保集群可靠性,具有自动故障检测和隔离的能力。

4、为互联网金融关键任务场景拓展部署

  • 蚂蚁金服高级开发工程师 周梦伊
  • 蚂蚁金服技术专家 吴珂

议题简介
默认部署方法为执行常规版本升级提供了一种良好的解决方案。但是,将高可用性和可靠性的大规模服务部署为互联网金融应用尚且另当别论,更不用说这种工作负载在现有操作系统和维护系统下所面临的兼容性问题了。

蚂蚁金服引入的新工作负载可让这些问题迎刃而解。它能够通过可靠而灵活的分发、风险控制的部署策略以及高性能的就地更新扩展部署能力。它尤其消除了金融服务行业所面临的技术障碍,使开发商和运营商能够专心发展核心业务。

5、Kubernetes 集群的大规模分布式深度学习

  • 蚂蚁金服技术专家 唐源
  • Director of Engineering, MobileIron Yong Tang

议题简介
本次演讲的重点是在 Kubernetes 上部署大规模分布式深度学习。此外,还将介绍如何通过使用运算符来管理和并实现机器学习训练过程自动化。我们将分享我们的经验,并比较两个开源 Kubernetes 运算符:tf-operator 和 mpi-operator。这两个运算符都为 TensorFlow 管理训练任务,但有着不同的分配策略,这就造成了 CPU、GPU 和网络利用率方面的不同性能结果。

深度学习任务既是网络密集型又是 GPU 密集型,因此对编排进行适当优化非常重要。易发的不平衡会导致闲置计算容量,这对于 GPU 节点来说成本太高昂了(与 CPU 相比)。我们将分享我们的经验,希望可提供有用的洞察,帮助从机器学习任务中获得更好的经济效益。

6、推介会:SIG Cluster 生命周期

  • 蚂蚁金服高级研发工程师 徐迪
  • Cloud Software Architect, Intel Alexander Kanevskiy

议题简介
Sig-Cluster-Lifecycle Intro群集生命周期SIG是一个专注于群集部署和升级的特别兴趣小组。我们的SIG正在努力改善用户体验,以引导符合最佳实践的最小可行Kubernetes集群。使用我们的主要安装工具kubeadm,可以很好地管理简化的安装和升级过程。我们最近推出了一个名为Cluster API的新Kubernetes对象,它将声明式Kubernetes风格的API引入群集创建,配置和管理。在本次介绍会上,我们将介绍SIG的使命陈述,审核最新更新,并讨论我们的路线图。还介绍了一些新的生命周期项目。非常欢迎您加入我们的SIG并为其做出贡献。

7、安全沙箱是否已生产就绪?Kata 容器、gVisor 等

  • 蚂蚁金服资深技术专家 王旭
  • 蚂蚁金服技术专家 李福攀

议题简介
在 KubeCon NA 2018 上,我们对 Kata 容器和 gVisor 进行了定量比较,当时我们展示了对 Kata 而言合理的 CPU/网络性能、文件系统存储的性能损失、Kata 的内存消耗以及 gVisor 的系统调用开销等。

活动结束后,Kata 容器发布了版本 1.5,支持轻量级管理程序(Nemu 和 FireCracker)。当时我们还介绍了用于文件系统共享的 virtio-fs,它可以提供更好的 POSIX 兼容性和性能。Virtio-fs 能够与 shimv2 进行无缝的容器化集成,看似能够在 2019 年为 Kubernetes 提供更出色的生产就绪型安全沙箱支持。

在本次演讲中,我们将展示使用更新的测试套件对新推出的技术进行的基准测试,并帮助用户了解它们是否已生产就绪。

SOFAStack Cloud Native Workshop

Service Mesh 将服务间通信能力下沉到基础设施,让应用解耦并轻量化。但 Service Mesh 本身的复杂度依然存在,如何轻松的实践 Service Mesh 技术?在活动现场,我们将带你感受 CloudMesh 通过将 Service Mesh 托管在云上,助力轻松实践 Service Mesh 技术。

作为云原生技术前进方向之一,Serverless 架构让您进一步提高资源利用率,更专注于业务研发。本次您可以体验到快速创建 Serveless 应用、根据业务请求秒级 0-1-N 自动伸缩、通过日志查看器快速排错、按时间触发应用等产品新功能。

微服务架构下,分布式事务问题是一个业界难题。这次,您可以亲身体验如何使用开源分布式事务框架 Seata 的 AT 模式、TCC 模式解决业务数据的最终一致性问题。

具体日程可点击这里查看。

全部日程

实际日程以大会官网为准。

  • 6月24日09:00-16:00 SOFAStack Cloud Native Workshop
  • 6月25日13:35-14:10 通过托管 CPU 和 GPU 工作负载,实现资源的高效利用
  • 6月25日17:30-18:05 不再混乱:大规模 Kubernetes 审计和检查
  • 6月25日17:30-18:05 有效可靠地管理大规模 Kubernetes 集群
  • 6月25日16:00-16:35 为互联网金融关键任务场景扩展部署
  • 6月25日16:00-16:35 Kubernetes 集群的大规模分布式深度学习
  • 6月25日11:00-11:35 推介会:SIG Cluster生命周期
  • 6月25日11:45-12:20 安全沙箱是否已生产就绪?Kata 容器、gVisor 等
相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
SQL 存储 分布式计算
CDP的Hive3系列之Hive Metastore介绍
CDP的Hive Metastore (HMS) 是一种服务,用于在后端 RDBMS(例如 MySQL 或 PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享元存储。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的 NameNode。
3177 0
CDP的Hive3系列之Hive Metastore介绍
|
Go
【go 语言】PProf 的使用——协程(goroutine)和锁(mutex)分析(三)
【go 语言】PProf 的使用——协程(goroutine)和锁(mutex)分析(三)
3247 0
【go 语言】PProf 的使用——协程(goroutine)和锁(mutex)分析(三)
|
9月前
|
JSON 监控 测试技术
亚马逊:调用订单退款API自动化处理售后请求,缩短用户等待时间
在电商运营中,售后效率直接影响用户体验与平台声誉。亚马逊订单退款API为卖家提供自动化工具,通过编程方式高效处理退款请求,显著缩短用户等待时间。本文详解如何集成该API,实现退款流程自动化,提升响应速度与用户满意度。
|
存储 缓存 负载均衡
图解一致性哈希算法,看这一篇就够了!
近段时间一直在总结分布式系统架构常见的算法。前面我们介绍过布隆过滤器算法。接下来介绍一个非常重要、也非常实用的算法:一致性哈希算法。通过介绍一致性哈希算法的原理并给出了一种实现和实际运用的案例,带大家真正理解一致性哈希算法。
30241 66
图解一致性哈希算法,看这一篇就够了!
|
Prometheus Kubernetes 监控
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
583 0
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
935 3
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
第五届中国云计算基础架构开发者大会(CID)于2024年10月19日在北京成功举办。大会汇聚了300多位现场参会者和超过3万名在线观众,30余位技术专家进行了精彩分享,涵盖高效部署大模型推理、Knative加速AI应用Serverless化、AMD平台PMU虚拟化技术实践、Kubernetes中全链路GPU高效管理等前沿话题。阿里云的讲师团队通过专业解读,为与会者带来了全新的视野和启发,推动了云计算技术的创新发展。
|
自然语言处理 运维 Cloud Native
运维大模型探索之 Text2PromQL 问答机器人
本文主要介绍将AIGC技术运用到可观测领域的探索。
1960 110
|
SQL 关系型数据库 数据库连接
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
ClickHouse的PostgreSQL引擎允许直接查询和插入远程PostgreSQL服务器的数据。`CREATE TABLE`语句示例展示了如何定义这样的表,包括服务器信息和权限。查询在只读事务中执行,简单筛选在PostgreSQL端处理,复杂操作在ClickHouse端完成。`INSERT`通过`COPY`命令在PostgreSQL事务中进行。注意,数组类型的处理和Nullable列的行为。示例展示了如何从PostgreSQL到ClickHouse同步数据。一系列的文章详细解释了ClickHouse的各种特性和表引擎。
773 0
|
存储 分布式计算 Hadoop
深入浅出:Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。
4205 0

热门文章

最新文章