规模化落地云原生,阿里云即将重磅亮相 KubeCon China

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit(上海 )即将在中国上海盛装启幕。

2019 年 6 月 24 日至 26 日, 由 Cloud Native Computing Foundation (CNCF) 主办的云原生技术大会 KubeCon + CloudNativeCon + Open Source Summit(上海 )即将在中国上海盛装启幕。


继 2018 年 KubeCon 首次成功登陆中国,本届 KubeCon 将吸引来自全世界数千名技术人员将会参加此次盛会,参与CNCF 全部项目和话题的深度探讨和案例分析,聆听 CNCF 项目的运维者和最终用户的分享。本届 KubeCon + CloudNativeCon + Open Source Summit 大会项目委员会由 75 名专家组成,审阅 KubeCon + CloudNativeCon 的 618 项提案,在本次 KubeCon China 2019 上,阿里巴巴共有 26 个技术演讲入选。 


在本次 KubeCon 上,阿里云智能容器平台负责人丁宇(叔同)、 CNCF TOC、etcd 项目作者、阿里云容器平台资深技术专家李响,CNCF 大使、Kubernetes 项目维护者、阿里云高级技术专家张磊等众多云原生技术大咖都会悉数到场并做技术分享,同时会为您带来包括开源 Virtual Cluster 强多租户设计、 OpenKruise 开源项目、开放云原生应用中心(Cloud Native App Hub)等众多云原生先进技术的最新动态与进展。我们非常期待您能够在 KubeCon China 上与阿里容器平台团队见面、进行交流或者开展技术合作。


KubeCon + CloudNativeCon 阿里巴巴专场页面上线


全面展示阿里云在本次 KuebCon 演讲议题及云原生生态成果的
“KubeCon + CloudNativeCon 阿里巴巴专场页面**”已经正式上线。在这里,您可以掌握阿里在 KubeCon 上的演讲议题、追踪《CNCF x Alibaba 云原生技术公开课》课程更新、了解阿里云原生产品动态、6 月 24 日动手沙龙活动安排,点击链接或文末“阅读原文”直接进入专场页面。

专场页面链接:https://yq.aliyun.com/promotion/833
/>



我们推荐您重点关注如下演讲:
**

Kubernetes 正当时,云原生未来可期

演讲人
阿里云智能容器平台负责人 丁宇(叔同)

议题简介
作为云原生应用的实践者,阿里云不仅支撑了流量巨大的双十一,而且也承担阿里巴巴经济体大规模日常业务。本演讲将分享阿里云对 Kubernetes 技术取得成功思考,同时展望云原生未来的发展趋势。

Keynote:阿里巴巴规模的云原生

演讲人:阿里云容器平台资深技术专家 李响

议题简介:阿里云已经成功地规模化落地云原生,本次演讲旨在将具体的经验分享给各位观众,涉及规模扩展、可靠性、开发效率、迁移策略等方面,并探讨针对大规模场景进行优化。Cloud native works for Alibaba. Cloud native  works for (almost) everyone.

阿里巴巴使用高可用性+可扩展 Prometheus 和 Thanos


演讲人
阿里云容器平台高级技术专家 秦国安(炎烈)
阿里云容器平台高级开发工程师 李涛(吕风)
议题简介**
阿里巴巴集团正在使用 Kubernetes 来支持全球最大的电子商务业务。 在可用性和可扩展性方面,如何提供可靠的细粒度监控和警报服务确实是一项挑战。 本次演讲将分享基于开源项目 Prometheus 和 Thanos 开发具有高可用性和可扩展性的细粒度监控系统的经验。 该系统主要支持阿里巴巴的集群管理系统,有 800 万 TPS 和 10K 请求,议题将讨论:

  • 如何使用 Prometheus 支持大规模场景?
  • 如何使用 Thanos 解决多个 Prometheus 实例导致的数据查询问题?
  • 我们从 Prometheus 和 Thanos 的配置中学到的经验教训,例如目标发现和记录规则管理以及警报规则。

使用 Istio 管理跨区域和跨集群的微服务

演讲人
阿里云容器平台高级技术专家 王夕宁(贝叮)
Backend Architect UniCareer Xiaozhong Liu


议题简介
职优你是一个电子学习职业发展平台,旨在满足全球学生和在职专业人士的各种需求,并为来自世界多个地区的用户提供服务。这些应用部署于在阿里云的不同区域上的多个 Kubernetes 集群上,以减少不同区域内的服务访问延迟。 为了有效地管理这些微服务,需要一个多集群服务网格来控制微服务流量、保证服务到服务通信等。


Istio 是一个建立在 Kubernertes 上的服务网格,可支持多种拓扑来管理多个 Kubernetes 集群上的应用流量统一管理。在整个案例研究中,我们将使用 Istio 服务网格分享多集群流量管理相关的部署设计和技术,并根据底层平台的需求和限制讨论一些挑战和相应的实践。

通过托管 CPU 和 GPU 工作负载,实现资源的高效利用

演讲人
阿里云容器平台高级技术专家 何剑
蚂蚁金服平台数据技术系统部技术专家 岑鹏浩(库泊)




议题简介
本次演讲主要介绍如何将 AI training 任务和长服务在 Kubernetes 集群之上混部。主要目的是通过混部各种 workload 提高资源利用率,从而节省资源。我们会从各个不同的维度包括 Qos class, cgroup, scheduling 等等来描述我们如何实现混部,以及如何评估利用率。过去几个月中,我们构建了一个几百节点的 GPU 和 CPU 混部集群,我们会介绍在生产集群中混合部署长服务和AI批处理任务的最佳实践。

1-5-10:如何快速恢复大规模容器故障


演讲人
阿里云容器平台技术专家 熊欢(宁拙)


议题简介
在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个容器,为恢复容器相关故障提出了 1-5-10 理论:MTTD(平均检测时间)为 1 分钟,MTTI(平均识别时间)为 5 分钟,MTTR(平均解决时间)为 10 分钟。在本次会议中,我们将讨论如何利用 1-5-10 提高大规模容器的可靠性:

  • 如何在本地建立一个有效代理,在 1 分钟内检测到问题;
  • 如何借助专家知识库智能诊断容器问题;
  • 如何以故障驱动型方式自动恢复容器问题。

了解 Kubernetes Master 的可扩展性和性能

演讲人
阿里云容器平台高级软件工程师 陈星宇(宇慕)
阿里云容器平台高级技术专家 曾凡松(逐灵)


议题简介
目前,Kubernetes 的规模限制是 5k 节点,因此如果您想用它来管理像 10k 节点这样的 Web 规模集群,您可能无法实现。 您是否想知道 Kubernetes 管理超过  5k节点的性能瓶颈是什么?当你想将其可扩展性扩展到一个新的水平时,是哪个组件阻碍? etcd,apiserver 或者 scheduler? 了解这些问题是运营大型 Kubernetes 集群的关键。在阿里巴巴,我们遇到了很多问题,比如随着集群变得越来越大,pod 创建变得非常慢。在本次演讲中,我们想分享如何进行各种基准测试和分析,并找到瓶颈,以及如何调整控制组件,并实现了超过 100 倍的性能提升。

Intro:containerd


演讲人
阿里云容器平台高级开发工程师 傅伟(聿歌)
Google 软件工程师 刘澜涛


议题简介
本次演讲将从 containerd 架构设计理念出发,向听众分享如何使用插件化能力来增强 containerd,提供不同镜像存储以及强隔离容器运行时的解决方案。同时,还会向听众展示 containerd 同 gVisor, Firecracker 容器运行时集成的演示案例,会让听众更好地理解 containerd 最佳集成方式。

阿里巴巴利用 K8S、Kata 容器和裸机云构建无服务器


演讲人
阿里云容器平台技术专家 张翼飞(悟鹏)
阿里云容器平台高级开发工程师 唐华敏(华敏)


议题简介
无服务器计算是当前流行的计算形式,极大降低了开发人员部署、管理、运行应用的成本。在无服务器平台中,不同用户的服务通常混部在同一个节点上,为此,需要在多租户场景下提供可信的运行环境。在阿里巴巴,我们使用 Kata Containers 作为安全容器运行时,在存储、网络、硬件等层面确保多租硬隔离和服务运行时的性能。在本次分享中,将根据我们的生产实践,详细讨论多租场景下如何实现硬多租和服务运行的高性能。

阿里巴巴数字推动的开源社区探索


演讲人
阿里巴巴开源治理办公室高级社区经理 赵生宇(笙雨)


议题简介
开源社区的运营一直是开源软件开发中的一个痛点,尤其是对于由纯开发者主导的社区,如何有效的管理开源社区、发现社区中的活跃贡献者、通过数据发现社区管理中存在的问题等,都是亟待解决的问题。本次演讲的内容将包括:

  • 如何评判开发者在社区中的个人活跃度?
  • 如何评判开源社区的整体活跃度?
  • 在这些模型下从当前世界上的顶级开源项目分析中可以看到什么、获得什么样的洞见?
  • 社区管理工具在开源社区中应该扮演怎样的角色?
  • 基于上述内容,阿里做了哪些尝试,收获了哪些结果?

**

阿里巴巴:电商巨头向云原生演进的经验与教训

演讲人
阿里云容器平台高级技术专家 张磊
容器平台高级开发工程师 王思宇(酒祝)


议题简介
将像阿里巴巴这样的全球电子商务巨头迁移到云原生平台绝非易事,在本次演讲中,我们将从技术和社区的角度分享我们去年工作得出的经验教训,包括:

  • 阿里向云原生技术迁移有哪些主要障碍?
  • 阿里的主要技术债务是什么?我们如何解决这些问题?我们的方法有效吗?
  • 如果您的应用管理方式与组织中的 Kubernetes 完全不同,该怎么办?
  • 为什么可预测性对电子商务至关重要?Kubernetes 是否具有开箱可用的可预测性?如果没有,为什么?如何解决这一问题(可能无解)?
  • 如何验证数千个节点集群中的可扩展性问题?
  • 规模庞大的团队能否与上游社区合作共赢?

Intro: Dragonfly

演讲人
阿里云应用运维平台技术专家 胡作政(正希)
阿里云应用运维平台高级开发工程师 张劲(太云)


议题简介
随着容器技术在工业中的应用越来越广泛,如何安全高效地分发映像是工程师们所面临的新挑战。蜻蜓项目是基于开源智能 P2P 的映像和文件分发系统。该项目旨在解决云原生场景中的所有分发问题。目前,蜻蜓项目专注于以下方面:

  • 简单:面向用户的明确定义的 API (HTTP),对所有容器引擎都无侵入性
  • 高效:CDN 支持、基于 P2P 的文件分发以节省企业带宽
  • 智能:主机检测实现主机层面的速度限制、智能的流量控制
  • 安全:数据块传输加密,HTTPS 连接支持


在本演讲中,我们将重点介绍通过蜻蜓分发容器映像。我们将回顾组织面临的挑战,包括大规模分发、安全传输、带宽成本,并提供解决方案。本次演讲将讨论实际用例。

不再混乱:大规模 Kubernetes 审计和检查


演讲人
阿里云容器平台技术专家 陈杰
蚂蚁金服高级开发工程师 马金晶


议题简介
众所周知,准确的异常发现和快速的问题分析是保证 Kubernetes 集群可用性和稳定性的关键所在。但在整个 Kubernetes 项目中,有着不计其数的监控指标数据。仅以我们的 Kubernetes 集群为例,我们观察到像这样的监控数据每秒钟就会产生几千条。如何合理地利用这些复杂而大量的数据和指标,对它们有效的进行记录和分析,变成简单易懂的可视化展示,变成准确的告警信息,是一个非常有挑战性的工作。


在这个演讲中,我们希望与大家分享在 Alibaba 在 Kubernetes 集群监控、审计和巡检方面的实践和经验。首先,我们会聊一聊 Kubernetes 与稳定性相关的重要数据和指标,以及如何去理解它们。我们会以案例的形式,具体讲一讲我们如何对这些数据和指标进行整合与解析。最后,我们会分享阿里巴巴高效、实时的对这些数据进行自动化巡检与分析的最佳实践。

最大限度地降低在 Kubernetes 上运行深度学习的 GPU 成本

演讲人
阿里云容器平台高级技术专家 张凯
阿里云容器平台技术专家 车漾(必嘫)


议题简介
越来越多的数据科学家在 Kubernetes 上运行基于 NvidiaGPU 的深度学习任务。与此同时,他们发现集群中的空闲 GPU 浪费了超过 40% 的成本。因此,如何能帮助提高 GPU 使用效率成为一个重要挑战。我们将介绍一款基于原生 Kubernetes 的 GPU 共享解决方案:

  • 如何定义 GPU 共享 API
  • 如何在不更改调度程序裸机代码的情况下在调度 GPU 共享。
  • 如何将 GPU 隔离解决方案与 Kubernetes 相集成
  • 我们还将通过演示介绍 Tensorflow 用户如何在 Kubernetes 集群中的同一 GPU 设备上运行不同的作业

云原生时代加速镜像分发的三种方法


演讲人
阿里云容器平台技术专家 江勇(益方)


议题简介
本次演讲将分享从阿里巴巴网络规模提高镜像分发效率的实践和经验教训。根据不同的场景,我们利用不同的镜像分发方法。基于 P2P 的 CNCF/Dragonfly 分发是缓解镜像中心带宽和减少分发时间的最直接方式。此外,CNCF/containerd 中的远程文件系统快照程序直接远程存储镜像,使容器引擎通过网络读取镜像内容,几乎不需要时间分发。你会发现第二种方式依赖于网络稳定性,那么如何根据镜像内容读请求动态加载从远程到本地存储的镜像作为权衡?最后,我们将总结如何选择适合镜像分布的方式。

在 Web 级集群中动态调整 Pod 资源限制


演讲人
阿里云容器平台技术专家 王程
阿里云容器平台技术专家 张晓宇(衷源)


议题简介
阿里巴巴这样规模庞大的全球电商巨头,其所拥有的应用数量和应用种类的都是超大规模的。如何科学合理管理这些容器的资源,一直是我们面临的巨大挑战。在本次演讲中,我们将从技术和社区演进等多种维度为大家分享我们的实际工作经验和技术成果。其中包括:

  • 目前社区对于容器的资源管理现状是什么?
  • 阿里这种大规模应用部署的具体挑战是什么?
  • 我们如何诊治资源管理上的各种疑难杂症?
  • 我们如何做到资源利用率大幅提升的同时确保在线服务稳定?
  • 如何平衡基于云原生的演进和实现工作快速交付?
  • 我们的经验可以为您带来什么帮助以及我们如何反馈社区做到共赢?




KubeCon China 2019 阿里巴巴技术演讲总览

**



福利放送


我们特别为您准备了 5 折购买 2019 年 6 月 24-26日在上海举办的 KubeCon + CloudNativeCon + OpenSource Summit 门票优惠码!


关注阿里巴巴云原生公众号后台发送“优惠”立即可以收到这个优惠码!期待与您在上海相见!



购买 KubeCon + CloudNativeCon + OpenSource Summit 可直接扫描二维码

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
6月前
|
人工智能 运维 Cloud Native
云原生技术实践营 · 深圳站——Serverless + AI 专场邀您参会!
云原生技术实践营深圳站聚焦Serverless+AI,6月21日探索技术结合新思路,助力降低GPU成本,简化开发运维。限额80人,报名审核制,活动涵盖Serverless趋势、AIGC应用、AI算力优化等议题,还有实操体验与现场抽奖。
云原生技术实践营 · 深圳站——Serverless + AI 专场邀您参会!
|
人工智能 Cloud Native Serverless
云栖大会-云原生产品线发布资料合集来了
2023年云栖大会云原生产品线重点发布内容、最佳实践、客户案例、技术解读等材料公开发布。
云栖大会-云原生产品线发布资料合集来了
|
人工智能 Kubernetes Cloud Native
释放云原生 AI 潜能,阿里云将重磅亮相 2023 KubeCon China
释放云原生 AI 潜能,阿里云将重磅亮相 2023 KubeCon China
1323 30
|
7月前
|
人工智能 Kubernetes Cloud Native
|
Cloud Native 安全 Serverless
阿里云重磅亮相信通院 2023 云原生产业大会,持续推动 Serverless 架构落地 | 报名启动
阿里云重磅亮相信通院 2023 云原生产业大会,持续推动 Serverless 架构落地 | 报名启动
|
消息中间件 运维 监控
盘点 | 云原生峰会重磅发布
11 月 5 日,2022 杭州·云栖大会上,阿里巴巴研究员、阿里云智能云原生应用平台总经理丁宇在云原生峰会上发表主题演讲,提出云原生激活应用构建新范式。在分享中发布阿里云在云原生领域多款新产品与全新升级,持续引领行业云原生技术趋势。
盘点 | 云原生峰会重磅发布
|
新零售 供应链 关系型数据库
全方位生态合作再提速!用友重磅亮相阿里云栖大会
1月3日-5日,以“计算·进化·未来”为主题的2022云栖大会在杭州云栖小镇隆重举办。大会汇聚上千位重磅嘉宾、院士学者、企业和行业领军人等碰撞数字科技前沿趋势,见证数字产业最佳实践,共话共创行业生态商机。作为阿里云战略合作伙伴,用友重磅亮相云栖大会,出席央国企数字化服务联盟成立仪式、“专精特新”企业论坛、产品伙伴发展论坛等活动,向业界展现了全方位的企业数智化服务能力。
251 0
全方位生态合作再提速!用友重磅亮相阿里云栖大会
|
机器学习/深度学习 新零售 运维
携手共建云原生生态 阿里云云原生加速器第二次集结圆满结营
阿里云云原生加速器是阿里云加速器在云原生领域的重要投入,期望以此赋能创业企业,携手共建云原生行业新生态。作为国内规模较大、产业资源丰富、加速高效的赋能组织,在过去几年中,阿里云加速器深入多个垂直赛道,陪伴和加速了诸多细分领域领先者的出现。未来,阿里云加速器将继续聚焦前沿领域,引领创业企业一起激情碰撞、协同创新,从而推动我国产业转型升级。
携手共建云原生生态 阿里云云原生加速器第二次集结圆满结营
|
Cloud Native 云计算
聚焦云原生 | 2022 飞天技术峰会火热报名中!
有一种速度,叫深圳速度,当加入了云计算,这个速度,就被赋予了新的内涵。2022 年 8 月 11 日,阿里云飞天技术峰会正式开幕!等你到来。
聚焦云原生 | 2022 飞天技术峰会火热报名中!
|
存储 运维 Cloud Native
阿里巴巴副总裁陈丽娟:我对阿里云产品生态的思考 | 云原生加速器观点
产业数字化浪潮中,云原生已成大势。在云原生加速器线下路演中,阿里巴巴副总裁、阿里云智能产品解决方案与大网站事业部负责人陈丽娟分享了对于阿里云产品生态的思考。
阿里巴巴副总裁陈丽娟:我对阿里云产品生态的思考 | 云原生加速器观点