
独家揭秘:微博深度学习平台如何支撑4亿用户愉快吃瓜?
随着深度学习在微博业务场景中的广泛使用,深度学习平台也遇到一些挑战:在离线训练方面,各业务方需求丰富多样,任务管理纷繁复杂,大数据与大模型带来训练时长的压力;在线推理方面,基于模型服务的特殊性,如何在满足微博大流量高性能的在线业务需求同时,保证服务的高可用与稳定性。新浪微博基于K8s构建了分布式离线与在线方案,解决了上述两个维度遇到的挑战。 新浪微博机器学习研发架构师于翔老师在ArchSummit全球架构师峰会2018北京站分享了《微博深度学习平台基于 K8s 的解决方案》主题演讲,介绍了微博深度学习平台概况,以及他们在离线与在线两个维度基于 K8s 的应用实践,我们对演讲内容进行了整理,希
阿里云容器服务弹性伸缩发布EIP支持助力在线视频与游戏场景
## 背景 疫情期间,在线会议等音视频应用面临大量流量冲击,为了获得更好的网路吞吐性能,常常会选择使用Host网络模型。采用Host网络模型的容器可以直接使用宿主机的IP地址与外界进行通信,若宿主机具有[弹性公网IP](https://help.aliyun.com/document_detail/32321.html),容器也能使用这个弹性公网IP进行通信。同时容器内服务的端口也可以使用宿

阿里云助力图森未来提升性能、加速模型迭代
理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。 于是,阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。

服务网格 ASM +容器服务 ACK 助力画雕科技构建 IoT 服务管理能力
将服务网格组件和集群拆分开,对服务网格组件进行升级不会影响到集群, 解耦网格实例和Kubernetes集群的生命周期管理;通过服务网格多入口网关, 轻松自定义实现,一个CRD就搞定了,而且可以将K8s集群利用率变得更高!

SpringCloud 应用在 Kubernetes 上的最佳实践 — 高可用(容量评估)
本篇是《SpringCloud 应用在 Kubernetes 上的最佳实践 》系列内容的第十一篇。

玩转ECS第4讲 | 基于弹性计算网络能力提升容器密度最佳实践
云原生和容器化是主流的趋势,实现容器化时推荐大家使用云厂商的容器服务,如阿里云ACK。但由于部分用户因为一些原因需要自建容器,此时不得不面临一个问题,就是如何能够在一台宿主机上提升容器数量,降低容器成本。

Fluid 0.3 新版本正式发布:实现云原生场景通用化数据加速
为了解决大数据、AI 等数据密集型应用在云原生计算存储分离场景下,存在的数据**访问延时高、联合分析难、多维管理杂**等痛点问题,南京大学 PASALab、阿里巴巴、Alluxio 在 2020 年 9 月份联合发起了开源项目 Fluid。近期我们更新了0.3版本

阿里云EDAS 3.0,助力佐朋数科轻松驾驭容器快速上云
阿里云的EDAS 3.0是一站式企业级分布式应用服务, 接入即可获得应用生命周期的管理能力,支持各种发布方式,可以利应用的监控来快速定位分析,支持主流微服务框架以及服务治理,支持细粒度的隔离管理。
非容器应用与K8s工作负载的服务网格化实践-7 基于ASM的POD和VM可观测性实践
服务网格的可观测性能力是通过Sidecar实现的,对于业务服务源代码来说是近零侵入的。可观测性包括数据采集、数据存储、数据展示和聚合分析。主要有三个维度:Metrics、Logging、Tracing,分别用于可聚合数据、离散事件、请求链路的可观测性。相应地,阿里云生态下,ASM打通了ARMS(https://www.aliyun.com/product/arms)、Log Service(https://www.aliyun.com/product/sls)、TracingAnalysis(https://www.aliyun.com/product/xtrace),供用户使用服务网格的可观
非容器应用与K8s工作负载的服务网格化实践-4 基于ASM的POD和VM互访实践-GRPC协议篇
为了实现高可用,非容器应用通常有一套服务注册和发现的机制。相对而言,kubernetes容器服务为POD提供了统一的基于dns的注册和发现机制。对于http协议的非容器应用的迁移,因为都是基于dns机制,切换成本交底。而对于使用非http协议的非容器应用,服务注册和发现这个技术点为迁移带来了额外的困难。 如何从非容器的注册和发现大脑最终迁移到kubernetes的注册和发现大脑,目前尚没有广泛认可的方案。目前常见的讨论是双脑方案,就是让非容器应用在启动时同时向两套大脑注册,并从两套中发现依赖服务,然后逐步实现向kubernetes大脑过度。这套方案的优点是可以通过随时摆动来保证可用性。
Spring 5 中文解析核心篇-IoC容器之ApplicationContext与BeanFactory
本章节主要描述:Spring 5 中文解析核心篇-IoC容器之ApplicationContext与BeanFactory。

阿里云新品发布会周刊第64期 丨 阿里云容器安全能力全面升级
你的容器安全吗? 阿里云容器安全能力迎来全面升级,将面向企业提供自动化、智能化的容器安全检测和响应能力,助力企业云上容器化进程。关注8月12日阿里云新品发布会,更多惊喜等你来!

阿里云荣获可信云容器安全能力先进级认证, ACK/ACR为企业级安全护航
在7月29日的2020可信云大会上,信通院发布了国内云厂商的容器安全评估结果。阿里云容器服务荣获最高级别先进级可信云安全能力认证,特别是在最小化攻击面,二进制镜像验签名,密文的BYOK加密等能力上国内领先,达到国际先进水平。

在Kubernetes中用Alluxio加速Spark数据访问(一)
本文档主要说明怎样在k8s上用alluxio加速spark的数据访问。文档将演示结合spark、alluxio和k8s完成一个对文件单词进行计数的任务。在实验中,我们将关闭alluxio的short-circuit的功能,验证spark executor与alluxio worker之间的通信是否通过网络栈完成。

云原生之路:容器技术落地最佳实践
随着容器技术的快速发展和广泛应用,毫无疑问云原生技术是未来发展的必然趋势。作为国内最早布局容器技术的阿里云,无论在技术还是产品上,都取得了极大的成果。阿里云资深技术专家易立通过阿里云容器服务,分享容器技术落地的最佳实践,希望能够帮助同学们更好地理解容器技术和云原生理念,合理地设计上云架构,充分发挥云的价值。(文末推荐:2020 阿里巴巴研发效能峰会)

阿里云容器服务飞天敏捷版详解
飞天敏捷版深度整合了Docker商业版套件和阿里的容器服务,成为国内唯一具有全商业版支持能力的容器云平台,可以部署在客户自有数据中心,包含从容器的创建到运行以及镜像的全生命周期管理。飞天敏捷版另外提供开放的接口,全面兼容Docker原生API和命令行以及第三方工具,为客户提供敏捷、弹性、开放的容器云平台。

如何使用 Istio 进行多集群部署管理(1): 单控制平面 VPN 连接拓扑
本文摘自于由阿里云高级技术专家王夕宁撰写的《Istio 服务网格技术解析与实践》一书,在展望服务网格未来的同时,讲述了如何使用 Istio 进行多集群部署管理,来阐述服务网格对多云环境、多集群即混合部署的支持能力。

阿里云新品发布会周刊第48期 丨 Gartner 容器报告:阿里云与 AWS 并列第一,领先微软、谷歌
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
【云栖号案例 | 教育&科研机构】百家云借助“容器+神龙”三天内实现数十倍扩容
受疫情影响百家云的业务量短时间内增长了数十倍,急需扩容。上云后提供弹性计算的空间与敏捷安全的扩容能力、稳定的服务与优异性能。
容器服务ACK支持AliyunLinux2和场景优化
Aliyun Linux 2是新一代阿里云原生Linux操作系统,为云上应用程序提供安全、稳定、高性能的定制化运行环境,并针对云基础设施进行了深度优化,为您打造最佳的运行时体验。并免费的获得阿里云针对操作系统的长期支持。 容器服务ACK目前已经全面支持AliyunLinux2的节点创建和加入集群,并结合AliyunLinux2的高内核特性提供了多场景的优化。

基于阿里云托管服务网格ASM完成应用全自动化渐进式发布的GitOps解决方案实践
本文是基于阿里云托管服务网格 ASM 完成应用在多集群环境中全自动化渐进式发布的 GitOps 实践。

基于阿里云托管服务网格ASM完成应用全自动化渐进式发布的GitOps解决方案实践
简介 ASM ASM当前处于公测阶段,欢迎扫码入群进一步交流: 阿里云服务网格(Alibaba Cloud Service Mesh,简称 ASM)提供了一个全托管式的服务网格平台,兼容于社区 Istio 开源服务网格,用于简化服务的治理,包括服务调用之间的流量路由与拆分管理、服务间通信的认证安全以及网格可观测性能力,从而极大地减轻开发与运维的工作负担。

阿里云服务网格ASM之扩展能力(3):在ASM中使用开放策略代理OPA
作为由CNCF托管的一个孵化项目,开放策略代理(OPA)是一个策略引擎,可用于为您的应用程序实现细粒度的访问控制。服务网格ASM集成了开放策略代理OPA,可用于为您的应用程序实现细粒度的访问控制。

阿里云服务网格ASM公测来袭系列之二:快速创建一个服务网格ASM 实例
Istio社区网站提供了一个适合于初学者的Bookinfo示例,通过这个示例可以很快了解它的一些基础概念和能力。同样地,在阿里云服务网格ASM产品中也提供了一个如何部署该Bookinfo示例的快速入门。本文章会介绍如何创建一个服务网格ASM 实例(控制面)。

在AlibabaCloud上,如何使用AD FS进行SSO登录并完成在容器服务ACK集群中的身份验证之 【角色SSO】
阿里云与企业进行角色 SSO 时,阿里云是服务提供商(SP),而企业自有的身份管理系统则是身份提供商(IdP)。通过角色 SSO,企业可以在本地 IdP 中管理员工信息,无需进行阿里云和企业 IdP 间的用户同步,企业员工将使用指定的 RAM 角色来登录阿里云。 本文主要介绍 **AD FS的配置** , **角色SSO 配置和登录**, 如需了解 **用户SSO 配置和登录** 请参考 [
云原生案例解读:与阿里云并肩作战,百家云三天扩容数十倍
百家云李钢江CEO总结,阿里云带给百家云的价值主要是以下三点: 1、提供了弹性计算的空间与敏捷安全的扩容能力 2、提供了相对稳定的服务与优异性能 3、技术支持团队响应及时,帮助百家云优化架构

WebAssembly 与 Kubernetes双剑合璧
WebAssembly技术已经走出浏览器,让计算无处不在。利用containerd的扩展机制,可以为WebAssembly应用提供与其他容器应用一致的、抽象的、应用分发、交付和运维模型,可以在Kubernetes集群中进行统一调度和管理。
使用阿里云容器服务Kubernetes通过init Container形式变更Pod的iptables
iptables可以看做客户端代理,通过一系列规则对数据包进行处理。本文主要讲述如何使用阿里云容器服务Kubernetes,通过已有镜像形式部署包含iptables规则变更的应用,及如何查看规则是否生效。在笔者操作过程中,碰到了权限问题,也会在本文中说明。涉及到镜像打包上传的内容,会在另外一篇文章中讲解。
《安全容器在边缘计算场景下的实践》- 2019上海QCon分享
**导读:**随着云计算边界不断向边缘侧延展,传统 RunC 容器已无法满足用户对不可信、异构工作负载的运行安全诉求,边缘 Serverless、边缘服务网格等更是对容器安全隔离提出了严苛的要求。本文将介绍边缘计算场景如何构建安全运行时技术基座,以及安全容器在架构、网络、监控、日志、存储、以及 K8s API 兼容等方面的遇到的困难挑战和最佳实践。 正文: 本文主要分为四个部分,首先

容器日志管理:从docker logs到ELK/EFK
监控和日志历来都是系统稳定运行和问题排查的关键,在微服务架构中,数量众多的容器以及快速变化的特性使得一套集中式的日志管理系统变成了生产环境中一个不可获取的部分。此次话题我们会集中在日志管理方面,本篇会介绍Docker自带的logs子命令以及其Logging driver,然后介绍一个流行的开源日志管理方案ELK/EFK。
Kubernetes弹性伸缩全场景解读(七) - 定时伸缩组件发布日期过滤等功能
kubernetes-cronhpa-controller是容器服务开源的一款面向Pod水平定时伸缩场景的CRD controller。在本系列的之前文章中已经向大家介绍了kubernetes-cronhpa-controller的基本用法了,今天我们来看下近期kubernetes-cronhpa-controller又增加了哪些新的功能。