企业运维训练营之云上网络原理与实践 — 第六讲 云服务与总结

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 课程目标 • 了解Privatelink产品架构与最佳实践• 通过Privatelink理解云上网络问题排查方法• 理解问题排查方法论• 回顾本期训练营内容

企业运维训练营之云上网络原理与实践

第六讲 云服务与总结

 

视频地址:

https://developer.aliyun.com/learning/course/991/detail/14991

 

课程目标

 

  • 了解Privatelink产品架构与最佳实践
  • 通过Privatelink理解云上网络问题排查方法
  • 理解问题排查方法论
  • 回顾本期训练营内容

 

课程目录

 

  • Privatelink相关概念与产品功能
  • Privatelink问题排查方法
  • 问题排查方法论
  • 回顾本期训练营内容

 

正文:

 

一、Privatelink相关概念与产品功能

 

1.  Privatelink - 不破坏网络边界的基础上提供云服务。

 

什么是网络边界?先来回顾一下云网络发展的几个阶段:

 image.png

 

a.   经典网络时代

 

  • 没有独立网络空间,没有网络边界;

 

b.   单体云网络时代

 

  • 基于对等连接的单点组网:实现云上独立地址空间,但仅限于VPC间两两互通,VPC之间有严格的网络边界;
  • 基于CEN/CEN-TR的“全球一张网”:解决多VPC复杂组网问题,每个VPC或组网都有自己的边界;

 

c.   服务化云网络时代:

 

自治网络组织A、组织B、组织C……均具有独立的网络边界,因各种原因无法直接连接,而通过Privatelink产品可以实现相互访问,亦即:

  • 基于Privatelink的服务化组网,解决多张网问题;
  • 解决集团型企业组网,实现云上企业生态互联;

 

2.  Privatelink产品简介

 

私网连接(Privatelink)是利用阿里云的私有网络进行服务交互的一种方式。

 image.png

 

如上图所示,利用私网连接,用户可以通过私有网络,单向访问部署在其它 VPC中的服务,无需创建NAT网络、EIP等公网出口,交互数据不会经过互联网,有更高的安全性和更好的网络质量。

 

Privatelink的产品特点:

 

  • 本地私网通信;
  • 保持网络封闭;
  • 单向服务访问;
  • 保持双方网络独立。

 

3.  Privatelink使用场景

 

Privatelink的使用场景主要有:云服务、企业内部服务和云上企业生态。

 image.png

Privatelink使用场景

 

a.   云服务

 

场景描述:客户需要以独立的接口访问云内的服务,可以在客户的VPC中创建Endpoint(终端节点),并提供终端节点服务,客户的接口只需访问终端节点,就可以与云服务互通。

 

Privatelink的优势:

 

  • 更加安全可控的云服务入口;
  • 支持跨地域访问云服务;
  • 支持IDC访问云服;

 

b.   企业内部服务

 

场景描述:企业内部不同网络业务层和公共服务层的互通,通过独立的网络规划访问公共服务器区,可以在业务账户内部各创建一个Endpoint,在服务账号VPC中创建Endpoint服务并绑定SLB,即可在企业内部提供公共服务。

 

Privatelink的优势:

 

  • 支持服务化的企业IT架构;
  • 支持单账号和多账号体系;
  • 服务方和业务方的网络规划各自独立,简化管理;
  • 更高的安全管控能力和安全隔离能力;

 

c.   云上企业生态

 

场景描述:企业与ISV(企业服务合作方)之间的互通场景,每个企业会有多个ISV,同时每个ISV也会对接多个企业,为了防止网段冲突,通过私网连接,ISV向每个企业提供独立的私网接口进行连接。

 

Privatelink的优势:

 

  • ISV和企业能够在私有网络中发布和使用服务;
  • 全程私有网络通信,数据不经过互联网,更加安全可靠;
  • 支持混合云场景下的服务发布和访问;

 

4.  Privatelink产品组成

 image.png

Privatelink产品组成

 

Privatelink产品主要包含以下组件:

 

a.   终端节点(Endpoint):代表某个云上服务的使用方VPC中的私有连接接入点。终端节点通过终端节点网卡接入到某个可用区的虚拟交换机。创建终端节点时,可以根据终端节点服务名称,发起连接到服务提供方的终端节点服务的连接请求;

 

b.   终端节点可用区和网卡(Endpoint Zone & ENI):代表了服务使用方VPC中的服务请求入口。终端节点网卡是在服务使用方VPC中某个虚拟交换机中的一个弹性网卡(ENI),会占用虚拟交换机网段中的一个私网IP地址。所有发送到这个弹性网卡地址的服务请求将会通过私有连接转发到对应服务提供方在相同可用区的服务资源;

 

c.   终端节点服务(Endpoint Service):代表了服务提供方通过私有连接提供的对外服务,服务名称是唯一标识,服务提供方可以管理服务使用方发起的连接请求。终端节点服务可以添加部署在多个可用区的SLB应用服务集群作为服务资源;

 

d.   服务资源(Service Resource):即实际提供服务的集群。目前私网连接支持使用SLB作为服务资源;

 

e.   终端节点连接(Endpoint Connection):代表了终端节点和终端节点服务之间的连接。服务使用方创建终端节点时将发起到终端节点服务的连接请求,服务提供方可以自动或手动接收连接请求;

 

注意:

  • 一个终端节点在一个可用区中只能有一个终端节点网卡;
  • 某个终端节点网卡的流量只会转发到在相同可用区的SLB服务集群。

 

5.  多可用区高可用能力

image.png

 

a.   故障场景

 

  • 某个可用区/机房的PVL集群全部宕机;
  • 整个可用区/机房出现故障;
  • 某个可用区的服务提供方的服务资源不可用;

 

b.   高可用机制:通过域名解析实现多可用区高可用

 

  • 对多个可用区中ENI的服务状态进行健康检查;
  • 当某个可用区的服务不可用(包括故障场景中的3种情况),自动将不可用的ENI IP从解析结果中去除;
  • 客户端根据更新的DNS解析结果,将请求发送到可用的ENI IP

 

c.   客户侧要求:客户端必须使用服务的VPC域名访问服务,不能直接使用可用区域名或者ENI IP

image.png

 

二、通过Privatelink理解云上网络问题排查方法

 

案例:北京VPC内的ECS无法访问到上海Privatelink

 

1.  问题排查:

 image.png

物理拓扑图

 

进行问题排查,首先要从物理拓扑图(上图)中抽象出一个逻辑拓扑(下图):

 image.png

逻辑拓扑图

 

在这张图中,从ClinetPrivatelink EP ENI是客户端,后面三个是服务提供商。在问题排查中,可以先在客户端链路进行自查,确定问题出现的大方向,再详细定位问题。

 

2.  问题分析

 

枚举在抽象的逻辑图中每个节点可能出现的情况:

 

a.   客户端(Client

 

  • 安全组;
  • 安全策略;
  • 容器网段;

 

b.   VPC1 & VPC2

 

  • NACL
  • 路由问题;

 

c.   CEN

 

  • TR路由表;
  • 带宽包配置;
  • 带宽包使用率;

 

d.   EP ENI

 

  • 安全组;

 

e.   EP Service

 

  • 是否正确连接;

 

f.   CLB

 

  • 健康检查情况;
  • 连接数上限;
  • QPS上限;

 

g.   RS

 

  • 规格上限;
  • 内核丢包;
  • 应用配置;

 image.png

 

三、问题排查方法论

 

1.  Drill-Down Analysis Method - 从错误本身逐层剖析

 

细节决定成败,这种方法就是对问题现象深挖到底,实施起来需要多个领域的专业知识,非常有挑战性。

 

  • Start at highest level,通常从应用报错日志开始;
  • Examine next-level details,从应用层、容器网络层、内核层、虚拟化层逐层怀疑;
  • Pick most interesting breakdown,排查可疑的现象;
  • If problem unsolvedgo to 2,如果问题没有解决则再回到第二步;

 

优点:通过逐层排查,可以清晰而细致的剖析问题;

 

缺点:

  • 排查依赖于异常复现,需要排查人员对各领域有丰富的经验;
  • 容易困在一个很小的点里,而忽视全局。

 

2.  Tools Method - 从外围监控入手

 

成大事者不拘小节,这种方法是从整个系统监控指标看问题,而不只限于错误消息。

 

  • 首先应有怀疑的方向,并了解对应方向的工具;
  • 了解工具暴露的哪些指标可以佐证自己的怀疑;
  • 明确指标的含义;
  • 执行选择的工具并说明指标的含义Run selected tools and interpret selected metrics

 

缺点:

  • 如果是偶现的、或历史的异常,监控指标可能不全;
  • 生产环境需要部署大量的监控软件,适用场景有限。

 

四、回顾本期训练营

 

本期《企业运维训练营之云上网络原理与实践》主要讲解了三部分内容:阿里云云网络的发展、云上网络产品、以及问题排查的方法论和工具。

 

阿里云云网络发展历经四个阶段,从经典网络到安全隔离的专有网络VPC,进而通过云企业网进入全球互联,最后到5G/IOT的万物互联。

 

云上网络产品主要介绍了VPC、负载均衡CLBALBNATEIPCENPrivatelink

 

问题排查方法主要推荐两种,从错误本身出发和从外围监控出发,两种方法各有利弊,视根据具体情况选择。

 

问题排查工具主要有:mtr/traceroute/winmtr/tracertpingWireshark等等。

image.png

相关文章
|
24天前
|
网络协议 安全 5G
网络与通信原理
【10月更文挑战第14天】网络与通信原理涉及众多方面的知识,从信号处理到网络协议,从有线通信到无线通信,从差错控制到通信安全等。深入理解这些原理对于设计、构建和维护各种通信系统至关重要。随着技术的不断发展,网络与通信原理也在不断演进和完善,为我们的生活和工作带来了更多的便利和创新。
61 3
|
6天前
|
运维 物联网 网络虚拟化
网络功能虚拟化(NFV):定义、原理及应用前景
网络功能虚拟化(NFV):定义、原理及应用前景
21 3
|
17天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
|
17天前
|
网络协议 安全 算法
网络空间安全之一个WH的超前沿全栈技术深入学习之路(9-2):WireShark 简介和抓包原理及实战过程一条龙全线分析——就怕你学成黑客啦!
实战:WireShark 抓包及快速定位数据包技巧、使用 WireShark 对常用协议抓包并分析原理 、WireShark 抓包解决服务器被黑上不了网等具体操作详解步骤;精典图示举例说明、注意点及常见报错问题所对应的解决方法IKUN和I原们你这要是学不会我直接退出江湖;好吧!!!
|
1月前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进
本文探讨了如何通过自动化和智能化手段,提升IT运维效率与质量。首先介绍了自动化在简化操作、减少错误中的作用;然后阐述了智能化技术如AI在预测故障、优化资源中的应用;最后讨论了如何构建一个既自动化又智能的运维体系,以实现高效、稳定和安全的IT环境。
63 4
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
4天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
13天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
38 4
|
1月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
61 1
|
1月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
50 1