【Azure 应用服务】App Service 运行状况健康检查功能简介 (Health check)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【Azure 应用服务】App Service 运行状况健康检查功能简介 (Health check)

通过Azure App Service门户,启用Health Check来监视应用服务的实例,当发现其中一个实例处于不健康(unhealthy)状态时,通过重新路由(即把有问题的实例从负载均衡器中移除, Load Balancer)的方式把请求发送到健康的实例上。并且如果不健康的实例一直存在问题,系统则会启动一个新实例来替换不健康的这个实例。

This article uses Health check in the Azure portal to monitor App Service instances. Health check increases your application's availability by re-routing requests away from unhealthy instances, and replacing instances if they remain unhealthy.

应用服务计划应该扩展到两个或者更多的实例,以充分利用Health Check功能。并且应该是对应用的关键组件进行监控检查。

Your App Service plan should be scaled to two or more instances to fully utilize Health check. The Health check path should check critical components of your application.

 

例如:如果应用依赖于数据库和一个Message系统,那么Health Check应该设置在需要与数据库连接,Message系统连接的功能点。当应用关键组件出现异常时,通过返回500的状态码告诉Health Check表示当前实例的运行状态为不健康(unhealthy)。

For example, if your application depends on a database and a messaging system, the Health check endpoint should connect to those components. If the application cannot connect to a critical component, then the path should return a 500-level response code to indicate the app is unhealthy.

 

 

Health Check 会做些什么呢?

1)通过启用Health Check功能时配置的请求URL,应用服务的所有实例将会每间隔1分钟对该URL请求一次。

2)如果某一个实例在连续两次或多次无法处理URL请求(响应状态不在200 ~ 299 间),或者根本就无法响应URL的请求,则系统将判定这一个实例为不健康状态并将其从请求路由表中删除以便于不处理真正的业务请求。

3)当从路由表中移除后,Health check将继续对这一个不健康的实例发送请求,如果这个实例一直没有成功响应,App Service将会重启底层的VM,努力尝试修复它并让它正常工作。

4)如果这一个实例在一个小时内,一直都是unhealthy状态,它将会被新的实例所取代。

5)此外,在向外扩展实例(添加新实例),App Service也会使用Health check中所配置的请求URL,确保当前实例已做好充分准备,正式接受真正业务请求。

注意:Health check不支持 302 重定向。 每小时最多更换一个实例,每个应用服务计划每天最多更换三个实例。

 

启用 Health Check

  • 为了启用Health Check,进入App Service的Azure 门户页面,然后选择Health Check目录
  • 选择” 启用 “按钮,并输入一个有效的URL,可以对应用的健康状态起健康检测的相对路径,例如:/health  or /api/health
  • 点击” 保存 “按钮

注意:Health Check启用或更改会重启当前应用程序。为了尽量减少对生产应用程序的影响,建议配置在Staging slots后,通过交换部署槽的方式发布到生产。

 

Health Check的配置选项

为了修改默认的Health Check配置选项,可以在应用程序的设置(Application Setting)修改参数: WEBSITE_HEALTHCHECK_MAXPINGFAILURESWEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT

 

  • WEBSITE_HEALTHCHECK_MAXPINGFAILURES : 允许值为 2 ~10 。将实例视为unhealthy并将从负载均衡器中移除所需要满足的失败请求次数。例如,当设置为2时,实例将在2次ping失败后被删除(默认值为10)

 

  • WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT : 允许值为 0 ~ 100。默认情况下,一次将不超过一般的实例数从负载均衡器中移除,以避免压倒剩余的健康实例。例如,如果应用服务计划扩展到四个实例并且三个不正常,则两个将被排除。 另外两个实例(一个健康和一个不健康)将继续接收请求。 在所有实例都不健康的最坏情况下,不会排除任何实例。 将值修改为 0 到 100 之间,更高的值意味着将删除更多不健康的实例(默认值为 50)。

 

Health Check的身份认证和安全

Health Check与应用服务的身份验证和授权功能集成。 如果启用了这些安全功能,则不需要其他设置。

如果使用的是自定义的身份验证系统,则健康检查路径(Health Check Path)必须允许匿名访问。

要保护 Health Check Endpoint,应该首先使用 IP 限制、客户端证书或虚拟网络等功能来限制应用程序访问。 可以通过要求传入请求的 User-Agent 匹配 HealthCheck/1.0 来保护Health Check Endpoint。 User-Agent 不能被欺骗,因为请求已经被先前的安全功能保护了。

 

Health Check Metrics指标

启用 App Service 的Health Check后,可以使用 Azure Monitor 监视站点的运行状况。操作步骤如下:

 

常见问题

1: 如果应用程序在单个实例上运行会发生什么?

如果应用程序仅扩展到一个实例并且变得不健康,它不会从负载均衡器中删除,因为这会导致您的应用程序完全停机。 将两个或更多实例扩展到两个或更多实例,以获得Health Check的重新路由优势。 如果应用程序在单个实例上运行,仍然可以使用 Health check 的监控功能来跟踪应用程序的健康状况。

 

2: 为什么健康检查请求没有显示在前端日志中?

Health Check请求在内部发送到站点,因此该请求不会显示在前端日志中。这也意味着请求的来源为 127.0.0.1,因为它是在内部发送的请求。可以在Health Check Path页面的代码中添加日志语句,以保留Health Check URL何时被 ping 的日志。

 

3: Health Check请求是通过 HTTP 还是 HTTPS 发送的?

当站点上启用 HTTPS Only 时,Health Check请求将通过 HTTPS 发送。否则,它们将通过 HTTP 发送。

 

4: 如果在同一个应用服务计划中有多个应用怎么办?

无论应用服务计划中的其他应用如何(最多达到 WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT 中指定的百分比),运行状况不佳的实例将始终从负载均衡器轮换中删除。

当实例上的应用程序保持不健康状态超过一小时时,仅当所有其他启用Health Check的应用程序也处于不健康状态时,才会更换该实例。未启用Health Check的应用程序将不会被考虑在内。

例如:

假设您有两个应用程序启用了Health Check,称为App A 和App B。它们在同一个应用服务计划中,并且该计划扩展到 4 个实例。

  • 如果 App A 在两个实例上变得不健康,负载均衡器将停止向这两个实例上的 App A 发送请求。 假设 App B 是正常的(Healthy),请求仍会在这些实例上路由到 App B。
  • 如果 App A 在这两个实例上保持不健康状态超过一个小时,则只有当 App B 在这些实例上也不健康时,才会替换这些实例。 如果 App B 健康,则不会替换实例。

注意:如果在同一个应用服务计划下还有另外一个App Serice,它没有启用Health Check,则该实例将永远不会因为Health Check功能而被替换。所以建议对重要的应用程序单独部署在一个应用服务计划中,并开启Health Check。

5: 如果所有实例都不健康怎么办?

在应用程序的实例不正常的情况下,应用服务将从负载均衡器中删除实例,最多可达 WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT 中指定的百分比。

在所有实例都不健康的最坏情况下,不会排除任何实例。

 

6: 测试Health Check的.Net代码 (设置Health Check Path为 /fail

创建一个默认的.NET Core API项目,在 Program.cs 文件中替换默认的Host Builder方法。

  • 通过发送一个/fail的请求,人为的设置请求返回为500。使得Health Check功能认为当前实例为不健康(unhealthy)
  • 在Host启动的时候会自动生产一个GUID,用于标记当前实例。以便于在后续的验证中跟踪实例处理请求的行为或重启动作
  • 启用Health Check功能后,所以实例都会收到并处理 /fail 请求,返回500.  
using System;
using System.Collections.Generic;
using System.Linq;
using System.Threading.Tasks;
using Microsoft.AspNetCore.Builder;
using Microsoft.AspNetCore.Hosting;
using Microsoft.AspNetCore.Http;
using Microsoft.Extensions.Configuration;
using Microsoft.Extensions.Hosting;
using Microsoft.Extensions.Logging;
namespace hellodotnetcore
{
    public class Program
    {
        public static void Main(string[] args)
        {
            CreateHostBuilder(args).Build().Run();
        }
        public static IHostBuilder CreateHostBuilder(string[] args)
        {
            //初始化当前Host实例时候随机生成一个GUID,用于在此后的请求中判断当前时候是否被标记为健康,非健康,回收。
            var instance = Guid.NewGuid();
            //firstFailure来记录第一个失败请求所进入当前实例的时间,firstFailure保存在内存中
            DateTime? firstFailure = null;
            return Host.CreateDefaultBuilder(args)
                .ConfigureWebHostDefaults(webBuilder =>
                webBuilder.Configure(configureApp =>
                configureApp.Run(async context =>
                {
                    //当请求URL为fail时候,认为设置返回状态为500,告诉App Service的Health Check功能,当前实例出现故障。
                    if (firstFailure == null && context.Request.Path.Value.ToLower().Contains("fail"))
                    {
                        firstFailure = DateTime.UtcNow;
                    }
                    if (firstFailure != null)
                    {
                        context.Response.StatusCode = 500;
                        context.Response.ContentType = "text/html; charset=utf-8";
                        await context.Response.WriteAsync(
                           $"当前实例的GUID为 {instance}.\n" +
                            $"这个实例最早出现错误的时间是 {firstFailure.Value}.\n\n" +
                            $"根据文档的描述 https://docs.microsoft.com/en-us/azure/app-service/monitor-instances-health-check, 如果一个实例在一直保持unhealthy状态一小时,它将会被一个新实例所取代\n\n" +
                            $"According to https://docs.microsoft.com/en-us/azure/app-service/monitor-instances-health-check, \"If an instance remains unhealthy for one hour, it will be replaced with new instance.\".");
                    }
                    else
                    {
                        context.Response.StatusCode = 200;
                        context.Response.ContentType = "text/html; charset=utf-8";
                        await context.Response.WriteAsync($"当前实例的GUID为 {instance}.\n" +
                            $"此实例报告显示一切工作正常.");
                    }
                })));
            //public static IHostBuilder CreateHostBuilder(string[] args) =>
            //    Host.CreateDefaultBuilder(args)
            //        .ConfigureWebHostDefaults(webBuilder =>
            //        {
            //            webBuilder.UseStartup<Startup>();
            //        });
        }
    }
}

在本地测试以上代码效果如下:

 

 

参考资料

Monitor App Service instances using Health check:https://docs.azure.cn/zh-cn/app-service/monitor-instances-health-check

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5天前
【Azure Logic App】使用Event Hub 连接器配置 Active Directory OAuth 认证无法成功连接到中国区Event Hub的解决之法
An exception occurred while retrieving properties for Event Hub: logicapp. Error Message: 'ClientSecretCredential authentication failed: AADSTS90002: Tenant 'xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx' not found. Check to make sure you have the correct tenant ID and are signing into the correct cloud. Che
|
11天前
|
安全
【Azure App Service】App service无法使用的情况分析
App Service集成子网后,如果子网网段中的剩余IP地址非常少的情况下,会在App Service实例升级时( 先加入新实例,然后在移除老实例 )。新加入的实例不能被分配到正确的内网IP地址,无法成功的访问内网资源。 解决方法就是为App Service增加子网地址, 最少需要/26 子网网段地址。
|
20天前
|
开发框架 .NET Windows
【App Service】在App Service中配置Virtual applications and directories,访问目录中的静态文件报错404
【App Service】在App Service中配置Virtual applications and directories,访问目录中的静态文件报错404
|
20天前
|
C++
【Azure Logic App】使用Event Hub 连接器配置 Active Directory OAuth 认证无法成功连接到中国区Event Hub
【Azure Logic App】使用Event Hub 连接器配置 Active Directory OAuth 认证无法成功连接到中国区Event Hub
|
20天前
【Azure Logic App】在逻辑应用中开启或关闭一个工作流是否会对其它工作流产生影响呢?
【Azure Logic App】在逻辑应用中开启或关闭一个工作流是否会对其它工作流产生影响呢?
|
16天前
|
测试技术
一款功能完善的智能匹配1V1视频聊天App应该通过的测试CASE
文章列举了一系列针对1V1视频聊天App的测试用例,包括UI样式、权限请求、登录流程、匹配逻辑、消息处理、充值功能等多个方面的测试点,并标注了每个测试用例的执行状态,如通过(PASS)、失败(FAIL)或需要进一步处理(延期修改、待定、方案再定等)。
27 0
|
13天前
|
Web App开发 Java 视频直播
FFmpeg开发笔记(四十九)助您在毕业设计中脱颖而出的几个流行APP
对于软件、计算机等专业的毕业生,毕业设计需实现实用软件或APP。新颖的设计应结合最新技术,如5G时代的音视频技术。示例包括: 1. **短视频分享APP**: 集成FFmpeg实现视频剪辑功能,如添加字幕、转场特效等。 2. **电商购物APP**: 具备直播带货功能,使用RTMP/SRT协议支持流畅直播体验。 3. **同城生活APP**: 引入WebRTC技术实现可信的视频通话功能。这些应用不仅实用,还能展示开发者紧跟技术潮流的能力。
36 4
FFmpeg开发笔记(四十九)助您在毕业设计中脱颖而出的几个流行APP
|
7天前
|
移动开发 小程序 JavaScript
uni-app开发微信小程序
本文详细介绍如何使用 uni-app 开发微信小程序,涵盖需求分析、架构思路及实施方案。主要功能包括用户登录、商品列表展示、商品详情、购物车及订单管理。技术栈采用 uni-app、uView UI 和 RESTful API。文章通过具体示例代码展示了从初始化项目、配置全局样式到实现各页面组件及 API 接口的全过程,并提供了完整的文件结构和配置文件示例。此外,还介绍了微信授权登录及后端接口模拟方法,确保项目的稳定性和安全性。通过本教程,读者可快速掌握使用 uni-app 开发微信小程序的方法。
25 3
|
28天前
|
Web App开发 Android开发
FFmpeg开发笔记(四十六)利用SRT协议构建手机APP的直播Demo
实时数据传输在互联网中至关重要,不仅支持即时通讯如QQ、微信的文字与图片传输,还包括音视频通信。一对一通信常采用WebRTC技术,如《Android Studio开发实战》中的App集成示例;而一对多的在线直播则需部署独立的流媒体服务器,使用如SRT等协议。SRT因其优越的直播质量正逐渐成为主流。本文档概述了SRT协议的使用,包括通过OBS Studio和SRT Streamer进行SRT直播推流的方法,并展示了推流与拉流的成功实例。更多细节参见《FFmpeg开发实战》一书。
37 1
FFmpeg开发笔记(四十六)利用SRT协议构建手机APP的直播Demo
|
1月前
|
Web App开发 5G Linux
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP
一年一度的毕业季来临,计算机专业的毕业设计尤为重要,不仅关乎学业评价还积累实战经验。选择紧跟5G技术趋势的音视频APP作为课题极具吸引力。这里推荐三类应用:一是融合WebRTC技术实现视频通话的即时通信APP;二是具备在线直播功能的短视频分享平台,涉及RTMP/SRT等直播技术;三是具有自定义动画特效及卡拉OK歌词字幕功能的视频剪辑工具。这些项目不仅技术含量高,也符合市场需求,是毕业设计的理想选择。
60 6
FFmpeg开发笔记(四十四)毕业设计可做的几个拉满颜值的音视频APP