问题描述
因证书过期导致Service Fabric集群挂掉(升级无法完成,节点不可用)一文中,描述了因为证书过期而导致了SF集群不可用,并且通过命令dd-AzServiceFabricClusterCertificate 或az sf cluster certificate add 来添加证书为辅助证书(secondary cluster certificate) 并通过SF门户页面中的交换主要/辅助证书功能把新上传的证书作与旧证书进行交换。
在本文中,介绍通过ARM Template的修改来实现辅助证书的添加。
执行步骤
测试环境为:SF Silver, 5 Nodes
步骤一:在Key Vault中添加新的Certificate,完成后截图如下
步骤二:在SF的resource group这页面中,选择SF和cluster资源,并导出模板(export template), 进入步骤三的Template View页面
步骤三:在Template view,选择Deploy,直接进入第四步的编辑模板页面
步骤四:在Edit模板的页面中,修改如下内容(非常重要)
- 查找第一个Certificate Thumbprint,并增加红框中内容。需要增加Thumbprint的位置共有3处
|
|
|
- 查找certificateStore,并在所有查到的地方增加如下内容(本例中需要修改certificateStore的位置一共有6个)。
步骤五:修改完后Save并返回template view,而后勾选底部的checkbox后点击Purchase,进行cluster upgrade
步骤六:在SF Cluster Upgrade的过程中,可以通过SF 观察每一个UD (update domain)的情况。
- 期间,cluster upgrade的状态会在RollingForwardInProgress,RollingForwardPending间切换。直至RollingForwardCompleted,表示完成。
步骤七:在更新完的Node中,点开Details Tab,可以看到添加证书的指纹信息
步骤八:当所有Upgrade完成后,可以在SF门户上的Security页面上看到新添加的辅助证书信息
步骤九:交换主要/辅助证书(点击证书信息后面三点 ... 进行操作)
注:在此过程中建议采用先添加新的certificate,然后做swap to primary,而不是一开始就直接替换certificate的策略,这样就算这个过程发生些异常,也不会影响当前的cluster及业务的运行。
附录:参考Deploy the template to Azure文档,使用命令进行发布模板
#登录到Azure中 Connect-AzAccount Select-AzSubscription -SubscriptionId <Subscription ID> #验证模板是否正确 Test-AzResourceGroupDeployment -ResourceGroupName <Resource Group that your cluster is currently deployed to> -TemplateFile <PathToTemplate> #部署模板 New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName <Resource Group that your cluster is currently deployed to> -TemplateFile <PathToTemplate>
参考资料
Edit your Resource Manager template:https://docs.microsoft.com/en-us/azure/service-fabric/service-fabric-cluster-security-update-certs-azure#edit-your-resource-manager-template