大家好!我是海尔的刘建锋。非常感谢信通院和阿里云的邀请,能够与各位分享海尔在云上治理方面的实践与经验。自 2008 年至 2015 年期间,我曾在酷派负责手机云备份项目,积累了丰富的云计算经验。2015 年加入海尔后,我主要负责 IoT 平台的开放系统设计以及营销系统的建设。目前,我的工作重心在于智家 APP 的云服务开发和海极网的研发工作。
三翼鸟品牌的崛起
海尔作为家电行业的领头羊,旗下拥有多个高端家电品牌,包括海尔、卡萨帝、日本的 AQUA、新西兰的斐雪派克以及意大利的 CANDY 等海外品牌。除了传统的家电制造外,海尔还涉足生态品牌领域,例如食联网和衣联网,通过从食材采购到智能烹饪的整体流程,为用户提供一站式的解决方案。而今天要重点介绍的是我们的场景品牌——三翼鸟。
三翼鸟专注于提供全屋定制和家电一体化解决方案,致力于打造一个连接人与物、物与物之间的智能生态系统。三翼鸟的主要业务涵盖柜电一体(即家居和家电定制化平台)及其交付能力,并依托强大的智能技术支持,特别是海尔对外提供的 AIoT 平台。目前,智家 APP 月活跃用户数已超过千万,成为海尔连接用户的桥梁。
从 IDC 成功上云
海尔的 IT 架构经历了自建机房到全面上云的重大变革。早在 2019 年,海尔首批业务正式迁移至云端,标志着集团数字化转型的重要一步。在此之前,由于自建机房的光纤中断等问题,服务器稳定性差,最长的服务中断时间达到了 1 小时。随着第一批 C 端应用如智家 APP 的成功上云,后续的 IoT 平台也逐步迁移至云端。到了 2020 年,三翼鸟的主要业务已经完全运行在云环境中。
在此过程中,我们不仅实现了容器化部署,还进行了微服务化的改造,从而提高了系统的灵活性和可维护性。为了确保云上架构的安全性和性能,我们制定了严格的设计原则,包括安全性、测试性、接口质量、适应性、架构扩展性、内部服务标准化等方面。这些原则支撑了整个集团的战略实施,满足了客户的需求。
海尔的云架构采用了 PaaS 层托管的方式,结合应用程序,在保证服务拓展性的前提下,对 PaaS 托管层进行了定制化改造,以适应跨国公司的特殊管理流程。这一架构使得我们能够在云平台上快速部署和迭代应用,极大地提升了开发效率和服务质量。
整个上云过程中,我们总结了应用上云的技术选型原则:
- PaaS 优先:优先考虑开源兼容的托管产品,降低运维投入和稳定性风险。典型:ACK、MSE、EMR、MySQL 等。
- 可集成优先:选择 OpenAPI 完善可被集成的产品方案,通过平台间集成,丰富三翼鸟自身技术体系。典型:ARMS 的链路追踪、MSE 的全链路灰度等。
- 前瞻性优先:云平台能够紧跟行业与技术趋势推出新的产品与解决方案,三翼鸟会结合业务方向进行前瞻性调研与引入,加速技术创新与储备。
从上云到应用云原生
围绕应用场景的智能监控和告警
在海尔智家的实践中,我们基于阿里云应用实时监控服务 ARMS 打造了一套定制化的监控界面。这套系统不仅服务于我们自己的商城,还涵盖了商品详情页等多个关键页面。通过整合阿里开放的 API,我们自主研发了一套全面的监控系统,确保能够实时监测并响应各种业务需求。
具体而言,我们的监控系统具备强大的预警能力,并且与内部使用的飞书平台无缝对接,可以将系统监控信息推送至飞书,实现了即时的通知和反馈机制。这使得我们可以围绕具体的应用场景进行前端监控工作,尤其是在用户体验方面。我们发现,在测试环境中看似性能良好的页面,一旦交付到用户手中,往往会出现加载速度慢的问题,导致用户不满或负面评价。针对这一现象,接入 ARMS 后,我们开始采集用户实际访问页面时的各项性能指标,包括接口响应时间和资源加载效率等。基于这些真实数据,我们对服务进行了优化,显著提升了资源加载速度。例如,早期业务的 IOPS 时间从 3 秒缩短到了 1.7 秒,大大改善了用户体验。
围绕稳定发版的全链路灰度能力
为了解决 To C 服务中版本更新带来的挑战,海尔智家引入了基于阿里云微服务引擎 MSE 的全链路灰度能力。传统的蓝绿发布方式存在维护复杂、环境单一等问题,特别是在夜间发版时,需要人工测试,整个过程耗时较长,影响了开发效率和服务稳定性。此外,集团内部多个系统的互通也是一大难题,不同部门之间的系统难以快速打通,限制了新功能的快速上线。
为此,我们决定利用全链路灰度发布来缓解这些问题。从入口网关开始、改造用户的入口层,实现流量染色,并根据用户 ID 或 IP 等条件,将请求导向不同的节点,确保流量能够准确地到达所需的处理单元。这种做法不仅减少了版本更新的风险,还支持了多项目并行测试的需求,极大提高了迭代速度和服务质量。目前,三翼鸟 To C 服务已经全面采用灰度发布策略,所有发布都通过全链路灰度进行保障,形成了稳定高效的发布流程。
围绕消息治理的事件总线平台
面对公司内部组织变动和技术团队使用多种消息队列(如 RocketMQ、ActiveMQ 和 Kafka)的情况,我们意识到需要一个统一的消息管理平台来简化跨部门协作。因此,海尔智家基于阿里云的云消息队列 RocketMQ 版构建了一个事件总线平台,用于集中管理和规范消息传递规则。
该事件总线平台内部集成了订阅管理、事件名称定义以及事件管理等多项核心功能,确保每条消息都有据可查,并且下游订阅方能够及时接收到最新的消息。此外,事件总线平台还通过集中跟踪和管理所有的消息流转,有效解决了之前线上流转过程中缺乏监控的问题。为了进一步提高系统的健壮性和可靠性,我们还去除了冗余的消息实例,从而避免了不必要的资源浪费。
云消息队列 RocketMQ 版是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式“消息、事件、流”统一处理平台。云消息队列 RocketMQ 版提供 SLA,保障服务的高可用性和数据的高可靠性,为海尔智家的核心业务链路保驾护航。
综上所述,海尔智家通过与阿里云的合作,成功构建了一套高效稳定的智能监控与灰度发布体系,不仅增强了业务连续性和服务质量,也为未来的 AI 时代创新奠定了坚实的基础。我们将继续探索更多可能性,致力于为用户提供更优质的智能家居解决方案。
AI 时代的创新方向
展望未来,海尔将继续深化与阿里云的合作,探索 AI 技术在智能家居领域的应用潜力。具体而言,我们将重点关注以下几个方面:
- 客户服务:利用电视和音箱等智能终端,为用户提供更加人性化的交互体验,使智能家居设备真正成为家庭生活的助手。
- 员工生产力:借助 AI 工具提升内部运营效率,如文案自动生成、智能客服等,帮助销售人员更好地归纳总结方案,同时提高客户服务的质量。
- 智能家电控制:通过与阿里大模型的合作,优化用户与智能家电之间的交互方式,让用户可以通过语音或其他自然语言形式轻松控制家电。
- 工单管理系统:用户购买海尔家电后,可以在小程序上一键报修或反馈问题,极大简化了售后服务流程。
- 闲聊功能:虽然未在此详细介绍,但我们也在探索如何让智能设备更好地融入日常生活,提供娱乐和信息查询等附加价值。
海尔与阿里云的合作不仅推动了自身的技术革新和服务升级,更为整个智能家居行业树立了典范。在未来的发展道路上,双方将继续携手共进,共同迎接 AI 时代的到来,为全球用户创造更加美好的智慧生活。