Hello folks,我是 Luga,今天我们来聊一下云原生生态体系核心之——可观测性。
近年来,随着企业应用程序和基础设施的不断发展,可观测性已经成为管理和维护复杂系统的关键能力。随着系统变得越来越复杂,可观测性也必须不断发展才能跟上不断变化的需求。在这个背景下:可观测性的下一步将会是什么?
— 01—
云原生可观测性所走过的历程
近年来,随着微服务和分布式系统的广泛应用,企业越来越依赖可观测性来管理和维护复杂的系统和基础设施。然而,这种依赖也带来了新的挑战,因为理解实时系统行为变得更加困难,而这对于解决问题至关重要。
为了应对这些挑战,越来越多的企业开始采用自动化监控分布式架构、深度跟踪和实时可观测性等技术手段来解决问题。然而,随着系统变得越来越复杂,可观测性必须不断发展才能跟上不断变化的需求。
在未来,可观测性的发展将继续受到关注。每十年都会带来可观测性运作方式的巨大变化。过去三十年见证了一次又一次的转型——从本地云到云,现在是云原生。每一代人都会面临新的问题需要解决,这为新公司的成立打开了大门。
在本地云时代,催生了 Solarwinds、BMC 和 CA Technology 等几家公司。随着云时代的到来(即 AWS 出现),市场的格局发生了变化,出现了 Datadog、New Relic、Sumologic、Dynatrace、Appdynamic 等新公司。
而随着云原生时代的到来(从2019-20年开始),市场又迎来了另一次动荡。因此,可观测性的下一步将会是什么,仍然是一个值得关注和探讨的问题。
— 02—
云原生可观测性未来可能面临的一些挑战
当前的变革主要源于企业在构建软件方面使用了与 2010 年完全不同的技术。相较于单一架构,他们更倾向于使用微服务、Kubernetes 和分布式架构等技术,以期获得更好的安全性、更容易的扩展性,以及提高分布式团队的效率。
然而,这种新技术也带来了一些挑战。根据 Gartner 的数据,到 2025 年,预计 95% 的系统将采用云原生技术。由于云原生技术生成的数据量比前几代技术要大得多,因此托管和扩展这些数据变得更具挑战性。这也带来了三个主要问题需要解决:
1、成本问题
第一个问题相对简单,即成本问题。所有传统的可观测性公司都变得如此昂贵,以至于大多数初创公司和中型企业难以承担这样的费用。因此,他们被迫使用旧技术来托管和处理数据,但这些技术已经无法满足 2023 年初创企业的需求。这种情况导致了一个明显的差距:大型企业可以轻松承担高昂的可观测性成本,而小型企业则无法承担这样的费用。这也使得小型企业在竞争中处于劣势地位。因此,如何降低可观测性的成本,是当前亟待解决的问题之一。
2、关注点偏向问题
随着可观测性的能力变得更加先进,开发和运营团队跟踪的重点也发生了变化。以前,主要关注点是确保应用程序和基础设施不会崩溃。但现在,开发和运营团队正在更深层次上运作,优先考虑如下事项:
(1)请求延迟
(2)饱和
(3)可扩展性
(4)使用情况的交通地图
(5)优化和预测未来结果
(6)新代码如何改变云使用情况
总而言之,开发和运营团队变得更加主动而不是被动,需要更高级的技术来支持他们的工作。这也表明,可观测性的优先事项已经从简单的系统稳定性转向了更加深入的业务需求,如性能优化、扩展性和预测等方面。因此,开发和运营团队需要不断学习和掌握新的技术,以适应这种变化和挑战。
3、价值赋能问题。
最后,微服务架构的兴起改变了 IT 团队观察应用程序变化的方式。相较于单一架构,微服务架构中的一个服务可以跨越多个节点运行,而多个小型服务也可以在一个节点上运行。这意味着“一刀切”的方法已经不再适用。开发和运营团队需要进行更深入的分析,以了解其基础设施中发生的情况,并且需要适应不断变化的可观测性需求。因此,对于可观测性的期望也在不断变化。
以前,可观测性的主要目标是确保应用程序和基础设施不会崩溃,但现在,它已经发展成为一个更加复杂、更加深入的领域,需要更加高级的技术和工具来支持各种需求,如性能监控、错误检测、安全性和合规性等方面。因此,开发和运营团队需要不断更新自己的知识和技能,以跟上可观测性领域的发展和变化。
因此,随着技术的不断发展和变革,未来的企业将需要更好地应对这些挑战,以确保其软件系统的可靠性和稳定性。
— 03—
新一代可观测工具应该是什么样的?
那么,对于新一代可观测工具,在 2023 年应该如何应对这些挑战呢?或许,如下的相关观点或建议可帮助大家进行应对,具体可参考:
1、统一的可观测性
第一个主要问题是如何实现统一的可观测性。许多传统公司声称他们有一个统一的可观测平台,但实际上,他们只是提供了不同的选项卡,用于访问指标、日志、跟踪等数据,这并不能真正解决问题。开发和运营团队需要的是一个可在单个时间线上查看所有这些数据的地方。只有这样,他们才能追踪相关性,确定问题的根本原因,并快速解决问题。
因此,实现统一的可观测性需要一个集中的平台,能够整合所有不同来源的数据,并提供一致的视图和工具,以便开发和运营团队更好地进行分析和决策。这也是为什么现在许多公司正在采用跨平台的可观测性解决方案,以提高他们的可观测性水平和效率。
2、与供应商无关 (OTel)
许多公司正在寻找一种不依赖于单一供应商的解决方案,以避免被锁定在特定技术栈或供应商的生态系统中。为此,许多科技公司正在为开放遥测做出贡献,并将 OTel 作为数据收集代理的首选工具。
OTel 具有许多优势,例如互操作性、灵活性和改进的性能监控。使用 OTel,公司可以更轻松地集成不同的工具和服务,并在不同的平台上收集和分析数据,无需担心供应商锁定或技术限制。因此,OTel 在实现供应商无关的可观测性方面具有重要的作用,并将继续在未来扮演重要的角色。
3、预测型可观测性
在人工智能时代,自动化和无人化已经成为技术发展的趋势。这使得系统能够完成人类根本无法完成的任务,例如通过机器学习在错误发生之前预测错误。
然而,目前的可观测性解决方案并没有充分利用人工智能技术,这也需要更多的创新。通过在可观测性平台中添加人工智能层,企业可以在问题发生之前预测问题,并在用户或客户知晓问题之前解决问题。这将有助于提高服务和产品的质量,并增强企业的声誉和竞争力。
因此,未来的可观测性解决方案需要更多地集成人工智能技术,以便实现预测性可观测性。这将需要更多的数据和算法支持,以便建立准确的模型和预测系统,并为企业提供更好的决策支持和业务洞察。随着人工智能技术的不断发展和应用,预测性可观测性将成为未来可观测性解决方案的重要发展方向。
4、成本最优化模式
成本优化是可观测性领域面临的一个关键挑战。尽管云存储的成本越来越低,但大多数可观测性公司并没有相应地降低价格,这导致客户不得不承担高昂的成本,而且没有其他选择。
OpenTelemetry 每秒收集超过 200 个数据点,但实际上并不是所有这些数据点都是必要的。因此,可观测性公司应该避免向用户收取不必要的存储费用,并仅收集和存储有用的数据,同时删除其余的数据。这将有助于降低存储和处理数据的成本,并提高可观测性的效率和性能。
为了实现成本优化,可观测性公司还可以采用其他策略,例如使用数据压缩和归档技术,以减少存储和传输成本。此外,他们还可以考虑使用开源软件和云原生技术,以提高效率和降低成本。
因此,成本优化是可观测性领域需要解决的重要问题。通过实现有效的成本优化策略,可观测性公司可以为客户提供更具竞争力的解决方案,并增强自身的市场影响力和盈利能力。
5、基于 AI 的告警
告警疲劳是可观测性领域面临的一个真正挑战。当开发人员收到大量警报并将电子邮件线程或 Slack 通道静音时,这可能会掩盖问题并降低解决问题的效率。
基于人工智能的告警系统可以通过利用人工智能技术来预测哪些告警是必要的,哪些不是,来解决这个问题。此外,人工智能还可以提供背景信息,甚至提出可能的解决方案,从而帮助开发人员更快地解决问题,减少告警的数量,提高可观测性的效率和性能。
这种基于人工智能的告警系统不仅可以提供更准确和有用的警报信息,还可以减少告警的数量,从而减少告警疲劳对开发人员的影响。此外,它还可以提高可观测性的效率和性能,从而提高企业的生产力和竞争力。
因此,基于人工智能的告警系统是未来可观测性解决方案的一个重要发展方向,具有广阔的应用前景和市场潜力。
— 04—
云原生可观测性未来的一点思考
未来的可观测性将需要更加智能化和自动化。人工智能和机器学习等新技术将成为可观测性的重要组成部分,帮助开发人员和运维人员更好地了解系统和应用程序的运行状态,并自动化地识别和解决问题。同时,随着云原生技术的发展,容器、微服务和无服务器架构等新技术也将对可观测性产生深远的影响。
未来的可观测性还需要更加全面和综合。除了传统的日志管理、度量指标和分布式跟踪等技术,还需要考虑事件管理、故障注入和安全监控等方面的需求。这些技术将有助于建立更全面、更可靠的可观测性系统,帮助企业更好地管理和维护复杂的系统和基础设施。
总之,未来的可观测性需要更加智能化、自动化、全面和综合化。只有不断探索和创新,才能在不断变化的环境中满足企业不断变化的可观测性需求。
对于可观测性领域来说,现在是一个令人兴奋的时刻。正如我之前所提到的,我们所看到的变革正在为未来的发展打开无数机遇之门。然而,现在的问题是:谁主沉浮?
Adiós !