第6章 SLI/SLO/SLA

引言

在站点可靠性工程(Site Reliability Engineering,SRE)领域中,有三个缩略词频繁出现:SLISLOSLA。这些术语描述了一种用于测量和管理服务可靠性的方法论。理解并正确应用它们,对于任何希望在保持健康功能开发节奏的同时,确保其产品和服务可靠性与可用性的组织而言,都至关重要。

在当今竞争白热化的市场中,企业若要蓬勃发展,服务的可靠性(服务是否值得信赖)与服务本身的质量同样重要。然而,我们如何量化这种可靠性?我们如何在内部以及与客户沟通并承诺这些可靠性标准?

让我们深入探究这些概念,以理解它们的含义、重要性,以及它们在SRE中的定位。在阅读本章的过程中,需要认识到:SLI、SLO和SLA不仅仅是数字和指标。它们是重要的工具,有助于将技术团队与业务目标对齐、促进主动式的事件管理,并确保满足客户标准。在本章结束时,读者将全面理解这些概念,并掌握如何在站点可靠性工程中有效运用它们。

本章结构

在本章中,我们将涵盖以下主题:

  • 服务级别管理简介
  • 服务级别管理概述
  • 服务级别管理的关键组成部分:SLI、SLO和SLA
  • 实施服务级别管理项目的好处
  • 理解服务级别指标
    • SLI的用途
    • SLI的类型及其使用场景
    • 选择合适的SLI
    • SLI在监控与衡量服务性能中的重要性
  • 设定服务级别目标
    • SLO设定的目的
    • 设定合适的SLO
  • 创建服务级别协议
    • SLA的目的
    • SLA的组成部分
    • SLA的协商
  • 实施与管理服务级别管理项目
    • 实施SLM项目的步骤
    • 管理SLI、SLO和SLA的最佳实践
    • 常见挑战及应对方法
    • 技术在SLM自动化中的作用
  • 案例研究与真实世界示例
    • Netflix
    • Adobe
    • LinkedIn

学习目标

本章的主要目标是阐明这些关键站点可靠性工程概念的各种细微差别。阅读内容时,您将期望获得关于服务测量、可靠性目标以及正式化服务协议的全面审视。在本章中,我们将解构这些定义,并且您还将学习它们在现实世界中的实际应用,并辅以行业案例研究。我们将讨论SLI、SLO和SLA之间的相互联系与依赖关系,重点强调它们在确保服务可靠性方面的协同作用。在本章结束时,读者不仅会牢固掌握这些概念上的区别,还将具备在组织中战略性实施这些概念的能力。


服务级别管理简介

服务级别管理(Service Level Management,SLM)是定义、监控和管理信息技术(IT)服务性能与可用性以满足业务需求的过程。SLM的主要目标是确保IT服务以良好的质量水平交付,并且与服务相关的风险得到妥善管理。SLM是信息技术服务管理(Information Technology Service Management,ITSM)的重要组成部分,包含多项任务,例如:定义服务级别、监控服务性能、报告服务性能,以及采取纠正措施以确保服务符合约定的性能和可用性水平。

服务级别管理概述

SLM是一个持续的过程,涉及定期审查IT服务,以确保它们满足业务需求,并且业务或技术环境中的任何变化都能反映在服务级别中。

为使SLM有效运行,IT部门与业务部门之间的协作是必不可少的。有效的沟通和对满足业务需求所需的基本服务级别达成共识至关重要。它还需要持续关注改进,定期审查服务级别和流程,以确保它们保持最新并满足业务要求。

服务级别管理的关键组成部分:SLI、SLO和SLA

这些工具之所以重要,是因为它们帮助您判断系统是否运行良好、是否易于使用且是否发挥了作用。如果它们没有直接与公司的目标相连,您将没有任何信息来判断所做的选择对公司是好是坏。SLM的关键组成部分是服务级别指标(Service Level Indicator,SLI)、服务级别目标(Service Level Objective,SLO)和服务级别协议(Service Level Agreement,SLA)。

  • SLI 是代表服务性能的度量值,例如可用性、响应时间或错误率。它们对于监控服务健康状况以及检测可能影响客户体验的问题至关重要。SLI通常通过监控工具进行测量,并以百分比或比率形式表示。例如,网站可用性的SLI可以是:在给定时间段内网站可用的时间百分比。

  • SLO 用于定义客户预期的服务级别,并将服务与业务目标对齐。SLO通常以百分比或比率形式表示,由服务提供方与客户协作设定。例如,网站可用性的SLO可以是:一个月内99.9%的正常运行时间。

    SLO通过以下方式改进SLI:

    • 设定明确的性能目标。
    • 提供持续评估的反馈循环。
    • 指导工作优先级,使SLI与用户期望保持一致。
  • SLA 是定义服务提供方与客户之间关于将提供的服务级别的正式协议合同。SLA基于SLO,并规定如果服务提供方未能满足约定的服务级别将承担的后果。SLA是服务级别管理的关键组成部分,因为它们为衡量和报告服务性能以及管理客户期望提供了基础。SLA通常包含详细信息,例如服务范围、服务级别、度量指标、报告要求,以及未能达到约定服务级别的处罚和补救措施。

实施服务级别管理项目的好处

SLM的主要好处包括:

  • IT服务与业务需求的对齐:SLM确保服务级别与业务要求对齐,这有助于与客户建立信任和信誉。
  • 服务质量的提升:SLM为衡量和改进服务质量提供了框架,有助于提升客户体验和满意度。
  • 主动的问题识别与解决:SLI提供服务性能的实时监控,有助于在问题影响客户体验之前发现它们。这实现了主动的问题识别和解决,从而最大限度地减少服务中断和停机时间。
  • 降低运营成本:SLM有助于优化IT资源的使用,从而降低运营成本并提高效率。

理解服务级别指标

我们在上一节简要讨论了SLI。现在让我们详细讨论它。

SLI 是显示特定服务运行状况的度量值。换句话说,它用于衡量服务的质量,并判断其是否达到用户的期望。

SLI的用途

SLI是SLM的一个关键组成部分,在确保服务满足用户期望方面发挥着至关重要的作用。SLI的目的是提供服务性能的定量衡量。它们帮助服务提供方监控其服务质量,并识别需要改进的领域。

SLI通常衡量可用性、响应时间、吞吐量和错误率。这些度量指标提供了清晰、客观的方式来衡量服务质量,使服务提供方能够满足其SLA的要求,并确保满足客户的期望。

通过追踪SLI,服务提供方可以主动监控其服务的健康状况,并在问题影响用户体验之前发现它们。这使得提供方能够识别改进领域,并优先分配资源以改进服务。它还有助于提供方做出关于如何分配资源的明智决策,并确保其服务满足客户的需求。SLA使用SLI来告知服务提供方需要满足的目标和期望。可用性、响应时间、吞吐量和错误率是几种最常见的SLI类型。

SLI的类型及其使用场景

不同的SLI关注服务的不同方面,从而提供全面的服务运行状况视图。在本节中,我们将讨论不同类型的SLI及其使用方式。SLI包括:

  • 可用性(Availability):可用性SLI显示服务可用的时间段。此SLI用于追踪服务的可用性,并确保其满足SLA的可用性要求。
  • 响应时间(Response time):响应时间SLI衡量服务响应用户请求所需的时间。它用于监控服务的速度和性能,使提供方能够发现并修复可能对用户体验产生负面影响的问题。
  • 吞吐量(Throughput):吞吐量SLI衡量服务在特定时间内可以处理的数据量或业务量。此SLI用于监控服务的容量和可扩展性,确保其能够处理预期负载并满足SLA的要求。
  • 错误率(Error rate):错误率SLI衡量失败或返回错误的请求数量。此SLI用于检查服务的可靠性和稳定性,使提供方能够发现可能影响用户体验的问题并加以修复。
  • 延迟(Latency):延迟SLI衡量用户请求从开始到结束完成所需的总时间。它用于监控服务的整体性能,使提供方能够发现并修复可能影响用户体验的瓶颈。

选择合适的SLI的关键考虑因素

选择合适的SLI是SLM中的关键步骤。正确的SLI使服务提供方能够衡量和追踪其服务性能,帮助他们发现问题并改善用户体验。在本节中,我们将讨论选择合适SLI时需要考虑的关键因素。关键因素如下:

  • 业务需求(Business requirements):SLI必须与服务业务需求对齐。例如,如果服务是任务关键型的,那么可用性SLI可能是优先考虑的;如果服务面向用户,响应时间SLI可能更为重要。
  • 用户期望(User expectations):SLI必须反映用户对服务的期望。例如,如果用户期望快速的响应时间,则必须追踪响应时间SLI以确保服务满足用户期望。
  • 技术能力(Technical capabilities):SLI必须在技术上可追踪和监控。例如,某些SLI可能难以准确测量,或者监控它们可能需要大量资源。
  • 服务组件(Service components):SLI必须反映服务的不同组件。例如,如果服务依赖多个后端系统,吞吐量SLI可能对于衡量每个系统的性能至关重要。
  • SLA要求(SLAs):SLI必须与服务的SLA要求对齐。例如,如果SLA要求99.9%的正常运行时间,则必须追踪可用性SLI以确保服务满足SLA要求。
  • 趋势(Trends):SLI必须随时间进行追踪,以识别趋势和模式。例如,如果错误率SLI增加,服务提供方必须识别根本原因并采取适当行动。

对用户期望的全面理解、与业务目标的对齐,以及

6. 服务级别指标/目标/协议

服务级别指标 (SLI)

趋势

SLI 必须随着时间的推移进行跟踪,以识别趋势和模式。例如,如果错误率 SLI 增加,服务提供商必须确定根本原因并采取适当措施。

全面了解用户期望、与业务目标保持一致,以及能够长期衡量和监控 SLI,是选择适当 SLI 的必要条件。通过精心选择应使用的 SLI、持续监控这些 SLI 并进行必要的调整,服务提供商可以确保其产品达到客户设定的标准,并提供高质量的用户体验。

SLI 的重要性

SLI 对于监控和衡量服务性能至关重要,它提供了用户体验的客观衡量标准,并使服务提供商能够持续改进服务的性能。通过衡量对用户最重要的关键绩效指标,SLI 帮助服务提供商识别服务不足之处,并采取行动来增强用户体验。此外,SLI 是 SLA 的重要组成部分,可确保服务提供商满足 SLA 中概述的要求,避免因不合规而受到处罚。

设定服务级别目标 (SLO)

SLO 是服务提供商希望在一段时间内为某个特定 SLI 达到的目标或指标。它通常定义为有效请求总数的一个百分比或比率,用于设定服务提供商希望满足的具体性能目标。

SLO 的目的

SLO 是 SLM 的重要组成部分,用于明确服务提供商希望实现的目标。通过设定 SLO,服务提供商可以确保其性能目标与客户和其他利益相关者的需求相匹配。通常,SLO 用于设定关键绩效指标 (KPI),以跟踪和衡量服务在一段时间内的表现。

例如,服务提供商可以为其服务设定 99.9% 正常运行时间的 SLO。这意味着他们希望确保用户 99.9% 的时间都可以访问服务。随着服务提供商获得更多关于服务运作的经验和知识,SLO 可以随时间进行调整。它们通常与 SLA 一起使用,以确保服务提供商满足商定的性能目标。

设定适当的 SLO

作为 SLM 的一部分,为每个服务选择合适的 SLO 非常重要。SLO 的选择应基于多个因素,例如服务在业务中的重要性、资源的可用性以及用户对服务的需求。以下是为不同服务选择 SLO 时要牢记的一些重要事项:

  • 了解服务:在选择 SLO 之前,您应该对服务有充分的了解,包括其目的、运作方式以及目标受众。这将帮助您确定对目标受众和利益相关者最重要的关键绩效指标。
  • 确定关键性:确定服务的重要性。并非所有服务都是相同的,有些服务对业务来说比其他服务更重要。在选择 SLO 时,确定哪些服务对业务最重要并按重要性排序至关重要。
  • 分析历史性能:查看服务过去的表现,分析可能影响 SLO 选择的任何趋势或模式。这有助于您设定可实现的目标。
  • 现实目标:设定在现有资源下可以实现的目标。不切实际的目标可能会使团队成员感到沮丧和疲惫,从长远来看会影响服务的性能。
  • 定期审查:应根据服务变更、用户反馈和性能趋势,定期审查和更改 SLO。这确保了 SLO 在一段时间内仍然有用且可以实现。

设定正确的期望

在制定 SLO 时,设定正确的期望非常重要,以便 SLO 与服务相匹配。以下是关于在提出正确的 SLO 时如何设定正确目标的一些建议:

  • 定义 SLO 涵盖和不涵盖的内容:定义 SLO 涵盖和不涵盖的内容非常重要。这有助于确保用户确切知道 SLO 涵盖的内容,并据此使用。
  • SLO 应易于理解:避免使用技术术语或复杂语言。这确保了每个人,即使是来自非技术背景的用户,都能理解 SLO。
  • 使 SLO 与业务目标保持一致:SLO 对组织中的每个人都重要且相关。它应与业务的总体目标和宗旨以及用户的期望保持一致。
  • 提供清晰的信息:定期检查相对于 SLO 的服务表现情况,包括任何问题或中断。这表明服务提供商致力于满足 SLO,并帮助用户信任和理解它。
  • 实事求是:根据服务过去的表现、可用资源以及其他重要因素,确保 SLO 是合理且可行的。不切实际的 SLO 可能会使用户和服务提供商都感到失望和不满意。

图 6.1 展示了设定正确 SLO 的好处

图 6.1:设定正确 SLO 的好处

创建服务级别协议 (SLA)

SLA 是服务提供商与其客户或其他相关方之间的正式合同,描述了所提供的服务水平。SLA 解释了关于服务质量和可用性的预期,并提供了一种衡量和报告提供商绩效的方法。

SLA 的目的

签订 SLA 的原因如下:

  • 设定期望:SLA 有助于在服务提供商及其客户或其他利益相关者之间设定关于服务水平和质量的明确期望。这有助于确保双方就服务范围和预期的绩效水平达成一致。
  • 衡量绩效并加以改进:SLA 为提供商提供了一种衡量和报告其绩效的方法。这让提供商能够注意到需要改进的领域并采取措施解决问题。它还提供了一种客观地跟踪一段时间内的进展并确保提供商履行承诺的方法。
  • 使服务提供商承担责任:SLA 是服务提供商与其客户或其他利益相关者之间的正式合同。这为客户和利益相关者提供了一种让服务提供商对其绩效负责的方法。如果提供商未能提供约定的服务,这可能包括罚款或其他措施。
  • 提高客户满意度:SLA 可以通过明确定义将要提供的服务水平并根据该标准衡量绩效来提高客户满意度。这确保了客户的需求得到满足,并且任何问题都得到迅速处理。

SLA 的组成部分

SLA 可以有不同的组成部分,具体取决于所提供的服务以及组织、其客户或其他利益相关者和服务的需求。然而,大多数 SLA 都包含以下部分或全部组成部分:

  • 服务描述:对所提供服务的描述,包括其目的、范围以及任何重要的技术细节。
  • 服务时间:服务可用的时间,包括任何计划的维护窗口或服务中断时间。
  • SLO:SLO 是服务提供商必须为每个 KPI(如正常运行时间、响应时间或解决时间)达到的特定性能目标。
  • 指标和报告:将用于衡量服务表现良好的指标,以及性能数据的报告频率和形式。
  • 升级程序:将问题或事件进行升级的步骤,包括在每个级别联系谁以及他们的职责是什么。
  • 职责:服务提供商和客户或利益相关者的具体职责,包括与安全、数据隐私或其他监管要求相关的任何义务。
  • 补救措施和处罚:如果服务提供商未能满足商定的 SLO,则需承担的任何经济处罚或其他后果。
  • 终止与续约:终止或续签 SLA 的条款和条件。

通过将这些部分包含在 SLA 中,服务提供商及其客户或其他利益相关者可以为服务绩效设定明确的期望,衡量和报告绩效,并有一种方法让服务提供商对其未能履行承诺负责。请参考下图:

图 6.2 展示了 SLA 的组成部分

图 6.2:SLA 的组成部分

SLA 的协商

服务提供商和客户或利益相关者必须就 SLA 的条款和条件达成一致。在协商过程中,需要确定利益相关者,定义要提供的服务,并设定 KPI 来衡量服务的效果。然后,为每个 KPI 设定性能目标。这些目标应该是可实现的,对双方都有意义,并基于历史数据、行业基准和客户的具体需求。指标和报告也一并建立,包括用于共享性能信息的任何仪表板或其他工具。商定升级程序,包括在每个升级级别联系谁以及他们的职责。服务提供商和客户或利益相关者的职责都很明确,包括与安全、数据隐私或其他监管要求相关的任何义务。如果服务提供商未能满足商定的性能目标,则会设定后果或处罚。通过遵循这些步骤,协商过程可以为持续的服务关系奠定坚实的基础,确保 SLA 满足双方的需求和期望。

实施和管理 SLM 计划

实施和管理 SLM 计划涉及几个阶段和持续的活动,以确保满足 SLA 并且服务满足客户和利益相关者的需求。重要的步骤包括:实施监控和测量工具、定义角色和职责、建立沟通渠道、进行定期审查、持续改进服务以及管理事件、升级和合同。持续的监控、沟通和持续改进对于该计划的长期成功至关重要。

实施 SLM 计划的步骤

根据组织和所提供的服务,建立 SLM 计划的步骤可能有所不同。然而,从广义上讲,需要采取以下步骤:

  1. 确定您提供的是什么服务以及您想要实现什么目标。
  2. 确定将参与提供和管理服务的人员。
  3. 确定对确保服务良好运行最重要的事项。
  4. 为每项任务设定目标,以便您知道自己的目标是什么。
  5. 决定如何衡量和报告您朝着目标取得的进展。
  6. 规划好如何处理在此过程中出现的任何问题或事件。
  7. 确保每个相关方都清楚他们在提供服务中的角色。
  8. 建立一种让每个人都能轻松沟通的方式,以便您随时了解最新情况。
  9. 定期审查服务的运行情况,并在必要时进行更改。
  10. 始终根据反馈和出现的任何问题,寻找改进服务的方法。

管理 SLI、SLO 和 SLA 的最佳实践

在管理 SLI、SLO 和 SLA 时,可以遵循一些实践来确保成功:

  • 确保参与该过程的每个人都理解期望是什么。要明确计划和目标。
  • 使用使进度测量更容易的工具。有很多工具可以帮助您随时了解进度。
  • 密切关注进展情况。定期进行审查,并在必要时进行更改。
  • 与所有相关利益相关者定期沟通。确保每个人都知道自己的职责和计划的进展情况。
  • 制定处理出现的问题或事件的计划。确保每个人都知道在出现问题时自己的职责。

6. 服务级别指标/目标/协议

确保每个人知悉其角色,并遵循最佳实践

确保每个人都清楚自己在流程中的角色。这有助于避免混淆,并确保所有人朝着相同的目标协同工作。保持灵活性,愿意根据需要调整。情况可能快速变化,因此适应新环境至关重要。

通过遵循这些实践,你可以帮助确保你的 SLI、SLO 和 SLA 是有效的,并且你所提供的服务能满足客户和利益相关者的需求。

设置正确 SLA 的常见挑战

设置正确的 SLA 可能很困难,一些常见问题包括:

  • 对所提供服务缺乏清晰度:如果对提供的服务、其范围和服务目标缺乏清晰度,则很难建立清晰的 SLA。
  • 不切实际的性能目标:利益相关者可能对服务级别抱有不切实际的期望,使得难以设定可实现的 SLA。
  • 数据或历史性能信息不足:设定有意义的 SLA 需要访问准确的数据和历史性能信息。如果缺乏这些信息,设定现实的目标会很困难。
  • 对 KPI 缺乏共识:利益相关者可能在哪些 KPI 更重要、需要跟踪和衡量上存在分歧,从而难以建立有效的 SLA。
  • 资源有限:资源(如预算、人员或技术)不足会使实现期望的服务性能级别和设定现实的 SLA 变得困难。
  • 缺乏沟通与协作:有效的 SLA 需要服务提供商和利益相关者之间进行开放的沟通与协作。如果缺乏沟通或协作,则很难建立满足所有人需求的有效 SLA。
  • 监控和测量工具不足:没有合适的工具和资源,就很难监控和衡量服务性能。

组织可以通过意识到这些常见挑战来应对,并建立有意义、可实现且能满足所有利益相关者需求的有效 SLA。

技术在自动化 SLM 中的作用

技术是自动化服务级别管理(SLM)的关键部分。它提供工具和资源,帮助以更简单、更快速的方式设置、跟踪和报告 SLA。技术可以通过以下方式提供帮助:

  • 自动收集和分析数据:借助合适的技术工具,可以自动收集和分析服务性能数据。这使得跟踪和报告 SLA 更加容易。
  • 实时跟踪服务性能并发送警报:技术可以实时跟踪服务性能,甚至可以在 SLA 面临被违反风险时发送警报。
  • 简化协作与沟通:技术工具可以使服务提供商和利益相关者更轻松地协同工作和相互沟通,从而使设置和管理 SLA 更加容易。
  • 改进报告与可视化:通过提供数据可视化工具,技术可以帮助提高 SLA 报告的准确性和清晰度,使理解和分析服务性能更加容易。
  • 提高效率与生产力:自动化有助于减少管理 SLA 所需的时间和精力,释放资源用于其他重要任务。
  • 实现持续改进:借助技术工具为服务提供商提供定期的性能数据和分析,他们可以找到改进领域,并对 SLA 进行调整以满足利益相关者的需求。

通过使用技术来自动化 SLM,组织可以提升其满足客户和其他利益相关者需求的能力,提供高质量服务,并变得更具效率和生产力。

TIP

一些有助于自动化 SLM 的工具示例:

  • 监控与警报工具:Nagios、Zabbix、Splunk、Dynatrace、Datadog
  • 服务台与工单系统:Jira Service Desk、Zendesk
  • 分析与报告工具:Tableau、Power BI、Google Analytics
  • 协作与沟通工具:Slack、Microsoft Teams、Trello
  • 自动化与工作流工具:Zapier、IFTTT、Microsoft Flow

通过使用这些及其他工具,组织可以自动化并简化其服务级别管理流程,从而更容易满足 SLA、提供高质量服务以及满足客户和利益相关者的需求。

案例研究与实际示例

许多不同行业的组织都成功实施了 SLM 计划,以改善其服务交付并满足客户需求。以下是一些示例:

Netflix

Netflix 的 SLM 计划是其流媒体体验卓越的关键。该计划确保其流媒体质量、可用性、可靠性和速度符合客户期望。它使用自动化工具来跟踪和改进其服务性能。他们甚至有一个名为 Chaos Monkey 的工具,故意让 IT 系统失败,以便在客户受到影响之前快速发现并修复问题。这是一种混沌工程工具,我们将在第 10 章“混沌工程”中讨论。

Netflix 会收集客户对其流媒体体验的反馈,以便不断改进服务。他们利用这些反馈来调整 SLA,并将视频质量和缓冲时间置于优先位置。Netflix 还拥有一个公共仪表板,显示流媒体速度、错误数和服务可用时间等性能指标,让客户了解服务的运行情况以及 Netflix 是否达到了其 SLA。少数公司会为此使用 Grafana 仪表板。

总的来说,SLM 计划是 Netflix 业务战略的重要组成部分。它帮助他们为客户提供卓越的流媒体体验并保持竞争力。通过持续监控服务性能和客户反馈,Netflix 可以确保始终满足客户的期望。

Adobe

Adobe 同样非常重视 SLM,以确保其产品和服务满足客户需求。Adobe 的 SLA 旨在为客户提供对其 Creative Cloud 应用的可靠访问,以及及时的支持和问题解决服务。

Adobe SLM 计划的一个关键部分是使用多个数据中心和内容分发网络(CDN)来确保其产品和服务的持续可用性和良好性能。通过将服务分布到多个地点,Adobe 可以减少停机时间,并让全球客户更容易在需要时获得帮助。Adobe 还设有 7x24 小时的支持工程师团队,随时帮助客户解决任何问题。公司使用工单系统跟踪客户问题并确保其得到快速解决,确保客户在需要使用 Adobe 产品时能获得最佳帮助。

Adobe 对开放性和客户沟通的承诺是其 SLM 计划的另一个重要方面。公司通过公共仪表板定期更新服务可用性和性能信息。如果出现服务问题或其他问题,公司还会直接与客户沟通。

总之,Adobe 的 SLM 计划是其业务战略的关键部分,帮助公司确保其产品和服务的可靠性和高质量。通过使用多个数据中心和 CDN、配备专门的支援资源以及将透明度和客户沟通置于优先位置,Adobe 可以确保其 SLA 得到满足,并且客户对其产品和服务感到满意。

LinkedIn

LinkedIn 是另一个使用 SLA 的典范,它非常注重 SLM,以确保其平台的可靠性和对用户的易用性。LinkedIn 的 SLM 计划目标是确保用户始终能够访问平台并在需要时获得帮助。他们使用多个数据中心和 CDN 来确保高可用性和性能。通过将服务分布到多个地点,LinkedIn 可以减少停机时间,并让全球用户在需要时更容易获得帮助。这有助于确保 SLA 得到满足,用户对所获得的服务感到满意。

LinkedIn 的 SLM 计划的另一重要部分是对用户保持开放和沟通。公司通过公共仪表板定期更新服务可用性和性能信息。如果出现服务问题或其他问题,公司还会直接与用户沟通。这有助于建立用户对服务的信任,并确保他们始终了解最新情况。

结论

实施 SLM 计划是确保组织服务达到或超越客户期望的重要一步。图 6.3 提供了面向希望实施 SLM 计划的组织的一些建议:

图 6.3:SLA 建议

(图略:此处应展示一项包含建议的示意图,内容涵盖目标设定、利益相关者沟通、数据监控、持续改进等要点。)

总体而言,设定 SLA 的目标是建立一个清晰且一致的服务交付框架,有助于确保客户获得他们期望的服务质量水平,并使服务提供商能够始终如一地交付该质量水平。

下一章我们将讨论 SRE 中用于预测和控制系统资源的重要方法论和工具。这一章将深入探讨如何准确预测未来服务需求,并将其与当前基础设施能力相匹配。我们将了解容量规划在确保系统可扩展性、性能和可靠性的同时如何保持成本效益。重点将放在整合技术需求与业务目标、利用数据驱动方法以及为动态可扩展性添加自动化上。通过本章的学习,读者将理解主动资源管理在维持无缝服务交付中的必要性。

选择题

  1. SRE 中 SLI 代表什么,它衡量什么? a. 服务级别推断:对服务可靠性的预测
    b. 服务级别指标:用于衡量服务性能的特定度量
    c. 服务许可实施:详述服务权限的法律文件
    d. 系统负载指数:系统资源使用情况的度量

  2. 以下哪项最准确地描述了 SLO? a. 服务提供商与客户之间的法律合同
    b. 服务旨在达到的目标性能水平
    c. 指示服务当前性能的度量
    d. 概述拟议服务增强的内部文档

  3. SLO 与 SLA 的主要区别是什么? a. SLO 定义预期利润,而 SLA 定义预期服务水平
    b. SLO 是内部目标,而 SLA 是外部合约承诺
    c. SLO 基于历史数据,而 SLA 基于实时监控
    d. SLO 由客户设定,而 SLA 由服务提供商设定

习题

  1. SLO 和 SLA 的主要区别是什么?
    b. SLO 是服务提供商设定的目标,而 SLA 是与客户达成一致的承诺。
    c. SLO 用于外部,而 SLA 仅用于内部。
    d. 没有区别;它们是可互换的术语。

  2. 未能满足 SLA 可能会带来什么后果?
    a. 提高客户满意度
    b. 降低运营成本
    c. 可能的财务罚款或其他合同后果
    d. 服务错误预算增加

  3. SRE 团队如何使用 SLI 和 SLO?
    a. 计算他们的年度奖金
    b. 确保符合国际标准
    c. 指导服务开发和运营中的决策
    d. 监控团队成员的个人表现

答案

  1. b
  2. b
  3. b
  4. c
  5. c

6. 服务级别指标/目标/协议

图像上下文(第 5 部分,共 5 部分)

以下图像位于本节的指定页面,但原文未提供具体描述或内容。此处仅保留引用位置,供参考。

  • ![Image 2261 on Page 166] — 页面 166 上的图像 2261
  • ![Image 2270 on Page 169] — 页面 169 上的图像 2270
  • ![Image 2294 on Page 179] — 页面 179 上的图像 2294

注意

本部分作为第 5/5 部分,原始文本仅包含上述图像引用。前四部分的内容(包括 SLI、SLO、SLA 的定义、设置方法及实际案例)已在之前的输出中处理完毕。