un — Site Reliability Engineering [DESCRIPTION /]

un

gäst

1 / ?

Vad SRE löser

Välkommen till Site Reliability Engineering

Site Reliability Engineering (SRE) startade på Google 2003. Ben Treynor Sloss tog över ett litet driftsteam och byggde om det som om ingenjörer, inte mänskliga personsökare, drev produktionen. Resultatet blev den standardmodell som används för att driva stora internettjänster.

Traditionella driftteam höll tjänster igång genom manuellt arbete: starta om den här servern, pager den där ingenjören, skriv en körbok, hoppas att den håller. Den modellen bryter samman vid skalning. Ett team på femtio operatörer kan inte manuellt starta om fem tusen servrar. Bortom en viss storlek blir manuella operationer en skatt som förbrukar varje produktiv timme.

SRE vänder på modellen. Istället för att anställa fler operatörer när systemen växer, anställer SRE mjukvaruingenjörer och säger till dem: skriv kod som utför det operativa arbetet åt er. Ert jobb kvalificerar som mjukvaruutveckling tillämpad på driftproblem. Ert resultat: automatisering, övervakning och konstruerad tillförlitlighet, inte manuella ingripanden.

Tre grundläggande idéer driver SRE-praktiken:

- Service Level Objectives (SLOs): numeriska tillförlitlighetsmål som avtalas i förväg

- Error budgets: inversen av ett SLO, används för risktagande

- Toil elimination: allt operativt arbete som skalas linjärt med systemstorlek måste elimineras

Dessa tre idéer genomsyrar varje SRE-praktik: postmortems, jourrotationer, kapacitetsplanering, övervakning och release engineering.

SRE: Software engineering applied to operations

Traditionell drift kontra SRE

Varför traditionell drift bryter samman vid skalning

Ett typiskt ops-team växer linjärt med de system det hanterar. Dubbla antalet servrar, dubbla antalet operatörer. Detta är ekonomiskt försvarbart för små installationer men katastrofalt vid skalning: du kan inte anställa dig ur ett kvadratiskt problem.

SRE begränsar operationsarbete till femtio procent av en ingenjörs tid. Den andra halvan måste ägnas åt engineering: bygga verktyg, automatisera processer, eliminera det manuella arbete som förde dem till femtio procent från början. Om manuellt arbete överskrider femtio procent under för lång tid måste teamet lämna tillbaka arbete till ett utvecklingsteam eller anställa fler SRE:er. Regeln om femtio procent förhindrar att ett SRE-team kollapsar till ett traditionellt ops-team under ihållande press.

Jämför felsätten:

- Traditionell ops: fler incidenter leder till fler manuella åtgärder, vilket ger mindre tid för förebyggande arbete, vilket skapar fler incidenter. En ond spiral.

- SRE: fler incidenter utlöser postmortems, vilket avslöjar automationsmöjligheter, vilket minskar nästa incidents åtgärdstid. En god spiral, när den fungerar.

Ett litet startup-företag har två ops-ingenjörer och fyrtio servrar. De hanterar driftsättningar genom att SSH:a in på varje server, hämta den senaste koden och starta om tjänster. Driftsättningar tar tre timmar. Startupen ska snart ta emot en kund som kommer att tredubbla antalet servrar. Varför skulle en SRE-ledare säga att den nuvarande driftsättningsprocessen är ohållbar, och vad bör specifikt ändras innan kunden ansluter sig?

SLI, SLO, SLA

Tre bokstäver som styr produktionen

Tillförlitlighet utan mätning är teater. SRE gör tillförlitlighet till ett tal som alla kommit överens om i förväg och som alla kan verifiera.

Service Level Indicator (SLI): en mätning av tjänstens beteende. Exempel: begäranslatens, felfrekvens, genomströmning, ködjup. Ett SLI är något du kan rita en graf över.

Service Level Objective (SLO): ett målvärde eller intervall för ett SLI. Exempel: ”99,9 % av HTTP-förfrågningar lyckas under ett rullande 28-dagarsfönster.” Ett SLO är ett löfte du ger dig själv och dina användare om acceptabel tjänstekvalitet.

Service Level Agreement (SLA): ett kontraktsbundet åtagande, vanligtvis med ekonomiska påföljder vid överträdelse. Exempel: ”Vi återbetalar 10 % om månatlig tillgänglighet understiger 99,9 %.” Ett SLA är ett löfte som upprätthålls av jurister.

Viktig skillnad: ditt SLA måste alltid vara lösare än ditt SLO. Om du internt siktar på 99,9 % och kontrakterar 99,9 % externt har du ingen marginal. SRE:er kör vanligtvis SLO:er med en nia stramare än SLA:et: 99,95 % internt mål, 99,9 % kontrakt. Marginalen absorberar den oundvikliga dåliga veckan.

SLI, SLO, SLA-hierarki

Error Budgets: The Inverse SLO

Från tillförlitlighetsmål till tekniska beslut

Ett SLO anger ett tillförlitlighetsmål. Felbudgeten är det som återstår: den mängd fel du kan använda innan målet missas.

Om ditt SLO lovar 99,9 % lyckade förfrågningar under 28 dagar är din felbudget 0,1 % av förfrågningarna, eller cirka 40 minuters total nedtid per månad. Den budgeten kan du använda som du vill: på planerade releaser, experimentella funktioner, chaos engineering eller att tolerera en ostadig beroendetjänst.

Felbudgetar omformar konflikten mellan utveckling och drift. Utan en budget startar varje driftstörning en diskussion om vem som släppte den dåliga ändringen och hur nästa ska förhindras. Med en budget:

- Budget kvar: lansera snabbare, ta fler risker, kör experiment. Budgeten betalar för det.

- Budget förbrukad: sluta lansera nya funktioner, frys riskfyllda ändringar, fokusera på tillförlitlighetsarbete tills budgeten byggs upp igen.

Detta omvandlar tillförlitlighet från en känslomässig diskussion till en mätbar resurs. Ingenjörer kan använda budgeten medvetet, precis som vilken annan produktionsresurs som helst.

Error budget över tid: mål, verklig, förbrukning

Ett team kör ett checkout-API med ett SLO på 99,95 % över 28 dagar. Produktägaren vill lansera en ny funktion den här veckan som teamet uppskattar kommer att introducera en felnivå på 0,05 % under två veckor medan den stabiliseras. Gå igenom om lanseringen bör genomföras med hjälp av error budget-resonemang. Vad skulle ändra ditt svar om teamet redan har förbrukat 80 % av sin error budget den här månaden?

Definiera Toil

Vad räknas som Toil

Inte alla driftuppgifter kvalificerar sig som toil. SRE definierar toil exakt: arbete som är manuellt, repetitivt, automatiserbart, taktiskt, saknar bestående värde och skalas linjärt när tjänsten växer.

Alla sex egenskaper måste uppfyllas. En engångsdatamigrering är manuell men inte repetitiv: det kvalificerar sig inte som toil. En senior ingenjör som designar en ny tjänstearkitektur hanterar ett taktiskt beslut men tillför bestående värde: det kvalificerar sig inte som toil.

Exempel som kvalificerar sig som toil:

- Manuellt starta om en tjänst efter en krasch orsakad av minnesläcka

- Klistra in loggfragment i en chattkanal under incidenthantering

- Fylla i ett ärendeformulär för att provisionera en ny databas

- Att köra en kvartalsvis kapacitetsrapport manuellt

- Godkänna rutinmässiga driftsättningar en efter en

Femtio-procentsregeln begränsar toil till högst hälften av en SRE:s tid. Överstiger andelen 50 % måste teamet antingen lämna tillbaka ansvar till produktteamet eller anställa fler ingenjörer, men målet är tydligt: driva toil mot noll genom att ersätta den med automatiserade system som utför samma arbete utan mänsklig inblandning.

Automatisering sparar inte bara tid. Den eliminerar helt en klass av mänskliga fel. Ett skript som provisionerar en databas glömmer inga steg efter ett långt arbetspass.

Toil-egenskaper: 6-egenskapschecklista

Toil-revision – resonemang

Ditt team spårar hur tiden används. Förra kvartalet var fördelningen: 30 % driftsättningar, 25 % incidenthantering, 20 % kapacitetsarbete, 15 % funktionsutveckling, 10 % engångsförfrågningar från produktteam.

Granska var och en av de fem kategorierna: vilka kvalificerar troligen som toil och varför? Föreslå för den största toil-kategorin ett konkret ingenjörsprojekt som kan halvera den inom ett kvartal.

On-Call Hygien

Ingenjörer, inte personsökare

On-call medför en verklig kostnad. Sömnen störs, helger avbryts och stressen från okända problem ökar. SRE behandlar on-call som en begränsad resurs som måste vara hållbar, inte en heroisk börda som bärs av den som bryr sig mest.

Friska on-call-rotationer följer flera principer:

- Kompenserad tid: on-call-timmar motsvaras av kompensationsledighet, extra lön eller likvärdig förmån. Gratis on-call leder till utbrändhet i teamet.

- Rimligt rotationsdjup: ett sexpersoners team med primär- och sekundärrotation innebär att varje ingenjör har ett pass var tredje vecka. Tvåpersoners rotationer förstör karriärer.

- Sidvolymbudget: Googles SRE-bok föreslår högst två sidningar per tolv-timmars pass. Överstiger man detta måste teamet investera ingenjörstid i att minska antalet larm, inte bara uthärda dem.

- Endast åtgärdbara larm: varje sida måste kräva mänsklig åtgärd. Om en sida skulle ignoreras, automatiseras eller triggas upprepade gånger under normal drift, bör den inte finnas. Larmtrötthet är ett tillförlitlighetsfel.

- Follow-the-sun-överlämningar: globalt distribuerade team lämnar över pass vid tidszonsgränser så att ingen får en sida klockan 03:00 om inte systemet verkligen inte kan vänta till morgonen.

Frisk on-call-rotation: 6-personers team, follow-the-sun-struktur

Blameless Postmortems

Hur incidenter blir förbättringar

Varje betydande incident får en postmortem: en skriftlig analys av vad som hände, varför, vad som åtgärdade det och vilka förändringar som förhindrar upprepning. Postmortem är SRE:s motsvarighet till ränta på ränta: varje sådan analys lägger till permanent tillförlitlighet i systemet.

Blameless innebär att dokumentet tillskriver fel till system och processer, aldrig till individer. Om en ingenjör körde fel kommando frågar postmortemen: varför tillät systemet det kommandot? Varför fångade ingen säkerhetsmekanism det? Vilken förändring av systemet, dokumentationen eller verktygen skulle förhindra att nästa ingenjör gör samma misstag?

Blameless-kultur finns av en enda anledning: människor döljer misstag när de fruktar bestraffning. Dolda misstag blir nästa incident. Kostnaden för en blameless kultur är låg jämfört med kostnaden för att samla odokumenterade fel.

Postmortems täcker vanligtvis:

- Sammanfattning: en stycke-beskrivning av incidenten och dess påverkan

- Tidslinje: minut-för-minut-rekonstruktion med tidsstämplar

- Rotorsaksanalys: tekniska och processrelaterade faktorer som möjliggjorde felet

- Upptäckt: hur teamet fick kännedom om incidenten och hur lång tid det tog

- Åtgärdande: de åtgärder som vidtogs för att återställa tjänsten

- Lärdomar: vad som fungerade och vad som inte gjorde det

- Åtgärdspunkter: konkreta, ägda och tidsbundna tekniska uppgifter

Åtgärdspunkterna finns i ett ärendehanteringssystem. De prioriteras som allt annat tekniskt arbete. Postmortems utan åtgärdspunkter blir bara berättelser. Arbetet förändrar ingenting.

Postmortem-struktur: 7 standardavsnitt

En ingenjör körde ett databasmigreringsskript i produktion som var avsett att köras i staging. Migreringen låste tabeller i 45 minuter och orsakade en partiell avbrott. Skriv de tre första åtgärdspunkterna du skulle inkludera i den blameless postmortemen. Varje punkt måste vara specifik, ägd och adressera det underliggande systemet snarare än ingenjörens misstag.

De fyra gyllene signalerna

Vad varje tjänst måste mäta

Googles SRE-bok föreslår fyra signaler som varje användarvända tjänst måste exponera: latens, trafik, fel och mättnad. Tillsammans beskriver de tjänstens hälsa ur användarens perspektiv. Övervakning med färre signaler lämnar blinda fläckar; övervakning med hundratals mätvärden begraver teamet i varningsutmattning.

Latens: hur lång tid förfrågningar tar. Spåra distributioner, inte medelvärden. p50 (median) beskriver den typiska upplevelsen. p99 beskriver de sämsta 1 % av användarna. Medelvärde ensamt döljer långa svansar: en tjänst med median 50 ms och p99 5 000 ms ser bra ut på medelvärdet men förstör upplevelsen för en av hundra användare.

Trafik: belastningen på tjänsten. För en webbtjänst innebär det förfrågningar per sekund. För en strömningstjänst innebär det samtidiga anslutningar. För ett batchjobb innebär det bearbetade objekt per minut. Trafik korrelerar med kapacitetsbeslut och avslöjar avvikelser i arbetsbelastningen.

Fel: andelen misslyckade förfrågningar. Explicita fel (HTTP 500), implicita fel (HTTP 200 med korrupt data) och policyfel (svar som är för långsamt för att uppfylla SLO) räknas alla. Att skilja mellan dessa är viktigt: ett 200-svar med felaktig nyttolast skadar ofta användarna mer än ett ärligt 500-svar.

Mättnad: hur fullt systemet kör. CPU-användning, ködjup, minnesbelastning, anslutningspoolens beläggning. Mättnad förutspår framtida latens: ett system på 95 % CPU har väldigt lite marginal innan användarupplevd latens ökar kraftigt.

De flesta SRE-larm härleds från dessa fyra signaler. Symptom-baserad larmning (larm när användarna skulle märka det) överträffar orsak-baserad larmning (larm när CPU överskrider 80 %). De fyra gyllene signalerna beskriver symtom.

Four Golden Signals: latency, traffic, errors, saturation

SRE-karriärvägar

Var SRE-kunskaper ger utdelning

SRE-karriärer skiljer sig åt beroende på vilken del av disciplinen en ingenjör tycker mest om:

Infrastructure SRE: bygger plattformarna som andra team kör på. Kubernetes, service meshes, intern molnplattform. Tung systems engineering, teori om distribuerade system och plattformsdesign. Betalar extremt bra på stora företag eftersom arbetet skalas: en infrastructure SRE stödjer hundratals produktutvecklare.

Embedded SRE: arbetar tillsammans med ett produktutvecklingsteam för att förbättra en specifik tjänsts tillförlitlighet. Halv ingenjör, halv coach. Starka kommunikations- och kodgranskningsfärdigheter är lika viktiga som tekniskt djup. Ofta den bästa vägen för ingenjörer som gillar att undervisa.

Reliability tooling: bygger observability-stacken: övervakning, larm, dashboards, postmortem-verktyg och incidenthanteringsplattformar. Tung frontend- och dataengineering. Resultatet används av alla andra team.

Production engineering: Facebook/Metas term för SRE med fokus på kapacitet, driftsättning och trafikhantering. Tungt nätverks- och systemarbete.

Tekniska certifieringar som är värda att ha: Google Cloud Professional Cloud Architect, AWS Solutions Architect Professional och CNCF-certifieringar (Kubernetes Administrator, Kubernetes Application Developer) signalerar moln-native kompetens. Linux Foundation-certifieringar visar djup inom system. Inga av dessa ersätter portföljprojekt, men de hjälper till att klara rekryterarnas första gallring.

SRE-karriärvägar: 4 spår

Av de SRE-koncept du lärt dig i den här lektionen (SLO:er, felbudgetar, eliminering av manuellt arbete, icke-skyllande postmortems, fyra gyllene signaler), välj det du skulle införa först på ett startup-företag som saknar dem. Motivera din sekvensering: varför detta koncept före de andra, och vilket specifikt första steg skulle du ta under din första månad?

Avslutning

Vad du nu vet

Site reliability engineering började som Googles lösning på ett skalningsproblem och har utvecklats till en disciplin som nu praktiseras över hela branschen. Du har gått igenom:

- Övergången från manuella operationer till konstruerad tillförlitlighet

- SLI:er, SLO:er, SLA:er och felbudgetar som det inversa begreppet till SLO

- Definition av toil, 50-procentsregeln och ingenjörsdriven minskning

- Hållbara jourrotationer och praxis för klandra postmortem

- De fyra gyllene signalerna som utgångspunkt för tjänsteövervakning

- SRE-karriärspår och certifieringar som öppnar dörrar

Två idéer betyder mest. Tillförlitlighet är ett tal, överenskommet i förväg. Och slit är en defekt, inte en arbetsbeskrivning. Bär med dig de två och resten av SRE följer naturligt.

Rekommenderad läsning: Googles SRE-bok (gratis online: sre.google/books/), SRE-arbetsboken för praktiska övningar, och Charity Majors texter om observability. Lektionen om geometri-kompis går djupare på den visuella strukturen bakom SRE-praktik: latensfördelningar, felbudgetkoner, beroendegrafik och instrumentpanelers layout.