De waarschuwings- en op afroep-functies van Opsgenie zijn nu beschikbaar in Jira Service Management en Compass. Migreer bestaande Opsgenie-gegevens en -configuraties vóór 5 april 2027 met behulp van onze geautomatiseerde migratietool.Meer informatie

Wat is SRE? Uitleg van principes en praktijken

SRE (Site Reliability Engineering) helpt de typische problemen te verminderen waarmee ontwikkelings- en operations-teams te maken krijgen tijdens releases.
SRE verbetert betrouwbaarheid, verantwoordelijkheid en innovatie door te helpen applicaties stabiel te houden na elke update.
Meten, reageren, leren en verbeteren zijn de vier hoofdcomponenten waarmee SRE werkt.
Effectieve SRE begint op managementniveau, maar is ook afhankelijk van een sterke teamstructuur en gedeelde verantwoordelijkheid voor betrouwbaarheid.
JSM kan je helpen om incidentrespons te vereenvoudigen en SRE effectief te implementeren.

Het ontwikkelen en uitbrengen van software heeft veel variabelen, en het coördineren van lanceringen tussen meerdere teams kan uitdagend zijn. Innovaties zoals site reliability engineering (SRE) helpen wrijving te verminderen, waardoor teams ITSM kunnen stroomlijnen.

SRE speelt een essentiële rol in moderne softwareontwikkeling en helpt de tijd tot introductie te verkorten en obstakels en betrouwbaarheidsproblemen te minimaliseren. Lees meer over de kernprincipes en pijlers van SRE, en hoe SRE invloed kan hebben op jouw organisatie.

Wat is site reliability engineering (SRE)?

SRE is een engineeringdiscipline die software-engineeringpraktijken toepast op operationeel werk om betrouwbare, schaalbare systemen in te richten en te onderhouden. Het is gericht op het verbeteren van systeemprestaties door automatisering, meetbare betrouwbaarheidsdoelen en continue operationele verbetering.

Ben Treynor, een van de eerste leidinggevenden achter de SRE-praktijk van Google, omschreef site reliability engineering als wat er gebeurt "wanneer een software-engineer taken krijgt die voorheen 'operations' werden genoemd".

Historisch gezien richtten ontwikkelteams zich op het snel opleveren van nieuwe functies, terwijl operationele teams prioriteit gaven aan systeemstabiliteit. Deze spanning zorgde vaak voor frictie rondom releasebeslissingen en risicotolerantie.

SRE introduceerde een meer gestructureerde aanpak door betrouwbaarheidsdoelen te definiëren en meetbare drempelwaarden te gebruiken om te bepalen wanneer wijzigingen veilig kunnen worden uitgebracht. Speciale reliability engineers helpen zorgen dat systemen voldoen aan prestatieverwachtingen en tegelijkertijd continue innovatie mogelijk is.

Zoals Google SRE-engineer Andrew Widdowson heeft opgemerkt, kan het werk lijken op "deel uitmaken van een intense pitcrew," waarbij je systemen continu verbetert terwijl ze in productie blijven.

SRE vs. traditionele IT-activiteiten vs. DevOps

Bij traditionele IT-activiteiten ligt de nadruk in de eerste plaats op het tot een minimum beperken van problemen met nieuwe releases en de risico's die deze met zich meebrengen. Teams worden gestructureerd op basis van IT-expertise, waarbij netwerkengineers het netwerk beheren, enzovoort. Hoewel dit model effectief is voor het maximaliseren van betrouwbaarheid, kan het leiden tot knelpunten en vertragingen.

DevOps is ontwikkeld als een moderne oplossing voor de uitdagingen waarmee traditionele IT-activiteitenteams worden geconfronteerd. In tegenstelling tot traditionele IT-activiteiten richt DevOps zich op wendbaarheid en efficiëntie door middel van automatisering. DevOps-teams zijn ook multidisciplinair, wat ze flexibeler maakt.

SRE is de nieuwste innovatie en erop gericht ontwikkelings- en operations-teams met elkaar te verbinden. SRE stroomlijnt de samenwerking tussen ontwikkelings- en operations-teams door middel van zichtbaarheid, automatisering en applicatiebewaking. SRE-teams meten de prestaties van applicaties, afgezet tegen Service Level Agreements (SLA's), Service Level Indicators (SLI's) of Service Level Objectives (SLO's), om betrouwbaarheid te waarborgen. SRE-teamleden kunnen ook problemen met code vaststellen en verhelpen, dus programmeren is een belangrijke vaardigheid voor SRE-teams.

	Primaire focus	Teamstructuur	Sterke punten	Beperkingen
Traditionele IT-activiteiten	Stabiliteit en risicovermindering tijdens releases	Gespecialiseerde teams georganiseerd per functie	Sterke controle en betrouwbaarheid	Kan leiden tot silo's, knelpunten en tragere oplevering
DevOps	Wendbaarheid, snelheid en efficiëntie door automatisering	Multidisciplinaire samenwerking tussen ontwikkelings- en operations-teams	Snellere oplevering, grotere flexibiliteit, sterkere samenwerking	Betrouwbaarheidspraktijken kunnen verschillen per team
SRE	Betrouwbaarheid door engineering, automatisering en zichtbaarheid	Engineers die ontwikkelings- en operations-teams met elkaar verbinden	Grotere betrouwbaarheid, meetbare serviceprestaties, snellere incidentrespons	Vereist technische volwassenheid, duidelijke statistieken en programmeerexpertise

Hoe werkt SRE?

Er zijn verschillende kernpijlers van SRE die DevOps stroomlijnen en helpen de betrouwbaarheid van software te garanderen. Een nadere blik op de belangrijkste aspecten van SRE kan je helpen om SRE effectief te integreren in jouw organisatie.

Meten: betrouwbaarheid definiëren en bijhouden

Meten vormt de basis van SRE-besluitvorming en biedt belangrijke gegevens die SRE-teams gebruiken om de betrouwbaarheid bij elke introductie te maximaliseren. De belangrijkste statistieken zijn onder meer:

Service level indicators (SLI's): SLI's zoals latentie, beschikbaarheid, doorvoer en foutpercentages zijn belangrijke statistieken voor het meten van de betrouwbaarheid van een systeem.
Service level objectives (SLO's): SLO's stellen teams in staat om realistische betrouwbaarheidsdoelen te stellen op basis van gebruikerservaring, wat ook helpt om prestatiedoelen af te stemmen op operationele beperkingen om te zorgen dat software betrouwbaar is bij release.
Service level agreements (SLA's): SLA's zijn externe betrouwbaarheidsverplichtingen die doorgaans minder streng zijn dan SLO's. SLO's zijn strenger dan SLA's doordat ze fungeren als waarschuwingssysteem voor mogelijke prestatieproblemen, waardoor verantwoordelijkheid naar klanten wordt gegarandeerd en de beste klantervaring wordt geleverd.
Foutbudget: Een foutbudget is de toegestane downtime voor een bepaalde periode. Teams gebruiken foutbudgetten om de ontwikkeling te reguleren. Wanneer het foutbudget is opgebruikt, vertraagt de ontwikkeling. Wanneer het budget gezond is, kun je de ontwikkeling versnellen en meer risico's nemen.

Reageren: beheren van incidenten en operationele belasting

Reageren is de gestructureerde manier waarop SRE-teams betrouwbaarheidsproblemen in real time beheren. Teams gebruiken gedefinieerde processen en gestandaardiseerde frameworks om incidentmanagement te stroomlijnen:

Praktijken voor incidentrespons: Teams creëren gedefinieerde processen, rollen en escalatietrajecten om tijdige en consistente incidentrespons te waarborgen. Jira Service Management (JSM) stelt teams in staat om eenvoudig problemen te beheren, te escaleren en best practices en procedures te delen op een centrale locatie.
Ernstniveaus en prioritering: Teams gebruiken gestandaardiseerde frameworks omtrent de ernst om snel de impact te beoordelen en te bepalen hoe urgent een bepaald probleem is. Dit helpt teams om incidenten te prioriteren op basis van ernst.
Engineering op afroep: Duurzame planningen voor medewerkers op afroep helpen een evenwicht te vinden tussen systeemresponsiviteit en ontwikkelaarsproductiviteit en welzijn, waardoor burn-out wordt verminderd en je betere resultaten behaalt.

Leren: incidenten omzetten in systematische verbetering

Nadat incidentrespons is voltooid, is leren het mechanisme dat teams helpt terugkerende storingen te voorkomen en de veerkracht van het systeem te verbeteren.

Niet-beschuldigende postmortems: Wanneer teams zich richten op systemische oorzaken van problemen in plaats van individuele fouten, resulteert dit in effectievere probleemoplossing en ondersteunt het de psychologische veiligheid van het team.
Postmortem-sjablonen en -praktijken: Het gebruik van gestructureerde incidentevaluaties leidt tot betere documentatie en uitvoerbare vervolgacties. De postmortem-sjabloon in JSM stroomlijnt dit proces.
Delen van kennis over betrouwbaarheid: Gecentraliseerde pagina's en documentatie stellen teams in staat om een kennisdatabase op te bouwen en het leren op te schalen in al hun services en organisaties.

Verbeteren: op grote schaal betrouwbaarheid waarborgen

Verbeteren is het langetermijnresultaat van volwassen SRE-praktijken. Dit zijn de wijzigingen die kunnen opschalen naarmate je bedrijf groeit en die zorgen voor betrouwbaarheid op de lange termijn.

Vermindering van de werkdruk: Het vaststellen en elimineren van repetitieve operationele workflows maakt tijd vrij die teams kunnen gebruiken om zich te richten op meer waardevolle engineeringtaken, zodat je geen waardevolle resources verspilt.
Automatisering en standaardisatie: Automatisering verbetert de consistentie, veerkracht en operationele efficiëntie van systemen door operationele workflows te stroomlijnen en het risico op menselijke fouten te verminderen.
Capaciteitsplanning en prestatie-optimalisatie: Een preventieve aanpak bij het ontwerpen van je systeem kan bescherming bieden tegen veelvoorkomende problemen en duurzame groei ondersteunen, zodat systemen gemakkelijk kunnen worden opgeschaald naarmate je groeit.

Hoe je SRE effectief uitvoert

SRE kan een effectief hulpmiddel zijn wanneer het juist wordt gebruikt. Het volgen van de juiste procedures en best practices maakt het gemakkelijker om SRE effectief te implementeren.

Van betrouwbaarheid een gedeelde verantwoordelijkheid maken

Van betrouwbaarheid een gedeelde verantwoordelijkheid maken is een van de kernprincipes van SRE. Wanneer ontwikkelings- en operations-teams de verantwoordelijkheid delen voor de uitkomst van een release, is de kans groter dat teams productief samenwerken om een oplossing te vinden voor het onderhavige probleem.

Hulpmiddelen zoals foutbudgetten spelen een belangrijke rol bij het afstemmen van prioriteiten en het stimuleren van samenwerking. SLO's, SLI's en SLA's vormen eenvoudige manieren om systeemprestaties objectief te meten, en bieden teams een solide basis om mee te werken.

De juiste teamstructuur kiezen

SRE-teams kunnen worden gestructureerd als een gecentraliseerd of ingebed team, en beide modellen hebben hun voordelen.

Ingebedde SRE-teams werken binnen productteams, waardoor ze het product beter begrijpen en snel kunnen reageren. Gecentraliseerde SRE-teams zijn aparte teams die in de hele organisatie werken.

Hybride teams zijn een effectief compromis tussen gecentraliseerde en ingebedde SRE-teams, waarbij de flexibiliteit van ingebedde SRE-teams wordt gecombineerd met de consistentie van gecentraliseerde teams. Hybride engineeringrollen helpen betrouwbaardere systemen te leveren door de ontwikkeling te versnellen en betrouwbaarheidsproblemen te verminderen.

Support van management opbouwen voor betrouwbaarheid

Bij het maken van betrouwbaarheid tot een langetermijnprioriteit en het implementeren ervan in het strategische besluitvormingsproces komt meer kijken dan alleen het opzetten van een SRE-team. Effectieve SRE op de lange termijn begint bij het management.

Wanneer het management zich inzet voor het verbeteren van de betrouwbaarheid, hebben SRE-teams toegang tot de resources die ze nodig hebben om de betrouwbaarheid te waarborgen. Support van het management helpt ook bij de verschuiving van de bedrijfscultuur naar het prioriteren van betrouwbaarheid boven snelle releases, wat helpt om SRE te verweven in alles wat een organisatie doet.

Wanneer moet je SRE invoeren?

Als je overweegt om SRE in te voeren, zijn hier enkele aanwijzingen dat je organisatie klaar is voor de overstap:

Grote hoeveelheden resources worden besteed aan handmatige, repetitieve taken die leiden tot burn-out
Je klanten zijn vaak ontevreden over de prestaties of downtime, of je overtreedt SLA'
Implementatietijden zijn traag en implementaties leiden vaak tot problemen

Hoewel het implementeren van SRE een effectieve manier is om de betrouwbaarheid te verbeteren, zijn er enkele uitdagingen om rekening mee te houden:

Culturele weerstand tegen verandering
Moeilijkheden bij het aannemen of opleiden van personeel
Omgaan met overmatige werkdruk

Je kunt enkele van deze uitdagingen overwinnen door gefaseerde SRE-implementatie. Begin met minder kritieke pilotprojecten en implementeer automatisering, foutenbudgetten en continue verbetering naarmate je meer vertrouwd raakt.

Beginnen met het opbouwen van je SRE-praktijk

SRE is een van de meest effectieve manieren om betrouwbaarheid te verbeteren en samenwerking tussen ontwikkel- en Operations-teams te stroomlijnen. Door SLO's, SLI's en SLA's te gebruiken om systeemprestaties te meten, help je incidenten te minimaliseren, de klantervaring te verbeteren en ontwikkelaars in staat te stellen zich te richten op innovatie.

Als je klaar bent om SRE toe te passen, begin dan met een klein project, bouw je team op en richt je op het verfijnen en continu verbeteren van SRE-praktijken.

Je kunt meer diepgaande handleidingen over SRE verkennen om meer te leren over het opbouwen van een SRE-team, of bekijk JSM om incidentmanagement te stroomlijnen en samenwerking tussen teams te verbeteren.

Krijg Service Management gratis

Voor jou aanbevolen

Tutorial

Een op afroep-rooster opstellen met Opsgenie

In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.

Lees deze tutorial

Sjablonen en voorbeelden voor incidentcommunicatie

Bij het reageren op een incident zijn communicatiesjablonen van onschatbare waarde. Download de sjablonen die onze teams gebruiken, plus meer voorbeelden voor veelvoorkomende incidenten.

Lees dit artikel

Meer informatie over incidentmanagement

Vind meer handleidingen en bronnen voor incidentmanagement in deze hub.

Lees meer

Uitgelichte apps

Atlassian Collections

Per gebruikersscenario

Per team

Op maat

Per sector

Ondersteuning

Bronnen

Jira

Confluence

Jira Service Management

Per gebruikersscenario

Per team

Op maat

Per sector

Jira

Confluence

Jira Service Management

Per gebruikersscenario

Per team

Op maat

Per sector

Wat is SRE? Uitleg van principes en praktijken

Wat is site reliability engineering (SRE)?

SRE vs. traditionele IT-activiteiten vs. DevOps

Hoe werkt SRE?

Meten: betrouwbaarheid definiëren en bijhouden

Reageren: beheren van incidenten en operationele belasting

Leren: incidenten omzetten in systematische verbetering

Verbeteren: op grote schaal betrouwbaarheid waarborgen

Hoe je SRE effectief uitvoert

Van betrouwbaarheid een gedeelde verantwoordelijkheid maken

De juiste teamstructuur kiezen

Support van management opbouwen voor betrouwbaarheid

Wanneer moet je SRE invoeren?

Beginnen met het opbouwen van je SRE-praktijk

Voor jou aanbevolen

Een op afroep-rooster opstellen met Opsgenie

Sjablonen en voorbeelden voor incidentcommunicatie

Meer informatie over incidentmanagement