Gestión de incidentes para equipos de alta velocidad
Qué es un objetivo de nivel de servicio (SLO) y diferencias entre SLO, SLA y SLI
Crear una experiencia de usuario positiva es fundamental para ofrecer un servicio, y comienza con la responsabilidad. Como proveedor de servicios, tu trabajo es asegurarte de que los clientes reciban el servicio de calidad que esperan de tu empresa.
Si haces una promesa a un cliente, debes saber cuantificar tu rendimiento y determinar si has cumplido con el compromiso. Aquí es donde entran en juego los diferentes niveles de servicio, específicamente los SLO.
Es posible que hayas oído hablar antes de los SLO, los SLA y los SLI, pero ¿qué es exactamente un SLO? Descubre qué es un SLO y cómo puede ayudarte a ofrecer el mejor servicio posible a tus clientes.
¿Qué es un SLO?
Un objetivo de nivel de servicio (SLO) es un objetivo interno que estableces para garantizar que los servicios que ofreces cumplan con las expectativas de los clientes. Estas expectativas de los clientes se describen en los acuerdos de nivel de servicio (SLA), que se establecen entre tú y el cliente.
Puede que te preguntes cómo sería un SLO en la práctica. Usemos un servicio de streaming como ejemplo. Si ofreces un servicio de streaming de vídeo a través de tu sitio web, puede que incluyas un tiempo de actividad del 99,9 % en tus SLA. Esto significa que tu servicio de streaming solo puede estar inactivo unos 43,2 minutos al mes.
Los SLO desempeñan un papel fundamental al permitirte establecer metas internas que reflejan tus promesas a los clientes. Si tienes SLO, los equipos se pueden hacer responsables de las incidencias e identificarlas y resolverlas antes de que afecten a la experiencia del cliente.
Componentes de un SLO
Un SLO tiene tres componentes principales: métrica, objetivo y periodo de tiempo. La métrica es un número cuantificable, como el tiempo de actividad o la latencia, mientras que el objetivo es el número específico que intentas alcanzar; por ejemplo, un tiempo de actividad del 99,9 %. El periodo de tiempo indica durante cuánto se mide la métrica, desde un mes hasta un año.
Si tienes un objetivo y una métrica que supervisas durante un periodo específico, puedes medir tu rendimiento de manera concreta. Esto acelera el proceso de respuesta ante incidentes, lo que te permite resolver posibles incidencias de servicio antes de que afecten a los clientes.
Diferencias entre SLO, SLA y SLI
El reto de los SLA
Los SLO, los SLA y los SLI son diferentes, pero están estrechamente relacionados. El proceso comienza con el acuerdo de un SLA entre tú y el cliente. Por ejemplo, puedes comprometerte a responder a las consultas de asistencia del cliente en un plazo de 24 horas.
Para cumplir con este compromiso, definirías un SLO así: "Responder a las consultas de asistencia del cliente en un plazo de 24 horas durante un periodo determinado, como el 90 % del tiempo de un mes".
Tu objetivo es el SLI, que es el tiempo de respuesta de la asistencia al cliente en este ejemplo.
Objetivo de nivel de servicio (SLO)
Un SLO (objetivo de nivel de servicio) define un valor objetivo de una métrica en particular durante un periodo de tiempo determinado. Un ejemplo real de un SLO es un 99,99 % de tiempo de actividad durante 30 días. Como resultado, tendrás que medir el tiempo de inactividad que experimenta tu servicio durante un mes para asegurarte de que sea inferior a 4,32 minutos.
Acuerdo de nivel de servicio (SLA)
Un SLA (acuerdo de nivel de servicio) es un acuerdo entre el proveedor y el cliente que define las métricas cuantificables, como el tiempo de actividad, el tiempo de respuesta y las responsabilidades.
Estos acuerdos suelen ser creados por los equipos legales y de desarrollo empresarial de una empresa y representan compromisos formales con los clientes y cuáles son las consecuencias si no se cumplen esas promesas. Por lo general, entre las consecuencias se incluyen sanciones económicas, créditos de servicio o ampliaciones de las licencias.
Los SLI representan la métrica que esperas alcanzar en tu SLO, que es un objetivo interno que estableces y mides para supervisar tu rendimiento. Tú creas estos SLO para cumplir con los SLA, que son los acuerdos establecidos entre tu servicio y los clientes que lo utilizan.
En Jira Service Management puedes crear acuerdos de nivel de servicio rápidamente, lo que te permite establecer objetivos internos en función de esos acuerdos.
Indicador de nivel de servicio (SLI)
Un SLI (indicador de nivel de servicio) mide el cumplimiento real de un SLO. Si tu SLA garantiza un tiempo de actividad del 99,95 %, es posible que tu SLO refleje el mismo objetivo. Por lo tanto, tu SLI sería la medida real del tiempo de actividad, que podría ser del 99,9 % o el 99,95 %. Para mantener el cumplimiento de tu SLA, el SLI tendrá que cumplir o superar las promesas definidas en ese documento.
Presupuestos de errores
Los presupuestos de errores son fundamentales en los SLO porque no puedes centrarte exclusivamente en garantizar que tu servicio esté siempre disponible. Si bien el tiempo de actividad es esencial, debes disponer de tiempo para innovar y actualizar el producto. Tu presupuesto de errores te indica el margen de error que tienes, lo que te permite saber hasta qué punto puedes experimentar e innovar.
Si tu SLO tiene un tiempo de actividad del 99,99 % durante 30 días, se te permiten aproximadamente 4 minutos de tiempo de inactividad durante esos 30 días. Esto permite a los equipos ágiles innovar sin comprometer los acuerdos de servicio.
¿Cómo funcionan los SLO?
Examinemos un ejemplo sencillo de un SLO para saber mejor cómo funcionan.
Comienza por identificar las métricas clave que deseas supervisar. El tiempo de actividad suele ser una de las métricas más importantes, pero también puedes usar métricas como los tiempos de gestión de incidentes, la corrección y la producción. En este ejemplo, usaremos el tiempo de inactividad como métrica clave.
Si tu SLA incluye una garantía de tiempo de actividad del 99,9 %, tu SLO debería reflejarlo. El objetivo de lograr un tiempo de actividad del 99,9 % en 30 días significa que tienes un límite de 43,2 minutos de tiempo de inactividad en un mes. Puedes usar los servicios de monitorización del tiempo de actividad para supervisar el tiempo de actividad y de inactividad a lo largo del mes.
Al final del mes, puedes determinar si has alcanzado o no tu SLO. Si no alcanzas tu SLO, es fundamental que investigues y corrijas la causa de la incidencia. Tu presupuesto de errores también se verá afectado, aunque el impacto variará según los niveles de gravedad de los incidentes.
¿Por qué son importantes los SLO?
Los SLO son clave para garantizar el mejor servicio a tus clientes. No solo se traducen en una mejor experiencia para el cliente, sino que además mejoran el rendimiento y la colaboración y simplifican la planificación.
Coordina a los equipos en torno a las metas
El trabajo en equipo es esencial para brindar los mejores servicios a tus clientes. Al establecer expectativas claras con los SLO, tus equipos de productos, ingeniería y negocios comparten objetivos en los que se pueden centrar. Tener un punto de referencia común que alcanzar mediante la colaboración mantiene a los equipos unidos, con el fin de lograr un único objetivo: brindar un mejor servicio a los clientes.
Mejora los productos y la experiencia del cliente
Cuando entregas un producto o un servicio, lo que importa es la experiencia del cliente. Las empresas innovadoras usan los SLO para ofrecer mejores productos y servicios a los clientes, ya sea para minimizar el tiempo de inactividad de un servicio de streaming o para mejorar la comunicación de incidentes y los tiempos de respuesta. Los SLO también te ayudan a identificar las incidencias de servicio antes de que afecten a tus clientes, para que puedas solucionarlas cuando sea necesario.
Aumenta la automatización
La automatización es una de las tendencias más importantes en la gestión de servicios de TI (ITSM). Ahorra tiempo y dinero a las empresas y, al mismo tiempo, ofrece una mejor experiencia al cliente. Los SLO admiten las alertas y la monitorización automatizadas, lo que te permite realizar un seguimiento del tiempo de actividad y otras métricas clave en todo momento.
Para competir en el mundo empresarial actual, la automatización es imprescindible. La automatización de las tareas repetitivas reduce la necesidad del trabajo manual, lo que te permite ahorrar tiempo y dinero y minimizar el riesgo de errores humanos.
Reduce el tiempo de inactividad
El tiempo de inactividad no solo perjudica a la empresa, sino que hace que la experiencia del cliente sea negativa y este pueda irse a la competencia. Los SLO te permiten medir la fiabilidad con métricas simples y concretas, para que puedas monitorizar el tiempo de inactividad y solucionar las incidencias que lo provocan. Los presupuestos de errores ayudan a los equipos a equilibrar la innovación y la fiabilidad permitiendo conocer el margen de riesgo.
Prácticas recomendadas de SLO
Si bien los SLO pueden tener ventajas, seguir algunas sencillas prácticas recomendadas puede ayudar a simplificar DevOps y maximizar las ventajas de los SLO. A continuación, compartimos algunos consejos:
- Respalda tu SLA: tu SLO debe respaldar tu SLA, de modo que puedas supervisar y optimizar métricas como el tiempo de inactividad para asegurarte de cumplir el acuerdo de servicio establecido con los clientes.
- Busca la sencillez: puede que definir una lista larga de SLO parezca una buena idea, pero es mejor buscar la sencillez y centrarse en las métricas que importan.
- Adapta: los SLO no son definitivos, así que no dudes en reajustarlos para satisfacer las necesidades cambiantes de los clientes.
Gestiona los SLO con Jira Service Management
Los SLO son un recurso eficaz si sabes cómo usarlos. Al crear SLO que concuerdan con tus SLA, puedes asegurarte de ofrecer el mejor servicio y experiencia a los clientes. Minimizar el tiempo de inactividad y reducir los tiempos de respuesta mejora el servicio general.
Con Jira Service Management, puedes crear SLA y SLO con facilidad para guiar a tus equipos de desarrollo de software y TI. Jira incluso permite a los equipos colaborar en tiempo real, lo que mejora la productividad y la colaboración. Descubre cómo Jira Service Management puede ayudarte a dar tus primeros pasos con los SLO.
Descubre la comunicación de incidentes con Statuspage
En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.
Leer el tutorialLa importancia de un proceso de análisis retrospectivo de los incidentes
El análisis retrospectivo de un incidente, también conocido como "revisión posincidente", es la mejor manera de repasar lo sucedido durante un incidente y plasmar las lecciones aprendidas.
Leer el artículo