2.2 Diseño de los servicios (2/2) Flashcards
¿Cuál es el objetivo de la Gestión de la Disponibilidad?
El objetivo primordial de la Gestión de la Disponibilidad es asegurar que los servicios TI estén disponibles y funcionen correctamente siempre que los clientes y usuarios deseen hacer uso de ellos en el marco de los SLAs en vigor.
¿Cuáles son las responsabilidades de la Gestión de la Disponibilidad?
+ Determinar los requisitos de disponibilidad en estrecha colaboración con los clientes.
+ Garantizar el nivel de disponibilidad establecido para los servicios TI.
+ Monitorizar la disponibilidad de los sistemas TI.
+ Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de disponibilidad.
+ Supervisar el cumplimiento de los OLAs y UCs acordados con proveedores internos y externos.
¿Qué es la Disponibilidad?
Porcentaje de tiempo sobre el total acordado en que los servicios TI han sido accesibles al usuario y han funcionado correctamente.
¿Qué es la Fiabilidad?
Es la medida del tiempo durante el cual los servicios han funcionado correctamente de forma ininterrumpida.
¿Qué es la Capacidad de mantenimiento?
Es la capacidad de recuperar el servicio en caso de interrupción.
¿Qué es la Capacidad de Servicio?
Determina la disponibilidad de los servicios internos y externos contratados y su adecuación a los OLAs y UCs en vigor. Cuando un servicio TI es subcontratado en su totalidad la disponibilidad y la capacidad de servicio son términos equivalentes.
¿Cuáles son los principales beneficios de una correcta Gestión de la Disponibilidad?
+ Cumplimiento de los niveles de disponibilidad acordados.
+ Se reducen los costes asociados a un alto nivel de disponibilidad.
+ El cliente percibe una mayor calidad de servicio.
+ Se aumentan progresivamente los niveles de disponibilidad.
+ Se reduce el número de incidentes.
¿Cuáles son las principales dificultades con las que topa la Gestión de la Disponibilidad?
+ No se monitoriza correctamente la disponibilidad real del servicio.
+ No existe compromiso con el proceso dentro de la organización TI.
+ No se dispone de las herramientas de software y personal adecuado.
+ Los objetivos de disponibilidad no están alineados con las necesidades del cliente.
+ Falta de coordinación con los otros procesos.
+ Los proveedores internos y externos no reconocen la autoridad del Gestor de la Disponibilidad por falta de apoyo de la dirección.
¿Cuáles son las actividades de la Gestión de la Disponibilidad?
+ Determinar cuáles son los requisitos de disponibilidad reales del negocio.
+ Desarrollar un plan de disponibilidad donde se estimen las futuras a corto y medio plazo.
+ Mantenimiento del servicio en operación y recuperación del mismo en caso de fallo.
- Realizar diagnósticos periódicos sobre la disponibilidad de los sistemas y servicios.
- Evaluar la capacidad de servicio de los proveedores internos y externos.
+ Monitorizar la disponibilidad de los servicios TI.
- Elaborar informes de seguimiento con la información recopilada sobre disponibilidad, fiabilidad, capacidad de mantenimiento y cumplimiento de OLAs y UCs.
- Evaluar el impacto de las políticas de seguridad en la disponibilidad.
Asesorar a la Gestión de Cambios sobre el posible impacto de un cambio en la disponibilidad.
¿Cuáles son los Requisitos de la Disponibilidad?
Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboración de los SLAs.
La disponibilidad propuesta debe encontrase en línea tanto con las necesidades reales del negocio como con las posibilidades de la organización TI.
Aunque en principio todos los clientes estarán de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quizá unas pocas horas sin un determinado servicio pueden representar poco más allá de una pequeña inconveniencia mientras que la certeza de un servicio prácticamente continuo y sin interrupciones puede requerir la replicación de sistemas u otras medidas igualmente costosas que no van a tener una repercusión real en la rentabilidad del negocio.
Para llevar a cabo eficientemente esta tarea es necesario que la Gestión de la Disponibilidad:
+ Identifique las actividades clave del negocio.
+ Cuantifique los intervalos razonables de interrupción de los diferentes servicios dependiendo de sus respectivos impactos.
+ Establezca los protocolos de mantenimiento y revisión de los servicios TI.
+ Determine las franjas horarias de disponibilidad de los servicios TI (24/7, 12/5, …).
¿Qué es la Planificación de la Disponibilidad?
La correcta planificación de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organización TI.
El documento que debe recoger los objetivos de disponibilidad presentes y futuros y qué medidas son necesarias para su cumplimiento es el Plan de Disponibilidad.
Este plan debe recoger:
+ La situación actual de disponibilidad de los servicios TI. Obviamente esta información debe ser actualizada periódicamente.
+ Herramientas para la monitorización de la disponibilidad.
+ Métodos y técnicas de análisis a utilizar.
+ Definiciones relevantes y precisas de las métricas a utilizar.
+ Planes de mejora de la disponibilidad.
+ Expectativas futuras de disponibilidad.
Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estándares previstos y colabore con la Gestión de Cambios y la Gestión de Entregas y Despliegues en su implementación (en caso de ser aprobados, claro está).
Para que este plan sea realista, debe contar con la colaboración de los otros procesos TI involucrados.
¿Qué aspectos hay que tener en cuenta a la hora del Mantenimiento y Seguridad de la Disponibilidad de los Servicios IT?
Aunque hayamos realizado un correcto diseño de los servicios según el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio.
En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados.
Aunque la responsabilidad de restaurar el servicio corresponde a la Gestión de Incidencias y las actividades de recuperación han de ser coordinadas por el Centro de Servicios, la Gestión de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperación que tengan en cuenta:
+ Las necesidades de disponibilidad del negocio.
+ Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.
¿Qué es la Gestión de las Interrupciones de Mantenimiento a la hora de la Gestión de la Disponibilidad?
Independientemente de las interrupciones del servicio causadas por incidencias, es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualización.
Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto.
En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradación o interrupción del servicio.
Si el servicio es 24/7 y la interrupción es necesaria se debe:
+ Consultar con el cliente acerca de la franja horaria en la que la interrupción del servicio afectará menos a sus actividades de negocio.
+ Informar con antelación suficiente a todos los agentes implicados.
+ Incorporar dicha información a los SLAs.
¿Qué hay que tener en cuenta a la hora de Gestionar la Seguridad de la Disponibilidad de los Servicios IT?
Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestión de la Seguridad.
Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso.
Es tan importante determinar cuándo el servicio estará disponible como el “quién y cómo” va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectará gravemente a la otra.
¿Cuáles son las distintas fases las que pasa un incidente desde el momento de la interrupción del servicio hasta su restitución o “tiempo de parada”?
- Tiempo de detección: es el tiempo que transcurre desde que ocurre el fallo hasta que la organización TI tiene constancia del mismo.
- Tiempo de respuesta: es el tiempo que transcurre desde la detección del problema hasta que se realiza un registro y diagnóstico del incidente.
- Tiempo de reparación/recuperación: periodo de tiempo utilizado para reparar el fallo o encontrar un workaround o solución temporal al mismo y devolver el sistema a la situación anterior a la interrupción del servicio.
¿Qué es la Gestión de la Disponibilidad?
Nuestras vidas, tanto personales como profesionales, dependen cada vez más de la tecnología. Ésta nos permite acceder a la información y a los servicios a una velocidad que ni siquiera podríamos haber soñado hace unos pocos años.
Nuestro ritmo de vida se acelera y exigimos como clientes una disponibilidad absoluta de nuestros proveedores tecnológicos. Con frecuencia una oferta diferente sólo se encuentra a un par de clics de distancia.
Por otro lado, el rápido desarrollo tecnológico implica una constante renovación de equipos y servicios. Como proveedores de servicios TI nos enfrentamos al reto de evolucionar sin apenas margen para el error pues nuestros sistemas han de encontrarse a disposición del cliente prácticamente 24/7.
La Gestión de la Disponibilidad es responsable de optimizar y monitorizar los servicios TI para que estos funcionen ininterrumpidamente y de manera fiable, cumpliendo los SLAs y todo ello a un coste razonable. La satisfacción del cliente y la rentabilidad de los servicios TI dependen en gran medida de su éxito.
¿Qué parámetros se suelen utilizar en la gestión de la Disponibilidad?
+ Tiempo Medio de Parada (Downtime o (MTTR): que es el tiempo promedio de duración de una interrupción del servicio, e incluye el tiempo de detección, respuesta y resolución.
+ Tiempo Medio entre Fallos (Uptime o MTBF): es el tiempo medio durante el cual el servicio está disponible sin interrupciones.
+ Tiempo Medio entre Incidencias (MTBSI): es el tiempo medio transcurrido entre incidentes, que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.
¿Cuál es la fórmula de la Disponibilidad?
%Disponibilidad = (AST-DT)/AST*100
- AST se corresponde con el tiempo acordado de servicio.
- DT es el tiempo de interrupción del servicio durante las franjas horarias de disponibilidad acordadas.
¿Qué métodos y técnicas tiene a su disposición la Gestión de la Disponibilidad que le permiten determinar qué factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever qué tipo de recursos se deben asignar para las labores de prevención, mantenimiento y recuperación, así como elaborar planes de mejora a partir de dichos análisis?
- Análisis del Impacto de Fallo de Componentes (CFIA): El CFIA (siglas de Component Failure Impact Analysis) es un método mediante el cual se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuración involucrado. Es evidente que este método requiere una CMDB correctamente actualizada.
- Análisis del Árbol de Fallos (FTA): El FTA (siglas de Failure Tree Analysis) tiene como objetivo estudiar cómo se “propagan” los fallos a través de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio.
- Método de Gestión y Análisis de Riesgos de la CCTA (CRAMM): El CRAMM (siglas de CCTA Risk Analysis and Management Method) tiene como objetivo identificar los riesgos y vulnerabilidades a los que está expuesta la infraestructura TI, con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rápidamente el servicio en caso de interrupción del mismo.
- Análisis de Interrupción del Servicio (SOA): El SOA (siglas de Service Outage Analysis) es una técnica cuyo objetivo consiste en analizar las causas de los fallos detectados y proponer soluciones a los mismos. Se diferencia de los anteriores métodos en que realiza el análisis desde el punto de vista del cliente, haciendo especial énfasis en aspectos no exclusivamente técnicos ligados directamente a la infraestructura TI.
¿Qué información debe incluir los informes de Control de la Gestión de la Disponibilidad?
+ Técnicas y métodos utilizados para la prevención y el análisis de fallos.
+ Información estadística sobre:
- Tiempos de detección y respuesta a los fallos.
- Tiempos de reparación y recuperación del servicio.
- Tiempo medio de servicio entre fallos.
+ Disponibilidad real de los diferentes servicios.
+ Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio.
+ Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.
¿Qué aspectos debe tener en cuenta la Gestión de la Continuidad del Servicio?
La Gestión de la Continuidad del Servicio se preocupa de impedir que una imprevista y grave interrupción de los servicios TI, debido a desastres naturales u otras fuerzas de causa mayor, tenga consecuencias catastróficas para el negocio.
La estrategia de la Gestión de la Continuidad del Servicio (ITSCM) debe combinar equilibradamente procedimientos:
+ Proactivos: que buscan impedir o minimizar las consecuencias de una grave interrupción del servicio.
+ Reactivos: cuyo propósito es reanudar el servicio tan pronto como sea posible (y recomendable) tras el desastre.
La ITSCM requiere una implicación especial de los agentes involucrados pues sus beneficios sólo se perciben a largo plazo, es costosa y carece de rentabilidad directa. Implementar la ITSCM es como contratar un seguro médico: cuesta dinero, parece inútil mientras uno está sano y desearíamos nunca tener que utilizarlo, pero tarde o temprano nos alegramos de haber sido previsores.
¿Cuáles son los principales objetivos de la Gestión de la Continuidad de los Servicios (ITSCM)?
+ Garantizar la pronta recuperación de los servicios (críticos) TI tras un desastre.
+ Establecer políticas y procedimientos que eviten, en la medida de lo posible, las perniciosas consecuencias de un desastre o causa de fuerza mayor.
Aunque, a priori, las políticas proactivas que prevean y limiten los efectos de un desastre sobre los servicios TI son preferibles a las exclusivamente reactivas, es importante valorar los costes relativos y la incidencia real en la continuidad del negocio para decantarse por una de ellas o por una sabia combinación de ambas.
Una correcta ITSCM debe formar parte integrante de la Gestión de Continuidad del Negocio (BCM) y debe estar a su servicio. Los servicios TI no son sino una parte, aunque a menudo muy importante, del negocio en su conjunto y no tiene mayor sentido que, por ejemplo, un sistema de pedidos online siga funcionando a la perfección tras un desastre si nos resulta imposible suministrar la mercancía a nuestros clientes.
¿Cuáles son los principales beneficios de una correcta Gestión de la Continuidad del Servicio?
+ Se gestionan adecuadamente los riesgos.
+ Se reduce el periodo de interrupción del servicio por causas de fuerza mayor.
+ Se mejora la confianza en la calidad del servicio entre clientes y usuarios.
+ Sirve de apoyo al proceso de Gestión de la Continuidad del Negocio (BCM).
¿Cuáles son las principales dificultades a la hora de implementar la Gestión de la Continuidad del Servicio?
+ Puede haber resistencia a realizar inversiones cuya rentabilidad no es inmediata.
+ No se presupuestan correctamente los costes asociados.
+ No se asignan los recursos suficientes.
+ No existe el compromiso suficiente con el proceso dentro de la organización y las tareas y actividades correspondientes se demoran perpetuamente para hacer frente a “actividades más urgentes”.
+ No se realiza un correcto análisis de riesgos y se obvian amenazas y vulnerabilidades reales.
+ El personal no esta familiarizado con las acciones y procedimientos a tomar en caso de interrupción grave de los servicios.
+ Falta de coordinación con la BCM.
¿Cuáles son las principales actividades de la Gestión de la Continuidad de los Servicios TI?
- Establecer las políticas y alcance de la ITSCM.
- Evaluar el impacto en el negocio de una interrupción de los servicios TI.
- Analizar y prever los riesgos a los que esta expuesto la infraestructura TI.
- Establecer las estrategias de continuidad del servicio TI.
- Adoptar medidas proactivas de prevención del riesgo.
- Desarrollar los planes de contingencia.
- Poner a prueba dichos planes.
- Formar al personal sobre los procedimientos necesarios para la pronta recuperación del servicio.
- Revisar periódicamente los planes para adaptarlos a las necesidades reales del negocio.
¿Qué hay que tener en cuenta a la hora de establecer la política y alcance de la Gestión de la Continuidad del Servicio?
La gestión de la empresa debe demostrar su implicación con el proceso desde un primer momento pues la implantación de la ITSCM puede resultar compleja y costosa sin la contrapartida de un retorno obvio a la inversión.
Es imprescindible establecer el alcance de la ITSCM en función de:
+ Los planes generales de Continuidad del Negocio.
+ Los servicios TI estratégicos.
+ Los estándares de calidad adoptados.
+ El histórico de interrupciones graves de los servicios TI.
+ Las expectativas de negocio.
+ La disponibilidad de recursos.
La Gestión de la Continuidad del Servicio está abocada al fracaso sino se destina una cantidad de recursos suficientes, tanto en el plano humano como de equipamiento (software y hardware). Su dimensión depende de su alcance y sería absurdo y contraproducente instaurar una política demasiado ambiciosa que no dispusiera de los recursos correspondientes.
Una importante parte del esfuerzo debe destinarse a la formación del personal. Éste debe interiorizar su papel en momentos de crisis y conocer perfectamente las tareas que se espera desempeñe: una emergencia no es el mejor momento para estudiar documentación y manuales.