lunes, 23 de diciembre de 2013

La dimensión adecuada del Centro de Datos Alterno

En ocasiones nos encontramos en reuniones con equipos responsables de la administración de las contingencias, donde nos hacen la siguiente pregunta: ¿Cuál es la dimensión adecuado del centro alterno de procesamiento de datos?
Basados en las experiencias, debemos decir que es una pregunta bastante común, en virtud que de antemano supone elaborar un presupuesto apreciable para dicho centro, el cual tendrá que ser defendido ante un comité compuesto por la alta gerencia, que no se siempre se sentirá cómodo observando los escenarios y los gastos que habrá que realizar. Y ante esta sensación de rechazo anticipado, los responsables de dimensionar el centro adecuadamente, comienzan a considerar que la adecuada proporción debe ser lo mínimo. 
Esta consideración puede ser el inicio de una serie de errores que conllevará a un final poco afortunado en el diseño de los centros de datos alternos. Esto porque realmente no se debe considerar los mínimo, sino lo básico. Aquello que permita poder restablecer los procesos críticos y fundamentales de una organización. Estos procesos no siempre son los que más dinero le pueden hacer perder más dinero a las organizaciones, también pueden ser aquellos que le pueden afectar severamente la reputación. 
Es por ello que debemos tener en consideración los siguientes aspectos:
  • Identificación de los procesos y activos de negocios que requieren más protección 
  • Determinar los costos que implique perder estos activos o que se genere una interrupción por un tiempo que exceda el tiempo óptimo de recuperación
  • Identificar las estrategias y alternativas de recuperación para los distintos escenarios de recuperación
  • Determinar la ingeniería de detalle para establecer el costo de la infraestructura que habrá de colocarse en el centro alterno
Los tres primeros puntos no representan mayor problema para quienes han tenido experiencia en el desarrollo de los planes de contingencia relacionados a los procesos de negocios y tecnología. El punto crítico es el relacionado con el diseño de la ingeniería de detalle y el gasto que se debe ejecutar para adquirir la infraestructura necesaria que permita hacer factible el proceso de recuperación cubriendo/mitigando la mayor cantidad de escenarios de interrupción.
Cuando se llega a este paso, nos encontramos con un conflicto entre los responsables de dimensionar el centro alterno y el deseo de las unidades del negocios; pues no es simple fijar el punto de equilibrio entre lo requerido por las unidades del negocio; determinado por lo general en los tiempos óptimos de recuperación (RTO) del punto 1; y el gasto que se debe ejecutar para satisfacer dicho RTO.
Las unidades del negocio tienden a ser inflexibles en cuanto a modificar y hacer más amplios sus rto's; sin embargo no se sienten comprometidas con la inversión que hay que hacer para recuperar los procesos en los tiempos exigidos. De igual manera, uno de los errores que se comenten por parte de los diseñadores de la arquitectura del centro alterno, es que no especifican con claridad, el punto de equilibrio entre las pérdidas ocasionadas por la interrupción de las operaciones del negocio y la inversión requerida para satisfacer dicho punto.
Un aspecto adicional que debe ser considerado, es el punto óptimo de recuperación (RPO); el cual permite determinar con detalle la práctica de respaldo y recuperación así como el tiempo de retención aplicado por la organización. Si este es muy bajo, podría requerir mayor inversión en respaldo, almacenamiento, replicación y procesamiento. Es por ello que lo recomendable no es sólo llegar a calcular cuanto se pierde si no sigue operando una empresa por un tiempo determinado. También es muy importante tener el detalle de cuanto cuesta reiniciar los procesos en los tiempos deseados por las unidades de negocios y sus interesados, dado que es ello quien permitiría establecer el margen de tolerancia y límites de riesgos, así como la cantidad de dinero a colocar para satisfacer el nivel básico que debe ofrecer un centro alterno. 

jueves, 19 de diciembre de 2013

La constante minimización de lo que nos puede pasar


El evento
Recientemente ocurrió un incidente en uno de los centros de procesamiento de datos más importantes de nuestro país. Allí se alojan los centros de cómputo principales y de contingencia de muchas empresas, algunos del sector financiero. Esto trajo como consecuencia que en forma inmediata no se procesaran al menos el 30% de las tarjetas de débito a través de los puntos de venta y la red de cajeros automáticos, prácticamente dejara de funcionar; así mismo los servicios de banca en línea de algunas instituciones dejó de funcionar. Era viernes en la tarde. 
El evento le tomo superarlo hasta 72 horas para algunas instituciones; algunas no recuperaron la totalidad de los servicios. Aun están procurando restablecer todos sus procesos para volver al nivel de prestación de servicios que tenían antes del evento. Porqué  un evento de estos genera tal situación, cuando desde hace más de dos años, particularmente para el sector financiero, se viene haciendo fuerte presión para que se establezcan adecuados planes de contingencia que mitiguen los efectos de un evento como el que sucedió.
Qué es lo que hace que se minimice tanto la posibilidad que un evento, que en el caso expuesto alcanzó no llegó ni cerca de ser un incendio severo, generó tanto trauma en los usuarios de los servicios financieros? Qué hace que se minimice tanto el efecto de lo que un simple incidente puede generar? 
Existen, muchos factores, pero siempre debemos tener en cuenta las causas que iniciaron los incidentes fueron las que los agravaron. Revisemos un concepto que se usa mucho recientemente por especialistas en manejo de contingencias para situaciones como el caso expuesto:
La resiliencia
Una condición fabulosa del ser humano, es el estar siempre esperanzado a que todo va a mejorar. Esto es lo que ha hecho que podamos sobrevivir, aunque la adversidad nos abrume, nos permite recuperarnos e ir adaptándonos a diversas realidades y entornos con el fin de superar barreras, que permitan suplir las condiciones para mantenerse y en ocasiones mejorar. Dicha condición puede ser identificada en el concepto de resiliencia, el cual hemos encontrado muy frecuentemente en documentación y bibliografía relacionada con la recuperación de desastres en la organización.
De acuerdo a los psicólogos, la resiliencia es la capacidad para afrontar la adversidad y lograr adaptarse bien ante escenarios trágicos, traumáticos o a entornos amenazantes. Las personas que son resilientes poseen unas características que son destacables, tales como: 
    Aceptan la realidad tal y como es 
    Tienen una profunda fe en la vida (esperanza)
    Tienen un impresionante voluntad y capacidad de mejorar
Adicionalmente se debe argumentar que los especialistas coinciden en que la resiliencia no es algo que una persona posea o no, sino que lleva implícito una serie de conductas y formas de pensar que cualquier persona puede aprender y desarrollar; por tanto, pudiese considerarse que efectivamente esta conducta se puede trasladar a las organizaciones y en consecuencia, hacerlas resilientes.
La resiliencia organizacional
Se presenta en la condición que tiene la empresa de realizar ajustes positivos en condiciones de fuerte exigencia y estrés. La resiliencia puede hacer que la organización se recupere de las dificultades, manejarse elásticamente ante presiones del entorno y preservar o mejorar su operación. La condición de resiliencia, no siempre debe ser vista como una condición exclusiva de recuperación de eventos calamitosos; alternativamente, esta provee la capacidad de identificar oportunidades y sacarles provecho.
Ahora bien, si nos enfocamos sólo en las prácticas de contingencia de las organizaciones; y sabemos que estos conceptos se están aplicando en forma práctica en las empresas ¿Porqué cuesta tanto, desarrollar planes de contingencia que permitan realmente soportar eventos de interrupción, fallas tecnológicas o pérdidas de colaboradores clave, cada uno de ellos impactando negativamente los procesos críticos y la continuidad normal de las operaciones? Argumentando que han dirigido todos los esfuerzos para lograr desarrollar planes  apropiados para el manejo de contingencia; y aun más, considerando que han desarrollado cierto nivel de resiliencia. Para argumentar una respuesta, tomemos en cuenta algunas condiciones.
El ambiente para desarrollar resiliencia
Existen condiciones específicas para que la resiliencia sea realmente una condición implícita en la organización. Ésta es el resultado de promover y mantener ciertas prácticas, no se trata de un conjunto de soluciones que se adquiere cuando la adversidad se presenta, sino de una serie de capacidades y fortalezas que tienen que ser desarrolladas (Bravo. 2013). Las dinámicas para crear resiliencia en equipos son similares a las del individuo. Los equipos de trabajo dirigidos al aprendizaje y a mejorar las competencias generan mejor respuesta ante los escenarios que se materialicen. (Sutclife y Vogus, 2013). Por tanto las organizaciones que pueden ir transformándose en resilientes, son aquellas que permiten la integración de ideas y participación de grupos para la formación de estrategias.
Aquellas organizaciones que no promueven ambientes coercitivos, sino que por el contrario, considera las ideas de cada uno de los individuos, establecerá una condición permanente de mantenerse en contacto con la realidad, dimensionando adecuadamente las dificultades o mensajes del entorno en lugar de paralizarse y actuar caóticamente. Ante dificultades, cambios en el entorno u oportunidades, las personas y organizaciones resilientes son capaces de reorganizarse y adaptarse para producir respuestas, con una agilidad que hace pensar que “improvisan” soluciones del aire (op. cit. Bravo, 2013).
La pista que esperamos
Dado que las organizaciones donde se favorece la resiliencia son aquellas que le dan suma importancia a la participación de todos los colaboradores, es importante pensar si esa condición se mantiene al momento de presentar los escenarios previstos por los especialistas en gestión de riesgos y preparación de planes de contingencia. Si los ejecutivos a la hora de evaluar no consideran que esos escenarios sean exagerados y en consecuencia coarten la dimensión del evento y en consecuencia las estrategias de recuperación.
Es importante saber que no se debe confundir la esperanza de que todo va a estar bien, con el hecho de minimizar o tercer la realidad para que podamos sentirnos bien. Nos es válido decir que somos una organización resiliente y se limita y minimiza el efecto de los que nos pudiera pasar. Ciertamente es reconfortante pensar que todo va a marchar bien ante un evento inesperado, pero precisamente, los planes de contingencia están se hacen para eso, para enfrentar lo inesperado, posiblemente en magnitudes que nunca esperemos que nos ocurra. Es por ello que debemos luchar constantemente contra la condición de minimizar lo que nos pueda pasar.
Fuente:
Vogus, Timothy; Sutcliffe Kethleen. Organizational Resilience: Towards a Theory and Research Agenda. 2003
Bravo Olga. La Resiliencia Organizacional. 2013

martes, 29 de octubre de 2013

Clasificación de Activos de Información en la Práctica de Gestión de Riesgos Tecnológicos


Una práctica que es posible esté siendo constantemente subestimada, es la clasificación de los activos de información. La razón para que argumentemos esto, es debido a que en el momento de revisar los planes de las áreas de riesgo tecnológico, seguridad de información e inclusive aquellas a cargo de la tecnología en la organización, nos encontramos con poca evidencia que determine o identifique que se haya realizado una adecuada clasificación de la información. En la mayoría de las ocasiones, se evidencian inventarios que son utilizados para llevar un registro de los equipos o aplicaciones que hacen cuenta de lo que se tiene y para que se tiene, sin mayor apoyo a otras actividades.
La clasificación de los activos de información tiene una gran importancia, en vista que puede retroalimentar otros elementos de gestión de la tecnología, seguridad y riesgos. Por lo general, y en modo general tiene dos objetivos fundamentales: el primero es brindar la adecuada administración a los recursos que la organización dispone; y el segundo objetivo es protegerlos apropiadamente de las amenazas a las cuales se exponen. Con lo cual, permite desarrollar un apropiada administración de riesgos sobre los mismos, obteniendo como resultado de todos estos esfuerzos un aprovechamiento de los activos, mitigando riesgos y generando valor a la organización.
La práctica en sí, permite clasificar los activos de información basado en su nivel de exposición, así como la importancia relativa que éste representa en los procesos del negocio. En consecuencia, si estos procesos son críticos, es muy posible que los activos que subyacen en dicho proceso serán críticos y requerirán de una adecuada protección de acuerdo al nivel de sensibilidad observado.
Como puede observarse, la gestión de activos de información, es un marco de gestión que pudiera ser independiente, pero que bajo esa perspectiva sería perfectamente inútil. Lo apropiado es derivar (retroalimentar) a otras prácticas en la organización que conllevan a fortalecer el ambiente de control, tales como los planes específicos para mitigar eventos o incidentes que atenten contra la condición ideal del negocio, que es estar operativo constantemente.
Pocas veces se encuentran planes de tecnología u organizacionales donde un insumo para el desarrollo de dichos planes sea el producto de la clasificación de los activos de información. Por lo general, un plan de seguridad o de continuidad del negocio se inicia con un análisis de riesgos sin retroalimentarse de la clasificación de los activos de información, esto porque no se ha hecho o simplemente porque se subestima el valor que esta gestión representa para el resto de las prácticas de control.
Llevar a cabo una gestión de clasificación de los activos de información en una organización es simple. Su método poco varía y se soporta en modelos tradicionales de evaluación de riesgos; el cual permite identificar los activos, describirlos y catalogarlos. Si tuviésemos que enumerar los pasos, los mismos serían los siguientes:
a) Identificar activos que posean atributos comunes, tales como almacenamiento, procesadores, aplicaciones, documentos digitales, bases de datos, documentos en físico e inclusive áreas. El objetivo es identificar el grado de confidencialidad, integridad y disponibilidad. Nosotros le agregamos un elemento diferenciador ajeno a la tríada de seguridad de información que está referida al "uso". El uso intensivo del activo puede influir en los aspectos de control.
b) Se realiza la evaluación para identificar los riesgos inherentes a los que está expuesto el activo, visualizando el contexto donde el mismo opera. Es decir, dentro del proceso del negocio. Todo ello bajo las prácticas conocidas para la determinación de su impacto y probabilidad de ocurrencia. 
c) Se identifican los controles, su eficiencia y operación a efectos de determinar el riesgo residual
d) Por último, se da la clasificación del activo y se deriva a la práctica que aconseje su grado de clasificación.
Este último paso es el fundamental, pues por lo general, esta recomendación puede ir dirigida a distintas áreas especializadas en la organización. Por ejemplo si el activo requiere de mayor protección, pues su integridad así lo requiere, es posible que pase al área de seguridad de información y los responsables de administrar la arquitectura de tecnología, para que apliquen las políticas establecidas para la protección de la data a través de criptografía por hardware. También puede suceder que existen áreas que manejan información en físico que no les están dando la debida protección y custodia, y el área de infraestructura física de la organización deberá adecuar el ambiente físico para proteger dicho activo de humedad, polvo, monitoreo y acceso.
En conclusión, la práctica de clasificación de activos de información es primordial para llevar adelante muchas de las actividades que conforman el ambiente de control de tecnología en la organización. Muchos procesos pueden alimentarse de los productos que son derivados de dicha práctica; y el beneficio obtenido es representativo cuando se identifica que con un control pueden estar mitigando muchas de las brechas que pueden presentarse en los activos en su uso a través de los procesos críticos del negocio; así como el beneficio del reproceso y la maximización de los recursos en la ejecución de proyectos tan importantes como la gestión de riesgo operativo o la creación y administración de los planes de continuidad del negocio, los cuales son proyectos que dan un excelente uso a la información que le provee la “clasificación de los activos de información”.
NOTA: El marco para la evaluación de riesgos que se utiliza habitualmente es adoptado de la ISO 31000:2009, Risk management – Principles and guidelines, de la International Organization for Standardization (ISO) tiene como objetivo ayudar a las organizaciones de todo tipo y tamaño a gestionar el riesgo con efectividad.


viernes, 27 de septiembre de 2013

Para qué sirve el Análisis de Impacto al Negocio en el Desarrollo de la Gestión de Continuidad (*)

Hablando en términos de la continuidad del negocio, ha sido muy común que ocurra que cuando se están preparando las estrategias de recuperación de los procesos críticos de una organización, los criterios que se utilizan para considerar los servicios y recursos que se incorporaran, no parecen provenir de una evaluación formal que se haya derivado del análisis de impacto al negocio. Determinar sobre que información se están basando y a que obedece esta situación no es simple; pero sin duda no está provista por el análisis de impacto al negocio.

El análisis de impacto al negocio genera dos productos de información considerablemente valiosos. Uno de ellos es el orden de prioridad, en el que podría estarse considerando la secuencia de recuperación de los procesos, una vez decretada la contingencia, por los efectos ocasionados por un incidente que interrumpa abruptamente las operaciones; y el otro es la aproximación al cálculo de las pérdidas monetarias por dicha interrupción. Es importante aclarar que con base a la pérdida monetaria se puede establecer también la prioridad, pero no siempre es una regla, dado que existen factores de impacto que no están fácilmente reflejado en pérdidas monetarias (imagen, oportunidad de la ventana de tiempo en la que se realiza la operación), más aun si el mismo puede estar soportada en complejas plataformas de tecnológicas que satisfacen a un sector pequeño pero muy importante para el modelo de negocios. 

Comentado en forma general lo que genera un análisis de impacto al negocio, entonces vale preguntar: 
¿para qué sirve?

Como bien argumentamos, se genera la prioridad en que se debe considerar la recuperación de los procesos de la organización. Estos forman parte de la cadena de valor del negocio y por lo general se soportan en múltiples recursos, los cuales deben ser identificados para que sean incorporados en la estrategia que se defina para su recuperación. Entre estos están las personas clave, equipos informáticos, registros vitales, activos críticos, proveedores, entre otros.

En cuanto a la pérdida estimada por concepto de interrupción operativa, siempre nos encontramos con situaciones más complejas, pues cada organización pudiera tener criterios de cálculo propios con niveles de especialización elevados que pueden no necesariamente hacen práctico el proceso de unificación de criterios.  Por ejemplo, para los especialistas de riesgo operacional nunca el monto de la pérdida estará en concordancia con el área de finanzas; y por supuesto jamás entrará en sintonía con el cálculo que estaría realizando el área de continuidad del negocio dado que podría decirse que es la formula más sencilla que hay, la cual se basa en la expectativa de pérdida anualizada. Sin embargo, consideramos que la pérdida estimada en la mayoría de las organizaciones seguirá siendo un tema de amplio debate en el cual, sólo en forma interna se logrará un acuerdo en el cual se armonice un "número" de la pérdida esperada.
 En el concepto de riesgo, se busca obtener el valor en exposición a un punto en el tiempo (un día, un mes, un hora) para los efectos de valorar posibles mitigaciones y provisiones, el análisis desde el punto de vista de continuidad, conlleva a calcular una tendencia de acumulación por la extensión de la venta de tiempo que sea se establezca pueda ser declarada la contingencia, esto para determinar en qué punto esta tendencia supera el límite aceptable de pérdidas para la dirección de la organización y para ello tener un tiempo objetivo de retoma basado en valores monetarios. Por otra parte, estos cálculos en conjunto con la evaluación de posibles escenarios de afectación, permite servir como base para realizar análisis costo/beneficio de esfuerzos sobre posibles estrategias contingentes que puedan reducir ese posible impacto acumulado.

Lograda esta información, lo que sigue es desarrollar las estrategias de recuperación para escenarios que pudieran haber sido considerados con base al entorno de la organización. En esta etapa es donde los procesos de generación de los planes de continuidad del negocio pueden hacerse realmente complejos.

Debe tenerse claro que un plan de continuidad del negocio se ensamblará con base a las piezas que se vayan construyendo; por tanto con sólo desarrollar el análisis de impacto al negocio no se podrá desarrollar las estrategias de recuperación, dado que es necesario tener los escenarios de interrupción, que a su vez vienen derivados de un análisis de riesgos a la que se expone la organización. Dichos escenarios deben estar claramente definidos pues revelaran la criticidad de las situaciones supuestas en un momento dado; y aunado a los tiempos óptimos de recuperación, estimados en el análisis de impacto al negocio, se desarrollarán las estrategias de recuperación. Por ejemplo:
"Ante un desastre natural severo en el que se afecte el centro de procesamiento de datos principal, para una empresa que tiene procesos que exigen tiempos de recuperación óptimos entre 0 y 2 horas, la estrategia será tener un centro de procesamiento de datos espejo que permita la retoma inmediata de tales procesos."
Entonces pudiéramos resumir que un análisis de impacto al negocio sirve para construir las estrategias de recuperación, siempre y cuando se encuentre acompañado de los escenarios de interrupción, dado que con toda esta información, se podría ser muy preciso al momento de desarrollar los diseños detallados de los recursos e infraestructura que se colocaría en los centros alternos de procesamiento de datos y de operaciones.

Es por ello que los métodos para desarrollar la gestión de la continuidad se hace énfasis en la apropiada ejecución del análisis de riesgos, así como del análisis de impacto al negocio; pues ellos se complementan y son insumos requeridos para el desarrollo de las estrategias las que permitirán efectivamente permitir llevar a cabo la recuperación en los tiempos considerados. El no desarrollarlos apropiadamente y no usarlos con el objetivo por el cual deben ejecutados, es lo que en ocasiones hace complejo obtener estrategias de recuperación apropiadas.

(*) Este escrito fue desarrollado con apoyo de José Manuel Groba, quien es especialista en desarrollo de planes de continuidad del negocio.

La nueva normalidad era un juego de niños

Foto: StellaDi Pixabay Creo que "la nueva normalidad" era cosa de 90 días. Eso ya no existe. Pienso que lo cierto es una nueva rea...