Recibe alertas instantáneas si tu sitio web cae
SMS Llamada Correo
Empezar a monitorizar

Fallo del servidor - Prevención y medidas inmediatas

Autor: Redacción HOSTTEST   | 12 jul 2019

eigener-server.jpgUna caída del servidor en un sitio web privado es, ante todo, molesta; en una empresa, sin embargo, las consecuencias pueden rápidamente traducirse en un alto perjuicio económico y en la pérdida de reputación y confianza por parte de los clientes. Por este motivo es imprescindible supervisar la disponibilidad permanente mediante una monitorización del servidor y, en caso de incidencia, poner en marcha contramedidas de inmediato. De lo contrario, es posible que, en circunstancias desfavorables, se pierda tiempo valioso entre la caída del servidor y la primera reacción, y que de un incidente limitado se deriven consecuencias importantes. Una intervención rápida minimiza, en muchos casos, tanto la duración como el alcance del impacto y permite redirigir con rapidez la presencia en Internet a una instancia de emergencia temporal en caso de caída del servidor.

 

A partir de cierto tamaño operativo, un plan de seguridad integral es obligatorio para, en la medida de lo posible, evitar riesgos para servidores —como, por ejemplo, una caída del servidor— y, si procede, limitar sus efectos, así como coordinar las contramedidas. Dada la multitud de causas posibles, este plan incluye, además de un plan para la gestión de crisis agudas, siempre que sea posible, una estructura IT alternativa como respaldo. Esto permite una respuesta universal ante causas externas como un ataque DDoS, fallos de hardware o del suministro eléctrico y casos de fuerza mayor, así como ante factores internos, por ejemplo errores en la configuración y la programación o mantenimiento insuficiente.

Índice:

Causas de una caída del servidor
Minimización del riesgo

Costes por una caída del servidor
Contramedidas en varios niveles
Responsabilidad y reclamaciones por daños
Primeras contramedidas ante una caída del servidor aguda

Causas de una caída del servidor

Que, pese a diversas medidas de seguridad, una caída de servidor sea más la regla que la excepción lo demuestra un estudio encargado en 2013 por HP Alemania sobre su frecuencia y consecuencias. Para ello, la empresa encuestó a unas 300 compañías medianas con entre 200 y 4.999 empleados sobre la frecuencia y las causas de una caída de servidor. Más de tres cuartos de todos los participantes indicaron que en los últimos 12 meses se había producido al menos una caída en áreas críticas del sistema. Entre los posibles desencadenantes se encuentran, entre otros:

  • Ataques como un ataque DDoS
  • Fallo de hardware, incluidas la CPU, los discos duros o las tarjetas de expansión
  • Errores en el software
  • Problemas en la red por routers, switches, servidores de seguridad o el cableado
  • Error humano
  • Cibercriminalidad o ciberespionaje dirigido, como spear phishing, ingeniería social o robo de datos mediante ataques Man-in-the-Middle
  • Infiltración de áreas críticas mediante virus, gusanos, ransomware o troyanos
  • Accidentes como incendios
  • Fallo de proveedores externos - por ejemplo, cortes de electricidad
  • Sabotaje interno o externo mediante la manipulación de sistemas SCADA
  • Explotación de vulnerabilidades para penetrar en la red
  • Problemas en el sistema operativo (pantalla azul de Windows, kernel panic de Linux)

El simple número de empresas afectadas demuestra que una seguridad total, incluso en entornos aislados, es difícil de alcanzar. Incluso el aislamiento completo de los sistemas críticos no elimina el riesgo de que numerosos factores externos —incluidos accidentes, falta de suministro energético o una avería espontánea de hardware— impidan garantizar un tiempo de actividad y una disponibilidad continuos 24/7/365.

Minimización de riesgos

Muchas de las posibles situaciones se pueden evitar por completo o, como mínimo, reducir su probabilidad a un nivel muy bajo mediante las medidas de seguridad correspondientes. No obstante, en este contexto siempre debe tenerse en cuenta el factor coste-beneficio y la relación entre el esfuerzo y los posibles efectos. Además, aspectos jurídicos y psicológicos desempeñan un papel importante: la vigilancia total de un empleado es tecnológicamente factible, pero raramente garantiza el éxito y solo es admisible y sensata en caso de sospecha justificada y urgente. Por una parte, la legislación y la protección de datos la limitan necesariamente; por otra, factores fundamentales como la confianza, la cooperación interna, el clima laboral y la creatividad se ven afectados, de modo que la productividad y la disposición a innovar sufren considerablemente con estas medidas.

Costes por la caída de un servidor

En cualquier sector y tipo de servidor un fallo del servidor provoca de inmediato una elevada carga financiera, que por una parte se debe a la interrupción del funcionamiento y por otra a las medidas para regular la situación y subsanar las consecuencias. Una copia de seguridad en tiempo real puede realizarse como copia de seguridad secundaria con un esfuerzo comparativamente reducido y registrar sin pérdidas los procesos en curso y la información entrante, por ejemplo en un sistema de tienda. No obstante, solo garantiza la integridad de los datos en caso de una caída del servidor; no evita los gastos de personal, la restauración del sistema primario ni el análisis de las causas. Según el tamaño de la empresa, estos costes aumentan de forma desproporcionada si no se adoptan sin demora contramedidas que permitan mantener la productividad. De media, en el estudio realizado por HP Alemania los costes se situaron en 25.000 euros por hora de caída del servidor y ascendieron a 40.000 euros o más en empresas medianas con más de 1.000 empleados.

Un fallo de servidor necesitó estadísticamente aproximadamente 3,8 horas para su reparación: las consecuencias son por tanto un daño de entre aproximadamente 90.000 euros y 150.000 euros por incidente y, con un tiempo medio de inactividad de 12 a 16 horas, se acumulan hasta un valor de 380.000 euros al año. Especialmente afectadas están la industria manufacturera y las estructuras interconectadas de una fábrica inteligente, ya que en estos entornos el sistema de producción Just-in-Time puede provocar que toda la cadena de procesos deje de funcionar temporalmente. Incluso dentro de una cadena de procesos inteligente es sólo de forma limitada posible compensar un fallo local del servidor mediante la redistribución de recursos. Las consecuencias de un incidente incluyen por tanto costes financieros tanto a corto como a largo plazo, que van mucho más allá de la reparación directa. Entre ellos se cuentan, entre otros:

  • Costes de personal para la remediación activa del daño
  • Componentes o servidores como piezas de repuesto
  • Pérdidas de ingresos por la inaccesibilidad del sitio web
  • Reconstrucción de los datos
  • Reestructuración, monitorización y reinicio de los procesos
  • Interrupción de la producción o la logística
  • Comunicación con los clientes habituales y los nuevos clientes afectados

Contramedidas en varios niveles

Aunque existen numerosas medidas diferentes y eficaces, un fallo de servidor debido a accidentes, fallos técnicos o humanos o ataques intencionados no puede excluirse por completo. Una protección total y exhaustiva requiere un mantenimiento complejo y costoso y suele rentabilizarse únicamente para infraestructuras TI críticas como el suministro de energía y agua, instituciones de seguridad pública y telecomunicaciones. En la mayoría de los casos, una Monitorización de sitios web en tiempo real junto con un plan de emergencia suele ser suficiente. Las contramedidas para un fallo de servidor difieren según las influencias internas y externas y varios escenarios. Entre otras, incluyen:

  • Monitorización de servidores 24/7/365 en tiempo real con alarma automática ante problemas
  • Protección del sistema operativo
  • Firewall y otros filtros para la detección de un ataque DDoS
  • Hardware verificado con una probabilidad de fallo inferior al 99 por ciento
  • Modernización periódica de la infraestructura de TI
  • Clústeres flexibles formados por varios servidores con Hot Swap
  • Redes redundantes y estructuras de TI
  • Copia de seguridad permanente mediante backup espejado en distintas ubicaciones
  • Sistemas de reserva automatizados como segunda instancia en emergencias
  • Medidas físicas como protección contra incendios y controles de acceso

Debido a la gran variedad de escenarios posibles ante una caída de servidor, resulta recomendable, sobre todo en pequeñas y medianas empresas, disponer de una infraestructura de TI adicional y menos potente para emergencias. Esta puede ir desde un simple servidor web para la comunicación y el funcionamiento de una página de emergencia (por ejemplo: trabajos técnicos, medidas de mantenimiento) hasta cadenas de procesos redundantes mediante dispositivos embebidos alternativos y subredes secundarias en producción. La transición de la infraestructura primaria a la secundaria se realiza, por lo general, de forma automatizada y en tiempo real si la monitorización de servidores detecta una caída, un estado crítico o una falla parcial.
 

Responsabilidad y indemnizaciones

En una infraestructura propia, los proveedores externos solo pueden ser responsabilizados por una caída del servidor en raras excepciones —por ejemplo, cuando existe un comportamiento demostrablemente defectuoso o por negligencia grave en el marco de un contrato de soporte regular, o cuando el hardware no cumple las condiciones garantizadas por el fabricante. Un proveedor de hosting web suele garantizar a sus clientes por año natural una disponibilidad media del 99 por ciento o superior; esto depende del Acuerdo de Nivel de Servicio. En un periodo de 365 días esto equivale a una caída máxima de servidores de 87,6 horas de media; sin embargo, para clientes concretos la interrupción puede ser más larga sin que ello suponga derecho a indemnización. Por este motivo, los proveedores de hosting web económicos solo son recomendables de forma limitada para aplicaciones comerciales: cuando se requiere una alta disponibilidad permanente, una infraestructura propia de TI formada por varios servidores dedicados geográficamente separados o VPS, con monitorización permanente de servidores, es preferible a una solución empaquetada.
 

Primeras medidas ante una caída de servidor aguda

Un fallo de servidor puede reducir considerablemente sus efectos si el operador adopta de inmediato medidas para limitar el daño tras la incidencia. Estas medidas tienen prioridad absoluta frente al análisis o la reconstrucción del suceso - por ejemplo mediante análisis forense de datos -. Por esta razón, la protección de datos mediante Copia de seguridad en sistemas separados adquiere una importancia especial: estas deben estar disponibles en cualquier momento para una emergencia y, en caso de fallo de la estructura TI primaria, poder activarse automáticamente o manualmente sin demora. No cabe esperar una compensación por daños por parte del proveedor de hosting, de un centro de datos o del fabricante del hardware. La protección y la prevención frente a un fallo de servidor son, por tanto, responsabilidad propia, salvo que los contratos con proveedores externos trasladen explícitamente esta responsabilidad a su ámbito. Si además el servidor/cuenta de hosting existente no es seguro, debería considerarse un cambio de proveedor. Una selección de servidores gestionados se encuentra en nuestra comparativa.

Consejo: Infórmate sobre qué puedes hacer si tu proveedor de hosting deja de estar accesible.

Escribe un comentario


Más proveedores de hosting


Más artículos interesantes

Uptime y Downtime en las ofertas de Hosting web

Quien busca un proveedor de Hosting web adecuado suele encontrarse rápidamente con referencias a la uptime o la downtime...

Monitorización del servidor: tiempo de actividad siempre bajo control

La accesibilidad permanente de su servidor con tiempos de respuesta rápidos es crucial para cualquier operador comercial...