Facebook revela más detalles sobre lo que ocasionó la caída en sus plataformas

Cuidad de México, Méx., a 5 de octubre de 2021. (Redacción).- 

La red social Facebook dio a conocer más detalles sobre la caída que sufrió el lunes que duró más de seis horas y que también afectó a Instagram, Whatsapp y Messenger.

En un comunicado, la empresa indicó que la interrupción fue provocada por el sistema que administra la capacidad de nuestra “columna vertebral” global.

“La columna vertebral es la red que Facebook ha construido para conectar todas nuestras instalaciones informáticas, que constan de decenas de miles de kilómetros de cables de fibra óptica que cruzan el mundo y conectan todos nuestros centros de datos”, señaló.

Detalló que los centros de datos vienen en diferentes formas, algunos son edificios masivos que albergan millones de máquinas que almacenan datos y ejecutan las cargas más pesadas computacionales que mantienen las plataformas en funcionamiento, mientras que otros, son instalaciones más pequeñas que conectan la columna vertebral a Internet general y a las personas que usan las aplicaciones de Facebook.

“Cuando abre una de nuestras aplicaciones y carga su feed o mensajes, la solicitud de datos de la aplicación viaja desde su dispositivo a la instalación más cercana, que luego se comunica directamente a través de nuestra columna vertebral a un centro de datos más grande. Ahí es donde se recupera y procesa la información que necesita su aplicación, y se envía de vuelta a través de la red a su dispositivo”, puntualizó.

La red social dijo que el tráfico de datos entre todas sus instalaciones informáticas se gestiona mediante enrutadores, que determinan dónde enviar todos los datos entrantes y salientes.

“En el extenso trabajo diario de mantener esta infraestructura, nuestros ingenieros a menudo necesitan tomar parte de la columna “sin línea” para el mantenimiento, que puede ser para reparar una línea de fibra óptica, agregando más capacidad o actualizando el software en el enrutador.

“Esta fue la fuente del apagón de ayer. Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad de la columna vertebral, que accidentalmente cortó todas las conexiones en nuestra red global, desconectando los centros de datos de Facebook a nivel mundial”, detalló.

Además, explicó, sus sistemas están diseñados para auditar comandos como estos para evitar errores de este tipo, pero un error en uno de esos sistemas de auditoría, no detuvo correctamente el comando, lo que provocó un segundo error que empeoró la situación.

“En la interrupción de ayer, toda la columna vertebral se salió de operación, lo que hizo que estas ubicaciones se declararan inestables y retiraran esos anuncios de BGP (“Protocolo de Enlace Fronterizo”). El resultado final fue que nuestros servidores DNS (la libreta de direcciones de Internet, IP), se volvieron inalcanzables a pesar de que todavía estaban operativo, haciendo imposible que el resto de Internet encontrara nuestros servidores”, expuso.

En el comunicado, Facebook señaló que sus ingenieros se enfrentaron a dos grandes obstáculos:

“Primero, no era posible acceder a nuestros centros de datos a través de nuestros medios normales porque sus redes estaban caídas, y segundo, la pérdida total de DNS rompió muchas herramientas internas que normalmente usamos para investigar y resolver interrupciones como ésta”.

¿Cómo lo solucionaron?

La empresa indicó que se enviaron ingenieros a los centros de datos para que depuraran el problema y reiniciaran los sistemas.

Este fue el proceso más tardado, pues esas instalaciones están diseñadas con altos niveles de seguridad física y cibernética.

“Es difícil acceder a ellos y, una vez que estás dentro, el hardware y los enrutadores están diseñados para ser difíciles de modificar incluso cuando tienes acceso físico a ellos”.

Por lo tanto, tomó más tiempo activar los protocolos de acceso seguro necesarios para que los ingenieros pudieran trabajar en los servidores. Solo entonces podríamos confirmar el problema y volver a poner la columna vertebral en línea.

“Una vez que se restauró la conectividad de nuestra red global en las regiones de nuestro centro de datos, todo volvió a funcionar”, dijo.

Sin embargo, luego de este proceso se enfrentaron a un problema más: volver a activar los servicios únicos podría causar una nueva serie de accidentes debido al aumento en el tráfico.

“Los centros de datos individuales informaban caídas en el uso de energía en el rango de decenas de megavatios, y revertir repentinamente tal caída en el consumo de energía podría poner en riesgo todo, desde sistemas eléctricos hasta memorias cachés”.

Finalmente, Facebook detalló que para ese problema sí estaban preparados pues en varias ocasiones se realizaron simulacros de “tormenta” con situaciones así.

El apagón de Facebook

El incidente, causado por un problema técnico, constituye la falla “más importante nunca antes observada” por Downdetector, que monitorea los cortes online. “Miles de millones de usuarios han sido impactados por la completa caída del servicio hoy”, escribió el sitio.

El fundador de la red social Facebook, el multimillonario estadounidense Mark Zuckerberg, ha pedido perdón a los usuarios por los problemas que los servicios de esa red social y de Instagram, WhatsApp y Messenger tuvieron en las últimas horas.

 

“Facebook, Instagram, WhatsApp y Messenger están volviendo a estar en línea ahora. Perdón por la interrupción de hoy. Sé cuánto confiáis en nuestros servicios para manteneros conectados con las personas que os importan”, dijo Zuckerberg en un escueto mensaje colgado en su popular red social.

La caída de estos servicios se prolongó este lunes por espacio de más de seis horas y afectó a más de 3 mil 500 millones de usuarios de todo el mundo.

Los países más afectados por las primeras incidencias fueron Estados Unidos, México, España, Francia, Rumanía, Noruega, Georgia, Grecia, mientras otros muchos acudieron posteriormente al portal online para informar de que no podían acceder a los servicios, en lo que parecía un problema mundial.

Demanda a Facebook

La caída generalizada de los servicios de Facebook se produce además cuando la compañía se encuentra en medio de un fuerte escrutinio público tras la publicación en el diario The Wall Street Journal de una serie de artículos elaborados a partir de informes internos de la empresa.

Entre otras cosas, los documentos determinan que Instagram es perjudicial para una parte de sus usuarios más jóvenes y que resulta especialmente “tóxico” para las adolescentes, ya que “agrava” los problemas que una de cada tres chicas tiene de su imagen corporal.

Categorías