لماذا توقفت الكثير من مواقع الإنترنت عن العمل يوم الجمعة الماضي؟

ظهرت خلال الأسابيع الماضية الكثير من التهديدات الأمنية على شبكة الإنترنت مثل: ظهور التهديد الذي واجه خوادم ويندوز (Windows DNS server)، والذي جعل وزارة الأمن الداخلي الأمريكية تُصدر أوامر طارئة للوكالات الفيدرالية بتحديث أجهزتها وخوادمها.

ثم كان هناك اختراق موقع تويتر الذي تسبب في الاستيلاء على العديد من الحسابات التي تخص السياسيين والمشاهير، لذلك عندما تتوقف مجموعة كاملة من مواقع الويب الشهيرة عن العمل في الوقت نفسه تقريبًا، سيفترض العديد من الأشخاص أن هجومًا إلكترونيًا قد أصاب شبكة الإنترنت.

وهذا ما حدث خلال يوم الجمعة الماضي 17 يوليو، عندما لم يتمكن بعض المستخدمين من الوصول إلى بعض مواقع الإنترنت الشهيرة، مثل: League of Legends، و Deliveroo، و Discord، و Feedly، و GitLab، و Medium، و Patreon، و Politico، و Shopify.

واتجه العديد من المستخدمين إلى موقع تويتر ليبلغوا عن انقطاع الإنترنت، ويسألوا عما يحدث، ولكن اتضح أن الأمر ليس هجومًا إلكترونيًا على شبكة الإنترنت، بل هي مشكلة تواجه واحدة من أكبر الشركات التي توفر خدمات التشفير SSL لملايين المواقع عبر شبكة الإنترنت.

هذه الشركة هي (كلاود فير) Cloudflare، التي تُعلن على صفحتها الرئيسية بفخر أنها تساعد في (حماية الآلاف من المواقع التجارية والشخصية عبر الإنترنت).

إذًا، ما الخطأ الذي حدث في Cloudflare؟

توفر شركة (Cloudflare) خدمات التشفير SSL لملايين المواقع عبر شبكة الإنترنت، وتُساهم في صد التهديدات من مجرمي الإنترنت، وتحمي عملاءها بانتظام من هجمات الحرمان من الخدمة الموزعة (DDoS).

وقد أصبحت هذه الهجمات معقدة بشكل متزايد، ففي كثير من الأحيان يؤدي إغراق المواقع بعدد كبير من الطلبات الوهمية إلى تجاوز قدرة موقع الويب على معالجة الطلبات المتعددة، ومن ثَمَّ منعه من العمل بشكل صحيح، أو التوقف عن العمل تمامًا. لذلك ليس من المستغرب أن يعتقد البعض أن هناك هجوما ضخمًا على هذه الموقع قد نجح هذه المرة، ولكن لم يكن هذا هو الحال.

حيث تسبب انقطاع الخدمة في الساعة 9:12 بتوقيت المحيط الهادي، بسبب خطأ بشري، في حدوث مشكلة وتعطّل بعض المواقع الشهيرة. ونشر (جراهام كومينج) رئيس القسم التقني تدوينة في موقع الشركة قال فيها: “اليوم تسبب خطأ في التكوين في شبكة (backbone) لدينا في انقطاع الإنترنت وخدمات Cloudflare التي استمرت 27 دقيقة، حيث شهدنا انخفاضًا في حركة المرور بنسبة 50% عبر شبكتنا”.

وأضاف قائلًا: “إن فريق هندسة الشبكات في Cloudflare كان السبب في هذا الأمر، حيث كان يعمل على حل مشكلة في الخوادم الرئيسية للشبكة، وقام بتحديث تكوين خادم في مدينة أتلانتا لتخفيف الازدحام، واحتوى هذا التكوين على خطأ تسبب في إرسال كل حركة المرور عبر خوادمنا الرئيسية إلى الخادم الموجود في أتلانتا، مما تسبب في الضغط على هذا الخادم، وتوقف بعض مواقع شبكة Cloudflare المتصلة بالخوادم الرئيسية”.

هذا الأمر تسبب في انقطاع الإنترنت في مناطق جغرافية معينة، ومن ضمن المدن التي تأثرت: سان خوسيه، دالاس، سياتل، لوس أنجلوس، شيكاغو، واشنطن العاصمة، ريتشموند، نيوارك، أتلانتا، لندن، أمستردام، فرانكفورت، باريس، ستوكهولم، موسكو، سانت بطرسبرغ وساو باولو وكوريتيبا وبورتو أليغري. ولكن استمرت مواقع أخرى في العمل بشكل طبيعي.

ماذا فعلت الشركة لتصحيح المشكلة:

ذكر المدير التنفيذي للشركة (ماثيو برينس): “أن الشركة قد طبقت الآن العديد من الإجراءات لضمان عدم حدوث مثل هذا الخطأ في المستقبل، وفي حين أن هذا الخطأ ربما يكون بسيطًا إلا أنه مكلف في الوقت نفسه”.

بينما قال مدير هندسة الشبكات في الشركة (جيروم فلوري): “إن هناك الكثير من الدروس المستفادة”. وحثَّ كل من لديه أي سؤال على طرحه عليه في حسابه على تويتر.

وبتحليل ما حدث، وجد أن انقطاع الخدمة قد استمر لمدة 27 دقيقة فقط، وهو زمن قد لا ينتبه له مستخدم الإنترنت العادي ويعتبره شيئاً طبيعيًا، ولكن ازدحام الشبكة الرئيسية الناتج عن ذلك يعني أن انقطاع الخدمة استمر لمدة ساعة تقريبًا في المجموع.

وفي هذا الصدد يقول (جراهام كومينج): “نأسف لتعطيل عملائنا ولجميع المستخدمين الذين لم يتمكنوا من الوصول إلى الإنترنت أثناء حدوث الانقطاع، لقد قمنا بالفعل بإجراء تغييرات على الخوادم الرئيسية للتأكد من أن هذا لا يمكن أن يحدث مرة أخرى، وسوف تتم مواصلة الإصلاحات يوم الاثنين”.