إدارة حوادث SRE: نظرة عامة وتقنيات وأدوات

في عالم مهندس موثوقية الموقع (SRE) ، الفشل ليس خيارا فحسب ، بل إنه متوقع أيضا. الأنظمة وتطبيقات الويب والخوادم والأجهزة وما إلى ذلك ، كلها عرضة لمشكلات الأداء والانقطاعات غير المتوقعة في مرحلة ما. إنها حقيقة لا مفر منها. يمكن أن تؤدي هذه الإخفاقات غير المتوقعة إلى خسائر فادحة في الإيرادات وثقة العملاء واعتمادا على الصناعة ، وربما غرامات. لحسن الحظ ، تعد إدارة حوادث SRE واحدة من الممارسات الأساسية المستخدمة للحد من الاضطراب الناجم عن مشكلات غير متوقعة. في مقال مختلف ، تحدثنا عن هندسة الفوضى وكيف تبحث فرق SRE بشكل استباقي عن الفشل وتختبره لمنع حدوث الأسوأ. ومع ذلك ، كما نعلم جميعا ، يمكن أن تنزلق القضايا من خلال الشقوق. والهدف من ذلك هو منع هذه الحوادث من أن تصبح إخفاقات متتالية واسعة النطاق. يمكن لفرق SREs و DevOps استخدام هذه الحوادث لإعادة البناء بشكل أفضل وتحسين أنظمتها وخدماتها.

 

ما هو الحادث؟

قبل أن نتعمق أكثر في هذا الموضوع ، يجب علينا أولا مناقشة ماهية الحادث. أين الخط الفاصل بين شيء يتطلب اتخاذ إجراء فوري مقابل شيء يمكن التحقيق فيه لاحقا؟ إذا تم تصنيف كل قضية على أنها عاجلة ، فلن يحصل أحد على أي حل. في سياق تكنولوجيا المعلومات (تكنولوجيا المعلومات) ، فإن الحادث هو ببساطة حدث أو مشكلة تعطل التشغيل العادي أو جودة الخدمة. لم يؤد ذلك إلى فشل ، ولكن إذا ترك دون رادع ، فمن الممكن أن يسبب تأثيرا أكبر على خدماتك وعملياتك. وعادة ما تحدث في الساعة 2:00 صباحا بينما تكون نائما بسعادة وتستيقظ من صوت هاتفك ينفجر. نحن نمزح بالطبع ، لكنك تعرف أن هناك شيئا سيئا إذا حدث ذلك في الصباح الباكر. لا شيء جيد يحدث في الساعة 2:00 صباحا ، خاصة عندما نتحدث عن صناعة تكنولوجيا المعلومات.

 

ما هي إدارة الحوادث؟

الآن بعد أن تحدثنا عن ماهية الحادث ، فإن إدارة الحوادث هي العملية التي تقوم من خلالها الفرق بحل هذه الأحداث وإعادة الأنظمة والخدمات إلى التشغيل الطبيعي. يجب أن نلاحظ أيضا أن إدارة الحوادث ليست سوى عنصر واحد من مفهوم أكبر يعرف باسم إدارة خدمات تكنولوجيا المعلومات ، أو ITSM. يحدد ITSM كيفية تصميم الفرق وإنشائها وتقديم خدماتها. إنه أكثر بكثير من مجرد دعم تكنولوجيا المعلومات. ITSM هي السياسات والعمليات والهيكل وراء دورة حياة خدمات تكنولوجيا المعلومات. ITSM هي واحدة من ممارسات مكتبة البنية التحتية لتكنولوجيا المعلومات ، أو ITIL.

يوفر ITIL الإطار والمبادئ التوجيهية لبناء حلول ITSM. قد تكون بالفعل على دراية بأطر العمل الأخرى، مثل إطار عمل عمليات الأعمال (eTOM) وأهداف التحكم للمعلومات والتقنيات ذات الصلة (COBIT) وFitSM وISO/IEC 20000 وMicrosoft Operations Framework (MOF).

 

إطار إدارة خدمات تكنولوجيا المعلومات (ITSM)

إذا عدنا خطوة إلى الوراء وركزنا فقط على العناصر الموجودة في إطار ITSM قليلا ، فهناك ستة مكونات أخرى تشكل “عجلة” ITSM إلى جانب إدارة الحوادث. على الرغم من أننا لن ندخل في تفاصيل حول هذه الأمور ، إلا أنه من المهم أن نفهم كيف تتلاءم كل هذه القطع مع إدارة الحوادث.

 

كتالوج الخدمة

عادة ما يكون كتالوج خدمات تكنولوجيا المعلومات عبارة عن قاعدة بيانات أو مورد تنشئه المؤسسة لتزويد المستخدمين بمعلومات حول خدماتهم وعروضهم التشغيلية. توفر كتالوجات الخدمات هذه معلومات مفيدة حول الخدمات الحالية والمخطط لها، بالإضافة إلى التسعير وعملية الشراء ونقاط الاتصال والتسليمات الأخرى.

 

مكتب الخدمة

يمكن اعتبار مكتب الخدمة نقطة اتصال بين مزود الخدمة والمستخدمين ، مثل الموظفين الداخليين أو أصحاب المصلحة أو العملاء. إنه “المحور” المركزي حيث يذهب المستخدمون للحصول على المساعدة والخدمة. وفقا لتعريف ITIL ، قد يأخذ مكتب الخدمة شكل حل الحوادث أو طلبات الخدمة ، ولكن مهما كان الأمر ، فإن الهدف الأساسي لمكتب الخدمة هو تقديم خدمة سريعة وفعالة.

 

إدارة المشكلات

عندما نتحدث عن إدارة الحوادث ، قد يكون فريق SRE قادرا على حل الحادث بسرعة ، ولكن قد تظل المشكلة الأساسية موجودة وتستمر لفترة أطول. إدارة المشكلات هي العملية التي يتم من خلالها إصلاح الأسباب الجذرية للحوادث بشكل دائم ، مما يحسن الأداء على المدى الطويل وعمليات نشر الخدمة المستقبلية.

 

إدارة التغيير

أي نوع من التغيير ، سواء كنا نتحدث عن عمليات نشر خدمة جديدة أو تغيير شخصي ، هناك دائما عنصر مخاطرة. إدارة التغيير هي عملية تحديد كيفية تأثير التغييرات على نشر الخدمة و / أو النظر في التأثيرات على العمل نفسه. يتم أيضا تجميع إدارة التغيير في بعض الأحيان مع إدارة الإصدار.

 

إدارة الأصول

لا يمكنك محاكاة كل شيء افتراضيا … بعد. لا تزال خدمات البرامج تتطلب أجهزة وأجهزة فعلية حتى تعمل. وتحتاج المؤسسات إلى تتبع هذه الأجهزة وإدارتها وتحديثها باستمرار لضمان تشغيل خدماتها بسلاسة. يشار إلى إدارة الأصول أيضا باسم إدارة أصول تكنولوجيا المعلومات ، أو ITAM.

 

إدارة المعرفة والسياسات والإجراءات

الهدف من إدارة المعرفة هو الحد من التكرار من حيث جمع المعلومات ومراجعتها ومشاركتها داخل المنظمة. وهذا يساعد على تحسين الكفاءة ويضمن أن تكون المعلومات متسقة ومحدثة ومتاحة.

 

لايف سيل لإدارة الحوادث: العملية والخطوات

إن استجابة المؤسسة لحادث ما ، سواء كنا نتحدث عن وقت التوقف عن العمل أو الخروقات الأمنية أو الهجمات الإلكترونية ، أو حتى الكمون المطول والأخطاء المتكررة ، أمر بالغ الأهمية لاستمرار نجاح العمل والثقة من العميل أو المستخدم النهائي. يجب على SREs إدارة الأنظمة الموزعة المعقدة. في حين أن فوائد هذه الأنظمة هي أنها أكثر موثوقية وقابلية للتطوير وتحمل الأخطاء ، فإن هذا يجعلها معقدة للغاية ، مما قد يؤدي إلى أوقات معالجة أطول حيث يصعب اكتشاف المشكلات وتحديدها. تلتزم أفضل فرق إدارة الحوادث في SRE بعملية صارمة لإدارة الحوادث ومعالجتها. في حين أن الخطوات والعمليات الفعلية قد تختلف بين المنظمات، فإن معظمها يتبع نفس المسار الأساسي. دعونا نلقي نظرة على عملية وخطوات إدارة حوادث SRE.

 

تحديد الحوادث

لا يمكنك إصلاح المشكلات التي لا تعرفها. يبدأ تحديد الحوادث بشكل من أشكال آلية الرصد أو التنبيه. تحدثنا عن مراقبة الأنظمة الموزعة في مقالة مختلفة وكيف يتعلق ذلك بفرق SRE. تعد معرفة متى وأين يحدث خطأ أو وقت توقف أو زمن انتقال للتطبيق عاملا حاسما في الحد من التأثير على المستخدمين والعملاء. ومع ذلك ، في بعض الحالات ، سيصبح الحادث معروفا من خلال تذكرة دعم أو مكالمة هاتفية أو حتى وسائل التواصل الاجتماعي ، وهي ليست أخبارا جيدة أبدا عندما يتم نشر المشكلات علنا ليراها الجميع.

 

تسجيل الحوادث

أيا كانت طريقة الكشف ، بمجرد تحديد الحادث ، يجب تسجيله. يخدم تسجيل الحوادث أغراضا متعددة. وهو يضمن وجود سجل رسمي تم تقديمه واستعراض اتجاهات الحوادث في وقت لاحق. وإذا تكرر تكرار وقوع الحادث نفسه، أو ما شابه ذلك، فقد يكون ذلك مؤشرا على مسألة أكثر تعقيدا تحتاج إلى معالجة. عند تسجيل حادث، يتم أيضا تضمين المعلومات ذات الصلة، مثل الطابع الزمني ووصف الحادث ومن اكتشف المشكلة. كلما كانت المعلومات أكثر تفصيلا ، كان ذلك أفضل.

 

تصنيف الحوادث

بعد ذلك يأتي تصنيف الحادث بناء على عوامل مثل الشدة أو الإلحاح أو المجال الوظيفي المتأثر. مثل تسجيل الحادث ، يمكن أن تساعد المعلومات الإضافية التي يتم توفيرها لاحقا عند تحديد الفريق أو الفرد المناسب لتعيينه للاستجابة للحادث.

 

تحديد أولويات الحوادث

واستنادا إلى كيفية تصنيف الحادث، فإن الخطوة التالية هي تحديد مستوى الأولوية. مرة أخرى ، تحدث بعض هذه الخطوات في نفس الوقت ، لذلك في بعض الحالات ، قد يتم تنفيذها في نفس الوقت. تستخدم المؤسسات عادة مقياسا بسيطا من المنخفض أو المتوسط أو العالي ، ومع ذلك ، قد تندرج بعض الحوادث تلقائيا في فئات محددة اعتمادا على ما يتأثر. على سبيل المثال ، إذا كان الحادث مرتبطا بانقطاع التيار الكهربائي ، فسيقع ذلك تلقائيا في أولوية عالية.

 

الاستجابة للحوادث وحلها وإغلاقها

الخطوة الأخيرة هي الاستجابة أخيرا وحل الحادث لإنهائه. هذه الخطوة الأخيرة هي شكل من أشكال الفن أكثر من كونها علما. لا يوجد زر سهل هنا. يمكن أن يستغرق الأمر عدة دورات ويحاول تأكيد أن الحادث قد تم حله أخيرا. يمكن لكل محاولة أن تجلب المزيد من المعلومات والنظريات الإضافية حول سبب وقوع الحادث. ويمكن أن يؤدي ذلك أيضا إلى تحديد المزيد من الفرص التي قد توجد فيها نقاط ضعف. بمجرد التعامل مع الحادث ، فقد حان الوقت لإغلاق الطلب والرد على المستخدم الأصلي الذي أبلغ عن الحادث.

 

تشريح الجثة

بعد الاستجابة للحادث ، عادة ما يكون من الجيد مراجعة تفاصيل الحادث بالكامل. وهذا ما يسمى حادث ما بعد الوفاة. عادة ما يتم تحديد الحوادث التي تتطلب تشريح الجثة من قبل الفريق أو المنظمة ، ومع ذلك ، تظل الأسباب كما هي. تساعد عمليات ما بعد الوفاة في تحديد المناطق التي يمكن تحسينها وتحديد النقاط العمياء في الأداء وتحسين عملية الاستجابة للحوادث. يجب أن يلخص تشريح الجثة جميع جوانب الحادث وأن يتضمن العناصر التالية:

  • موجز رفيع المستوى وجدول زمني للحادث.
  • تحليل السبب الجذري ومصدر الحادث.
  • الإجراءات المتخذة لحل الحادث وأيها كان فعالا أو غير فعال.
  • الوقاية من الحوادث في المستقبل جنبا إلى جنب مع المعلومات الإضافية التي تم اكتشافها.

تعد عمليات ما بعد الوفاة واحدة من القواعد الأساسية لثقافة SRE. في الواقع ، يسمونه بعد الوفاة بلا لوم. الفكرة وراء هذا المفهوم هي أن الجميع في الفريق تصرفوا بنوايا حسنة ولا أحد مسؤول عن الحادث. ينصب التركيز على تحديد سبب حدوث ذلك وكيفية تحسين أداء النظام للمضي قدما. الأخطاء هي جزء طبيعي من الصناعة ، لذلك بدلا من إلقاء اللوم على الأفراد ، ينصب التركيز على إنشاء نظام أكثر قوة ومرونة حتى لا تحدث المشكلات مرة أخرى.

 

إدارة حوادث SRE: الأدوات والخدمات

اليوم ، تتمتع SREs بوصول غير محدود على ما يبدو وفرصة لمجموعة واسعة من الأدوات والمنصات والخدمات للمساعدة في أتمتة وإدارة عبء العمل الخاص بهم. بعض هذه الأدوات التي قمنا بتغطيتها بالفعل في مقالة مختلفة ، لكننا سنناقش على وجه التحديد أدوات إدارة حوادث SRE.

قراءة: أفضل 13 أداة لمهندس موثوقية الموقع (SRE)

 

الحوادث والتنبيه وأدوات الاتصال

يمكن أن تكون أدوات إدارة الحوادث والاتصالات والتنبيه من أهم الأدوات التي تستخدمها فرق SRE. كلما كان فريقك على دراية أسرع ، كلما كان من الممكن التعامل مع الحادث بشكل أسرع. يجب استخدام هذه الأدوات جنبا إلى جنب مع استراتيجية المراقبة الخاصة بك. تتكامل منصة Dotcom-Monitor مع هذه الأدوات (والمزيد) ، مما يوفر طريقة سلسة لدمج الأدوات التي قد تستخدمها فرقك بالفعل مع أهداف المراقبة والملاحظة.

 

باجر ديوتي

يمكن أن يساعد PagerDuty في تحديد التنبيهات وتشغيلها بناء على متطلبات المراقبة المحددة للمؤسسة. من خلال أتمتة مرحلة تحديد الحوادث، يمكن للفرق تقليل مقدار الإشراف اليدوي والوقت اللازم لبدء عملية إدارة الحوادث. يتم إخطار الفرق المناسبة على الفور ، مما يعني أن الاستجابة للحوادث يمكن أن تحدث في أقرب وقت ممكن.

 

فيكتوروبس

VictorOps ، الآن Splunk On-Call ، هي منصة أتمتة الحوادث للمساعدة في تقليل الوقت الذي يستغرقه حل الحوادث ، مما يوفر لفرق SREs و DevOps طريقة لإدارة عملية الاستجابة للحوادث بكفاءة. يمكن أن يساعد Splunk On-Call أيضا في تبسيط الجداول الزمنية عند الطلب وسياسات تصعيد الحوادث.

 

الركود

على الرغم من أنها ليست أداة حقيقية للاستجابة للحوادث ، إلا أن التواصل عامل مهم أثناء عملية الاستجابة للحوادث. يعد Slack أحد تطبيقات الدردشة الأكثر تميزا وشعبية في السوق ، حيث يمنح فرق SRE وظيفة لجلب جميع الاتصالات في لوحة تحكم واحدة. يعد Slack رائعا للتواصل بين الشركات ، حيث يمكنه أيضا أتمتة الاستجابات والأحداث وحتى الارتباط بالأنظمة والخدمات الأخرى.

 

مايكروسوفت تيمز

إذا كانت مؤسستك تستخدم Office 365، فمن المحتمل أنك على دراية بالفعل ب Microsoft Teams. مثل Slack ، Microsoft هو تطبيق اتصال في الوقت الفعلي يوفر ميزات مثل المراسلة عبر الإنترنت ودردشة الفيديو ومشاركة المستندات.

 

OpsGenie

حل آخر للاستجابة للحوادث ، يوفر OpsGenie للفرق القدرة على إعداد وتكوين التنبيه التلقائي من خلال المجموعات وآليات التصفية. بالإضافة إلى ذلك، يمكن ل SREs إدارة قواعد التوجيه عند الطلب وسياسات التصعيد المحددة. يوفر OpsGenie أيضا ميزات مثل إعداد التقارير والتحليلات حتى تتمكن الفرق من عرض وتتبع مقاييس الاستجابة للحوادث وكفاءاتها.

 

الاستنتاج: إدارة حوادث SRE – نظرة عامة وتقنيات وأدوات

تعد إدارة حوادث SRE أمرا بالغ الأهمية للحفاظ على تشغيل الأنظمة والتطبيقات والمواقع والخدمات. الثواني مهمة ، خاصة عندما يتعلق الأمر بتجربة المستخدم. في الأنظمة الموزعة الكبيرة ، يمكن أن تسبب أصغر مشكلة مشاكل متتالية. يمكن أن يكون إعداد التنبيهات والإشعارات الصحيحة بشكل استباقي هو الفرق عند حدوث المشكلات وضمان الحد من التأثير على المستخدمين. لمزيد من المعلومات حول كيفية تكامل منصة Dotcom-Monitor مع أدوات إدارة الحوادث هذه، يرجى زيارة قاعدة المعارف الخاصة بنا.

جرب Dotcom-Monitor مجانا لمدة 30 يوما واحصل على إمكانية الوصول إلى جميع الحلول وعمليات الدمج والميزات داخل النظام الأساسي.

 

Latest Web Performance Articles​

Start Dotcom-Monitor for free today​

No Credit Card Required