Hybrid Incident Management

Incident 발생 시 담당자에게 다양한 방식으로 즉시 전파하여 문제 해결에 돌입하는 시간을 단축

복잡해지는 Cloud 운영 환경에서 주요 알람을 확실히 전달하여 장애 조치 시간을 최소화합니다.

Incident 발생 시 담당자에게 다양한 방식으로 즉시 전파하여 문제 해결에 돌입하는 시간을 최소한으로 단축시켜 줍니다.

Hybrid Incident Management

  • Incident의 자동 감지 및 실시간 전파

    Incident 또는 이벤트가 발생할 경우 실시간으로 전파합니다.

    사전에 조치 담당자, 협업 담당자, 상위 직책자를 Escalation 규칙으로 정의하여 자동으로 전파하며, 협업툴 뿐 아니라 SMS, Voice Call 전송 횟수 제한 없이 담당자에게 도달할 때까지 반복하여 전파합니다.

  • Hybrid Monitoring 연계한 통합 운영 서비스 제공

    Hybrid Cloud 환경 뿐 아니라 Cloud 상에서의 운영환경도 점점 다변화되고 있습니다.

    다양한 운영환경에 적용하는 Hybrid Monitoring 도구에서 감지한 이벤트를 누락없이 전파하여 seamless 한 운영 서비스를 제공합니다.

  • 운영 서비스에 대한 보고서 기능 제공

    SLA 를 보고서로 자동 생성하여 제공합니다.

    MTTI, MTTR 을 포함한 SLA 보고서를 분석하여  취약 영역을 감지할 수 있습니다.

    또한 운영 리소스를 재배치하여 안정성과 효율성을 높일 수 있습니다.

신속한 장애 조치 및 대응 가능

장애 발생 시 장애 전파부터 정확하고 빠르게 되어야 전체 조치시간을 확실히 단축할 수 있습니다.

Hybrid Incident Management 서비스는 다양한 플랫폼에서 발생하는 여러 Incident 를 정확하게 실시간 전파하여 장애 조치에 돌입하는 시간을 최소로 단축합니다.

Hybrid Cloud 운영 & 관리 용이

Cloud, On-Premise 의 다양한 모니터링 도구로 감지한 이벤트의 전파를 통합 관리할 수 있습니다.

다수의 업무 운영에 다양한 모니터링 도구를 사용하실 경우 중요 이벤트를 놓치지 않되 꼭 필요한 것만 선별하거나 가독성 높은 메시지로 변경하여 전파할 수 있습니다.

Data 기반 운영 효율성 향상

알람이 주로 발생하는 취약지점, 담당자 및 팀별 알람 처리 현황을 SLA 보고서를 통해 확인할 수 있습니다.

보고서는 자동 생성되며 다양한 관점에서의 분석을 통해 운영 취약점을 보강하고 운영 리소스를 효율적으로 배분할 수 있습니다.

조치해야 할 알람의 누락 방지 및 알람 효율화

Incident 유형에 따라 최적의 전파 경로를 사전에 정의하여 알람을 담당자에게 정확히 전달합니다.

Hybrid Monitoring 도구의 알람을 감지한 후 다양한 협업 도구와 연계하여 가장 효율적인 방식으로 전파합니다.

주요 알람만 선택하여 전파함으로써 지나치게 많은 알람에 의한 피로도를 줄일 수 있습니다.

  • 폭넓은 Hybrid Monitoring 툴 연계

  • 다양한 협업 도구로 전파하여 알람 누락 차단

  • 알람 받을 담당자의 사전 지정 및 협업할 팀 정의

  • 제한 없는 Voice Call 동시 전파 가능

  • 알람 메시지를 사용자가 재정의하여
    가장 효율적인 메시지로 전달 가능

  • 불필요 알람의 filtering 통한
    주요 알람의 경각심 고취

Escalation 정의

알람의 확산 혹은 상위 전달이 필요한 경우 Escalation 규칙을 수립합니다.

여러 팀원들이 자신이 담당한 일정에 알람을 수신하여 알람의 스트레스는 줄이고 책임감 있게 조치에 임할 수 있습니다.

  • 알람 전파 규칙의 사전 정의

  • 정기/비정기 일정별 담당자 지정

  • 유연한 Escalation 규칙 적용하여 알람 유형 및 중요도에 따라 최적의 전파 가능

  • 대기 중인 담당자에 미리 알림 통해 누락 방지

SLA 보고서를 통한 운영 취약점 분석

알람 발생 및 처리 실적 보고서를 통해 운영 취약 영역을 찾아낼 수 있습니다.

SLA 보고서를 분석하여 운영 리소스가 적당히 배분되고 있는지 확인할 수 있습니다.

  • MTTI / MTTR 보고서 자동 생성
    ※ MTTI(Mean Time to Identify), MTTR(Mean Time to Resolve)

  • Incident 빈발하는 취약 영역 감지

  • 사용자/팀 단위 운영 효율성 분석

  • 운영 리소스 배분 현황 분석

도입배경

  • Public Cloud 운영의 L1 조직은 Shared 서비스를 제공, 한정된 인원이 다수 업무에 대한 1차 대응을 책임지고 있음
  • 24x365로 서비스 제공하여 담당자별 On-duty 일정과 Off-duty의 효율적 관리가 필수
  • 긴급한 조치가 필요한 Incident 및 장애 발생 시 즉시 상위 보고 및 L2 엔지니어로의 전파 필수

활용사례

  • 고객사 및 플랫폼별 담당자를 Virtual Team 으로 구성하여 일정별로 담당자 지정 및 전체 현황을 팀원 누구나 확인 가능, 필요 시 유연하게 변경
  • Incident 및 이벤트의 종류별로 Escalation 규칙을 구성, 긴급 Incident 및 장애는 즉시 직책자에까지 전파
  • 과거 심각한 장애를 유발했던 이벤트는 ‘긴급’ 함을 강조하도록 Incident 메시지를 재정의하여 전파
  • 빈번히 발생하나 단순 공유의 이벤트는 로그만 기록하도록 변경하여 주요 이벤트를 놓치지 않도록 메시지 조절
  • 특정 플랫폼의 기술지원 영역에서 알람 대응이 늦는 것을 확인하여 담당자의 인식 재고 및 단순 이벤트의 제거 필요함을 도출, 전반적인 대응 속도 개선

적용결과

  • Escalation 규칙 현행화를 통해 전파 시 누락되는 담당자 없도록 사전 조치
  • 장애 발생 즉시 직책자까지 전파하여 장애 조치 위한 빠른 의사결정 가능