AMA 경험

AMA는 Ask Me Anything 의미 입니다.

하나의 주제로 한 사람에게 다양한 의견을 교류하는 장을 말합니다.

새로운 팀에서 리더분이 주최하는 시간을 가졌습니다. 이 날 주제는 서비스 장애 대응이였습니다.

사실 서비스 장애 대응에 대해 깊게 생각해 본적은 없었습니다. 다만 개인적으로 장애 대응이 발생했을 때, 기민하게 우선순위를 높여 처리해야 하는 업무라고 생각하고 있었습니다.

이번 시간을 통해 서비스 장애 대응이 단순히 우선순위가 높은 업무가 아니라, 팀에게 있어 너무나 중요한 업무 프로세스 더 나아가 문화라는 사실을 알게 되었습니다.

개인적으로 인사이트한 내용들이 많아 정리를 해보고자 합니다.

서비스 장애 대응이란?

  • 팀이 치열하게 고민해야 하는 주제
  • 개인 및 팀이 성장할 수있는 좋은 재료

서비스 장애가 발생했을 때

  • 서비스 장애 대응 업무중 가장 높은 우선순위 설정
  • 언제나 팀원분들과 소통할 준비가 되어야 하는 상태
  • 서비스 장애 시, 커뮤니케이션 프로세스는 수직적으로 변경
  • 컨트롤 타워를 세워 기민하게 현재 장애 대응 상황 공유

    <컨트롤 타워 역할>
    
    1. 각 팀원들 처리 상황 교통 정리
    2. 오피셜하게 장애 대응 공유(화이트 보드 및 체크리스트로 순차적으로 업무 진행)
    3. 해당 서비스 장애 업무에 해당하는 PL, PM이 컨트롤타워 역할
  • 서비스 장애 대응시 처리한 업무는 컨트롤 타워에게 즉각적으로 공유

    • 처리 할 수 있는 업무 리스트화 및 업무 데드라인 설정 후 공유
    • 개발한 사항에 대해 장애 발생시 리스크 여부 파악 및 대처 방안 팀원분들에게 공유
  • 서비스 장애가 발생시, 한 개인이 ‘죄송하다’는 표현은 맞지 않음 조직으로써 모두의 문제점이고 빨리 해결해야 하는 시간이기때문에 감정적인 소통은 지양

미리 서비스 장애를 대처하는 방법

  • 서비스 장애를 대비하는 ‘롤백’ 기능 고려
  • 업무 속에서 솔직한 커뮤니케이션을 기반으로 진행

    • ex) 데일리 미팅에서 현재 개발 상황과 서비스 혹은 기술적 부재 및 리스크 공유 그리고 대처 방안 논의
    • ex) 만약 기술적 부재로 인해 배포 일정을 미뤄야 하는 상황이 발생했을 때, 비즈니스적으로 손질할 수 있는 영향 범위를 팀원분들과 논의 진행
  • 서비스 장애 해결 후, 2~3일 이내 회고 및 문서화 작업
  • 반드시 같은 원인으로 동일한 서비스 장애가 나지 않도록 철저히 대비

한 주 회고

6월이 되었고, 여름이 시작되었습니다.

새로운 공간에서 새로운 사람들과 익숙하지 않은 도메인 속에서 업무를 하는 과정이 아직도 믿기지가 않습니다.

서울 올라온지도 어느덧 1년, 정말 작년까지만 하더라도 전주에 있었는데, 불과 1년 만에 서울에 올라와 생활을 하고 있을 줄은 상상도 하지 못했습니다. 1년 만에 다양한 사람들을 만나고 다양한 경험을 했습니다. 이 글을 쓰면서도 아직도 믿겨지지가 않습니다.

미래를 생각할 때마다 저는 불안, 두려움 그리고 기대 순으로 떠올립니다. 실력에 대한 불안과 두려움 그리고 1년 뒤 나는 어떤 장소에서 어떤 사람들과 어떤 일을 하고 있을 지에 대한 기대감

고 신해철 가수님이 인생은 불안과 두려움을 지고 가는 것이라고 했던 말이 떠올릅니다. 어쩌면 제가 지금 느끼고 있는 이 감정이 당연한거라고 생각하고 싶습니다.

그저 오늘 주어진 시간 속에서 더욱 나다워 질 수 있는 것에 집중하는 것이 중요하다는 사실을 다시 한번 깨달았습니다.

오늘도 수고했습니다.


참고