알림
개요
알림은 GPU 사용률·메모리·디스크 등의 메트릭이 설정한 임계값을 초과하면 자동으로 통지를 보내는 기능입니다. 학습 완료 감지·이상 상태 조기 발견·비용 누수 방지에 활용합니다.
알림은 세 가지 구성 요소로 동작합니다.
┌─────────┐ 발생 ┌─────────┐ 실행 ┌─────────┐
│ 알림 규칙 │ ──────▶│ 알림 이벤트│ ──────▶│ 액션 │
└─────────┘ └─────────┘ └─────────┘
조건 정의 이력 기록 이메일 발송
| 구성 요소 | 역할 | 페이지 |
|---|---|---|
| 알림 규칙 | 메트릭 임계값과 평가 조건을 정의 | 모니터링 > 알림 > 알림 규칙 |
| 액션 | 알림 발생 시 누구에게 어떻게 보낼지 정의 | 모니터링 > 알림 > 액션 |
| 알림 이벤트 | 규칙이 발동된 시점의 이력 | 모니터링 > 알림 > 알림 이벤트 |
Alert.AlertRule.CREATE,Alert.AlertActionTemplate.CREATE권한- 알림 규칙을 만들기 전에 액션을 먼저 생성해야 합니다
평가 상태와 규칙 상태
알림 규칙은 두 종류의 상태를 가집니다.
| 평가 상태 | 의미 |
|---|---|
| 정상 (Ok) | 메트릭이 임계값 이내 |
| 알림 (Alert) | 임 계값을 초과해 알림이 발생한 상태 |
| 데이터 없음 (NoData) | 평가에 필요한 데이터가 부족 |
| 규칙 상태 | 의미 |
|---|---|
| 활성화 (Activated) | 주기적으로 평가되며 조건 충족 시 알림 발생 |
| 비활성화 (Paused) | 평가가 중단되어 알림이 발생하지 않음 (설정은 유지) |
1단계: 액션 생성
알림 발생 시 호출될 액션(현재는 이메일)을 먼저 만듭니다.
-
모니터링 > 알림 > 액션 > + 액션 생성으로 이동합니다.
-
다음 항목을 입력합니다.
항목 설명 액션 이름 식별용 이름 (예: GPU 장애 알림)액션 종류 이메일(웹훅은 추후 지원 예정)수신 이메일 사용자 검색으로 추가 또는 쉼표로 직접 입력 (1명 이상 필수) -
생성을 클릭합니다.
Slack 웹훅 등 외부 서비스 연동은 추후 추가될 예정입니다.
2단계: 알림 규칙 생성
- 모니터링 > 알림 > 알림 규칙 > + 알림 규칙 생성으로 이동합니다.
- 다음 항목을 입력합니다.
기본 정보
| 항목 | 예시 |
|---|---|
| 이름 | GPU 사용률 경고 |
| 설명 | GPU 사용률이 90%를 초과하면 알림 |
대상 리소스
| 항목 | 설명 |
|---|---|
| 리소스 타입 | 가상 머신 또는 오브젝트 스토리지 |
| 리소스 | 모니터링할 가상머신 또는 버킷 선택 |
| 메트릭 | 리소스 타입에 따라 선택 가능 (아래 표 참고) |
가상머신 메트릭
| 카테고리 | 메트릭 |
|---|---|
| GPU | 사용률(%), 메모리 사용량/총량(MiB), 온도(°C), 전력(W), 클럭 속도(MHz) |
| CPU | User · System · Idle · I/O Wait · IRQ · Soft IRQ · Steal · Guest · Nice (%) |
| 메모리 | Total · Available · Active · Inactive · Cached · Buffers · Free (KiB) · Swap |
| 네트워크 | RX/TX 대역폭(Bps) · 바이트 · 패킷 · 드롭 · 에러 |
| 스토리지 | 사용량(Bytes) · 읽기/쓰기 처리량(Bps) · IOPS · 지연 시간(sec) |
오브젝트 스토리지 메트릭
| 메트릭 | 설명 |
|---|---|
| 사용량 (Usage) | 버킷 사용 용량 (Bytes) |
| 오브젝트 수 | 버킷 내 오브젝트 개수 |
| GET / PUT / COPY / LIST | API 요청 횟수 |
| 멀티파트 업로드 | 멀티파트 업로드 작업 수 |
평가 조건
| 항목 | 설명 |
|---|---|
| 집계 방법 | 평균(avg) / 합계(sum) / 최솟값(min) / 최댓값(max) (AlertAggEnum) |
| 집계 간격 | 1분 / 5분 / 15분 / 30분 / 1시간 |
| 연산자 | > 초과 / >= 이상 / < 미만 / <= 이하 |
| 임계값 | 알림이 발동할 값 (예: 5, 90, 0.85) |
| 전체 평가 수 | 최근 평가할 데이터포인트 수 (예: 5): datapoints_to_evaluate |
| 알림 기준 수 | 그중 임계값을 충족해야 알림이 발동하는 횟수 (예: 3): datapoints_to_alert |
예: 집계 간격 5분, 전체 평가 수 5, 알림 기준 수 3 → 최근 25분 동안 5분 단위로 5번 측정해서 3번 이상 임계값을 초과하면 알림
시스템은 집계 간격만큼의 데이터를 모아 하나의 집계값으로 만든 뒤 평가합니다. 아직 끝나지 않은 진행 중 구간은 데이터가 불완전하므로 평가에서 제외됩니다.
예를 들어 GPU 사용률 임계값 80%, 집계 간격 5분 규칙에서 10:15~10:20 구간이 시작된 직후 GPU가 일시적으로 95%까지 치솟았다 하더라도, 5분 구간이 완료되어 실제 평균이 산출되기 전까지는 평가에 반영되지 않습니다. 5분이 지난 시점에서 평균이 72%로 계산되면 정상으로 판단됩니다.
평가 다이어그램
폼 우측의 미리보기 다이어그 램에서 설정한 조건이 어떻게 평가되는지 시각적으로 확인할 수 있고, 조건을 바꾸면 실시간으로 갱신됩니다.
- 초록색 점: 임계값 이내의 정상 데이터 포인트
- 노란색 점: 임계값을 초과한 데이터 포인트
- 빨간색 점: 알림이 실제로 발동한 시점 (알림 기준 수 충족)
- 점선: 임계값 기준선
액션 연결
방금 만든 액션을 선택해 연결합니다(여러 개 선택 가능).
- 생성을 클릭합니다.
활용 시나리오
GPU 과부하 알림 설정
- 모니터링 > 알림 > 액션 탭에서 이메일 액션을 만들고 수신자를 지정합니다.
- 알림 규칙 > + 알림 규칙 생성을 클릭합니다.
- 대상 리소스로 모니터링할 가상머신을 선택합니다.
- 메트릭을 GPU 사용률, 연산자를
>, 임계값을90으로 설정합니다. - 평가 조건을 집계 간격 5분, 전체 평가 수 5, 알림 기준 수 3으로 설정합니다.
- 우측 다이어그램에서 조건이 의도대로 동작하는지 확인합니다.
- 만들어 둔 이메일 액션을 선택한 뒤 생성을 클릭합니다.
오브젝트 스토리지 용량 알림 설정
- 액션이 없다면 먼저 이메일 액션을 만듭니다.
- 알림 규칙 생성에서 리소스 타입을 오브젝트 스토리지로 선택합니다.
- 모니터링할 버킷을 선택합니다.
- 메트릭을 사용량 (Usage), 연산자를
>=, 임계값을 원하는 용량(Bytes)으로 설정합니다. - 평가 조건과 액션을 설정한 뒤 생성을 클릭합니다.
알림 발생 후 원인 분석
- 모니터링 > 알림 > 알림 규칙에서 평가 상태가 Alert인 규칙을 클릭합니다.
- 이벤트 탭에서 최근 상태 전이 이력을 확인합니다.
- 이벤트를 클릭하면 차트 탭으로 이동해 발생 시점의 메트릭을 함께 볼 수 있습니다.
- 임계값 초과 원인을 파악한 뒤 필요한 조치를 취합니다.
자주 사용하는 알림 규칙
| 목적 | 메트릭 | 집계 / 간격 | 연산자 | 임계값 | 평가 / 발동 |
|---|---|---|---|---|---|
| 학습 완료 감지 | GPU 사용률 | avg / 5분 | < | 5 | 2 / 2 |
| GPU OOM 위험 | GPU 메모리 사용률 | max / 1분 | > | 90 | 3 / 3 |
| 가상머신 비정상 종료 감지 | CPU 사용률 | avg / 5분 | < | 1 | 1 / 1 |
| 디스크 풀 위험 | 디스크 사용률 | max / 5분 | > | 85 | 1 / 1 |
| GPU 유휴(비용 누수) | GPU 사용률 | avg / 1시간 | < | 30 | 1 / 1 |
알림 이벤트 확인
알림 규칙이 발동되면 모니터링 > 알림 > 알림 이벤트에 자동으로 이력이 기록됩니다.
| 컬럼 | 설명 |
|---|---|
| 발생 시간 | 알림이 트리거된 시각 |
| 규칙 | 발동된 알림 규칙명 |
| 상태 전환 | 정상 → 알림 / 알림 → 정상 등 |
| 임계값 / 초과 횟수 | 평가 조건 위반 정보 |
이벤트 행을 클릭하면 상세 페이지에서 메트릭 차트와 함께 상세 정보를 볼 수 있습니다.
알림 규칙 관리
모니터링 > 알림 > 알림 규칙 목록에서:
- 활성화 / 비활성화: 토글로 일시 중단 (규칙은 유지)
- 수정: 임계값·조건·액션 변경
- 삭제: 규칙 영구 제거
비활성화된 규칙은 평가되지 않으며, 알림 이벤트도 발생하지 않습니다. 유지보수 중인 가상머신에 일시 중지를 걸어두면 거짓 알림을 막을 수 있습니다.
규칙 상세 페이지 탭
규칙 목록에서 규칙을 클릭하면 상세 페이지의 4개 탭에서 다음을 확인할 수 있습니다.
| 탭 | 내용 |
|---|---|
| 개요 | 평가 상태, 마지막 평가 시각, 조건의 자연어 요약, 대상 리소스 (클릭으로 리소스 페이지 이동) |
| 차트 | 모니터링 메트릭 그래프. 임계값이 점선으로 표시되고 알림 발생 시점에 마커 표시. 최근 30분~48시간 |
| 액션 | 규칙에 연결된 알림 액션 목록. 클릭하면 액션 상세 페이지로 이동 |
| 이벤트 | 상태 전이 이력 (정상→알림, 알림→정상). 이벤트 클릭 시 그 시점의 차트로 자동 이동 |
자주 묻는 질문
평가 상태가 "데이터 없음"입니다
- 대상 가상머신이 실행 중 상태인지 확인
- 규칙이 활성화 상태인지 확인 (일시 중지된 규칙은 평가되지 않음)
- 규칙 생성 직후에는 데이터가 충분히 쌓일 때까지 일시적으로 표시될 수 있음
알림 이메일이 오지 않습니다
- 규칙에 액션이 정상적으로 연결되어 있는지 확인
- 액션의 수신자 이메일이 올바른지 확인
- 스팸·정크 메일함 확인
전체 평가 수와 알림 기준 수의 차이는?
- 전체 평가 수: 최근 몇 개의 데이터 포인트를 확인할지 (윈도우 크기)
- 알림 기준 수: 그중 몇 개가 임계값을 초과해야 알림을 발생시킬지 (트리거 조건)
- 둘을 같게 설정하면 모든 포인트가 초과해야 알림이 발생 (엄격), 알림 기준 수를 1로 두면 한 번만 초과해도 발생 (민감)
액션을 삭제해도 되나요?
다른 규칙에서 사용 중인 액션을 삭제하면 해당 규칙의 알림이 끊깁니다. 액션 상세 페이지의 사용 중인 규칙 섹션을 먼저 확인하세요.