메트릭 탐색기
개요
메트릭 탐색기는 GPU·CPU·메모리·네트워크·디스크 메트릭을 시계열 차트로 비교 분석하는 도구입니다. 학습 진행 모니터링·병목 분석·유휴 자원 감지·이상 패턴 추적에 사용합니다. 차트별로 여러 쿼리를 구성하고, URL로 공유하거나 CSV로 내보낼 수 있습니다.
Metric.Metric.READ권한
접속 방법
| 진입점 | 용도 |
|---|---|
| 모니터링 > 메트릭 | 여러 가상머신·메트릭을 한 화면에서 비교 (탐색기 본체) |
| 컴퓨트 > 가상머신 > 가상머신 선택 > 메트릭 탭 | 단일 가상머신의 사전 구성된 차트 |
| 컴퓨트 > 대시보드 > 가상머신 클릭 | 해당 가상머신의 메트릭 탭으로 이동 |
주요 메트릭
| 메트릭 | 설명 | 활용 |
|---|---|---|
| GPU 사용률 (%) | GPU SM 코어 점유율 | 학습 중 GPU 활용도 |
| GPU 메모리 사용량 | GPU VRAM 점유 | OOM 위험 사전 감지 |
| GPU 메모리 클럭 / SM 클럭 | GPU 동작 클럭 | 스로틀링 진단 |
| GPU 전력 사용량 / 온도 | 전력·온도 | 하드웨어 한계 도달 여부 |
| CPU 사용률 (%) | CPU 코어 점유율 | 데이터 로더 병목 확인 |
| 메모리 사용률 (%) | 시스템 RAM 점유율 | 메모리 부족 감지 |
| 네트워크 I/O | 인바운드·아웃바운드 트래픽 | 데이터 전송 속도 확인 |
| 블록 스토리지 사용량 | 디스크 사용률 | 디스크 풀 여부 확인 |
쿼리 구성
각 차트에는 여러 개의 쿼리를 추가할 수 있어, 같은 차트 위에서 여러 메트릭을 겹쳐 비교할 수 있습니다.
1. 쿼리 추가
차트 우측 상단 쿼리 추가 버튼을 클릭하면 새 쿼리 행이 추가됩니다.
각 쿼리에서 설정하는 항목:
| 항목 | 설명 |
|---|---|
| 리소스 유형 | 가상머신 / 가상 클러스터 등 |
| 가상머신 | 모니터링 대상 (검색 후 선택) |
| 메트릭 | GPU 사용률, GPU 메모리 등 |
| Split by | 모두(집계) 또는 개별 선택(예: GPU 0, GPU 1을 따로 표시) |
2. 단위 일관성 제약
같은 차트에는 동일 단위의 메트릭만 추가할 수 있습니다(예: % 메트릭과 MB/s 메트릭 혼합 불가). 단위가 다른 메트릭은 차트를 추가해 비교하세요.
3. 쿼리 복제·삭제
쿼리 행 우측의 복제 / 삭제 버튼으로 빠르게 변형할 수 있습니다(예: 동일 메트릭을 다른 가상머신에 적용).
차트 관리
| 작업 | 설명 |
|---|---|
| 차트 추가 | 한 페이지에 최대 8개 차트 배치 (MAX_CHARTS) |
| 차트 복제 | 기존 차트의 쿼리·설정을 복사 |
| 차트 이동 | 위/아래 버튼으로 순서 변경 |
| 차트 삭제 | 차트 제거 |
| 펼치기 / 접기 | 차트 영역을 임시로 축소 |
차트당 쿼리는 최대 12개 (MAX_QUERIES)까지 추가할 수 있습니다.
차트 설정
차트별 설정 패널에서 시각화를 조정할 수 있습니다.
- 차트 유형: Line / Area / Bar / Table
- 차트 제목: 자동 / 직접 입력 / 숨김
- 범례 위치: 하단 / 우측
- Y축 범위: 자동 또는 최소·최대 직접 지정
- Y축 순서: 좌/우 축 교체
- 호버 카드: 마우스오버 시 상세 표시
여러 차트를 동일 시간 범위로 묶어 시각적으로 비교하기 좋습니다.
시간 범위 및 줌
상단 글로벌 툴바에서 시간 범위·집계 단위를 변경합니다.
| 범위 | 적합한 상황 |
|---|---|
| 최근 1시간 | 진행 중인 학습 모니터링 |
| 최근 6시간 | 단기 학습 작업 흐름 확인 |
| 최근 24시간 | 야간 학습 결과 확인 |
| 최근 7일 / 30일 | 장기 추세 분석 |
차트에서 드래그하면 해당 구간으로 줌인됩니다. 이전 범위로 되돌리기 버튼으로 줌 이력을 단계별로 되돌릴 수 있습니다.
URL 공유
상단 툴바의 공유 버튼을 누르면 현재 차트 구성·시간 범위가 인코딩된 URL이 클립보드에 복사됩니다. 동료에게 보내거나 인시던트 보고서에 첨부하면 동일 화면을 그대로 재현할 수 있습니다.
이상 시점이 발견되면 줌 → 공유 링크 복사 → 채널톡/Slack에 공유. 받은 사람은 클릭 한 번으로 같은 차트를 확인할 수 있습니다.
CSV 다운로드
상단 툴바의 CSV 다운로드로 현재 차트의 시계열 데이터를 내보낼 수 있습니다. 외부 분석 도구(Excel, Python pandas 등)에서 추가 분석 가능합니다.
CSV 컬럼: 타임스탬프 + 각 쿼리의 값.
저장된 메트릭
자주 보는 차트 구성을 저장된 메트릭에 저장해 빠르게 불러올 수 있습니다.
저장된 메트릭은 현재 브라우저에만 저장되며 다른 기기·브라우저에서는 사용할 수 없습니다. 팀과 공유해야 하는 구성은 URL 공유를 사용하세요.
차트에서 알림 바로 만들기
GPU 사용률처럼 임계값 기반 알림을 걸고 싶을 때, 차트의 알림 생성 버튼을 클릭하면 현재 쿼리·범위가 자동으로 채워진 채로 알림 생성 페이지로 이동합니다.
차트에 이미 걸린 알림 규칙은 임계선과 함께 표시되며, 알림 규칙 보기 → 링크로 상세 페이지로 이동할 수 있습니다.
활용 팁
GPU 사용률이 낮을 때
- 데이터 로더 병목 →
num_workers증가, 데이터 prefetch 적용 - 배치 크기 부족 → 배치 크기 증가
- CPU 연산 병목 → CPU 사용률 차트와 함께 비교, 프로파일러로 진단
GPU 메모리가 100% 근접할 때
- 배치 크기 감소, mixed precision(fp16/bf16) 적용
- gradient checkpointing 활성화
- 더 큰 GPU 인스턴스 타입으로 전환
시스템 메모리가 100% 근접할 때
- 데이터 캐싱 줄이기
- DataLoader의
pin_memory=False시도 - 더 큰 메모리 인스턴스로 전환