🚨 NCP 서버 모니터링 안됨 현상
1. 문제 상황
서버를 강제 종료 후 다시 켜니, NCP Cloud Insight 대시보드에서 CPU/메모리 사용량이 표시되지 않는 문제가 발생했습니다.
콘솔에는 아무런 오류 메시지가 없었지만, 지표가 갱신되지 않아 원인 파악이 필요했습니다.
2. 원인 추측
NCP 고객센터 답변에 따르면, 서버 모니터링 지표는 Cloud Insight Agent가 동작해야 수집됩니다.
강제 종료 과정에서 이 Agent 프로세스가 비정상 종료되었을 가능성이 크다는 안내를 받았습니다.
3. 확인 과정
SSH로 서버 접속 후, Agent 프로세스 존재 여부를 확인했습니다:
ps -ef | grep agent
🔎 결과: agent.py, agent_updater.py 프로세스가 보이지 않고, grep 명령어만 출력됨 → Agent 미동작 상태 확인
4. 해결 방법
설치 경로(/home1/nbpmon/agent_controller_linux/)로 이동 후 재시작 스크립트 실행:
cd /home1/nbpmon/agent_controller_linux/
./restart_agent.sh
이후 다시 확인:
ps -ef | grep -E "agent.py|agent_updater.py" | grep -v grep
✅ 결과:
/home1/nbpmon/.../agent_updater.py
/home1/nbpmon/.../agent.py
→ Agent가 정상적으로 기동됨을 확인.
하드 리셋 및 설치방법
# 0) 경로 이동
cd /home1/nbpmon/agent_controller_linux
# 1) 완전 중지(실패해도 무시)
chmod +x stop_agent.sh start_agent.sh restart_agent.sh uninstall_agent.sh install_agent.sh || true
./stop_agent.sh || true
pkill -9 -f "agent.py|agent_updater.py" || true
# 2) 찌꺼기(pid/로그) 제거
find install_folders -name "*.pid" -delete 2>/dev/null
rm -rf logs/* 2>/dev/null
# 3) 재설치 → 기동
./uninstall_agent.sh || true
./install_agent.sh
./start_agent.sh
# 4) 프로세스/로그 즉시 확인
ps -ef | grep -E "agent.py|agent_updater.py" | grep -v grep
tail -n 120 logs/agent.log
5. 후속 조치
- NCP 콘솔 확인
약 1~3분 후 Cloud Insight 대시보드에서 CPU/메모리 지표가 정상적으로 표시됨. - 자동 기동 설정
서버 재부팅 시 자동 실행되도록 systemd 서비스 등록: - cd /home1/nbpmon/agent_controller_linux cp nsight-agent.service /etc/systemd/system/nsight-agent.service systemctl daemon-reload systemctl enable --now nsight-agent
- 로그 확인 (문제 발생 시)
- cd /home1/nbpmon/agent_controller_linux/logs tail -n 200 agent.log tail -n 200 agent_updater.log
6. 정리
- 문제: 서버 강제 종료 이후 모니터링 지표 미표시
- 원인: Cloud Insight Agent 프로세스 종료
- 해결: restart_agent.sh 실행 후 프로세스 정상 기동
- 후속 조치: systemd 자동 기동 등록 + 로그 모니터링
👉 결론: Cloud Insight 지표가 안 잡히면, 우선 Agent 상태부터 확인하자!
이제 같은 문제가 생겨도 위 순서대로 점검하면 빠르게 복구할 수 있습니다 🚀