본문 바로가기

Cloud/Kubernetes

ceph 상태가 Long heartbeat ping time ~ 일 때

갑자기 잘 되던 ceph가 안된다고 연락을 받았다. ceph 상태를 보니 다음과 같았다.

[root@rook-ceph-tools /]# ceph -s
  cluster:
    id:     -
    health: HEALTH_WARN
            Long heartbeat ping times on back interface seen, longest is 1394.570 msec
            Long heartbeat ping times on front interface seen, longest is 1395.070 msec
 
  services:
    mon: 1 daemons, quorum a (age 12m)
    mgr: a(active, since 45s)
    mds: myfs:1 {0=myfs-b=up:active} 1 up:standby-replay
    osd: 2 osds: 2 up (since 12m), 2 in (since 6w)
 
  data:
    pools:   3 pools, 96 pgs
    objects: 5.33k objects, 507 MiB
    usage:   3.5 GiB used, 7.3 TiB / 7.3 TiB avail
    pgs:     96 active+clean
 
  io:
    client:   2.3 KiB/s rd, 1.6 KiB/s wr, 1 op/s rd, 0 op/s wr

해결 방법은 네트워크 매니저를 확인하는 것이다.

[root@test2 ~]# systemctl status NetworkManager
● NetworkManager.service - Network Manager
   Loaded: loaded (/usr/lib/systemd/system/NetworkManager.service; enabled; vendor preset: enabled)
   Active: active (running) since 화 2020-09-01 11:31:59 KST; 1 months 17 days ago
     Docs: man:NetworkManager(8)
 Main PID: 1310 (NetworkManager)
    Tasks: 3
   Memory: 7.5M
   CGroup: /system.slice/NetworkManager.service
           └─1310 /usr/sbin/NetworkManager --no-daemon

얘가 가상 인터페이스가 많이 붙으면 문제를 발생하는 경우가 많아 kube cluster 상에서는 꺼주는게 좋다. disable 이후 일정 시간이 지나자 ceph 상태가 정상화되는 것을 확인하였고, 문제없이 작동하였다.