Post

NUMA node read from SysFS had negative value -1 에러

해당 에러는 GAN이 한창 쏟아져 나올때 와! 그림! 와! 채색!이라는 생각에 그림 똥손이던 나도 기계의 힘을 빌리면 금손이 될 수 있을까 라는 행복회로로 포켓몬 채색 GAN을 돌려보기 위해 삽질했던 과정이다.

CUDA 와 Cudnn을 모두 설치하고 학습을 돌리다 보면 중간에 이런 에러가 뜨면서 뻗는데,

Cannot set memory growth on device when virtual devices configured failed to create cublas handle: cublas_status_not_initialized cannot set memory growth on device when virtual devices configured op_requires failed at conv_ops.cc:1106 : not found: no algorithm worked!

NUMA node read from SysFS had negative value -1

어렵사리 설치하고 이제 끝이라고 좋아하고 있다가 다시 절망에 빠져들었다.

일단 에러 로그 마지막 줄부터 확인해보자

NUMA가 있긴 한데, 음수이다? 뭐지 그래픽카드가 안잡힌건가

1
lspci | grep -i nvidia

를 입력하면 01:00.0 VGA ~~~~~ 를 볼 수 있다.

분명 그래픽카드가 잡히긴 잡혔다는 의미이다.

1
2
3
cd sys/bus/pci/devicecs/
ls

를 통해 해당 경로에 위치한 장치들을 보면 0000:이 추가된 그래픽카드가 있다.

1
2
cat /sys/bus/pci/devices/0000\\:01\\:00.0/numa_node

에러 메세지와 같이 -1을 가져온다.

이제 이것을 0으로 바꾸어주면 문제가 해결될 것 같다

1
2
echo 0 | sudo tee -a /sys/bus/pci/devices/0000\\:01\\:00.0/numa_node

아까 -1이 나왔던 값을 다시 확인해본다.

1
2
cat /sys/bus/pci/devices/0000\\:01\\:00.0/numa_node

이제 정상적으로 0이 나온다.

한가지는 해결

This post is licensed under CC BY 4.0 by the author.