2025-01-27 03:16
AMD GPU MI300X를 써봤다.
회사에서 MI300X 16장 Infinite Band로 연결된걸 받아서 한번 써봤는데, 생각보다 많이 괜찮다?? VRAM이 192GB인게 진짜 깡패..
CDNA 호환성이 PyTorch 2.4부터는 거의 완벽하게 CUDA랑 호환되는 것 같다. 코드를 고칠 필요가 1도 없고, PyTorch 설치만 cuda가 아니라 RoCM 버전으로 설치하면 된다.
성능은 a100과 h100의 중간 정도인 것 같은데, 이상하게 특정 operation에서 성능이 많이 떨어진다. 특히 in-place transpose같은 operation을 넣으면 a100만큼 느려지거나, 아니면 a100보다도 느려지는 것 같기도.
그럼에도 GPU 1장당 vRAM 192GB로 16장을 쓰는건 H100 32장 쓰는 것보다도 global batch 사이즈에서 장점.
그리고 멘토한테 물어보니 H100 가격대비 거의 절반인 것 같던데..
AMD 화이팅해서 NVIDIA 가격좀 낮춰주길 ㅠ