用于在 TWCC/NCHC HPC 集群上调试 SLURM 作业的失败、挂起、崩溃或异常行为。触发情形:作业挂起、超时、CUDA 错误、OOM(内存不足)、段错误、NCCL 超时、srun 错误、退出代码、节点下线(drain)、GPU 利用率 0%、死锁、作业被取消、容器内 ImportError、训练缓慢…
用于在 TWCC/NCHC HPC 集群上调试 SLURM 作业的失败、挂起、崩溃或异常行为。触发情形:作业挂起、超时、CUDA 错误、OOM(内存不足)、段错误、NCCL 超时、srun 错误、退出代码、节点下线(drain)、GPU 利用率 0%、死锁、作业被取消、容器内 ImportError、训练缓慢,或...
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。