training-llms-megatron | 技能详情 | OpenClaw Study

使用 NVIDIA Megatron-Core 和先进的并行策略训练大型语言模型（20亿–4620亿参数）。在训练超过1B参数的模型、需要最大化 GPU 效率（H100 上约 47% 的 MFU）或需要张量/流水线/序列/上下文/专家并行时使用。该生产就绪框架已用于 Nemotron、LLaMA、DeepSe…

使用 NVIDIA Megatron-Core 和先进的并行策略训练大型语言模型（20亿–4620亿参数）。在训练超过1B参数的模型、需要最大化 GPU 效率（H100 上约 47% 的 MFU）或需要张量/流水线/序列/上下文/专家并行时使用。该生产就绪框架已用于 Nemotron、LLaMA、DeepSeek...

本页属于 OpenClaw Skills 学习体系，覆盖技能安装、分类导航与实战链接。