大约300行的教育性GPT实现。在OpenWebText上复现GPT-2(124M)。干净、易于修改的代码,便于学习变换器。作者:Andrej Karpathy。非常适合从零开始理解GPT架构。可在Shakespeare(CPU)或OpenWebText(多GPU)上训练。Model Architecture…
大约300行的教育性GPT实现。在OpenWebText上复现GPT-2(124M)。干净、易于修改的代码,便于学习变换器。作者:Andrej Karpathy。非常适合从零开始理解GPT架构。可在Shakespeare(CPU)或OpenWebText(多GPU)上训练。Model Architecture,......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。