将文本视为原始 Unicode 的语言无关分词器。支持 BPE 和 Unigram 算法。速度快(≈50k 句/秒)、占用小(约 6MB 内存)、词表确定性。被 T5、ALBERT、XLNet、mBART 等采用。可在不做预分词的情况下对原始文本进行训练。适用于需要多语言支持、CJK 语言或可重复的分词场景。…
将文本视为原始 Unicode 的语言无关分词器。支持 BPE 和 Unigram 算法。速度快(≈50k 句/秒)、占用小(约 6MB 内存)、词表确定性。被 T5、ALBERT、XLNet、mBART 等采用。可在不做预分词的情况下对原始文本进行训练。适用于需要多语言支持、CJK 语言或可重复的分词场景。To......
本页属于 OpenClaw Skills 学习体系,覆盖技能安装、分类导航与实战链接。