テキストを生の Unicode として扱う言語非依存のトークナイザ。BPE と Unigram の両アルゴリズムをサポート。高速(約50k 文/秒)、軽量(約6MB のメモリ)、決定論的な語彙を提供。T5、ALBERT、XLNet、mBART で利用。事前トークナイゼーションを行わず生テキストで学習可能。多言…
テキストを生の Unicode として扱う言語非依存のトークナイザ。BPE と Unigram の両アルゴリズムをサポート。高速(約50k 文/秒)、軽量(約6MB のメモリ)、決定論的な語彙を提供。T5、ALBERT、XLNet、mBART で利用。事前トークナイゼーションを行わず生テキストで学習可能。多言語対...
このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。