大規模言語モデル(LLM)のアライメントのためのシンプルな嗜好最適化。DPOに代わる参照モデル不要の手法で、性能面で優れており(AlpacaEval 2.0で+6.4ポイント)、参照モデルを必要とせずDPOより効率的です。DPO/PPOよりも簡潔で高速な学習を望む嗜好アライメントに使用してください。Post-…
大規模言語モデル(LLM)のアライメントのためのシンプルな嗜好最適化。DPOに代わる参照モデル不要の手法で、性能面で優れており(AlpacaEval 2.0で+6.4ポイント)、参照モデルを必要とせずDPOより効率的です。DPO/PPOよりも簡潔で高速な学習を望む嗜好アライメントに使用してください。Post-Tr......
このページは OpenClaw Skills 学習ハブの一部で、導入手順・カテゴリ導線・実践リンクを提供します。