练习两天半,从零复现reinforce++和reinforce++-baseline算法(顺便吐槽trl框架,被坑到了),从原理到代码实现,清晰易懂,一眼就会
对reinforce++和reinforce++-baseline的原理进行讲解,并通过trl对其进行复现(trl本身不支持两种算法,需要进行一些修改)
reinforce++通过对奖励和优势进行标准化来稳定训练过程,reinforce++-baseline借鉴了grpo的思想,对一条输入多次采样,使用其奖励均值作为baseline,并且去掉了grpo中除以标准差的操作,对优势进行标准化(batch内)。
立即观看