VAPO学习笔记

字节Seed团队提出了VAPO, 通过结合DAPO以及VC-PPO的优点,来解决long CoT任务中的一些问题,来提高reasoning model的表现

VC-PPO学习笔记

字节Seed团队提出了 Value-Calibrated PPO (VC-PPO), 用于解决PPO的value initialization bias 以及 reward signal decay 问题