首页/产品经理笔记

奖励模型再次优化的三种方法：PPO DPO GRPO ⭐️⭐️⭐️ 注意这是奖励模型的优化

2026-03-02 周律廷 84 0

本篇文章已加密，请输入密码后查看。

有用吗？

技术支持在线客服

返回顶部