首页/产品经理笔记 Deepseek R1是推理模型吗? 2026-03-02 周律廷 5 0 参考答案您暂无权限访问律廷老师该非开放云笔记,该笔记为限制权限私有域笔记。收藏点赞 有用吗? 0 上一篇 奖励模型再次优化的三种方法:PPO DPO GRPO ⭐️⭐️⭐️ 注意这是奖励模型的优化 下一篇 Deepseek V3是推理模型吗?