首页/产品经理笔记 对齐语料(RLHF) 基于人类偏好的强化学习阶段 概念 定义 是基础模型到 大模型的成功转变 2026-02-12 周律廷 18 0 收藏点赞 有用吗? 0 上一篇 微调语料是什么? 下一篇 对齐语料 依赖于 _____的水平,所以 很多大模型的打分都招聘研究生学历的去打分