对齐语料（RLHF）基于人类偏好的强化学习阶段概念定义是基础模型到大模型的成功转变 - 产品经理笔记