scaling laws共1篇
RL for LLMs,强化学习的 Scaling Law 才刚刚起步?-创奇社

RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

近期研究者通过奖励模型增强通用奖励模型在推理阶段的可扩展性,同时使用强化学习提升LLM性能。然而,当前强化学习算法仍有改进空间,奖励稀疏性是主要难点之一。
机器之心的头像-创奇社机器之心6天前
090