通用奖励建模-创奇社

速递｜DeepSeek联手清华新模型GRM开源，算力降低性能反升

DeepSeek与清华大学合作开发自我进化的AI模型，利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型，展示了更少计算资源下的优化性能，并计划以开源形式发布新模型。

Z Potentials7天前

090