通用奖励建模共1篇
速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升-创奇社

速递|DeepSeek联手清华新模型GRM开源,算力降低性能反升

DeepSeek与清华大学合作开发自我进化的AI模型,利用强化学习提升模型效率。该方法在多项基准测试中超越现有方法和模型,展示了更少计算资源下的优化性能,并计划以开源形式发布新模型。
Z Potentials的头像-创奇社Z Potentials7天前
090