异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底
UCSD研究团队以经典游戏《逆转裁判》为舞台测试AI推理能力,结果显示o1和Gemini 2.5 Pro表现最佳;通过项目开源,更多经典游戏可用来测试AI模型性能。
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
港中文和清华团队推出Video-R1模型,首次将强化学习的R1范式应用于视频推理领域。通过升级的T-GRPO算法和混合图像视频数据集,Video-R1在视频空间推理测试中超越了GPT-4o,并且全部代码和数据集...
Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升
Anthropic推出Claude两项新功能:Research可快速检索网络和内部文件,与Google Workspace集成让用户无缝调用Gmail、日历和文档信息。
AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开
ICLR 2025首次大规模引入AI参与审稿,12222条建议被采纳,提升了89%的评审质量。研究发现,AI能有效改进模糊和不具体的评论,并提高作者与审稿人的互动。
刚刚,ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军
ICLR 2025时间检验奖揭晓,Adam优化器和注意力机制分别由Jimmy Ba、Yoshua Bengio领衔的两篇2015年论文摘得冠军与亚军。Adam让大模型训练更快更稳;注意力机制为Transformer奠定基础并广泛应用...
诺奖得主震撼宣言:AI一年完成10亿年「博士研究时间」!
表示,通过AI,DeepMind团队在一年里,完成了10亿年的博士研究时间!10亿年的科学探索被压缩
只因论文「碰瓷」,ICLR 2025区域主席直接拒稿!最强rebuttal,赢回荣耀
ICLR 2025会议一篇关于'模型崩溃'的研究因未引用同年COLM会议论文而遭拒稿,作者最终成功通过rebuttal被选为亮点论文。该研究揭露了合成数据对AI模型的潜在威胁,引发学术界广泛关注...
AI奥数大奖出炉,英伟达摘桂冠!14B破解34题暴击DeepSeek R1
第二届人工智能数学奥林匹克竞赛结果出炉,英伟达团队以14B小模型破解34道题目获胜。清华团队获得第二名。比赛奖金高达211.7152万美元,英伟达团队获第一名,总奖金26.2144万美元。