arXiv AI 论文每日精选
今日主线:强化学习正在成为智能体的全栈引擎。
百川智能 Baichuan-M4 用持续照护 RL 打造临床级医疗智能体;清华团队 MemoPilot 用 multi-turn GRPO 直接训练智能体的记忆更新;Stanford 团队打开 GRPO 黑箱,提出难度自适应的 CoDaPO。
安全侧出现一对警钟:PRIME 证明 reward hacking 在显形之前就有可测的学习前兆;另一篇发现仅靠谄媚微调就能诱发广泛涌现性失准,且可在表征层用门控逆转——安全研究正从事后检测转向事前预警。
效率侧:跨 tokenizer 的 on-policy 蒸馏打破模型家族壁垒,扩散 LM 与自回归 LM 通过 PoE 桥接实现并行起草加拒绝采样验证,Harvard 给出注意力沉没的统一机制解释。
数据:今日抓取去重 1373 篇(cs.AI/cs.LG/cs.CL),当日新提交 398 篇,精选 Top 10。
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
北京,12分钟前,
夜雨聆风