## 🔥 今日重点
[OpenAI推出DeployCo,助力企业围绕智能构建应用]
1. OpenAI宣布成立OpenAI Deployment Company,旨在帮助组织构建和日常部署AI系统;2. OpenAI同意收购Tomoro,从而获得约150名Forward Deployed Engineers;3. 新公司与TPG、Advent、Bain Capital等19家投资和咨询机构合作,由TPG领投。
([原文链接](https://openai.com/index/openai-launches-the-deployment-company))
[自动评分作为奖励:从隐式偏好到显式多模态生成标准]
1. 作者提出自动评分奖励(ARR)框架,将VLM的隐式偏好知识外化为提示特定的评估准则,抑制位置偏差;2. 提出评分策略优化(RPO)方法,将ARR的结构化多维评估蒸馏为鲁棒的二元奖励信号;3. 在文本到图像生成和图像编辑基准测试中,ARR-RPO优于成对奖励模型和VLM评判,验证了显式分解隐式偏好的有效性。
([原文链接](https://arxiv.org/abs/2605.08354))
[jina-embeddings-v5-omni:基于冻结塔组合的文本几何保持多模态嵌入]
1. 提出 frozen-encoder model composition 方法,通过冻结文本模型和新增编码器仅训练连接组件实现多模态嵌入;2. 训练参数仅占联合模型总权重的 0.35%,保持与原文本模型完全一致的文本嵌入输出;3. 在图像、音频、视频输入上取得与更大规模多模态嵌入模型相近的性能。
([原文链接](https://arxiv.org/abs/2605.08384))
## 🔬 学术前沿
[开放问答中校准评估的语义采样框架]
1. 提出Sem-ECE框架,通过语义聚类采样频率来估计置信度;2. 设计了两个渐进无偏估计量Sem₁-ECE和Sem₂-ECE;3. 在三个开放问答基准上对五个商用LLM的实验验证了理论预测。
([原文链接](https://arxiv.org/abs/2605.08432))
## 🤖 技术产品
[AWS上基础模型训练与推理的构建模块]
1. 基础模型的扩展已从单一预训练扩展转向预训练、后训练(如SFT和RL)和测试时计算三种扩展定律;2. 三种扩展共同要求紧耦合加速计算、高带宽低延迟网络和分布式存储等基础设施;3. 开源软件生态在模型开发、集群管理和运维工具中扮演日益关键的角色。
([原文链接](https://huggingface.co/blog/amazon/foundation-model-building-blocks))
[后训练中能力激发与能力创造的区分:自由能视角]
1. 论文提出了“可达支持”概念区分能力激发与能力创造;2. 通过自由能视角将SFT和RL视为对预训练参考分布的重新加权;3. 关键在于训练是否扩展模型可达行为空间。
([原文链接](https://arxiv.org/abs/2605.08368))
[视觉-语言模型的可靠性所在:注意力、隐藏状态与因果电路的机制研究]
1. 论文提出VLM可靠性探针(VRP),对LLaVA-1.5、PaliGemma、Qwen2-VL三个家族的3-7B参数模型进行机理分析;2. 发现注意力结构与正确率相关性近乎为零(R≈0.001),但因果掩码仍需注意力机制;3. 隐藏状态线性探测在POPE任务上AUROC>0.95,且晚期层神经元消融显示不同融合架构的可靠性分布差异显著。
([原文链接](https://arxiv.org/abs/2605.08200))
[长文本幻觉检测的合理性检查]
1. 提出 Force 和 Remove 两种oracle测试方法,用于区分检测是否依赖答案伪影;2. 发现当前幻觉检测方法主要利用最终答案表面特征而非推理结构;3. 轻量级方法TRACT基于词汇轨迹特征实现与基线相当的鲁棒性能。
([原文链接](https://arxiv.org/abs/2605.08346))
[AIPO: : Learning to Reason from Active Interaction]
1. AIPO框架通过验证、知识、推理三个协作智能体在训练中提供细粒度指导,扩展LLM推理能力边界;2. 训练后策略模型可独立推理,无需依赖协作智能体;3. 在AIME、MATH500、GPQA-Diamond、LiveCodeBench等基准测试上表现提升。
([原文链接](https://arxiv.org/abs/2605.08401))
[面向偏好的嵌入,而非语义]
1. 论文定义“偏好相似性”概念,与语义相似性区分,用于自由文本意见的向量嵌入;2. 揭示现有嵌入模型存在不变性问题,语义噪声(风格、措辞)会干扰偏好信号;3. 通过合成训练数据打破语义与偏好的相关性,在11个在线讨论数据集上提升偏好预测效果。
([原文链接](https://arxiv.org/abs/2605.08360))
[空间启动优于语义提示:基于网格的方法提升LLM图表数据提取准确性]
1. 空间网格法(坐标网格叠加)将图表数据提取误差从25.5%降至19.5%(SMAPE),且统计显著(p<0.05);2. 语义方法(如元数据优先框架和思维链)未能带来统计显著改进;3. 实验基于合成数据集,未在真实图表上验证。
([原文链接](https://arxiv.org/abs/2605.08220))
[Magis-Bench:评估LLM在治安法官级法律任务上的表现]
1. 提出了Magis-Bench基准,包含74道来自巴西2023-2025年司法考试的问题;2. 评估了23个最新LLM,Gemini-3-Pro-Preview得分最高(6.97/10);3. 所有模型得分低于70%,显示司法级推理仍有挑战。
([原文链接](https://arxiv.org/abs/2605.08437))
[电路能告诉我们多少?衡量语言模型电路的一致性与特异性]
1. 该研究通过边归因修补方法,在6个任务和7个模型中测量了语言模型电路的一致性(任务内组件复用程度)和特异性(任务间组件独特性);2. 发现任务内电路组件复用率高且对性能必要,但电路并非任务特异性,不同任务间电路存在大量因果重要重叠;3. 任务特异性组件仅占电路性能的一小部分,质疑了当前电路方法对模型行为进行目标理解和干预的有效性。
([原文链接](https://arxiv.org/abs/2605.08348))
[SalesSim:将多模态语言模型作为零售用户模拟器的基准测试与对齐]
1. 提出了SalesSim框架,用于评估多模态大语言模型在多人、多模态、工具增强的在线零售对话中模拟真实客户行为的能力;2. 基准测试了6个开源和闭源模型,发现它们在决策一致性(与人物设定的对齐度)和对话质量方面存在不足,最强模型对齐度低于79%;3. 提出UserGRPO强化学习方法,使基线模型的决策对齐度提升13.8%,同时改善对话质量。
([原文链接](https://arxiv.org/abs/2605.08334))
[MemQ:在溯源DAG上将Q学习集成到自进化记忆智能体]
1. MemQ将Q-learning与TD(λ) eligibility traces应用于基于provenance DAG的记忆回溯,使信用通过结构距离而非时间距离传播;2. 在涉及OS交互、函数调用、代码生成、多模态推理、具身推理和专家级QA的六个基准测试中,MemQ均取得最高成功率;3. 该研究将问题形式化为Exogenous-Context MDP,并提供了γ和λ参数选择的理论指导。
([原文链接](https://arxiv.org/abs/2605.08374))
[CoCoDA:面向工具增强智能体的协同演化组合DAG]
1. 提出CoCoDA框架,通过组合代码DAG结构实现工具库与规划器共同进化;2. 采用类型化DAG检索方法,在固定上下文预算内控制工具库规模增长;3. 在数学推理、表格分析和代码任务上,使8B模型性能达到或超过32B模型。
([原文链接](https://arxiv.org/abs/2605.08399))
[PLACO:人机团队中实现成本效益性能的多阶段框架]
1.提出PLACO多阶段框架,用于提升人机团队在分类任务中的成本效益;2.基于贝叶斯规则,假设人与模型输出在给定真实标签下条件独立以融合输出;3.框架将确定性的标注者(人类)与概率性的分类器(模型)相结合。
([原文链接](https://arxiv.org/abs/2605.08388))
[CHIMA2026 | 杨旭:连续性全病程服务的“天总模式”]
1. 杨旭在CHIMA2026会议上介绍了“天总模式”的连续性全病程服务;2. 该模式聚焦全流程服务连贯性,属于医院管理创新实践;3. 内容来源于CHIMA(中国医院信息网络大会)的会议报道。
([原文链接](https://www.hit180.com/78588.html))
[有效解释支持不确定性下的规划]
1. 提出一种计算模型,将自然语言解释转换为程序化指导(策略先验与价值图),并让规划代理在不完全观察下执行;2. 通过四个预注册实验收集1200个解释样本,验证高评分解释更具帮助性并提升导航表现;3. 研究揭示了程序性解释作为效用导向的沟通机制,语言在不确性环境下如何指导行动。
([原文链接](https://arxiv.org/abs/2605.08406))
[信念还是电路?上下文图学习的因果证据]
1. 研究通过图随机游走任务探究LLM上下文学习机制,发现模式匹配与结构推理两种机制并行存在;2. PCA分析显示中间混合比例下两种图拓扑编码在正交主子空间中同时出现;3. 残差流激活修补和线性干预实验支持双机制假说。
([原文链接](https://arxiv.org/abs/2605.08405))
[2026年初ChatGPT应用的扩展之路]
1. 2026年Q1,通常女性姓名用户占ChatGPT用户超半数;2. 35岁以上用户消息量占比上升;3. 拉丁美洲、亚太和非洲多国的人均消息排名上升。
([原文链接](https://openai.com/signals/research/2026q1-update))
[利用大型视觉-语言模型对遥感影像进行建成环境推理]
1.该论文研究利用大语言模型处理遥感图像以分析建筑环境,包括设计建议和风险评估;2.比较了InternVL和Qwen等模型在生成建筑环境建议的准确性和可靠性;3.论文发布在arXiv预印本平台,尚未经过同行评审。
([原文链接](https://arxiv.org/abs/2605.08404))
[SkillLens:面向成本高效LLM智能体的自适应多粒度技能复用]
1. SkillLens提出了一种四层技能图(策略、战略、过程、原语)和混合粒度检索机制;2. 在MuLocbench和ALFWorld基准上,SkillLens相比基线方法在bug定位中提升6.31个百分点,任务成功率从45.00%提升至51.31%;3. 论文提供了理论分析表明混合粒度适应在稀疏不匹配假设下成本为次线性。
([原文链接](https://arxiv.org/abs/2605.08386))
[改变我的观点?在线话语中的说服与极化动态]
1. 研究使用大语言模型分析Reddit r/ChangeMyView子版块的辩论,预测观点改变;2. 发现让步、共情策略增加观点改变概率,正面反驳和可信度攻击降低概率;3. 采用混合机器辅助编码识别十种修辞策略。
([原文链接](https://arxiv.org/abs/2605.08383))
---
*信息来源:OpenAI Blog、arXiv、HIT专家网等*
*免责声明:本文仅作信息汇总,不构成任何投资建议或医疗建议。*
*原文链接均附于条目末尾,点击可查看完整内容。*
夜雨聆风