AI 前沿日报 2026-05-14
2026 年 5 月 14 日
📝 博客
Building a safe, effective sandbox to enable Codex on Windows
OpenAI 为在 Windows 上安全运行 Codex 编码代理,设计并实现了一个自定义沙箱环境。该沙箱通过合成 SID、写入受限令牌和防火墙规则,严格控制文件访问与网络权限,确保代理操作既安全又高效。最终方案采用“ elevated sandbox ”架构,需管理员权限设置,但提供了比早期原型更可靠的隔离能力。
来源: OpenAI Blog · 发表于 2026-05-13 · https://openai.com/index/building-codex-windows-sandbox
Introducing Claude for Small Business
Anthropic推出面向中小企业的Claude for Small Business,通过集成QuickBooks、PayPal、HubSpot等常用工具,提供15个现成的自动化工作流,帮助中小企业处理 payroll、月末结算、营销活动等重复性任务。该方案强调数据安全和权限控制,并与PayPal合作推出免费AI应用课程,同时开展巡回培训以提升中小企业AI应用能力。
来源: Anthropic Blog · 发表于 2026-05-13 · https://www.anthropic.com/news/claude-for-small-business
💬 社区讨论
Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
讨论的核心话题是一个名为 Needle 的开源 AI 模型,它仅 2600 万参数,专注于工具调用功能,旨在在消费级设备上运行。该模型受到关注是因为它成功将 Gemini 的工具调用能力压缩到极小的模型中,实现了高性能和本地微调的可能性。
来源: Hacker News · points=636, comments=182 · 发表于 2026-05-12 · https://news.ycombinator.com/item?id=48111896
The US is winning the AI race where it matters most: commercialization
讨论的核心话题是美国在人工智能商业化方面的领先地位。受关注的原因在于文章指出美国在云基础设施、数据和商业化层面领先,拥有AWS、Azure等全球 hyperscaler,以及YouTube、GitHub等关键数据平台,这些因素共同构成了其AI竞争优势。
来源: Hacker News · points=160, comments=442 · 发表于 2026-05-13 · https://news.ycombinator.com/item?id=48121929
Setting up a free *.city.state.us locality domain (2025)
讨论的核心话题是在美国免费注册一个形如 `*.city.state.us` 的行政区划域名。该讨论受关注是因为它提供了一种获取免费本地域名的详细方法,涉及政府遗留域名系统的使用和实际操作步骤,吸引了希望拥有个性化免费域名的技术爱好者。
来源: Hacker News · points=474, comments=153 · 发表于 2026-05-13 · https://news.ycombinator.com/item?id=48122635
Making the news available at no cost is a victory
讨论的核心是新闻内容免费开放的意义。该话题因强调免费获取新闻的价值而受关注,引发关于媒体可持续性与公共信息可及性的广泛讨论。
来源: Hacker News · points=104, comments=107 · 发表于 2026-05-13 · https://news.ycombinator.com/item?id=48126156
Tell HN: Dont use Claude Design, lost access to my projects after unsubscribing
讨论的核心话题是用户取消Claude Design订阅后无法访问原有项目,以及Claude平台在订阅管理、数据保留政策上的问题。该讨论受关注是因为用户普遍对AI工具的数据控制权、订阅服务条款透明度以及平台稳定性存在担忧,同时涉及对Claude Design产品设计能力的争议性评价。
来源: Hacker News · points=139, comments=58 · 发表于 2026-05-13 · https://news.ycombinator.com/item?id=48128003
The Trillion-Parameter Dilemma: MiMo-V2.5-Pro went open-source (1.02T params). Is self-hosting worth it when the API costs $70 for 387M tokens?
小米开源了万亿参数的MiMo-V2.5-Pro模型(1.02万亿总参数,420亿激活参数),采用MIT许可并支持百万级上下文。该模型在API上实现了96%的缓存命中率,387百万token总花费仅70美元,展现出低成本持续自主编码能力。然而本地部署需至少4张A100 80GB显卡,硬件成本高昂,对非全天候开发者而言API更具经济性。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-13 · https://www.reddit.com/r/LocalLLaMA/comments/1tbtinr/the_trillionparameter_dilemma_mimov25pro_went/
AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
Ovis2.6-80B-A3B 是 Ovis 系列多模态大语言模型的最新版本,采用 MoE 架构,总参数量达 800 亿,但推理时仅激活约 30 亿参数,兼顾高性能与低服务成本。模型支持最长 64K 上下文和高分辨率图像(最高 2880×2880),并新增“Think with Image”功能,能主动分析图像区域以提升视觉推理能力,同时在 OCR、文档和图表理解方面进一步增强。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-13 · https://www.reddit.com/r/LocalLLaMA/comments/1tby79g/aidcaiovis2680ba3b_hugging_face/
TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).
TextGen 已转型为无需安装的跨平台桌面应用,提供与 LM Studio 类似的开源本地化 AI 模型交互体验。其核心优势包括完全离线运行、支持多种硬件架构的便携版本、内置网页搜索与工具调用功能,以及严格遵循隐私保护原则(不收集用户数据)。项目基于 AGPLv3 开源协议,持续集成 ik_llama.cpp 等前沿优化技术。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-13 · https://www.reddit.com/r/LocalLLaMA/comments/1tbyyee/textgen_is_now_a_native_desktop_app_opensource/
qwen3.6 just stops
用户报告Qwen3.6模型在执行任务中途停止,该问题出现在qwen-code CLI和opencode环境中。用户使用vLLM配合Docker Compose部署模型,并询问可能的解决方法。资讯未提供具体原因或解决方案,仅描述了问题现象和部署配置。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-13 · https://www.reddit.com/r/LocalLLaMA/comments/1tbzr64/qwen36_just_stops/
MI50s Qwen 3.6 27B @52.8 tps TG @1569 tps PP (no MTP, no Quant)
在MI50(2018年显卡)上,Qwen3.6-27B模型以全精度、无量化、无MTP优化的情况下,实现了单推理请求下52.8 tokens/s的生成吞吐和1569 tokens/s的预填充吞吐,性能表现良好。测试使用vLLM fork推理引擎,在TP8张量并行下运行,结果显示模型在代理任务中具备可用性,且仍有通过软硬件优化提升的空间。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-13 · https://www.reddit.com/r/LocalLLaMA/comments/1tc9j6u/mi50s_qwen_36_27b_528_tps_tg_1569_tps_pp_no_mtp/
Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]
研究人员提出一种快速-慢速学习框架,将模型参数作为慢权重,优化上下文作为快权重,使大语言模型能同时利用参数更新和上下文学习的优势。该框架在推理任务上比仅使用参数更新的方法样本效率提高3倍,遗忘更少且可塑性更好,能持续适应新任务。
来源: Reddit r/ML · 发表于 2026-05-13 · https://www.reddit.com/r/MachineLearning/comments/1tbvsxo/learning_fast_and_slow_towards_llms_that_adapt/
Scenema Audio: Zero-shot expressive voice cloning and speech generation [N]
Scenema Audio 是一个零样本情感语音克隆与语音生成模型,通过分离声音身份与情感表现,允许用户用文本描述情感状态(如愤怒、兴奋),并可选参考音频确定声音身份,实现任意声音演绎任意情感。模型基于扩散架构,虽存在生成不稳定问题,但输出更自然、情感表现优于主流TTS系统,适用于音视频制作的后编辑流程,并提供Docker部署方案与开源代码。
来源: Reddit r/ML · 发表于 2026-05-13 · https://www.reddit.com/r/MachineLearning/comments/1tcdj2d/scenema_audio_zeroshot_expressive_voice_cloning/
Trained transformer-based chess models to play like humans (including thinking time) [P]
研究人员训练了基于Transformer的棋类模型,模拟人类下棋行为(包括思考时间),覆盖约800至2500+ Elo评分区间,每个区间配备走子、思考时间和胜率三个子模型。模型参数量仅900万,走子准确率优于MAIA-2且接近MAIA-3,但高段位深度计算能力有限。训练数据来自10亿局Lichess对局,采用定制数据管道优化I/O效率,代码与演示已开源。
来源: Reddit r/ML · 发表于 2026-05-13 · https://www.reddit.com/r/MachineLearning/comments/1tcemdg/trained_transformerbased_chess_models_to_play/
📄 论文
Interpretable EEG Microstate Discovery via Variational Deep Embedding: A Systematic Architecture Search with Multi-Quadrant Evaluation
该研究旨在解决传统EEG微状态分析方法缺乏可解释潜在表征和生成解码机制的局限。核心创新是提出卷积变分深度嵌入模型,联合学习地形图重建与概率软聚类,实现潜在配置到可验证头皮地形图的生成解码,并通过四维架构搜索系统评估设计选择的影响。关键实验在LEMON静息态数据集上显示,深度为4的网络在所有最优配置中一致出现,最佳全局解释方差达0.730(K=4时),表明合理的架构搜索而非模型规模是可解释微状态发现的关键。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10947
QuIDE: Mastering the Quantized Intelligence Trade-off via Active Optimization
该论文针对量化神经网络缺乏统一效率评估指标的问题,提出QuIDE框架,核心创新是构建Intelligence Index I = (C × P)/log₂(T+1),将压缩率、精度和延迟的权衡整合为单一评分。关键实验在六种设置(包括SimpleCNN、ResNet-18和Llama-3-8B)中发现任务相关的Pareto Knee现象,表明4位量化适用于MNIST和大模型,而8位量化更适合复杂CNN任务(如ImageNet上的ResNet-18),并设计了准确性门控变体I'来排除不可行的量化配置。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10959
Steering Without Breaking: Mechanistically Informed Interventions for Discrete Diffusion Language Models
解决离散扩散语言模型受控生成中均匀干预导致质量下降的问题。核心创新是发现不同属性在去噪过程中有各自独特的形成时间表,并据此提出自适应调度器,将干预集中在属性活跃形成的步骤。关键实验在四个模型和七个任务上表明,该方法在保持生成质量的同时,尤其在同时控制三个属性时,达到93%的引导强度,比最强基线高出最多15个百分点。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10971
Rotation-Preserving Supervised Fine-Tuning
解决监督微调可能导致预训练模型在域外泛化性能下降的问题。核心方法是通过惩罚预训练权重矩阵主要奇异子空间投影旋转的变化,高效保留对 Fisher 信息敏感的方向,实现任务适应与泛化能力的平衡。关键实验表明,该方法在多个模型上均优于标准监督微调,改善了域内与域外性能的权衡,并有助于后续强化学习微调的初始化。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10973
Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization
该论文解决Transformer注意力层softmax函数在区间约束下的精确验证问题,现有方法因独立松弛softmax导致保守性过强。核心创新是证明softmax优化问题的最优解必在约束盒顶点处取得,并建立阈值结构定理将候选解数量降至线性级别,提出Vertex-Softmax原语实现log线性复杂度。实验表明该方法在MNIST、Fashion-MNIST和CIFAR-10注意力模型上显著提升认证准确率并收紧下界,同时计算成本远低于alpha-CROWN等基线方法。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10974
Hierarchical Multi-Scale Graph Neural Networks: Scalable Heterophilous Learning with Oversmoothing and Oversquashing Mitigation
解决异配图(相邻节点标签不同)上现有谱图神经网络因枢纽节点主导聚合、多项式滤波器次优导致的过平滑与过压缩问题。核心方法是构建分层多视图HAAR框架,通过异配感知编码器学习带符号亲和矩阵,构建软图层次结构,并在各层使用稀疏正交Haar基进行频域可学习滤波,结合跳连上采样缓解枢纽主导与长程信号瓶颈。关键实验在节点与图分类任务上均优于最先进谱方法,分别提升达3%和7%,且保持近线性可扩展性。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10975
LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection
该论文旨在解决扩散语言模型并行解码中因高置信度阈值限制而导致的并行扩展性不足问题。核心创新是提出LEAP方法,通过未来上下文过滤和多序列叠加检测在去噪早期就已收敛到正确预测的token,实现无训练、即插即用的提前解码。关键实验表明,LEAP平均减少约30%的去噪步数,在GSM8K数据集上结合dParallel可将解码加速至每步7.2个token,同时保持模型精度。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10980
ECHO: Continuous Hierarchical Memory for Vision-Language-Action Models
解决视觉-语言-动作模型在长时程操作任务中记忆容量有限且缺乏层次化结构的问题。核心创新是提出ECHO记忆框架,利用双曲自动编码器将隐藏状态映射到连续层次空间,通过双曲度量和蕴含约束机制构建语义记忆树,并采用背景整合机制实现记忆树的持续优化与合成。关键实验在LIBERO-Long上使执行成功率相对π₀基线提升12.8%,并显著增强了对未见长时程任务组合的泛化能力。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.10993
ForceFlow: Learning to Feel and Act via Contact-Driven Flow Matching
解决接触丰富操作任务中复杂接触动力学带来的高精度力反馈与控制难题。核心方法是基于流匹配的力感知反应框架,采用不对称多模态融合架构将力信号作为全局调节信号,并结合联合预测范式实现力与运动的深度耦合,同时通过视觉主导接近阶段与力主导交互阶段的分层分解及视觉到力的交接机制解耦空间泛化与接触调节。关键实验在六项真实接触任务中取得37%的成功率提升,并展现出优异的力信号预测能力、接触力自我调节及零样本分布外泛化性能。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11048
HiDream-O1-Image: A Natively Unified Image Generative Foundation Model with Pixel-level Unified Transformer
解决了视觉生成模型依赖分离式架构(如独立文本编码器和外部VAE)的问题。核心创新是提出原生统一的像素级扩散Transformer架构,将图像像素、文本标记和任务条件映射到单一共享 token 空间,实现端到端的多模态输入统一编码。关键实验显示,80亿参数版本性能媲美甚至超越更大参数的现有模型(如270亿参数的Qwen-Image),而2000亿参数以上的扩展版本进一步刷新了生成性能基准。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11061
Birds of a Feather Flock Together: Background-Invariant Representations via Linear Structure in VLMs
该论文解决视觉语言模型对前景-背景虚假相关性的鲁棒性问题。核心方法利用VLM嵌入空间的高线性可加性,将场景表征分解为前景与背景分量,并通过合成数据预训练获得背景不变的表征。关键实验在Waterbirds数据集上实现了首个在完美虚假相关性下最差组准确率超过90%的结果,且无需真实去偏数据,具备良好的 sim-to-real 迁移能力。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11107
SEVO: Semantic-Enhanced Virtual Observation for Robust VLA Manipulation via Active Illumination and Data-Centric Collection
解决VLA和模仿学习策略在训练环境外泛化能力差的问题。核心方法是通过SEVO系统,采用固定视角摄像头覆盖操作空间、主动红光照明归一化物体外观、实时YOLO分割提供背景无关的语义提示,并强调多样化数据采集协议是关键创新。关键实验表明,在训练环境中SEVO使ACT和SmolVLA分别达到95%和83%的抓取成功率,在新环境中仍保持85%和75%的成功率,而无SEVO时在新环境中成功率骤降至30-35%。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11114
LatentHDR: Decoupling Exposure from Diffusion via Conditional Latent-to-Latent Mapping for Text/Image-to-Panoramic HDR
解决生成高动态范围图像时多曝光样本计算成本高且结构不一致的问题。核心方法是通过预训练扩散模型生成单一潜在场景表示,再用轻量级条件潜在到潜在映射网络确定性地转换为不同曝光表示,实现单次生成一致曝光堆栈。关键实验在合成数据和SI-HDR基准上表明,该方法达到最先进动态范围,感知质量有竞争力,同时计算成本降低一个数量级。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11115
A Cascaded Generative Approach for e-Commerce Recommendations
解决传统电商推荐系统静态、缺乏跨模块语义连贯性的问题。核心方法是将店面构建分解为两个生成任务:先生成页面区块主题,再基于主题生成检索关键词,并通过师生微调提升可扩展性。关键实验显示,该方法在线上实验中带来每页浏览加购数提升2.7%,且生成结果与传统排序模型融合后接近闭源大模型性能。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11118
ASIP-Planner: Adaptive Planning for UAV Surface Inspection in Partially Known Indoor Environments
解决部分已知室内环境中无人机表面检测覆盖不完整和路径效率问题。核心方法是将基于分割的全局覆盖规划与面向检测的局部视角自适应模块结合,通过表面聚类生成紧凑视角序列,并在执行中动态调整观测方向以缓解遮挡。关键实验表明该方法在仿真中实现近全覆盖且路径更短,真实飞行实验验证了能产出可用于后续分析的有效检测数据。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11119
Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs
该论文研究大语言模型在文本生成时多样性不足的问题,指出其根本原因在于推理过程中概率分布校准不当。核心贡献是提出一个有效性-多样性框架,揭示多样性瓶颈源于两种校准错误:顺序校准(有效token未能可靠排在无效token之前)和形状校准(概率质量过度集中在少数有效token上)。关键实验在14个不同模型上通过可控诊断任务发现,多样性崩溃并非采样启发式方法的局限,而是LLM分布本身存在order和shape校准失准所致。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11128
USEMA: a Scalable Efficient Mamba Like Attention for Medical Image Segmentation
解决医学图像分割中全局与局部信息融合及计算效率问题。核心创新是提出SEMA注意力机制,通过局部窗口注意力实现token定位避免信息分散,并用理论一致的算术平均捕获全局信息,结合CNN构建混合UNet架构。实验表明USEMA相比全注意力Transformer显著提升计算效率,且在多种模态和图像尺寸下分割性能优于纯卷积和Mamba基模型。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11131
EVOCHAMBER: Test-Time Co-evolution of Multi-Agent System at Individual, Team, and Population Scales
解决多智能体系统在测试时协同进化问题,突破单智能体学习局限,实现个体、团队和种群三层次联合演化。核心创新是CODREAM协作反思机制,在团队失败或分歧时触发,通过非对称知识路由将洞察从强智能体定向传递给弱智能体,同时保留专业化。关键实验在数学、代码和多领域推理任务上,分别达到63.9%、75.7%和87.1%准确率,相对最佳基线提升32%,并观察到自发形成4-5个稳定专业 niche 的结构特征。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11136
ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV
解决临床问答中因否定、时间性和归属错误导致的检索偏差问题。核心创新是构建EpiKG知识图谱,为事实添加断言标签和时间标记,并基于问题意图进行检索路由,实现意图感知的KG-RAG方法。关键实验显示,在50个严格筛选项目上,EpiKG相比密集检索基线上升22.0个百分点(p=0.0192),在理想意图条件下提升达12.43个百分点,且医生评审发现56%自动生成的参考答案存在缺陷,凸显人工评审的必要性。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11143
RankQ: Offline-to-Online Reinforcement Learning via Self-Supervised Action Ranking
解决离线到在线强化学习中因数据集覆盖有限导致的Q值高估和策略改进受限问题。核心创新是提出RankQ方法,通过自监督多项排序损失增强时序差分学习,学习动作间的相对偏好而非均匀惩罚分布外动作,从而引导策略向更优行为改进。关键实验在D4RL基准和视觉机器人任务中,RankQ相比七种先前方法取得更优性能,在低数据视觉-语言-动作模型微调中提升仿真成功率42.7%,高数据下提升13.7%,并将真实世界立方体堆叠成功率相对提升至84.7%。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11151
Decomposing Evolutionary Mixture-of-LoRA Architectures: The Routing Lever, the Lifecycle Penalty, and a Substrate-Conditional Boundary
该研究旨在解析进化混合LoRA架构中影响性能的关键因素。核心创新在于分解出路由重写机制(并行Sigmoid门控、可学习适配器下限和温度退火策略)作为主要性能提升来源,并发现生命周期组件(包括死亡、继承和突变)在任务适配场景外可能产生负面影响。关键实验表明,路由重写单独带来+0.0426 nat的平衡对数困惑度提升且统计显著,而完整进化系统相比静态基线仅提升+0.015 nat但未达显著水平,生命周期则导致约-0.028 nat的性能下降。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11153
The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models
该论文解决现有多模型系统依赖文本序列化通信的效率瓶颈问题,提出通过连续隐状态通道实现两个预训练语言模型的并行协同。核心创新是引入可训练的双向神经接口,通过翻译网络和学习到的抑制门控机制,在保持模型参数冻结的前提下实现隐状态间的选择性耦合。实验表明,在算术任务上将两个0.5B模型的准确率从36%提升至96%,在逻辑网格谜题上使Z3求解器的性能提升1.7倍,并证明辅助模型仅通过隐状态信号即可生成问题专用代码。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11167
OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents
解决什么问题:现有大语言模型 ReAct 智能体在部署时缺乏显式的决策层,难以实现基于动作级反馈的在线、细粒度、不确定性感知的适应。
核心方法:提出 OLIVIA 框架,将动作选择层建模为候选动作上的上下文线性多臂赌博机,利用冻结的隐藏状态作为决策上下文,支持在线更新与置信上界探索。
关键实验结果:在四个基准任务上,OLIVIA 相比静态 ReAct 和基于提示的推理时基线方法持续提升了任务性能,且具备轻量计算开销。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11169
The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes
该研究分析了on-policy蒸馏在大型语言模型后训练中的效果不稳定问题,探究其失效机制与适用条件。核心发现包括教师选择与损失形式对数学推理任务敏感,以及自蒸馏在实例特定特权信息缺失时失效,并识别出分布错配、优化不稳定和策略聚合不足三种失败原因。关键贡献在于提出通过stop-gradient TopK目标、RLVR调整教师和SFT稳定学生等方法来缓解失败,提升蒸馏效果。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11182
How Does Differential Privacy Affect Social Bias in LLMs? A Systematic Evaluation
该研究探讨差分隐私训练对大语言模型社会偏见的影响。核心方法是通过DP-SGD训练模型,并在句子评分、文本补全、表格分类和问答四种任务范式下系统评估偏见变化。关键实验发现差分隐私在句子评分任务中降低了基于似然的偏见,但这一改善未能泛化到所有任务,且揭示了 logits 层面与输出层面偏见的不一致,表明减少记忆并不必然减少不公平。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11195
Instructions shape Production of Language, not Processing
该研究探讨指令如何塑造语言模型的行为,核心问题在于区分语言处理与生产阶段的作用。创新点是通过分层探测和注意力干预,揭示指令主要影响输出令牌的生产阶段而非输入令牌的处理阶段,且这种不对称性随模型规模和指令调优增强。关键实验发现任务特定信息在输出令牌中的变化与行为强相关,而输入令牌中则弱相关,干预实验进一步证实阻断指令流向输出令牌会显著削弱行为表现。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11206
ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction
解决计算机使用代理因视觉截图编码产生大量token导致历史信息受限的问题。核心方法是通过学习式块选择器消除连续截图中冗余视觉块,在保持模型所需空间结构的前提下减少视觉token数量。实验表明在OSWorld等三个基准上,使用5个历史截图时平均减少46%的token消耗,同时成功率相对基线提升3%,且去除冗余后性能随历史信息增加而持续改善。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11212
Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?
该研究旨在评估视觉-语言模型在需要物理推理的点击式解谜游戏中是否具备类似人类的逻辑问题解决能力。作者构建了VLATIM基准,聚焦于高层逻辑推理与精确鼠标操作之间的鸿沟,并设计了五个渐进式评估部分。实验发现,尽管大型专有模型在规划方面表现较好,但在精确视觉定位和执行上存在显著不足,尚未展现出人类般的问题解决能力。
来源: arXiv · 发表于 2026-05-13 · https://arxiv.org/abs/2605.11223
夜雨聆风