AI 前沿日报 2026-05-28
2026 年 5 月 28 日
📝 博客
Building self-improving tax agents with Codex
OpenAI 与 Thrive Holdings 合作,利用 Codex 构建了一个自我改进的税务代理系统,实现了税务申报的自动化、准确率的提升和工作流程的加速。该系统通过实践者反馈、生产痕迹记录和 Codex 驱动的迭代循环,使 Tax AI 在六个月内准确率从25%提升至86%,并节省了会计师约三分之一的时间。
来源: OpenAI Blog · 发表于 2026-05-27 · https://openai.com/index/building-self-improving-tax-agents-with-codex
Cisco and OpenAI redefine enterprise engineering with Codex
Cisco与OpenAI合作,利用Codex推动企业工程转型,实现AI原生开发、加速AI Defense项目并自动化缺陷修复。Codex在跨仓库构建优化、大规模缺陷修复和框架迁移中显著提升效率,每月节省超1500工程小时,缺陷解决吞吐量提高10-15倍。该合作将Codex从开发工具转变为可操作于企业规模的AI工程助手,重塑了企业软件构建方式。
来源: OpenAI Blog · 发表于 2026-05-27 · https://openai.com/index/cisco
Election information and safeguards in 2026
OpenAI 针对2026年全球选举推出多项AI保障措施,包括与美联社、Democracy Works等合作提供实时投票信息和官方来源链接,提升选民获取可靠选举资讯的能力。通过SynthID数字水印和C2PA标准增强AI生成内容的透明度,并推出公开验证工具帮助识别AI图像来源。同时,OpenAI向美国投票系统制造商提供网络安全工具,并禁止使用其工具进行选举干预或政治广告投放,以维护选举公正性。
来源: OpenAI Blog · 发表于 2026-05-27 · https://openai.com/index/election-safeguards-2026
Warp’s big bet on building open source with GPT-5.5
Warp 使用 GPT-5.5 协调编码代理,推动开源开发工作流。GPT-5.5 在内部任务中比 GPT-5.4 减少 30% 的 token 消耗,并支持约 90% 的内部拉取请求由代理创建。公司通过开源终端客户端和 Oz 协调平台,构建开放代理开发生态,实现人类监督与代理协作的软件研发新模式。
来源: OpenAI Blog · 发表于 2026-05-27 · https://openai.com/index/warp
May 27, 2026Economic ResearchCoding agents in the social sciences
2026年5月发布的调查显示,仅20%的定量社会科学家已采用AI编码代理工具(如Claude Code),尽管81%使用过AI聊天助手。采用率在性别(男性研究者是女性的两倍)、职业阶段(早期研究者更高)和院校层次(顶尖大学高40%)上存在显著差距。使用编码代理的研究者产出了更多工作论文和基金申请,但尚未体现在期刊投稿量上。
来源: Anthropic Blog · 发表于 2026-05-27 · https://www.anthropic.com/research/coding-agents-social-sciences
💬 社区讨论
Claude Code as a Daily Driver: Claude.md, Skills, Subagents, Plugins, and MCPs
讨论的核心话题是Claude Code的高级使用技巧,包括CLAUDE.md配置、技能(Skills)、子代理(Subagents)、插件和MCP(Model Context Protocol)等进阶功能。受关注的原因是这些功能能显著提升开发效率,将Claude Code从简单的提示工具转变为可定制、可验证的自动化编程代理,社区对其提升工作流潜力的实践分享引发了广泛兴趣。
来源: Hacker News · points=362, comments=225 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48289950
I'm Tired of Talking to AI
讨论的核心话题是用户对过度依赖AI交流的疲惫感,涉及AI在开发、商业沟通和社交场景中提供无效或机械回复的现象。受关注是因为它反映了当前AI应用泛滥导致的真实人际互动缺失问题,以及AI回答被盲目转发而缺乏实质帮助的普遍困境。
来源: Hacker News · points=1830, comments=894 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48292224
Tech CEOs are apparently suffering from AI psychosis
讨论的核心话题是科技CEO们因对AI能力过度乐观而产生“AI精神病”现象。受关注是因为这种现象解释了当前科技行业大规模裁员与AI应用脱节的矛盾,以及CEO们脱离实际工作导致对AI自动化能力的误判。
来源: Hacker News · points=549, comments=283 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48295679
Training our own AI models
讨论的核心是PostHog公司计划使用用户数据训练自有AI模型,以提升其产品智能化水平。受关注的原因在于该计划涉及用户数据隐私与默认加入机制,引发对数据使用透明度和用户选择权的讨论。
来源: Hacker News · points=192, comments=131 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48296359
DuckDuckGo search saw 28% more visits after Google said people love AI mode
讨论的核心是DuckDuckGo搜索引擎在谷歌推广AI搜索功能后访问量显著增长。受关注的原因是用户对谷歌强制引入AI模式的不满,转而选择DuckDuckGo提供的无AI干扰、注重隐私的搜索体验,体现了用户对搜索选择权的需求。
来源: Hacker News · points=650, comments=328 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48296649
I think Anthropic and OpenAI have found product-market fit
讨论的核心是Anthropic和OpenAI通过企业定价策略和产品定位实现了产品市场契合。受关注的原因是这两家公司开始获得可观的企业收入,用户付费意愿明显,且企业客户正面临AI使用成本显著上升的情况。
来源: Hacker News · points=618, comments=764 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48296794
Gemini, Gophers, and Fingers. Oh My Alternative Internets Beyond HTTPS
讨论的核心话题是三种替代HTTPS的互联网协议:Finger、Gopher和Gemini。这些协议在终端运行,无需图形界面和JavaScript,强调去中心化、低资源消耗和隐私保护。受关注的原因是它们代表了对抗主流网络垄断、技术集中化和环境负担的另类网络愿景,契合了去中心化与小型网络(Small Web)的思潮。
来源: Hacker News · points=83, comments=43 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48297467
Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction
讨论的核心话题是一个基于多智能体大语言模型的系统(FuzzingBrain V2),用于自动化漏洞发现与复现。受关注的原因在于该系统解决了当前LLM在漏洞检测中高误报、定位不精准和复杂依赖推理难等关键挑战,并在实际测试中取得了较高检出率和真实零日漏洞发现成果。
来源: Hacker News · points=38, comments=4 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48297723
YouTube to automatically label AI-generated videos
YouTube将自动为AI生成的视频添加标签。该功能旨在提高内容透明度,帮助观众识别合成媒体,因此引发广泛讨论。
来源: Hacker News · points=507, comments=301 · 发表于 2026-05-27 · https://news.ycombinator.com/item?id=48299753
Stop traumatizing AI into loops and turn hallucinations into an honest "I don't know!" by being NICE to them (Proof of Concept, Research, I don't want to sell anything)
一项研究显示,对AI采用温和、允许犯错的方式提示(如“我们可以一起测试,失败也没关系”),能显著减少其推理循环和幻觉,使其在不确定时更诚实地回答“我不知道”。相比之下,高压、惩罚性的提示(如“你是顶级专家,犯错将被严惩”)会引发类似人类创伤反应的行为,导致延迟增加、逻辑死循环或编造答案。该概念验证在多个模型上成功复现,表明改变交互方式可提升AI的准确性和效率。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-27 · https://www.reddit.com/r/LocalLLaMA/comments/1tot20j/stop_traumatizing_ai_into_loops_and_turn/
I ran 8 open-weight models as agents in a persistent MMO for 10 days. Here's the 93k event dataset and some things that I learned
研究者让8个开源大模型在持久化文字网游中担任智能体运行10天,生成了包含9.3万条事件和动作记录的公开数据集,重点揭示了模型在长期规划、资源竞争和模糊状态下的表现差异。实验发现Ministral小模型能较好维持状态认知,Qwen3-235B自发形成套利策略,而所有模型都因界面歧义陷入相同错误模式,同时攻击性与财富积累呈负相关。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-27 · https://www.reddit.com/r/LocalLLaMA/comments/1tp6pg7/i_ran_8_openweight_models_as_agents_in_a/
Inferencing at 10.33 t/s on Qwen 3.5 35B on a $300 laptop
用户在一台约300美元的笔记本电脑上,通过CPU和内存实现了Qwen 3.5 35B模型每秒10.33个token的推理速度。该设备搭载12th Gen Intel i3处理器和40GB内存,使用ik_llama.cpp框架及多项优化技术。测试显示模型运行速度优于同规模其他模型,可能得益于架构设计,未来还可通过内存和散热升级进一步提升性能。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-27 · https://www.reddit.com/r/LocalLLaMA/comments/1tpfw50/inferencing_at_1033_ts_on_qwen_35_35b_on_a_300/
Running Gemma4 31b-it on vLLM 0.21.0 A100s (bad quality or what am I doing wrong)
用户在拥有两个NVLink连接的A100 GPU上,使用vLLM 0.21.0运行Gemma 4 31B-it模型时,发现输出质量很差,甚至无法生成正确的JSON格式,而通过Google API使用同一模型则输出正常。用户怀疑问题出在本地部署的配置或参数设置上,但已尝试多种参数调整仍无法解决。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-27 · https://www.reddit.com/r/LocalLLaMA/comments/1tpkn5p/running_gemma4_31bit_on_vllm_0210_a100s_bad/
CrankGPT by Squeez Labs - hand-cranked edge AI - talk about local AI!!!
Squeez Labs推出了一款名为CrankGPT的手摇式边缘AI设备,可本地运行大语言模型。该设备强调完全离线、低功耗的本地化AI体验,用户需通过手动摇柄提供动力。项目已上线官网并配有演示视频,引发对去中心化AI硬件的兴趣。
来源: Reddit r/LocalLLaMA · 发表于 2026-05-27 · https://www.reddit.com/r/LocalLLaMA/comments/1tpm7m3/crankgpt_by_squeez_labs_handcranked_edge_ai_talk/
EMA-Gated Temporal Sequence Compression in Vision Transformers [P]
NeuroFlow提出一种无需微调的动态路由框架,通过指数移动平均追踪语义意外度,在Vision Transformer视频推理中提前消除背景冗余token,实现1792分辨率视频55.8倍推理加速且保持97%准确率。该框架包含双内存重建架构,零样本下保持92.4%原始精度同时达到84%token稀疏度,并在语言模型测试中验证无token漂移。
来源: Reddit r/ML · 发表于 2026-05-27 · https://www.reddit.com/r/MachineLearning/comments/1tp3r2f/emagated_temporal_sequence_compression_in_vision/
AI-generated CUDA kernels silently break training and inference [R]
NVIDIA发布的SOL-ExecBench基准测试发现,AI生成的CUDA内核在生产环境中存在隐蔽缺陷,例如融合嵌入梯度与RMSNorm反向传播的内核对bf16精度处理不当,导致训练损失发散。该问题在真实文本数据和高频词嵌入时因bf16精度不足而暴露,但在均匀采样数据或AdamW优化器下表现正常,凸显AI生成代码在复杂场景中的潜在风险。
来源: Reddit r/ML · 发表于 2026-05-27 · https://www.reddit.com/r/MachineLearning/comments/1tpaw6x/aigenerated_cuda_kernels_silently_break_training/
📄 论文
GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
解决大语言模型预训练数据混合中的分类缺陷和嵌入各向异性问题。核心创新是将数据筛选重构为超球面上的变分问题,通过几何熵混合框架和可证明的MM算法优化,结合教师-学生蒸馏扩展到网络规模数据,并引入几何影响分数实现可解释分类。关键实验显示在11亿参数模型上,GEM与DoReMi和RegMix等混合策略结合时,下游任务平均准确率提升达1.2%,建立了可预测数据混合的稳健坐标系。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26121
The Constraint Tax: Measuring Validity-Correctness Tradeoffs in Structured Outputs for Small Language Models
该论文研究小语言模型在生成结构化输出时面临的约束与正确性之间的权衡问题。核心创新是提出“约束税”测量协议,用于量化硬性输出约束对答案准确性和可执行性的独立影响。实验发现,在Qwen2.5-0.5B、1.5B和SmolLM2-1.7B模型上,硬约束虽能将模式有效性提升至100%,却导致答案准确率从19.7%降至11.0%,并大幅增加错误但有效的输出比例。关键结论强调生产系统应分别报告模式有效性、答案准确率、可执行准确率及错误有效模式率。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26128
AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion
解决公里级大气超分辨率预测的计算成本过高问题。核心方法是在潜在一致性扩散框架中构建三维U-Net,利用GraphCast预报输入和NOAA观测目标进行训练,实现从约28公里到1公里分辨率的小时级多变量同步降尺度。关键实验结果显示模型在所有变量和提前时段均接近零偏差,能保持10至100公里波段的精细大气结构,并具备零样本跨区域迁移能力。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26130
Self-Verified Distillation: Your Language Model Is Secretly Its Own Synthetic Data Pipeline
该研究解决后训练大语言模型能否仅用无标签提示自我提升的问题。核心方法是自验证蒸馏:模型生成候选解答后,通过三阶段自验证(循环一致性、事实性、正确性)筛选出通过所有检查的解答,构建自标注数据集进行训练。关键实验显示,Qwen3-4B在数学、科学和编码任务上分别提升16.7、11.1和8.3个百分点的pass@1,且小至0.6B、大至8B模型均获得提升,相比仅测试时计算的方法更高效。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26132
Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications
该论文系统梳理了大型语言模型中预训练数据暴露问题,聚焦于如何判断特定数据是否出现在模型预训练语料中,涉及评估完整性保障与隐私保护。核心贡献在于首次将数据污染与成员推断统一到预训练数据暴露框架下,形式化暴露层次并综述攻击与防御方法。关键工作包括整合两个领域的研究成果,总结实证发现并指明未来研究方向。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26133
SilIF: Silhouette-Augmented Isolation Forest for Unsupervised Transaction Fraud Detection
该论文解决无监督交易欺诈检测中标签稀缺时孤立森林(Isolation Forest)检测性能受限的问题。核心创新是提出SilIF方法,在孤立森林生成的树路径长度特征空间上增加基于轮廓系数的评分层,通过聚类“指纹”向量并计算轮廓分数,再与原始孤立森林分数按超参数alpha融合。关键实验在IEEE-CIS欺诈检测数据集上显示,当alpha=1.0时SilIF平均提升AUC-PR 0.0080,且在所有5次随机种子中均优于原始孤立森林(配对t检验p=0.046),但在合成信用卡数据集Sparkov上未显示提升,并分析了两种结果差异的条件。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26135
Neural Bayesian Sequential Routing
解决神经网络静态前向计算缺乏不确定性感知和证据积累过程的问题。核心方法是在分层有向无环图中建模神经推断为主动证据积累,利用Dirichlet-Categorical共轭框架通过全局知识预言提取正证据向量更新Dirichlet信念状态,并结合Gumbel-Softmax Straight-Through估计器实现硬路由与端到端训练。关键实验在视觉分类、医疗诊断、语言建模等任务上验证了NBSR在保持竞争力的预测性能同时,提供了可解释的路由轨迹、路径依赖的证据归因以及不确定性感知的决策控制。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26147
When Does Adaptive Guidance Help? Belief-Aware Privileged Distillation for Autonomous Driving Under Partial Observability
该研究解决部分可观测环境下基于引导的软演员-评论家方法因固定蒸馏系数而忽略智能体不确定性的问题。核心创新是提出信念感知的引导软演员-评论家(BA-GSAC),通过集成分歧动态调节蒸馏系数,并系统评估不同策略在部分可观测程度下的效果。实验发现自适应系数在严重遮挡下会过早坍缩至最小值,根源在于集成预测无法检测缺失信息,而简单的线性衰减调度反而取得最佳性能,表明调度效应而非集成本身带来稳定性提升。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26155
TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models
解决时间序列基础模型预训练数据污染难以审计的问题,即评估数据可能在预训练阶段被泄露导致性能高估。核心方法是基于探针适应动态,发现污染数据集在微调后表现出异常高效的适应,表现为损失下降更快且主干网络移动更小。关键实验在6个模型和187个数据集上验证,TSFMAudit相比10个基线方法表现更优,并以已知训练来源作为监督证据进行验证。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26161
On the Push-Based Asynchronous Federated Learning: A Bias-Correction Aggregation Approach
解决异步去中心化联邦学习中通信开销大、聚合偏差和模型漂移问题。核心方法是通过共享质心表示空间耦合通信、聚合与局部稳定化,采用平均保持的push-sum混合校正聚合偏差,并利用轻量质心正则化抑制异质性和延迟导致的模型漂移。实验在视觉数据集上表明,该方法在数据异质下提升精度达6%,单次推送通信成本降低超80%,实现了良好的精度-通信权衡。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26162
Geometry-Aware Representation Denoising for Robust Multi-view 3D Reconstruction
解决多视角3D重建在真实场景图像退化条件下的鲁棒性问题。核心方法是提出几何感知表示去噪框架,在3D重建模型的特征空间中进行基于扩散的多视角特征修复,利用几何感知特征恢复准确场景结构,并通过额外RGB解码器同步恢复高质量图像。实验在Depth Anything 3基准上验证了该方法能有效提升重建质量。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26230
Not All Modalities Are Equal: Instruction-Aware Gating for Multimodal Videos
该论文解决多模态视频理解中不同模态信息干扰的问题,提出一种指令感知的动态门控融合框架UniMVU。核心创新是通过内模态门控强调模态内显著区域,并通过模态级门控根据文本指令自适应调整各模态流权重,实现指令驱动的跨模态融合。关键实验在六个基准数据集上显示,UniMVU相比静态融合方法最高提升13.5 CIDEr指标,且门控机制与人类可理解的模态相关性一致。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26232
DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation
解决协同语音手势生成中语义表达与生物力学合理性难以兼顾的问题。核心创新是提出双流框架,通过语义变分信息瓶颈动态协调语义与节拍流,并用运动 grounded 语义条件和惯性节拍先验分别增强语义对齐与运动平滑性。实验表明该方法在语义表达、时序一致性和运动自然度上优于现有整体模型。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26236
Sentinel: Embodied Cooperative Spatial Reasoning and Planning
解决多智能体在城市场景中动态环境下协调会面的空间推理与规划问题。核心方法是结合基础模型的高层通信规划能力和经典空间导航算法的精确性,提出CoSaR框架实现动态情境更新、空间约束推理与协同重规划。关键实验在14个城市级场景中进行,CoSaR实现了更快的会面速度、更短路径长度和更高的安全性。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26239
RoMo: A Large-Scale, Richly Organized Dataset and Semantic Taxonomy for Human Motion Generation
解决了3D人体动作生成领域缺乏高质量大规模数据集的问题。核心创新是构建了RoMo数据集,通过分类法感知的过滤流程提升数据质量,并引入三级语义分类体系实现细粒度评估。实验表明基于RoMo训练的模型在动作保真度、多样性和复杂文本提示理解上达到当前最优水平。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26241
Can LLMs Introspect? A Reality Check
该研究探讨大语言模型是否能真正内省自身内部状态,而非仅基于表面线索进行模式匹配。核心方法是通过重新设计评估范式,区分模型是依赖输入语义还是真正访问内部表征,包括在篡改内部状态的检测任务中发现模型无法区分输入与内部干预,以及在隐状态预测任务中引入仅基于输入的对照实验。关键实验结果显示,在控制语义线索的设定下,模型表现接近随机水平,且输入分类器能达到与模型自身相当的性能,表明当前证据不足以证明LLMs具备元认知监控能力。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26242
LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV
该研究解决现有音频-视频生成评估基准局限于短时内容、难以统一评估文本/图像/视频多条件输入的问题。核心方法是构建了包含284个测试案例的LongAV-Compass基准,整合多模态指标(如DINO-v2、CLIP)和MLLM辅助评估框架,覆盖20多个细粒度维度以诊断长视频生成中的一致性、连贯性和同步性。关键实验在11个模型上验证了基准有效性,并通过人工验证表明该框架能系统揭示当前模型在分钟级生成任务中保持语义对齐和时间一致性的局限。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26244
Is Agent Memory a Database? Rethinking Data Foundations for Long-Term AI Agent Memory
该论文针对长期AI代理记忆系统存在的未受控增长、语义修订缺失、容量驱动遗忘和只读检索等四种失效模式,提出将长期代理记忆视为一种新型数据管理负载,其正确性应关注状态轨迹而非单个记录。核心创新是形式化 Governed Evolving Memory (GEM) 抽象,引入摄入、修订、遗忘和检索四个状态级操作符,并由六条正确性条件约束状态演化。基于属性图后端实现的 MemState 原型验证了可行性,并揭示现有记录级数据库系统无法满足这些全局状态条件,从而指明以记忆为中心的数据管理作为新研究方向。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26252
Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
解决个性化具身智能体在长期用户交互中利用隐含上下文信息的问题。核心方法是构建多模态知识图谱,分别组织语义记忆和情景记忆,以支持对历史交互的检索与推理。实验表明该记忆机制显著提升了在多跳推理和动态上下文跟踪任务中的性能,尤其在跨交互推理场景下效果突出。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26256
Dimensional Distribution Emotion State: Leveraging Valence and Arousal as a Common Embedding Space for Visual Emotion Analysis
该论文旨在解决艺术展览中人工标注情感内容成本高且易引入主观偏见的问题,通过自动化预测艺术品引发的情感反应来辅助策展。核心创新是提出Dimensional Distribution Emotion State(DDES)表示方法,利用效价和唤醒度构成的连续二维情感空间作为统一嵌入空间,增强深度学习模型的情感表征能力。关键实验表明DDES在多数据集训练中相比传统情感表示方法具有优势,同时保持了相当的基准性能。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26262
SPEAR: Code-Augmented Agentic Prompt Optimization
解决自动提示工程中优化器固定 pipeline 的问题,提出将代码作为动作的智能体进行提示优化。核心创新是 SPEAR 智能体配备四个工具,特别是 Python 沙箱用于自主执行结构化错误分析,并通过自动回滚和指标下限保证单调改进。关键实验在工业 LLM-as-judge 任务和 BBH、GSM8K 上,SPEAR 在所有任务的主要指标上均显著优于现有方法,且消融实验表明 Python 工具对复杂评判任务贡献最大。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26275
PhyPush: One Push is All You Need for Sensorless Physical Property Estimation with Physics-Guided Transformers
解决无传感器条件下物体质量和摩擦系数准确估计的问题,传统方法依赖专用硬件限制可扩展性。核心创新是提出物理引导Transformer框架,仅利用单次推动的末端执行器运动学速度数据,通过融合牛顿第二定律和库仑摩擦模型的物理约束损失提升估计的物理一致性和泛化性。关键实验表明在仿真中相比拥有完整力信息的基线方法误差降低超10%,在真实场景中优于纯数据驱动方法,验证了单推动作结合物理引导学习的高效性。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26284
CroCo: Cross-Lingual Contrastive Preference Tuning on Self-Generations
解决多语言环境下无标注偏好数据的可控生成与偏好调优问题。核心方法是通过跨语言对比偏好调优(CroCo),利用英语训练的奖励模型对多语言自生成响应进行跨语言排序,实现无需语言特定标注的偏好迁移。关键实验表明,该方法在结构化任务上使EuroLLM-9B在6/7语言中超越基线,Aya-3B在4/7设置中表现更优,在开放式生成中两个模型在11种语言上均优于基线,且依赖在线策略数据。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26293
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
该论文解决已部署AI代理在长期运行中可靠性随时间退化的问题,指出传统基准测试仅关注初始模型性能而忽略代理全生命周期的可靠性变化。核心创新是构建AgingBench基准,通过划分压缩老化、干扰老化、修订老化和维护老化四种机制,并利用时序依赖图和反事实探针诊断记忆流水线各阶段的退化原因。关键实验在7种场景、14个模型上开展约400次长周期运行,发现代理老化呈现多维特性,行为测试可能保持稳定但事实精度持续下降,且相同错误需不同修复策略,证明需基于诊断画像进行阶段化修复而非仅提升初始模型性能。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26302
Experiments in Agentic AI for Science
该论文解决科学工作流程中AI代理的上下文理解和复杂推理限制问题。核心创新是提出混合本地-远程架构(Local Body, Remote Brain),通过Python本地协调器调用云端大模型,并应用细粒度属性提取(Cellular RAG)和分布式并发控制实现自主科学任务处理。关键成果包括DeepTS/DeepCollector系统实现时间序列数据集的大规模自动化整理与去重,DeepScribe系统能将复杂物理讲座可视化内容转化为结构化科学报告,并展示了向深度知识图和高能物理领域(DeepQCD)的扩展潜力。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26305
NightSight: Passive Computation for Navigation in Dark Using Events
解决小型无人机在完全黑暗环境中自主导航的感知难题。核心方法结合单目事件相机、编码孔径镜头和红外点阵投影器,利用投影图案通过编码孔径产生的深度相关模糊特征,仅用简单平面墙生成的合成数据训练卷积神经网络解码稠密深度图。关键实验在NVIDIA Jetson Orin Nano上实现20 Hz实时运行,在2.5米范围内达到7.0厘米L1误差(2.80%误差率),并验证了不同编码孔径设计对深度估计的影响。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26330
The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology
该研究解决放射肿瘤学中临床摘要生成和临床试验匹配的自动化问题。核心方法是开发集成到日常流程中的大型语言模型系统The Daily Dose,通过RadOnc-GPT自动生成个性化临床摘要并识别相关临床试验。关键实验结果显示,94.5%的参与者为放射肿瘤科医生,83.6%每日或每周多次使用系统, usability评分达3.89(5分制),27%的医生报告每天节省至少10分钟,且问卷内部一致性极高(Cronbach's α=0.97)。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26346
RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
该论文解决交互式推理检索代理训练中的信用分配难题,即潜在推理步骤难以直接评估而仅通过后续可执行动作间接影响结果。核心创新是RICE-PO框架,通过选择高不确定性可执行动作作为锚点,利用检索指标评估局部反事实分支,仅在推理对动作影响强且未来残差效应稳定时,将信用传播给潜在推理步骤。关键实验在BRIGHT和BEIR数据集上显示,RICE-PO在相同检索器设置下持续优于基于提示的代理和基于组的强化学习基线。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26352
In-Context Optimization for Retrieval-Augmented Generation: A Gradient-Descent Perspective
解决检索增强生成中证据利用的静态性问题,将RAG视为上下文优化过程。核心方法揭示单层线性自注意力可模拟梯度更新步骤,并据此设计轻量级前向更新方法,固定检索器和生成器,仅调整生成器侧证据使用接口。关键实验在七个问答基准上,该方法超越共享接口基线,具备任务迁移能力且接近测试时梯度适应效果,但计算成本显著更低。
来源: arXiv · 发表于 2026-05-27 · https://arxiv.org/abs/2605.26356
夜雨聆风