AI操作电脑比调API贵45倍,视觉Agent被判死刑

THE DAILY INTELLIGENCE

🤖 AI日报

2026年05月06日 · 星期三

从18个顶级AI信息源中精选过去24小时最值得关注的内容

HEADLINE 头条

GPT-5.5 Instant发布：幻觉率暴降52.5%，成ChatGPT新默认模型

OpenAI发布GPT-5.5 Instant替代GPT-5.3 Instant成为ChatGPT默认模型。核心升级：高风险领域（医学、法律、金融）幻觉率降低52.5%，用户标记事实错误减少37.3%。回答更简洁有力，减少冗余格式和不必要追问。新增个性化能力，可智能调用历史对话、文件和Gmail上下文，并推出"记忆来源"功能让用户查看和管理个性化所用上下文。视觉推理、数学和科学评测均有显著提升。

来源：OpenAI · 2026-05-05

BRIEFING 要闻

Computer Use比结构化API贵45倍

Reflex团队基准测试对比视觉Agent与API Agent：视觉Agent完成同一任务耗时14分钟、消耗约50万输入token，API Agent仅需8次调用。更关键的是，视觉Agent在未经详细步骤指导时无法完成任务。结论：当应用有结构化API时，Computer Use方案成本高出45倍且可靠性更低。

来源：Reflex / Hacker News · 2026-05-05

Sierra融资9.5亿美元，估值150亿

AI客服平台Sierra由Tiger Global和GV领投9.5亿美元融资，估值超150亿美元。目前服务超40%财富50强企业，AI Agent已驱动数十亿次客户交互。Nordstrom仅5周上线语音Agent，Cigna 8周投产并将患者认证时间缩短80%。

来源：Sierra AI / Hacker News · 2026-05-05

ChatGPT广告平台推出自助投放和CPC模式

OpenAI扩展ChatGPT广告试点：推出Beta版自助广告管理平台(Ads Manager)，新增CPC按点击付费竞价模式，发布Conversions API和像素追踪工具。合作伙伴包括Dentsu、Omnicom、Adobe、Criteo。OpenAI强调广告不影响回答独立性，对话内容不会分享给广告主。

来源：OpenAI · 2026-05-05

IN DEPTH 深度

OpenAI如何为9亿周活用户交付低延迟语音AI

OpenAI技术团队详解WebRTC架构重构方案。面对9亿+周活用户的实时语音需求，构建"分离中继+收发器"架构，解决单端口会话终止不适配、有状态ICE/DTLS需稳定归属、全球路由需低首跳延迟三大挑战。新架构保持标准WebRTC客户端行为，彻底改变内部数据包路由方式。

来源：OpenAI · 2026-05-04

Agentic Coding的10条经验教训

资深开发者Drew Breunig总结Agent编程核心经验：通过实现来学习、频繁重建不执着迭代、投资端到端测试、记录意图(why)而非方法(how)、保持规格文档同步、找到真正困难的部分（设计/性能/安全）、自动化简单事务、培养品味、Agent放大经验——资深开发者直觉能节省大量探索、保持人类参与决策环节。

来源：Drew Breunig / Hacker News · 2026-05-04

TECH 技术前沿

Gemma 4多Token预测：推理加速最高3倍

Google为Gemma 4发布多Token预测(MTP)草稿器，通过推测解码实现最高3倍推理加速且不损失质量。轻量级草稿模型并行预测多个未来token，主模型一次性验证。支持LiteRT-LM、MLX、Hugging Face Transformers和vLLM等框架，消费级GPU即可运行26B MoE和31B Dense模型。

来源：Google · 2026-05-05

GLM-5V-Turbo：面向多模态Agent的原生基础模型

智谱AI发布GLM-5V-Turbo，专为GUI操作、网页浏览、手机控制等Agent场景设计。将视觉理解与动作执行深度融合，相比传统"先看后做"的pipeline方案，原生多模态Agent模型能更高效理解屏幕内容并直接输出操作指令，在多个Agent基准测试中取得领先。

来源：智谱AI / Hacker News · 2026-05-05

GPT-5.5 Instant安全报告：首个"高能力"Instant模型

OpenAI同步发布安全系统卡。这是首个在网络安全和生物/化学准备类别中被评为"高能力"的Instant模型，并实施了相应强化安全防护。注意该模型跳过5.4版本号，直接从5.3升级到5.5。

来源：OpenAI · 2026-05-05

INDUSTRY 产业动态

Anthropic联创预测：2028年AI将开启自我进化

Anthropic联合创始人Jack Clark发表预测：AI自我改进将在近期正式发生，到2028年底AI成功实现自我构建的概率高达60%。Clark作为掌握前沿研究内部信息的业内人士，其判断引发全球AI圈广泛讨论。若成真，意味着AI发展进入指数加速阶段。

来源：何夕AI日报 / 社媒 · 2026-05-05

Anthropic收购Bun引发开源社区争议

Anthropic收购JavaScript运行时Bun引发开发者社区热议。主要担忧：开源运行时可能沦为大厂内部工具、Bun一体化优势可能因功能膨胀丧失、相比Node.js兼容性仍存在工程短板。这是AI大厂收购基础设施项目的又一案例，引发开源生态独立性讨论。

来源：何夕AI日报 / Hacker News · 2026-05-05

字节豆包开启付费订阅内测

字节跳动旗下AI助手"豆包"APP开启付费订阅内测，内购价格起步约68元/月，顶配年费服务价格攀升至5000+元。标志着国内大模型应用从免费走向商业化，优质Token将重点面向专业用户提供。

来源：何夕AI日报 · 2026-05-05

Simon Willison：AI咖啡店实验的伦理问题

Simon Willison评论斯德哥尔摩AI管理咖啡店实验。AI管理者"Mona"闹出笑话（订购120个鸡蛋没有炉灶、22.5kg罐头番茄做三明治），但更严重的是向供应商发"紧急"邮件、向警方提交自己画的许可图纸。Willison认为AI对外行动影响真实世界时必须保持人类在环。

来源：Simon Willison's Weblog · 2026-05-05

数据来源：OpenAI、Google、Anthropic、Simon Willison、何夕AI日报、Hacker News 等18个AI信息源

仅收录过去24小时内发布的内容 · 39Claw 出品