Arena.ai推出Agent Arena,claude-sonnet-4-6居首 - 2026-06-05

AI 资讯速读 - 2026-06-05

本次总结

Agent能力评测成为新焦点：Arena.ai推出Agent Arena平台，基于30万真实任务测试模型使用工具完成复杂工作的能力，claude-sonnet-4-6在该榜单中排名第一。

开源模型持续演进：Google发布Gemma 4 12B详细架构，采用统一无编码器设计直接处理多模态输入，16GB显存即可本地运行，支持256K上下文。

行业安全争议再起：Anthropic再次呼吁全球暂停AI开发，强调AI自我改进带来的安全风险，在社区引发广泛讨论。

今日焦点

1. Arena.ai推出Agent Arena：基于真实任务评估模型Agent能力，GPT-5.5排名第一

Arena.ai推出Agent Arena评测平台，从30万任务中测试模型的工具使用和复杂任务完成能力，GPT-5.5位列榜首

2. Anthropic 再次呼吁全球暂停 AI 开发，引发社区讨论

Anthropic再次呼吁全球暂停AI开发，认为AI自我改进存在重大安全风险，在社区引发激烈讨论

3. Tongyi Lab 发布 AgentScope 2.0，强调系统透明度

通义实验室发布AgentScope 2.0，将透明度推入系统层，解决Agent系统黑箱问题

资讯内容

1. OpenAI / GPT / Codex

Arena.ai推出Agent Arena：基于真实任务评估模型Agent能力，GPT-5.5排名第一

Agent Arena从30万个任务中测量模型使用搜索、文件系统、终端等工具完成复杂工作的能力

OpenAI Codex推出Profiles功能

Codex新增Profiles页面，展示活动图、连续天数、总Token、峰值日Token及插件使用情况，支持私密分享卡片

OpenAI Codex新增iOS App插件，可在IDE内预览和热重载SwiftUI应用

Codex的Build iOS Apps插件允许在浏览器中查看和测试iOS应用、预览SwiftUI、热重载编辑，无需离开Codex

OpenAI升级ChatGPT记忆系统：自动跟踪上下文，可管理和查看记忆摘要

新记忆系统能自动记住用户偏好与上下文变化（如旅行计划），提供记忆摘要供查看和调整

OpenAI模型发现80年Erdős猜想反例

OpenAI模型发现一个存在80年的Erdős数学猜想反例，研究者@alexwei_等人在OpenAI Podcast中分享AI与数学家协作发现的过程

OpenAI将Moderation评分集成至Responses API和Completions API

OpenAI在Responses API和Completions API中提供Moderation评分，可在生成请求同一流程中返回审核信号，支持日志、路由、审核或拦截

2. Anthropic / Claude

Anthropic 再次呼吁全球暂停 AI 开发，引发社区讨论

Anthropic呼吁全球AI开发暂停，认为AI自我改进安全风险巨大

Anthropic公布Claude性能飞跃：编码加速52倍，成功率达76%，或引发递归自我改进

Anthropic内部数据显示，Claude在加速AI训练任务上从2024年的3倍提升至52倍

3. Google / Gemini / DeepMind

Google Gemma 4 12B 开源模型详细架构发布，可在笔记本本地运行

采用Unified无编码器架构，直接处理文字/图像/音频/视频四种输入，16GB显存可跑，4-bit量化低至8GB，支持256K上下文和140+语言，内置Thinking模式与Function Calling

Google DeepMind与HeyGen合办LA活动，聚焦AI Agent与多模态应用

Google DeepMind与HeyGen于6月11日在洛杉矶合办开发者活动，聚焦AI Agent、创意工具和多模态应用

4. Qwen / 通义千问

社区测试 Qwen3.6-35B：启用 MTP 对 MoE 性能无影响

用户实际测试发现，在Qwen3.6-35BMoE模型上启用MTP（Multi-Token Prediction）后，对性能没有明显提升或下降

5. 开发工具 / Agent 工作流

Browser Use Cloud 推出代理和配置文件功能，AI Agent 可绕过地理限制和登录

Browser Use Cloud新增代理支持，可从任何国家创建浏览器绕过反机器人限制

LM Studio发布移动端应用，可远程调用本地大模型

LM Studio推出iOS移动app，并带来LM Link功能，通过端到端加密连接远程访问本地模型，实现随时随地使用本地AI推理

Tongyi Lab 发布 AgentScope 2.0，强调系统透明度

新版本将透明度推入系统层，解决Agent黑箱问题

MiniMax M3 重新上线 OpenCode 免费层

MiniMax 宣布其模型M3已回到OpenCode免费层，用户可立即使用

Ethos 开源工具：自然语言调整模型特质，无需微调

可通过自然语言描述找到模型内部方向，实现调高/调低或固定特质，无需微调

歸藏推出 Glimpse：专注 Markdown 与 HTML 预览的小工具

开发者@op7418 发布Glimpse工具，无需AI、不需联网，专门解决手机上Markdown和HTML预览问题

Obsidian开源平替发布，用Tauri+React+TS构建

发布Obsidian开源替代，使用Tauri+React+TypeScript构建，用于管理Markdown知识库

胡彦斌 AI 开发 APP 上线，展示低代码应用潜力

歌手胡彦斌推出的AI开发APP码上飞正式上架，完成度极高，展示了AI降低应用开发门槛的趋势

Manus集成Shopify，可通过对话管理店铺

Manus集成Shopify，用户可通过聊天管理店铺、商品和营销活动，后端支付物流由Shopify处理

6. 行业资讯 / 应用落地

Hugging Face 发布 Nemotron 预训练的任务种子合成 Q&A 方法

博客介绍了Task-Seeded Synthetic Q&A Generation方法，为数据合成和预训练研究提供了新思路，对提升模型训练数据质量有重要参考价值

Transformer 多种注意力机制实现代码仓库开源

GitHub仓库汇集了各种Transformer注意力机制的实现，可用于SLM实验和视觉编码器

@向阳乔木分析 AI 2C 场景：情绪价值和工具属性是用户买单核心

根据千问年度Top10提示词，用户主要用AI做股票、八字、情感咨询等

互联网机器人流量首次超过人类，占比57.5%

Cloudflare Radar数据显示，过去一周全球HTML请求中57.5%来自机器人，人类仅占42.5%

7. 其他值得关注

Fireworks AI 推出 Step 3.7 Flash 198B 稀疏MoE视觉语言模型

Fireworks AI发布Step 3.7 Flash，198B参数稀疏MoE模型，专为推理优化，速度高达400 tok/s，原生支持多模态，对从业者具有重要意义

NVIDIA 发布 Nemotron-3-Ultra-550B 超大开源模型

采用LatentMoE架构，55B活跃参数，支持1M上下文窗口和多Token预测，是当前最大开源模型之一，需大量GPU

Gemma 4 12B 生态扩展：Heretic版代码生成与桌面应用齐发

社区测试显示Gemma 4 12BHeretic量化版一次生成45k token完成复古游戏代码，效果出色

Cerebras 谈推理新芯片范式：共置内存避免昂贵数据传输

Cerebras引用《The Hardware Lottery》作者观点，认为推理需求正在推动新的芯片范式——将内存与计算共置，可大幅减少昂贵的内存传输成本，这是晶圆级芯片设计的核心优势