每日精选AI圈最值得关注的动态
OpenAI正酝酿ChatGPT诞生以来最大改版,从聊天工具转型为Agent超级应用,苹果也终于认真对待AI,GitHub开源Spec Kit引导AI编码流程,今日AI圈动作频频。
🤖 ChatGPT将变身Agent超级应用[1]
来源:金融时报/X @dotey
OpenAI正筹备ChatGPT自2022年上线以来最大规模的改版,从单纯的聊天机器人转向超级应用和Agent平台。改版将整合编程工具Codex、图像生成及Canva、Booking等第三方应用。OpenAI高管直言"聊天已死",目标是打造跨平台的个人AI助手,未来甚至可能省去用户输入提示词的环节。ChatGPT目前拥有庞大的用户基础和可观的付费用户规模,此次改版预计在未来几周内于网页端和手机端上线。
🏆 ResNet获CVPR 2026「时间检验奖」[2]
来源:公众号 阶跃星辰
CVPR 2026将「时间检验奖」授予经典论文ResNet,该论文由阶跃星辰首席科学家张祥雨合著。ResNet(残差网络)自2015年发表以来,深刻影响了深度学习的发展方向,从图像识别到大语言模型的架构设计都能看到其思想的延续。这一奖项肯定了ResNet在计算机视觉领域的里程碑式贡献。
☁️ 谷歌与SpaceX达成算力合作协议[3]
来源:CNBC/Hacker News
谷歌与SpaceX达成大规模合作协议,获得位于xAI数据中心的计算能力。该协议将大幅扩充谷歌的AI算力资源,反映出顶级科技公司对算力基础设施的持续渴求。在AI军备竞赛加速的背景下,算力已成为最核心的战略资源之一。
技巧与观点
🍎 苹果秘密会议内幕:终于认真对待AI[4]
来源:Bloomberg
据报道,苹果在一次内部秘密会议后,决定将AI作为核心战略。这场关键会议促使公司全面转向AI领域,相关进展预计将在即将到来的WWDC 2026上正式公布。此前苹果在AI领域的步伐相对保守,此次战略转向意味着苹果可能会在iOS 27及新一代系统中深度整合AI能力。
🌾 "我在田里雇了一名工程师,它叫Codex"——北海道西兰花农的8个AI用法[5]
来源:X @AYi_AInotes
日本北海道农民富安弘毅分享了他在农场中实际使用ChatGPT和Codex的8个场景:拍照识别西兰花病害、卫星监测获取NDVI数据、用ESP32和LINE机器人远程控制温室卷帘、开发农场群聊机器人管理温度与排期、从聊天记录追踪播种数量、学习RTK-GPS自动转向原理并评估自建成本、设计基于Airtable的农场管理数据库。他形容AI"如同身边有一位超级工程师",让传统昂贵的自动化变得低成本可及。
🐛 M3与Opus代码审计:同样抓到13个Bug[6]
来源:X @MiniMax_AI
一项有趣的对比测试:对Claude Opus 4.8和MiniMax M3进行相同代码审计,在同一代码库、同一提示词下,预先植入17个已知Bug。结果两者都抓到了13个,但MiniMax M3的成本远低于Claude。这一对比揭示了模型性价比的差异,对于高频次的代码审计场景,选择更具性价比的模型可能更务实。
🎨 GPT-5.5 vs Opus 4.8设计效果对比:差距明显[7]
来源:X @dotey
宝玉对比了GPT-5.5与Opus 4.8的设计生成能力,发现Opus 4.8在视觉设计质量上远优于GPT-5.5。测试使用了基于浏览器元素标注的设计Skill,通过描述屏幕需求生成HTML页面。该工具推荐搭配Opus 4.8以获得最佳效果,反映出不同模型在创意和设计能力上的差异正在拉大。
🔧 Harness工程:在Agent优先的世界中运用Codex[8]
来源:OpenAI官网/Hacker News
OpenAI发布了Harness工程在Agent优先世界中利用Codex的实践文章,详细介绍了如何将AI编程工具融入实际工程工作流。文章发布于openai.com,在Hacker News上获得102点热度,反映出业界对AI辅助工程实践的高度关注。
产品发布/更新
📋 GitHub开源Spec Kit:用产品规范引导AI编码[9]
来源:X @rohanpaul_ai
GitHub发布开源工具包Spec Kit,旨在解决"vibe coding"的最大弱点——AI常在规则未明确时就开始编码。Spec Kit将流程从"让AI直接构建"改为"先写产品规范,再让AI根据规范实现",推动开发者先定义功能、澄清差距、制订技术计划、分解任务,最后让Agent执行。规范成为可执行的开发合约,已支持Copilot、Claude Code、Codex、Gemini、Cursor、Qwen等30+ Agent集成,项目已获109K+星标。
🖥️ OpenCV 5正式发布:全新DNN引擎,原生支持大模型[10]
来源:IT之家
OpenCV 5正式发布,采用基于图的DNN引擎,ONNX算子覆盖率从4.x的不到23%提升至超80%,原生支持Transformer、视觉语言模型(VLM)和大语言模型(LLM)。其他更新包括更好的Python集成与命名参数、原生FP16/BF16、规范化0D/1D张量、扩展3D视觉及现代化文档。该库GitHub拥有超86,000 stars,每日安装量超一百万次。
🔍 Her:Claude Code会话分析工具[11]
来源:Hugging Face Blog
Her是专为Claude Code设计的会话分析工具。上传.jsonl会话文件后,它用自然语言重建每轮交互,标记部署、配置变更、秘密等高风险操作并定位到具体轮次。它展示token消耗、工具使用、子智能体和MCP服务器信息,并结合最佳实践给出改进建议。工具使用Nemotron-Mini-4B-Instruct在Hugging Face ZeroGPU上运行,不调用第三方AI API,完全开源。
📊 Opus 4.8缓存命中率与有效价格可实时查看[12]
来源:X @OpenRouter
OpenRouter现在提供实时缓存命中率和历史流量数据查看功能。用户可以从Pricing标签查看不同模型提供商的缓存命中率和有效价格差异,比如Claude Opus 4.8的实时数据。这对于优化API调用成本和选择最佳模型提供商非常有价值。
🎮 NVIDIA RTX Spark发布:笔记本上的AI与游戏超芯片[13]
来源:NVIDIA AI Blog
继GTC Taipei发布后,NVIDIA CEO黄仁勋前往韩国正式介绍RTX Spark超芯片。该芯片集成30年NVIDIA技术,可在Windows笔记本上实现全天续航,以1440p分辨率、超100fps运行AAA游戏,支持DLSS 4.5 Ray Reconstruction。KRAFTON、NC与Riot Games正合作将旗下游戏适配RTX Spark,已有超100家开发商采纳。
模型发布/更新
🎯 Harness-1:20B参数检索子智能体,RL训练达SOTA[14]
来源:MarkTechPost
UIUC与Chroma联合推出Harness-1,一个20B参数的检索子智能体。它通过强化学习在有状态搜索框架中训练,该框架维护候选池、重要性标注集、证据图和验证记录,由策略决定搜索、筛选、验证及停止的时机。Harness-1在8个基准测试上达到0.730平均curated recall,比下一个最佳开源子智能体高出11.4个百分点,仅落后于Opus-4.6。模型权重和框架代码均已公开。
[1] ChatGPT变身Agent超级应用 来源:金融时报
[2] ResNet获CVPR 2026时间检验奖 来源:公众号 阶跃星辰
[3] 谷歌与SpaceX算力合作 来源:CNBC
[4] 苹果秘密会议转向AI 来源:Bloomberg
[5] 北海道农民AI实践 来源:X @AYi_AInotes
[6] M3 vs Opus代码审计对比 来源:X @MiniMax_AI
[7] GPT-5.5 vs Opus 4.8设计对比 来源:X @dotey
[8] Harness工程Codex实践 来源:OpenAI官网
[9] GitHub Spec Kit开源 来源:X @rohanpaul_ai
[10] OpenCV 5发布 来源:IT之家
[11] Her Claude Code会话分析 来源:Hugging Face Blog
[12] OpenRouter缓存命中率 来源:OpenRouter
[13] NVIDIA RTX Spark 来源:NVIDIA Blog
[14] Harness-1检索子智能体 来源:MarkTechPost
夜雨聆风