今天阅读的AI行业进展情况,值得分享的内容。
一、本地与边缘AI推理
1、Perplexity混合Agent推理
Perplexity Computer即将推出混合Agent推理功能,将任务拆分到本地模型和云端前沿模型之间运行,私有数据保留在设备上,同时优化token使用效率。首先支持Windows笔记本,后续将支持Mac和Linux设备。Perplexity还新增两种健康数据接入:iPhone上连接Apple Health获取睡眠、活动和HRV数据,Perplexity Health中添加实验室检查和生物标志物查询功能。
(来源:Arav Srinivas,Perplexity AI CEO;@PERPLEXITY_AI官方账号)
二、AI编程与开发工具
1、Devin Desktop正式发布
Cognition正式推出Devin Desktop,可从单一界面管理本地和云端代理集群,支持在编辑器内完成规划、委派、审查和交付。兼容Codex、Claude Agent、OpenCode等任何ACP兼容代理,支持完整SDLC流程。Devin Local是新一代本地代理框架,推荐用户从Cascade切换过来。
(来源:Nader Dabit,Cognition/Devin AI增长负责人;@cognition官方账号)
2、Codex插件生态与Sites功能
OpenAI为Codex推出角色专用插件,无需编码即可一键安装,覆盖销售、数据分析、创意生产、产品设计和公开股权投资等领域,支持接入62个流行应用和110项工作技能。Sites功能可将Codex生成的工作转化为可交互的网站或App,通过URL分享给团队,已在Business和Enterprise计划中推出。
(来源:@openai官方账号;@OpenAIDevs;Greg Brockman,OpenAI总裁兼联合创始人)
3、OpenAI与AWS深度整合
OpenAI的GPT-5.5、GPT-5.4和Codex模型已在Amazon Bedrock正式上线,企业可通过Bedrock构建自主代理处理多步编码、数据分析和知识工作,按token付费。Hex数据科学工具也已接入Codex。
(来源:@sherwinwu,OpenAI;@gdb,OpenAI总裁兼联合创始人;@levie,Box CEO评论认为AWS拥有大量企业合同,此合作将扩大OpenAI模型分发并提升各模型提供商的token消耗)
4、云端代理基础设施
Cursor分享云端代理经验,指出不仅是将本地代理移到服务器,还需要持久执行平台、强大harness以及提供真实开发环境的工具基础设施。browser_use创始人推出全新Chromium fork、Firecracker fork和自定义Linux内核,支持无限扩展和亚秒级冷启动。
(来源:@cursor_ai官方账号;@gregpr07,browser_use创始人)
5、安全扫描与供应链防护
Cline CLI开源编码代理结合Bumblebee供应链扫描器,可设置每日定时任务扫描机器上的仓库,检测npm等供应链妥协,发现问题时通过短信通知。Vercel CTO分享使用deepsec扫描数十年历史CMS的经历。
(来源:@cline官方账号;@cramforce,Vercel CTO)
6、代码理念与平台观
Vercel CEO回应Warp从no-code编辑器迁移回代码的案例,强调AI编码时代代码现在廉价、简单且丰富,Vercel致力于成为代理最易用的云平台。微软Project Solara平台将代理作为新的编程单元和人机交互单元,结合定制硬件打造用户控制的代理优先体验。a16z AI应用投资人评论认为今天推出新平台仍有成功机会,应用和平台的护城河正在面临风险。
(来源:@rauchg,Vercel CEO;@illscience,a16z AI应用投资人)
7、其他开发工具动态
Ryan Dahl在MS Build大会上讨论代理安全挑战,指出核心问题不是防止代理删除文件,而是代理需要真实凭证访问的风险。分享Deno团队的Claw Patrol项目方案,通过防火墙持有凭证并在网络层解析请求,应用可配置规则阻止不良操作,链接:https://clawpatrol.dev/ 。Google推出完全免费的AI语音听写App,支持iOS和Mac,本地运行由Gemma 4驱动。OpenClaw宣布安全支持Windows系统,并与Microsoft合作引入Windows生态系统。
(来源:@rough__sea,Ryan Dahl,Deno与Node.js创始人;@Saboo_Shubham_,Google高级AI产品经理;@davemorin;@openclaw官方账号)
三、大模型与前沿研究
1、Microsoft MAI模型系列
Mustafa Suleyman宣布推出七款全新MAI模型:MAI-Thinking-1为35B活跃参数MoE模型,256K上下文,AIME 2025达97%,SWE Bench Pro达53%,在自家MAIA 200芯片上优化;MAI-Image-2.5及其Flash版本在图像编辑排行榜位居前列;MAI-Code-1-Flash为5B参数,SWE Bench Pro达51%,适用于VS Code和GitHub Copilot CLI。同时推出Microsoft Frontier Tuning支持定制专属公司代理,举例与麦肯锡合作时在质量上超越GPT-5.5且成本降低10倍。与Mayo Clinic合作开发前沿医疗AI模型。
(来源:@mustafasuleyman)
2、Google Co-Scientist科学代理
Google DeepMind推出基于Gemini的多代理系统Co-Scientist,作为科研伙伴生成、辩论和优化复杂科学问题的假设,采用想法锦标赛和科学辩论机制,可验证文献、搜索网络并整合知识。已通过全球专家评估,在肝纤维化新靶点、ALS新疗法等方面提供帮助,作为Gemini for Science的一部分向个人研究者开放假设生成功能。
(来源:@GoogleDeepMind官方账号)
四、Agent部署与评估
1、LangSmith平台更新
LangSmith Studio新增一键部署按钮,支持从原型直接部署Agent到LangSmith Deployment环境。沙盒GA版本新增快照和廉价分支功能,支持捕获运行中沙盒、创建并行分支并回滚。Deep Agents新增Agent Rubrics功能,为Agent调用附加评估标准,由评分器自动评估并自我修正输出直至满足所有要求。LangSmith LLM Gateway支持在组织、工作区、用户或API密钥级别设置花费上限。OdessiaTravel使用LangSmith和LangGraph构建的AI旅行代理正式发布,可通过对话规划并预订完整行程。
(来源:@LangChain官方账号)
2、Agent Rubrics评估机制
为Agent调用附加评估标准,评分器自动评估输出并驱动自我修正,适用于长复杂任务场景。
(来源:@LangChain官方账号)
五、垂直领域AI应用
1、法律服务
Claude官方发布The Problem Solvers系列,介绍WeAreLegora联合创始人兼CEO Max Junestrand如何用Claude将法律解释这一古老职业带入新纪元,核心观点是每次新模型发布都会提升整体能力,Legora正在为各方构建适配工具。
(来源:@claudeai官方账号)
2、企业数据与知识管理
Box CEO讨论AI代理时代的竞争优势,当竞争对手都能访问相同AI模型时,企业需利用内部机构知识、数据资产和领域特定工作流与AI结合来保持领先。Box客户希望将机构知识与任意AI模型灵活结合,可通过Box Drive本地连接Claude或通过MCP云端连接。
(来源:@levie,Box CEO)
夜雨聆风