AI每日学习内容

AI每日学习内容 | 2026.06.03

今天阅读的AI行业进展情况，值得分享的内容。

一、本地与边缘AI推理

1、Perplexity混合Agent推理
Perplexity Computer即将推出混合Agent推理功能，将任务拆分到本地模型和云端前沿模型之间运行，私有数据保留在设备上，同时优化token使用效率。首先支持Windows笔记本，后续将支持Mac和Linux设备。Perplexity还新增两种健康数据接入：iPhone上连接Apple Health获取睡眠、活动和HRV数据，Perplexity Health中添加实验室检查和生物标志物查询功能。
（来源：Arav Srinivas，Perplexity AI CEO；@PERPLEXITY_AI官方账号）

二、AI编程与开发工具

1、Devin Desktop正式发布
Cognition正式推出Devin Desktop，可从单一界面管理本地和云端代理集群，支持在编辑器内完成规划、委派、审查和交付。兼容Codex、Claude Agent、OpenCode等任何ACP兼容代理，支持完整SDLC流程。Devin Local是新一代本地代理框架，推荐用户从Cascade切换过来。
（来源：Nader Dabit，Cognition/Devin AI增长负责人；@cognition官方账号）

2、Codex插件生态与Sites功能
OpenAI为Codex推出角色专用插件，无需编码即可一键安装，覆盖销售、数据分析、创意生产、产品设计和公开股权投资等领域，支持接入62个流行应用和110项工作技能。Sites功能可将Codex生成的工作转化为可交互的网站或App，通过URL分享给团队，已在Business和Enterprise计划中推出。
（来源：@openai官方账号；@OpenAIDevs；Greg Brockman，OpenAI总裁兼联合创始人）

3、OpenAI与AWS深度整合
OpenAI的GPT-5.5、GPT-5.4和Codex模型已在Amazon Bedrock正式上线，企业可通过Bedrock构建自主代理处理多步编码、数据分析和知识工作，按token付费。Hex数据科学工具也已接入Codex。
（来源：@sherwinwu，OpenAI；@gdb，OpenAI总裁兼联合创始人；@levie，Box CEO评论认为AWS拥有大量企业合同，此合作将扩大OpenAI模型分发并提升各模型提供商的token消耗）

4、云端代理基础设施
Cursor分享云端代理经验，指出不仅是将本地代理移到服务器，还需要持久执行平台、强大harness以及提供真实开发环境的工具基础设施。browser_use创始人推出全新Chromium fork、Firecracker fork和自定义Linux内核，支持无限扩展和亚秒级冷启动。
（来源：@cursor_ai官方账号；@gregpr07，browser_use创始人）

5、安全扫描与供应链防护
Cline CLI开源编码代理结合Bumblebee供应链扫描器，可设置每日定时任务扫描机器上的仓库，检测npm等供应链妥协，发现问题时通过短信通知。Vercel CTO分享使用deepsec扫描数十年历史CMS的经历。
（来源：@cline官方账号；@cramforce，Vercel CTO）

6、代码理念与平台观
Vercel CEO回应Warp从no-code编辑器迁移回代码的案例，强调AI编码时代代码现在廉价、简单且丰富，Vercel致力于成为代理最易用的云平台。微软Project Solara平台将代理作为新的编程单元和人机交互单元，结合定制硬件打造用户控制的代理优先体验。a16z AI应用投资人评论认为今天推出新平台仍有成功机会，应用和平台的护城河正在面临风险。
（来源：@rauchg，Vercel CEO；@illscience，a16z AI应用投资人）

7、其他开发工具动态
Ryan Dahl在MS Build大会上讨论代理安全挑战，指出核心问题不是防止代理删除文件，而是代理需要真实凭证访问的风险。分享Deno团队的Claw Patrol项目方案，通过防火墙持有凭证并在网络层解析请求，应用可配置规则阻止不良操作，链接：https://clawpatrol.dev/ 。Google推出完全免费的AI语音听写App，支持iOS和Mac，本地运行由Gemma 4驱动。OpenClaw宣布安全支持Windows系统，并与Microsoft合作引入Windows生态系统。
（来源：@rough__sea，Ryan Dahl，Deno与Node.js创始人；@Saboo_Shubham_，Google高级AI产品经理；@davemorin；@openclaw官方账号）

三、大模型与前沿研究

1、Microsoft MAI模型系列
Mustafa Suleyman宣布推出七款全新MAI模型：MAI-Thinking-1为35B活跃参数MoE模型，256K上下文，AIME 2025达97%，SWE Bench Pro达53%，在自家MAIA 200芯片上优化；MAI-Image-2.5及其Flash版本在图像编辑排行榜位居前列；MAI-Code-1-Flash为5B参数，SWE Bench Pro达51%，适用于VS Code和GitHub Copilot CLI。同时推出Microsoft Frontier Tuning支持定制专属公司代理，举例与麦肯锡合作时在质量上超越GPT-5.5且成本降低10倍。与Mayo Clinic合作开发前沿医疗AI模型。
（来源：@mustafasuleyman）

2、Google Co-Scientist科学代理
Google DeepMind推出基于Gemini的多代理系统Co-Scientist，作为科研伙伴生成、辩论和优化复杂科学问题的假设，采用想法锦标赛和科学辩论机制，可验证文献、搜索网络并整合知识。已通过全球专家评估，在肝纤维化新靶点、ALS新疗法等方面提供帮助，作为Gemini for Science的一部分向个人研究者开放假设生成功能。
（来源：@GoogleDeepMind官方账号）

四、Agent部署与评估

1、LangSmith平台更新
LangSmith Studio新增一键部署按钮，支持从原型直接部署Agent到LangSmith Deployment环境。沙盒GA版本新增快照和廉价分支功能，支持捕获运行中沙盒、创建并行分支并回滚。Deep Agents新增Agent Rubrics功能，为Agent调用附加评估标准，由评分器自动评估并自我修正输出直至满足所有要求。LangSmith LLM Gateway支持在组织、工作区、用户或API密钥级别设置花费上限。OdessiaTravel使用LangSmith和LangGraph构建的AI旅行代理正式发布，可通过对话规划并预订完整行程。
（来源：@LangChain官方账号）

2、Agent Rubrics评估机制
为Agent调用附加评估标准，评分器自动评估输出并驱动自我修正，适用于长复杂任务场景。
（来源：@LangChain官方账号）

五、垂直领域AI应用

1、法律服务
Claude官方发布The Problem Solvers系列，介绍WeAreLegora联合创始人兼CEO Max Junestrand如何用Claude将法律解释这一古老职业带入新纪元，核心观点是每次新模型发布都会提升整体能力，Legora正在为各方构建适配工具。
（来源：@claudeai官方账号）

2、企业数据与知识管理
Box CEO讨论AI代理时代的竞争优势，当竞争对手都能访问相同AI模型时，企业需利用内部机构知识、数据资产和领域特定工作流与AI结合来保持领先。Box客户希望将机构知识与任意AI模型灵活结合，可通过Box Drive本地连接Claude或通过MCP云端连接。
（来源：@levie，Box CEO）