4/17/2026 AI速递 | AI工具重大更新:Codex与Claude功能全面提升

今日,Codex发布了多项重要更新,进一步提升了开发者的生产力和用户体验。
在Mac平台上,Codex现在能够实现跨应用的计算机操作,包括查看、点击和输入文本。这一功能大大简化了多任务处理流程,提高了工作效率。新的内嵌浏览器也加速了前端、应用程序及游戏的迭代过程。
此外,Codex还引入了图像生成功能,使用gpt-image-1.5模型,为用户提供了更丰富的视觉创作工具。同时,超过90个新插件现已支持JIRA、CircleCI、GitLab、Microsoft Suite等常用工具,使得集成更加无缝。
- GitHub代码审查评论处理
- 多终端标签页支持
- 通过SSH进行远程开发环境支持(目前处于Alpha测试阶段)
- PDF、表格、幻灯片和文档的丰富预览功能
自动化功能也得到了增强,现在可以跨多天或多周恢复现有线程。记忆预览功能允许开发者保存偏好设置、纠正记录以及可重用上下文,进一步提高工作流程的效率。
值得一提的是,Codex还增加了主动建议功能,帮助用户更好地规划下一步的工作。
···

Anthropic今天正式发布了Claude Opus 4.7,定价维持Opus 4.6不变(每百万token输入5美元、输出25美元),API模型名为claude-opus-4-7,并同步上线Claude全系产品以及Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。
此次升级的最大亮点是自主编程能力的显著提升。以前需要用户逐步指导的复杂编程任务,现在可以放心交给Opus 4.7独立完成。早期用户测试显示,它不仅能应对更难、更长链的任务,还会主动验证输出再汇报。在Finance Agent等第三方测评中,已经达到了state-of-the-art的水平。
另一个重要改进是视觉处理能力的突破。新版本支持长边最高2576像素(约375万像素),超过此前Claude模型的三倍。这使得智能代理、从复杂图表提取数据或需要精确读取屏幕内容的任务直接受益。过去必须压缩的截图,现在可以直接使用原图。
值得一提的是,这次升级有一个微妙背景:Anthropic手中其实还有一个更强大的Claude Mythos Preview,但因为网络安全风险的顾虑,目前只限量开放。Opus 4.7是经过安全降级后的版本,训练时专门降低了网络攻击能力,并配套自动识别高风险用途的防护机制。安全研究人员如果想进行渗透测试或漏洞研究,必须申请Anthropic新推出的Cyber Verification Program,合规使用。
Claude Code也进行了同步升级,新增了/ultrareview命令,能专门进行深度代码审查,自动找出bug和设计问题。Pro和Max用户可以免费试用三次。此外,auto模式(允许Claude自主决策、连续执行)也首次向Max用户全面开放。同时新增了介于high和max之间的xhigh推理力度档位,Claude Code所有套餐默认推理力度已全部提升至xhigh。
需要注意的是,Opus 4.7升级后,tokenizer发生了变化,同样文本可能消耗过去1.0到1.35倍的token。在高推理档下,尤其是多轮交互场景,它的思考更深入,输出token更长。这两点可能导致实际账单微涨,Anthropic建议用户拿自己的真实流量先跑一遍,算清楚再决定是否迁移。
尽管如此,Anthropic声称Opus 4.7整体性价比仍然更优,但“具体任务具体分析”,谨慎起见,最好亲测。至于Mythos Preview何时能普遍开放,Anthropic此次没有给出时间表。
···

web-agent 是一个全面的开源框架,旨在帮助开发者构建快速且准确的研究代理。该框架提供了多种构建模块,包括自定义模型、可重用的技能手册、FireCrawl 工具、通过 just-bash 实现的 Bash 工具以及 Express 和 Next.js 模板。
借助 web-agent,用户可以引入自己的 AI 模型,无论是 Anthropic、OpenAI 还是其他自主研发的模型,从而实现更灵活和个性化的应用。此外,web-agent 采用与知名 /agent 端点相同的架构,确保了其在搜索、爬取及与网络交互方面的强大功能。
该框架完全开源,不仅适用于学术研究,同样适合商业项目。它为开发者提供了一个强大的工具箱,助力他们在各种场景下创建高效的数据处理和分析解决方案。
···

Codex现在能够帮助您处理更多工作任务,从编写代码到管理各种相关事务。
新版本的Codex几乎可以胜任一切。它不仅可以与您的Mac应用程序互动,还可以连接到更多的开发工具,创建图像,并从之前的操作中学习,以更好地适应您的工作习惯。此外,Codex能够记忆您的偏好设置,从而更高效地完成重复性任务。
主要功能包括:
- 使用您的Mac应用程序
- 连接更多开发工具
- 创建和编辑图像
- 学习并记住您的工作习惯
- 处理持续性和可重复的任务
无论是软件开发还是项目管理,Codex都能提供全面的支持,帮助您提高工作效率。
更多详情,请访问官方网站。
···

最新消息,Anthropic公司发布了Claude Opus 4.7版本。这一更新在多个方面进行了显著改进,旨在提供更高质量的输出和用户体验。
新版本的主要亮点包括:
- **增强的逻辑检查功能**:Claude现在能够在其规划阶段识别并纠正自身的逻辑错误,从而在用户看到最终结果之前确保其准确性。
- **优化复杂长任务处理**:对于需要长时间运行的任务,Claude Opus 4.7提供了更为严格的处理机制,确保任务执行的稳定性和可靠性。
- **更高的图像分辨率**:图像生成质量提升了三倍,为用户提供更清晰、更细腻的视觉体验。
- **新增命令和API功能**:引入了/ultrareview命令,并在API中增加了xhigh努力级别选项,进一步提升了开发者的灵活性和控制力。
- **任务预算和自动模式扩展**:任务预算功能进入公测阶段,而自动模式现已面向Max用户开放。
此次更新不仅强化了Claude在处理复杂任务时的能力,还通过多项技术改进,为用户提供更加精准和高效的服务。
···

browser-use 团队近日开源了一个名为 video-use 的 Claude Code 技能,旨在简化视频剪辑流程。用户只需对着摄像头录制素材,随后与 Claude Code 进行简短对话,就能获得剪辑好的成品视频。
这个工具解决了一个实际问题:在传统剪辑流程中,用户需要手动处理大量的“嗯”、“呃”等口头语和重录片段。而 video-use 通过将素材放入文件夹,并告知 Claude:“把这些剪成一个发布视频”,即可自动完成裁剪、调色、加字幕,甚至使用 Manim 或 Remotion 生成动画叠加层,最终输出 final.mp4 文件。
技术细节:
video-use 的巧妙之处在于它并不直接“看”视频内容,而是通过 ElevenLabs 将视频转写为逐词时间戳文本,整个素材被压缩成大约 12KB 的文本文件。只有在需要做出判断的节点,比如不确定某个停顿是否该切时,才会调用一张时间轴合成图来辅助决策。这种方法大大减少了计算资源的需求,据项目作者称,直接处理视频帧需要消耗约 4500 万 token,而 video-use 只需一份文本和几张图片。
渲染完成后,系统还会进行一轮自检,在每个剪切点上重新生成时间轴视图,检查画面跳变、音频爆音、字幕遮挡等问题,确保最终输出的视频质量。
该项目完全开源且免费,用户只需安装好 ffmpeg 和 Python 依赖,并将仓库软链接到 Claude Code 的技能目录即可使用。不过,转写部分依赖 ElevenLabs API,因此需要用户自己配置 key。对于经常录制屏幕教程、拍摄 vlog 但又觉得传统剪辑软件过于复杂的用户来说,video-use 是一个值得尝试的解决方案。
项目地址:https://t.co/xbF8Ay1OqY
【QuotedContent: Introducing: Video Use. Edit videos with Claude Code. 🫡\nI got tired of paying for video editors, so I made a Claude Code skill that does it for me.\n> Talk to camera, get final.mp4 “> Auto cuts fillers, color grades, adds subtitles “> Adds Manim and Remotion animations “> Self evals the render before you see it “> 100% open source, 100% free.】
···

Codex 最近推出了一项重要新功能——内置“评论模式”的应用内浏览器。这一功能允许开发者直接在代码编辑器中浏览网页,并通过简单的点击操作与AI代理进行快速迭代。
现在,你可以在代码编辑器里轻松浏览任何网页,只需点击几下鼠标就能与AI代理高效互动。Codex 会自动处理繁琐的步骤:它能够迅速截取网页屏幕,精准抓取DOM元素(DOM element),并将这些信息作为最准确的上下文无缝传递到你的对话窗口中。
主要特点包括:
- 一键截取网页屏幕
- 精准抓取DOM元素
- 将信息无缝投喂到对话窗口
这项功能不仅适用于前端开发,还非常实用于文档查阅和问题解答。无需频繁切换浏览器、拖拽截图或处理不明确的提示,大大提高了工作效率。
值得一提的是,类似的评论模式功能最早出现在v0版本中,如今Codex也引入了这一强大工具。
···

Boris Cherny 在最近几周深度使用 Claude Opus 4.7 后,分享了几个实用技巧,帮助用户更高效地发挥这款新模型的威力。
首先是新上线的“自动模式”(Auto mode)。Opus 4.7 特别适用于复杂且长期运行的任务,如深度调研、代码重构或功能迭代。以前,用户要么频繁确认权限请求,要么不得不使用危险的“跳过权限”模式。现在,自动模式让 Claude 自己判断命令的安全性并自动批准执行,从而大幅提升效率。
如果你不喜欢用自动模式,官方还推出了一个叫做 /fewer-permission-prompts (减少权限提示) 的技能。它会自动检查历史操作,找到那些安全但经常触发权限提示的命令,并建议你加入权限白名单,避免频繁打断。
另一个贴心功能叫做“回顾”(Recaps)。它会为你自动总结 Claude 已经完成的任务及下一步计划,特别适合处理长期复杂的任务。即使中途中断数小时再回来,也能迅速回到工作状态。
对于 CLI 用户,还可以试试“专注模式”(Focus mode)。该模式隐藏所有中间步骤,只呈现最终结果,让你快速抓住重点。
Claude 4.7 还引入了“努力程度”(Configure your effort level)设定,取代了以往固定的“思考预算”机制。你可以灵活调整 Claude 花费的计算资源和时间,“低努力”意味着响应快、更省 token;“高努力”则能输出最聪明、最强大的结果。一般建议普通任务用 xhigh,特别难的用 max。
最后,验证 Claude 的工作成果是提升效果的关键。例如,在后端工作中,确保 Claude 知道如何启动你的服务器/服务进行端到端测试;在前端工作中,使用 Claude Chromium 浏览器扩展程序赋予 Claude 控制浏览器的能力;对于桌面应用,使用计算机使用 (computer use) 功能。
就 Boris 自己而言,他常用的提示词通常是:“Claude 去做某某事,然后 /go”。/go 是一个自定义技能,会让 Claude 自动执行以下三步:
- 使用 bash、浏览器或计算机使用功能进行端到端的自我测试。
- 运行 /simplify (精简代码) 技能。
- 提交一个 PR。
对于耗时较长的工作,自我验证非常重要,确保代码真实可用。
总体来说,Opus 4.7 本身的提升已经很明显了,但通过调整工作流程更好地适应 Claude 的“主动性”和“智能程度”,一定会有更加明显的效率提升。
···

推荐阅读若石写的这篇博客:模型不是笨,是 Harness 没配好。文章提出了一种新的工程实践——Harness Engineering,旨在解决AI智能体在多步自主执行过程中出现的各种问题。

过去两年,我们在AI领域经历了两个重要阶段:Prompt Engineering(如何提问)和Context Engineering(提供什么上下文)。然而,这些方法在处理多步骤任务时显得力不从心。
文章以一个生动的例子说明了这一点:让一个智能体写市场分析报告,前三步进展顺利,但到第七步突然开始胡编乱造,因为搜索返回的内容超出上下文窗口被截掉了;第十步输出一段残破的JSON,导致整个流程失败。
为了解决这些问题,Harness Engineering提出了四个简单而实用的原则:
- 能用代码约束的事情,不要指望模型自觉。
- 关键状态必须外置,不让模型在内部憋着。
- 模型输出不能自卖自夸,必须找第三方验收。
- 失败要限制在局部,防止一人出错全家连坐。
Harness Engineering还提到了几个反直觉的问题:
- 上下文焦虑症:当上下文占70%以上时,模型会变得焦躁,开始跳步骤、草草收尾。
- 自评骗局:模型可能会把稀烂的代码夸成“结构清晰、可读性佳”,这不可信。
- 记忆整理周期:长期运行的智能体日志会变得凌乱,需要定期整理。
文章最后提到一个一天内可以落地的最小版本:
- 一个state.json文件存任务状态。
- 工具调用加try/catch,失败就指数退避重试。
- 模型输出全都Schema校验。
- 工具返回的数据统一截断,防止爆token。
···

我们正在为Codex添加更多插件,以增强其在您的技术栈中收集上下文和执行操作的能力。
新增的插件包括 @coderabbitai、 @Remotion 和 @CircleCI 等。这些插件将帮助Codex更好地理解和处理复杂的开发环境。
@coderabbitai 是一个人工智能助手,可以协助开发者进行代码审查和调试; @Remotion 是一个用于创建视频的React库,能够简化多媒体内容的生成过程;而 @CircleCI 则是一个持续集成和交付平台,可以帮助团队自动化测试和部署流程。
通过引入这些插件,Codex将进一步提高开发者的生产力,并提供更全面的支持。

夜雨聆风