OpenClaw 视频翻译技能
AI Agent & LLM
早上好,昨天(6月3日)AI Agent 和 LLM 赛道相当热闹,从开源视觉模型到企业 AI 落地定价都有值得聊的。
重点动态
Ideogram 4.0 开源,9.3B 文生图模型
93 亿参数的单流扩散 Transformer,完全从头训练,文本渲染能力在开源模型里目前最强。
Ideogram 把 4.0 直接开源了,NF4 量化后单张 24GB 显卡就能跑。重点不在参数量,而是它用结构化 JSON prompt 做精确控制,覆盖文字渲染、bounding box 空间定位和色彩调色板,可控性很强。
实测文字渲染在开源模型中是碾压级表现。做海报、信息图这类需要精准嵌入文字的场景,这可能是目前最实用的开源选择。
📎 相关链接
Ideogram 4.0
https://github.com/ideogram-oss/ideogram4
Uber 给 AI 工具设每月 $1,500 上限
Simon Willison 指出 Uber 限制 Claude Code 等工具月消费 $1,500,这个数字本身就是 AI 工具定价的心理锚点。
Bloomberg 报道 Uber 开始对 Claude Code、Cursor 等工具设定月度使用上限。Simon 的分析很到位:企业愿意为单个工程师每月花多少在 AI 上,正在形成一个行业共识价位。
这对 SaaS 定价策略影响很大。一线大厂接受这个价位,按 seat 订阅的 AI 编程工具就有了明确的定价天花板。反过来也说明,AI 编程工具的 ROI 已经被企业认真量化了。

📎 相关链接
Uber AI cap analysis
https://simonwillison.net/2026/Jun/3/uber-caps-usage/
Metatron:把代码库的隐性知识喂给编码 Agent
一个自托管系统,把代码库里的实现决策、偏好模式和被否决的方案结构化后通过 MCP 服务给编码 Agent。
编码 Agent 的通病是不了解项目历史,每次从零推理。Metatron 把隐性知识提取成结构化先验,通过 MCP 协议注入 Claude Code 和 Cursor。目标很明确,让 Agent 写代码像熟悉代码库的高级工程师。
思路类似 RAG 但粒度更细,聚焦代码决策层面而非文档检索。目前支持 Python,项目还比较早期,理念方向值得持续关注。

📎 相关链接
Metatron
https://github.com/kerbelp/metatron
AWS Bedrock Agent Core Skill
一个 Claude Code 插件,按 AWS 官方最佳实践在 Bedrock 上构建生产级 Agent,覆盖 Strands Agents、Bedrock 和 Bedrock AgentCore 三条路径。
这不是模板生成器,而是真正引用了 AWS 官方文档作为权威来源,Agent 构建过程中会动态查阅。对需要在 AWS 上部署 Agent 的团队来说,相当于把最佳实践编码成了 Claude Code 的一个能力。

📎 相关链接
AWSBedrockAgentCoreSkill
https://github.com/ferdinandobons/AWSBedrockAgentCoreSkill
Engram:给 Claude Code 加类脑长期记忆
Rust 写的单二进制工具,实现分层、自动遗忘、自动巩固的长期记忆,session 开始注入相关记忆,结束时自动整合。
Claude Code 的上下文用完就忘,Engram 要解决这个问题。记忆分多层,模拟人脑遗忘曲线和记忆巩固机制,零依赖且不需要向量数据库,部署非常干净。

📎 相关链接
Engram
https://github.com/jimhy/engram
Claude Opus 审查移除工具冲上 Trending
声称在 prompt 层移除 Claude Opus 4.6+ 拒绝机制的中间件,昨天在 GitHub Trending 上热度很高。
这类项目在安全社区争议很大,技术上走的是 prompt 注入和中间件拦截的路子,实际效果存疑。更多反映的是社区对模型审查机制的持续博弈,关注安全动态即可。

📎 相关链接
Claude Censorship Remover
https://github.com/DisplaySanctify/Claude-Opus-4.6-Censorship-Remover
OpenClaw 视频翻译技能
英文字幕翻译到中文,生成 TTS 配音,合成多轨道无损视频,内置三维自适应调度器防止 API 限流。
全链路自动化,从字幕翻译到配音合成一气呵成。三维自适应调度器专门解决 LLM 和 TTS 的速率限制问题,对批量翻译场景比较实用。

📎 相关链接
openclaw-skill-videotranslate
https://github.com/zbjincheng/openclaw-skill-videotranslate
LocateAnything-3B 批量推理优化
给 NVIDIA LocateAnything-3B 加了 batch 推理和 KV cache 支持,原版只支持 batch=1。
通过 KV cache 和批处理提升吞吐量,对需要大规模图像定位的场景直接有效,改动不大但实用价值明确。

📎 相关链接
LocateAnything-3B-batch
https://github.com/liuwang97/LocateAnything-3B-batch
统一视频-动作联合去噪用于灵巧操作
arXiv 新论文,从分布视角重新审视视频基础模型与机器人动作的对齐,保留更宽的联合分布而非收窄为条件策略。
传统方法把对齐后的先验收窄为条件策略分布,这篇选择建模交互视频和可执行手部轨迹的联合空间,把视频生成和灵巧动作数据生成统一到一个去噪框架里,思路比较新颖。

📎 相关链接
论文
https://arxiv.org/abs/2606.03868
下午见。
夜雨聆风