
本期看点:Z.ai 开源 GLM-5.1、MiniMax 开源 M2.7,Anthropic 推出 Claude Managed Agents 与 Claude for Word,OpenAI CRO 谈企业 AI 下一阶段,阿里认领 HappyHorse 视频模型,一个汇总 Andrej Karpathy AI编码经验的 SKILL,awesome-design-systems 收录全球网站设计标准。
编辑:TimLi
🔥 本周热点
Z.ai 在 Hugging Face 开源 GLM-5.1 旗舰模型 - 约 754B 参数、MIT 许可,定位「agentic engineering」:官方称编码与长程智能体任务较前代明显更强,在 SWE-Bench Pro、NL2Repo、Terminal-Bench 2.0 等工程向基准上对齐或超过不少闭源对手;强调不止首答分数,而是在模糊问题上能拆解、实验、读结果、多轮迭代,适合长时间会话与大量 tool call。权重可在 Together、Fireworks 等托管推理,也可本地用常见框架部署,配套技术报告与 Z.ai API。
https://huggingface.co/zai-org/GLM-5.1

MiniMax 开源 MiniMax-M2.7 并公布模型卡与部署指南 - 面向 Agent 与复杂生产力场景的 MoE 级开源模型,官方叙事里突出「参与自身演化」:用模型自建技能、跑 RL 实验、据结果改学习流程;工程向强调 SWE-Pro、Terminal Bench、多语言 SWE、Office 高保真编辑与原生 Agent Teams。提供 SGLang、vLLM、Transformers 等部署文档与工具调用说明,默认 temperature 等推理参数写在卡上,适合想自托管或对比国产开源 SOTA 的团队。
https://huggingface.co/MiniMaxAI/MiniMax-M2.7

Anthropic 发布 Claude Managed Agents 公有测试版 - 面向规模化部署托管智能体的一组可组合 API:在 Anthropic 侧跑沙箱代码执行、会话检查点、凭据与权限治理、端到端追踪;支持长时会话断线续跑、多智能体编排(部分能力在 research preview)。计费为常规 Claude Platform token 外加约每活跃会话小时 0.08 美元运行时;Console 里可看工具调用与失败模式,Claude Code 也可配合 claude-api Skill 接入。
https://claude.com/blog/claude-managed-agents

OpenAI CRO Denise Dresser:企业 AI 的下一阶段 - 短文披露企业收入占比已过四成并预计 2026 年底前可与消费端打平;点名 Codex 周活约三百万、API 每分钟 token 量级、GPT‑5.4 在 agentic 工作流里的采用。战略叙事两条线:用 Frontier 作为跨系统、跨数据的智能体治理层;再推统一「超级应用」把 ChatGPT、Codex、代理浏览等能力收进员工日常入口,并捆绑咨询与云数据伙伴做落地。
https://openai.com/index/next-phase-of-enterprise-ai/

爱范儿独家:阿里 ATH 认领屠榜视频模型 HappyHorse,郑波团队负责 - 报道指神秘模型 HappyHorse-1.0 实为阿里巴巴 ATH 创新事业部内测产品,尚未正式上线,所谓「官网」多为山寨;Artificial Analysis 竞技场中文生视频、图生视频等榜单排名靠前,无音频榜第一、有音频侧与 Seedance 2.0 Elo 接近。文章称支持文生/图生视频及可选原生音频,API 计划 4 月 30 日开放,并交代 ATH 组织架构与负责人背景,适合关心国内视频生成格局的读者跟进真伪与时间表。
https://www.ifanr.com/1661708

腾讯云 QClaw 发布 V2:多 Agent 并行与跨应用连接器 - 官方叙事把升级点放在「最多 3 个 Agent 并行」与角色可定制(内置撰稿人、程序员等),用并行拆解长任务缓解上下文遗忘与答非所问;新增连接器可把生成内容直接写入腾讯文档、Notion、邮箱等,减少复制粘贴。同步宣传「龙虾管家」安全模块:监控条限制高危脚本与误删等操作,并强调接入腾讯会议、金山文档等办公场景与安全日志——具体能力以腾讯云官方说明为准。
https://news.aibase.com/zh/news/26984

Anthropic 推出 Claude for Word 插件(Beta,面向 Team/Enterprise) - Word 加载项:对文档问答并给出可点击段落引用;局部改写保留样式与编号;可开修订模式把 AI 改动落成 Word 原生修订;能沿评论线程改锚定正文并回复说明;按模板填空时继承标题与段落样式;支持按主题语义导航条款。模型可在 Sonnet 4.6 与 Opus 4.6 间切换;与 Excel、PowerPoint 插件共享上下文。Beta 场景下聊天不长期保存,文档数据有 30 天删除策略,文档提示需防 prompt injection。
https://support.claude.com/en/articles/14465370-use-claude-for-word

📖 教程与分享
宝玉译:多智能体协调的五种常见模式 - 译文把多智能体协作拆成生成-验证者、调度-子智能体、智能体团队、消息总线、共享状态五类:各自适用「有明确评分标准」「任务边界清晰」「可并行长跑」「事件驱动扩展」「强协作共享发现」等条件,并点出典型坑——验证标准含糊变橡皮图章、调度者成信息瓶颈、团队成员抢公共资源冲突、总线无序爆炸、共享状态一致性等。文中以工单邮件、代码审查、框架迁移等例子帮助选型,主张从最简单模式起步再升级。
https://baoyu.io/translations/2026-04-11/multi-agent-coordination-patterns

Fareed Khan:用 Harness Engineering 复刻 Claude Code 式系统(Medium/GitConnected) - 长文从 Claude Code 商业成绩切入,主张核心竞争力在「模型外的 harness」:单线程主循环驱动感知-推理-工具闭环;强类型工具注册(bash/read/write/grep/glob 等)约束模型表达与执行边界;再配合按需技能注入、分层会话压缩与磁盘持久记忆,撑住超长会话。全文拆解 MCP、skills、上下文管线等组件关系,适合想自建终端 Agent 或理解 Anthropic 产品工程取舍的读者。
https://levelup.gitconnected.com/building-claude-code-with-harness-engineering-d2e8c0da85f0

🔧 模型与工具
multica:开源「托管智能体」平台 - 仓库一句话定位是开源 managed agents 平台:把编程智能体当成可指派任务、可跟进度、可复利技能(compound skills)的「队友」,而不是只在聊天窗里跑一轮。适合想自建或 fork 一套托管编排层、对照 Claude Managed Agents 那类商业形态做实验的团队,具体架构与部署以 README 与文档为准。
https://github.com/multica-ai/multica

MemPalace:本地优先的 AI 记忆与检索系统 - 用「宫殿」隐喻把对话组织成翼楼-厅堂-房间层级,默认把原始对话逐字存入 ChromaDB,靠语义检索而非让模型先摘要「什么值得记」;README 给出 LongMemEval 等基准数据与实验性 AAAK 压缩层说明,并附 MCP 工具接口。完全本地运行、无需云 API;作者含 Milla Jovovich 等,社区曾快速反馈文档表述问题并在 README 勘误,使用前先读最新说明与基准复现脚本。
https://github.com/MemPalace/mempalace

coleam00/Archon:面向 AI 编程的开源工作流 / harness 构建器 - 把「修这个 bug」一类需求拆成可重复的 YAML 工作流:规划、实现、校验、评审、开 PR 等阶段可混合确定性 bash 节点与 AI 节点,每次运行在独立 git worktree 上并行互不踩脚。自带多组默认流程(从 idea 到 PR、issue 修复、PR 多代理审查等)与 Web 仪表盘、Slack/Telegram 等适配层,定位类似「AI 版的 CI 编排器」,适合团队想把编码规范硬化成流水线而非赌模型心情的场景。
https://github.com/coleam00/Archon

Microsoft markitdown:多格式文件转 Markdown 的 Python 工具 - 微软开源的小工具,用于把 Office 文档、PDF 等文件批量转成 Markdown,方便喂给 RAG、文档管线或静态站点。适合在数据处理脚本里当转换器用,具体支持格式与限制见仓库 README 与发布说明。
https://github.com/microsoft/markitdown

alexpate/awesome-design-systems:全球设计系统清单与对标表 - 经典 Awesome 仓库,用大表格汇总各国公司/机构的 Design System,并勾选是否具备组件规范、Voice & Tone、设计师套件(Sketch/Figma 等)以及可公开查看的源码仓库。做组件库选型、品牌视觉对标,或给 AI 前端「照着 Material / Primer / Carbon 那类体系写」时当索引很省事;表很长、条目质量不一,落地前仍要点进各自官网核对版本与维护状态。
https://github.com/alexpate/awesome-design-systems

forrestchang/andrej-karpathy-skills:单文件 CLAUDE.md 约束 Claude Code 行为 - 汇总 Andrej Karpathy 谈 LLM 写代码常见坑(过度生成、忽略上下文、测试敷衍等),浓缩成一份可直接放进项目的 CLAUDE.md 规则,引导代理先想再改、少炫技多验证。适合不想维护庞大 skills 仓库、只想用一页纸改善终端 agent 习惯的团队快速试用。
https://github.com/forrestchang/andrej-karpathy-skills

tw93/waza:把工程师习惯做成 Claude 可执行的 Skills - 仓库把日常工程里已验证的习惯(分支命名、提交粒度、调试步骤等)封装成可被 Claude 调用的 skill 描述与脚本,偏「经验即代码」路线。适合已经在用 Claude Code、想把团队共识沉淀成可重复指令集的开发者,具体内容以仓库内各 skill 说明为准。
https://github.com/tw93/waza

juliusbrussee/caveman:「原始人腔」省 token 的 Claude Code 技能与多编辑器插件 - 把代理回复改成极简洞穴英语(少套话、保留技术点),README 自述可显著压低输出 token,并带 caveman-compress、caveman-commit、一行式 code review 等子能力,另有文言文等强度档位。支持 Claude Code 插件市场、Codex、Gemini CLI、Cursor/Windsurf/Cline/Copilot 等安装方式,仓库含 benchmark 与 hooks;是否接受这种文风、以及省下来的费用是否抵得上可读性损失,得自己试一轮再定。
https://github.com/juliusbrussee/caveman


夜雨聆风