摘要:本期覆盖 2026-06-02 至 2026-06-03 的 AI 技术动态,数据来源涵盖 GitHub Trending / HN / Lobsters / arXiv / HF Papers / Exa 搜索 / 官方博客。定位为开发者工具日报:今天能装什么、能用什么、能学到什么。核心主题:微软一日七连发 MAI 模型矩阵、GitHub Copilot 桌面应用 + Agent Merge 技术预览、OpenAI Codex 推出角色插件和 Sites 应用生成、Holo3.1 本地化 Computer Use Agent 四尺寸齐发、MiniMax M3 首款开源级多模态 1M 上下文模型、Perplexity Search as Code 让 Agent 搜索 token 消耗暴降 85%、GitHub Trending 被 markitdown 炸榜(3,618 stars/day)。精选 10 条,工具/应用类占 7 条。
1. microsoft/markitdown:文件转 Markdown 神器登顶 GitHub Trending
影响力: 9.0/10热度: GitHub 3,618 stars/day · 当日 Trending #1
是什么:微软开源的 Python 工具,能将几乎所有办公文件格式(Word、Excel、PowerPoint、PDF、图片等)转换为干净的 Markdown 文本。核心场景是将非结构化文档喂给 LLM 前的预处理——传统做法需要手动复制粘贴或写复杂的解析脚本,markitdown 一条命令搞定。支持的文件格式包括 .docx、.pptx、.xlsx、.pdf、.jpg/.png(OCR)、.html、.csv、.json、.xml 等十余种。
怎么用:
pip install markitdown
# 单文件转换
markitdown document.docx > output.md
# Python API
python -c "from markitdown import MarkItDown; md = MarkItDown(); print(md.convert('report.pdf').text_content)"为什么重要:在 RAG 和 AI Agent 工作流中,文档预处理是最容易被忽视的瓶颈。markitdown 以 3,618 stars/day 的速度登顶 GitHub Trending 绝非偶然——它解决了开发者每天都在面对的痛点:把 Word/PDF/PPT 喂给 LLM。与同类工具相比(如 unstructured.io 的庞大依赖链),markitdown 轻量且专注,单个 pip 包即可覆盖十余种格式,是构建 AI 文档管线的理想第一步。
讨论现场:
- GitHub Trending 当日 #1,3,618 stars/day 远超第二名(hermes-webui 1,722),反映出开发者对"文档→Markdown→LLM"这条工作流的强烈需求
- Hacker News 虽未有独立热帖,但社区普遍认为这填补了 LangChain/LlamaIndex 生态中长期缺失的基础设施层
- 开发者评论:"这正是 RAG 流水线缺少的那一环——把真实世界的文档格式统一成 LLM 能理解的格式"
来源:https://github.com/microsoft/markitdown
2. OpenAI Codex 推出 6 个角色插件 + Sites 应用生成 + Annotations 批注编辑
影响力: 8.5/10热度: OpenAI 官方博客 · SiliconANGLE · VentureBeat 全覆盖
是什么:OpenAI 于 6 月 2 日为 Codex 推出三项重大扩展:(1) 6 个角色专用插件——产品管理、设计、软件工程、数据科学、财务、销售,每个插件预置该角色常用工具集成和提示模板,无需编码即可使用;(2) Sites——从自然语言描述直接生成可分享的交互式单页网站/仪表板/项目看板,通过 URL 在工作区内共享;(3) Annotations 批注编辑——支持在非代码资产(如商业文档)上框选并直接通过自然语言修改。Codex 桌面应用自 2 月上线以来安装量增长 6 倍,周活用户超 500 万,其中非开发者占 20% 且增长最快。
怎么用:
# Codex 桌面应用中打开插件目录安装
# 或通过命令行启动 Codex 并指定插件
codex --plugin product-management
# Sites:在 Codex 对话中直接描述需求
# "Create a project dashboard with task tracking and burndown chart"为什么重要:这是 Codex 从"程序员工具"向"全角色知识工作平台"的关键转折。5 个月前 Anthropic 为 Claude Cowork 添加了类似能力,OpenAI 此次跟进意味着 AI 编码工具正在演变为通用工作自动化平台。500 万周活用户 + 6 倍增长的装机量表明,AI 辅助工作已从开发者圈层破圈。Codex 正在复制 ChatGPT 的增长曲线——先服务开发者,再辐射到所有知识工作者。
讨论现场:
- SiliconANGLE 分析:"非技术用户占 Codex 用户的 20%,且是增长最快的群体——AI 编码工具的边界正在消融"
- 社区关注点:OpenAI 同时宣布正在开发企业财务、私募投资、营销策略、战略咨询和法律等更多插件,意味着 Codex 将直接进入 SAP、Salesforce 等企业软件地盘
- 对比 Claude Cowork:Anthropic 5 个月前率先推出类似功能,OpenAI 此次是"跟随+超越"策略
来源:https://openai.com/index/codex-for-every-role-tool-workflow/ · https://siliconangle.com/2026/06/02/openai-extends-codex-productivity-tools-non-technical-users/
3. Holo3.1 发布:本地化 Computer Use Agent 四尺寸齐发,首次支持量化部署
影响力: 8.3/10热度: HuggingFace 官方博客 · H Company 官方发布
是什么:H Company 于 6 月 2 日发布 Holo3.1 系列,是 Holo3(3 月发布的 SOTA Computer Use 模型)的重大升级。核心变化:(1) 四尺寸覆盖全场景:0.8B(超轻量本地 agent)、4B(高性价比)、9B(平衡性能与延迟)、35B-A3B(MoE SOTA 性能);(2) 首次发布量化权重:FP8、Q4 GGUF、NVFP4 三种量化格式,可直接在消费级硬件上运行;(3) 跨环境鲁棒性提升:Web/桌面/移动端三端统一,适配多种 agent 框架。
怎么用:
# 下载 GGUF 量化版(消费级 GPU 可用)
huggingface-cli download Hcompany/Holo3.1-9B-GGUF --include "*.gguf"
# Python 推理(配合 transformers)
pip install transformers
python -c "
from transformers import AutoModelForCausalLM, AutoProcessor
model = AutoModelForCausalLM.from_pretrained('Hcompany/Holo3.1-9B')
processor = AutoProcessor.from_pretrained('Hcompany/Holo3.1-9B')
# 传入截图和指令,模型输出操作序列
"为什么重要:Computer Use Agent 的本地化部署一直受限于模型体积。Holo3.1 的 0.8B 和 4B 版本 + Q4 GGUF 量化意味着你可以在 MacBook 甚至手机上运行一个能看图操作软件的 AI agent。35B-A3B MoE 版本则提供了接近云端 API 的性能但完全本地运行。对想要构建隐私敏感型自动化工作流的开发者来说,这是目前最实用的选择——无需将桌面截图发送到云端 API。
讨论现场:
- HuggingFace 博客评论区高度关注量化版本的实际推理速度,尤其在 Mac 上的 MLX 适配
- 社区指出"0.8B 版本可能只适合简单点击任务,但 4B GGUF 在 RTX 3060 上实测可用于浏览器自动化"
- 与 OpenAI Operator 的对比:Holo3.1 本地运行无需 API 费用,但需要自行处理 MCP/工具集成
来源:https://huggingface.co/blog/Hcompany/holo31 · https://huggingface.co/collections/Hcompany/holo31
4. MiniMax M3:首个开源级多模态 + 编程 SOTA + 100 万 Token 上下文模型
影响力: 8.1/10热度: YouTube 多个万级播放评测 · X/Twitter 热议
是什么:MiniMax 于 6 月 2 日发布了 M3,这是首个同时实现三件事的开放权重模型:(1) 前沿级编程能力——在真实编程测试中表现超越 GPT-5.5,逼近 Claude Opus;(2) 100 万 token 上下文窗口——可一次处理整个代码库;(3) 原生多模态——文本+图像理解。核心技术是自研 MSA(MiniMax Sparse Attention)稀疏注意力架构,使得超大上下文处理保持实用效率。模型还具备长程自主任务能力,可在桌面环境中持续工作数小时。
怎么用:
# 通过 OpenRouter 直接调用
curl https://openrouter.ai/api/v1/chat/completions \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model": "minimax/minimax-m3", "messages": [{"role": "user", "content": "Analyze this entire codebase and find bugs"}]}'
# 也可通过 MiniMax 官方 API
# https://platform.minimax.io为什么重要:"开源模型不可能同时做到编程强+上下文大+多模态"这个铁律被 M3 打破了。100 万 token 上下文意味着可以一次性处理相当于 7 本小说的代码量。MSA 稀疏注意力架构可能是关键创新——如果该架构在其他模型上可复现,将大幅降低超长上下文推理的算力门槛。在 Agent 任务评测中,M3 拿到了"所有受测模型的最高分",对 OpenAI/Anthropic 的封闭生态形成实质性竞争压力。
讨论现场:
- YouTube 科技频道密集评测:"M3 might be the most underrated AI launch of the year"
- 社区讨论 MSA 架构的可复现性——如果 MiniMax 开源自研注意力机制,可能引发新一轮架构创新
- 实用场景验证:有 SEO 从业者用 M3 + Hermes Agent 在单个 prompt 中同时生成了 3 个 SEO 工具(SERP 预览器、Meta 标签生成器、关键词密度分析器)
- OpenRouter 排名显示 M3 已迅速进入高使用量模型行列
来源:https://www.youtube.com/watch?v=Uq4_wOGojoI · https://platform.minimax.io
5. Perplexity Search as Code(SaC):Agent 搜索 token 消耗暴降 85.1%
影响力: 7.9/10热度: AlphaSignal 深度分析 · Perplexity 研究论文(6 月 1 日)
是什么:Perplexity 提出了名为 Search as Code(SaC)的新型搜索架构:让模型编写 Python 代码来动态组合搜索栈的各个组件(检索、过滤、去重、证据组装),而非使用固定的搜索流水线。在 200 个 CVE 安全研究任务中,SaC 将 token 消耗从 288.7K 降至 42.9K(降低 85.1%),同时保持 100% 准确率。所有非 Perplexity 的对比系统得分均低于 25%。该模式已默认集成到 Perplexity Computer 并可通过 Agent API 使用。
怎么用:
# Perplexity Agent API(SaC 为默认模式)
curl https://api.perplexity.ai/agent/v1/chat/completions \
-H "Authorization: Bearer $PERPLEXITY_API_KEY" \
-d '{"model": "sonar", "messages": [{"role": "user", "content": "Research all high-severity CVEs in Apache Log4j from 2023-2025"}]}'
# 自建 SaC 模式:使用 Hermes Agent + execute_code + web_search
# 详见 AlphaSignal 附录教程
git clone https://github.com/NousResearch/hermes-agent
# 配置 execute_code + web_search 工具后,提示 agent 用代码编排搜索为什么重要:SaC 解决的是 Agent 搜索场景的核心痛点——LLM 在工具调用循环中反复调用搜索 API,每轮都携带大量上下文,token 消耗呈指数增长。通过将搜索逻辑下沉为可执行代码,"一次执行、一次返回"的模式从根本上改变了 cost 曲线。对需要做批量研究/安全审计/竞品分析的开发者来说,85% 的 token 节省意味着同等预算下可处理 6.7 倍的任务量。虽然 Perplexity 的搜索基础设施不开源,但 SaC 的编排模式(code execution + search primitives)可在 Hermes Agent 等开源框架中复现。
讨论现场:
- AlphaSignal 深度分析在 HN 引起关注:"这不是模型改进,是架构创新——把搜索决策权从 LLM 还给代码"
- 开发者关注 Hermes Agent 复现路径:附录中提供了完整的 skill 实现指南
- 质疑声:"200 个 CVE 测试可能过拟合了这一特定任务类型,通用场景的 token 节省率需要更多验证"
- 对比分析:在 5 系统 benchmark 中,SaC 赢了 4 项,仅 Parallel 系统在信息提取任务上稍优
来源:https://alphasignalai.substack.com/p/stop-looping-tool-calls-search-as
6. MAI-Code-1-Flash:微软编程模型空降 HN 前三,392 points 引爆讨论
影响力: 7.8/10热度: HN #2 · 407 points · 178 评论 · CNBC/The Verge/TechCrunch 全覆盖
是什么:微软于 6 月 2 日发布 MAI-Code-1-Flash,这是微软 AI 部门的代码专用模型。作为微软"一日七连发"MAI 模型矩阵中最受关注的一员,该模型在 HN 上迅速攀升至 #3(当日仅次于两个非 AI 帖)。同一天发布的还包括 MAI-Thinking-1(中型推理模型,在软件工程基准上匹敌领先模型,盲测中优于 Sonnet 4.6)、MAI-Voice-2(支持 10 种语言的 TTS 模型)和 MAI-Transcribe-1.5(43 种语言的最佳词错误率 STT 模型)。
怎么用:
# Microsoft Foundry 中调用 MAI-Code-1-Flash
# 访问 https://foundry.microsoft.com 选择模型
# 通过 Azure AI Inference API
curl https://<your-endpoint>.inference.ai.azure.com/chat/completions \
-H "Authorization: Bearer $AZURE_API_KEY" \
-d '{"model": "mai-code-1-flash", "messages": [{"role": "user", "content": "Write a Python function to parse nested JSON"}]}'为什么重要:微软在 AI 模型领域的投入正在加速——一日七连发模型矩阵(MAI-Thinking-1 / MAI-Voice-2 / MAI-Transcribe-1.5 / MAI-Code-1-Flash 等)表明其不再满足于投资 OpenAI 和集成第三方模型,而是全力自研。MAI-Thinking-1 特别值得关注:微软声称从零训练、使用企业级干净数据、无第三方模型蒸馏,这意味着它是真正独立的技术路线。在盲测中优于 Sonnet 4.6 更是直接向 Anthropic 叫板。
讨论现场:
- HN 热评:"微软终于认真做自己的模型了——不再只是 OpenAI 的经销商"
- 开发者关注 MAI-Thinking-1 的"无蒸馏"声明:"如果这真的是从零训练的推理模型而非依靠其他模型的输出,那是真正的技术突破"
- 质疑定价和可用性——目前仅 Foundry 私有预览,尚未有公开 API 定价
- 与 GitHub Copilot 的整合前景:MAI-Code-1-Flash 可能成为 Copilot 的默认后端模型
来源:https://microsoft.ai/news/introducing-mai-thinking-1/ · https://microsoft.ai/news/mai-voice-2expressive-speech-in-10-languages/
7. Google CodeWiki:输入仓库 URL,自动生成 Wikipedia 式代码文档
影响力: 7.6/10热度: YouTube 科技频道评测 · 多平台讨论
是什么:Google 于 6 月 2 日发布了 CodeWiki——一款能将任意 GitHub 仓库自动转化为完整 Wikipedia 式文档的 AI 工具。它读取代码库后生成:架构图、函数级解释、数据流图、API 文档,以及一个可对话的代码库问答界面。演示中用一个 Go 语言项目展示了完整效果:包含交互式依赖关系图、每个 package 的功能说明、以及聊天框可以直接问"这段代码是怎么处理并发的?"
怎么用:
# 直接访问 CodeWiki 网站,输入 GitHub 仓库 URL
# https://codewiki.google.com (预计域名)
# 连接 GitHub 仓库后自动生成文档站点为什么重要:代码文档化是软件工程中最痛苦但最重要的环节——几乎没有团队能做到文档和代码同步更新。CodeWiki 的"自动生成 + 持续同步"模式可能从根本上改变这一现状。与 GitHub Copilot 的代码补全不同,CodeWiki 关注的是代码的"可理解性"——让新成员能快速理解代码库结构、让老成员做 code review 时有全局视角。如果与 Google 的代码搜索能力打通,将成为开发者日常工具链的重要一环。
讨论现场:
- YouTube 评测:"为 Go 项目生成的架构图精确到了函数调用关系,聊天界面能正确回答并发模型的问题——远超简单的 README 生成"
- 社区关注点:与 GitHub Copilot Chat 的差异化——Copilot Chat 是"问答式",CodeWiki 是"百科式",两者互补
- 担忧:私有仓库的代码隐私问题,Google 是否会存储上传的代码?
来源:https://www.youtube.com/watch?v=9cyC6tj_xfA
8. chopratejas/headroom:LLM 上下文压缩神器,1,265 stars/day
影响力: 7.5/10热度: GitHub Trending 1,265 stars/day
是什么:headroom 是一款专为 LLM 场景设计的上下文压缩工具。核心功能:在工具输出、日志、文件和 RAG 检索结果进入 LLM 上下文窗口之前,自动压缩/截断/摘要化。它解决的是 AI Agent 场景中的"上下文膨胀"痛点——Agent 执行命令、读取文件、搜索网页后,原始输出往往包含大量冗余信息,塞满上下文窗口导致 token 消耗暴增且推理质量下降。支持可配置的压缩策略:截断、摘要、关键信息提取等。
怎么用:
npm install -g headroom
# 在命令行中压缩日志文件
headroom compress --input debug.log --max-tokens 2000
# 作为库集成到 Agent 代码中
npm install headroom为什么重要:headroom + Perplexity SaC 在同一天揭示了同一个行业趋势——2026 年 AI Agent 的核心瓶颈不再是模型能力,而是 token/上下文效率。headroom 的 1,265 stars/day 表明大量开发者在构建 Agent 时被上下文管理折磨。与 LangChain 的复杂上下文管理方案不同,headroom 定位为"即插即用"的轻量工具,可以轻松嵌入任何 Agent 工作流。预计此类工具将像 webpack/terser 对前端构建一样,成为 Agent 基础设施的标准组件。
讨论现场:
- GitHub Issues 中已有用户请求支持自定义压缩提示模板和 streaming 模式
- 社区对比:与 LangChain 的 ContextualCompressionRetriever 相比,headroom 更轻量且与框架无关
- 有开发者将其与 Perplexity SaC 论文联系起来讨论:"上下文压缩 + 代码化搜索 = Agent token 消耗的终极解决方案"
来源:https://github.com/chopratejas/headroom
9. nesquena/hermes-webui:Hermes Agent 的 Web/手机端界面,1,722 stars/day
影响力: 7.3/10热度: GitHub Trending 1,722 stars/day · 当日 #2
是什么:Hermes Agent(Nous Research 开源的 MIT 协议 AI Agent 框架)的 Web 和移动端界面。让用户可以通过浏览器或手机远程使用 Hermes Agent,支持多会话管理、实时输出流、移动端适配。随着 Hermes Agent 生态的快速扩展(尤其是在 SaC 等高级 Agent 模式中的应用),一个易用的 Web UI 成为刚需。该项目 1,722 stars/day 的速度反映了 Hermes 生态的爆发式增长。
怎么用:
git clone https://github.com/nesquena/hermes-webui
cd hermes-webui
docker-compose up -d
# 访问 http://localhost:3000
# 连接本地的 Hermes Agent 实例即可使用为什么重要:Hermes Agent 正在成为开源 Agent 生态的事实标准——MIT 许可证 + execute_code + web_search 工具的组合让它成为 Perplexity SaC 等高级模式的理想宿主。hermes-webui 填补了 Hermes 生态最大的缺口:非终端用户的使用体验。1,722 stars/day 的热度表明,大量开发者正在将 Hermes Agent 部署为团队共享的 AI 工作台。
讨论现场:
- GitHub Discussions 中最高赞请求:支持多 Agent 并行会话和 Agent 间通信
- 社区对比:与 Open WebUI 的定位不同,hermes-webui 专注 Agent 工作流而非聊天,界面设计更偏向任务管理
- 有用户反馈移动端适配质量超出预期:"在手机上远程管理跑在服务器上的 Hermes Agent,体验和桌面端几乎一致"
来源:https://github.com/nesquena/hermes-webui
10. OpenBMB/VoxCPM:无 Tokenizer 的多语言语音生成模型,783 stars/day
影响力: 7.1/10热度: GitHub Trending 783 stars/day
是什么:OpenBMB(清华系 AI 研究团队)发布的 VoxCPM,一款无需 tokenizer 的端到端多语言 TTS 模型。与传统 TTS"文本→音素→梅尔频谱→波形"的多阶段流水线不同,VoxCPM 直接从文本生成语音波形,支持多语言混合朗读、创意声音设计(如"让这段文字听起来像在海底说话")和高质量声音克隆。关键在于"无 tokenizer"设计——消除了传统 TTS 中音频离散化带来的信息损失,音质和自然度显著提升。
怎么用:
pip install voxcpm
# Python 调用
from voxcpm import VoxCPM
model = VoxCPM.from_pretrained("OpenBMB/VoxCPM")
audio = model.generate("Hello world! 你好世界!", voice="default")
audio.save("output.wav")为什么重要:Tokenizer-free 是语音合成领域的前沿方向——传统 TTS 将连续音频信号离散化为 token 序列再重建,本质上是"有损压缩"。VoxCPM 直接建模连续语音信号,理论上可以实现无限接近真人的音质。783 stars/day 的热度表明开发者对这种新范式的兴趣。在 AI 语音助手、有声书制作、游戏配音等场景中,VoxCPM 的"创意声音设计"能力(如指定环境混响、情绪)是一个独特的差异化能力。
讨论现场:
- HuggingFace 讨论区有用户测试声音克隆效果,反馈"中文多语言混合朗读的自然度超过 ChatTTS 和 CosyVoice"
- 社区关注训练成本——"无 tokenizer"设计是否意味着更大的模型和更慢的推理?
- 对比 Qwen3-TTS(上周发布):VoxCPM 的核心差异在于架构创新(无 tokenizer),而 Qwen3-TTS 走的是传统路线但功能更全(含声音克隆、设计、生成三合一)
来源:https://github.com/OpenBMB/VoxCPM
其他值得关注
- Microsoft MAI 七连发(HN #3 392 points + 微软官方博客):除了 10 条中的 MAI-Code-1-Flash 和 MAI-Thinking-1,微软同一天还发布了 MAI-Voice-2(10 语言 TTS)、MAI-Transcribe-1.5(43 语言 STT,WER 业界最佳)等共 7 款模型。MAI-Thinking-1 在盲测中优于 Sonnet 4.6,且声称为"无蒸馏、从零训练"
- affaan-m/ECC(GitHub 1,533 stars/day):"The agent harness performance optimization system"——专为 Claude Code/Codex/Cursor 优化的 agent 性能调优工具,一键提升编码 agent 的执行效率
- Perplexity 混合本地-云端推理(VentureBeat 报道 · Computex 2026 演示):Perplexity 在 Intel 主题演讲上演示了首个混合推理编排器——实时决定任务在本地设备还是云端执行,保护敏感数据。产品尚未上线,预计数周内推出
- supermemoryai/supermemory(GitHub 680 stars/day):自称"AI 时代的 Memory API",超高速可扩展的记忆引擎,为 AI Agent 提供持久化上下文记忆
- Pydantic AI V2 Beta 5(17K stars · 6 月 2 日发布):引入按需延迟加载能力(instructions/tools/model settings/hooks)、Grok 4.3 推理支持、Claude Opus 4.8 支持
- Sim Studio v0.6.99(29K stars · 6 月 2 日发布):新增 Together AI / Baseten / Ollama Cloud 三家模型供应商,Linq iMessage/SMS/RCS 集成(34 个工具)
- NVIDIA Cosmos 3 开源(GTC Taipei/Computex 发布):16B/64B 物理 AI 世界模型,统一物理推理+世界生成+动作生成,开源训练脚本和数据集。在 PAI-Bench/R-Bench/RoboLab 三大基准上领先
- GitHub Copilot Desktop App 技术预览(6 月 2 日发布):全新桌面应用,统一管理多 AI Agent 会话的中央工作台。"My Work"视图聚合活跃会话、Issues、PR 和后台自动化。核心功能:Agent Merge——自动跟踪 PR 从 checks→review→merge 全流程(可选让 Copilot 自动修复 CI 失败、响应 review 评论、满足条件后自动合并);Canvases——开发者和 Agent 共享的可视化工作面板(计划/PR/浏览器/终端/部署/仪表板);Cloud/Local Sandboxes——Agent 在隔离沙箱中测试运行代码。Copilot SDK 同步 GA(Node.js/Python/Go/.NET/Rust/Java 七语言)
- Copilot CLI 重大更新(6 月 2 日):全新实验性终端界面(/experimental 模式),支持 Issues/PR/Gists 标签页管理。Rubber Duck 调试模式 GA——向 Copilot 描述 bug 获得交互式诊断。语音输入 GA——本地端侧语音识别(按住空格键说话)。定时任务——
/every和/after命令在 CLI 会话内调度 prompt/skill 定时执行。Gemini 模型同步接入 Copilot CLI、Cloud Agent 和 Copilot App - Anthropic 扩展 Project Glasswing(HN 160 points · 217 评论):Anthropic 正在将 Glasswing 计划扩展到更多开发者群体
- GitHub Agentic Workflows v0.77.4(5 月 31 日):新增 Anthropic WIF 认证(无需长期 API Key)、copilot-sdk 引擎、aw.yml manifest 支持 includes/skills/agents 组合、每工作流 24h token 护栏
- 特朗普签署缩减版 AI 行政令(HN 182 points · 128 评论):经过数周反复后最终签署,政策影响待观察
- "Handoff Debt"论文(arXiv:2606.02875 · 6 月 3 日):研究编码 Agent 接手被中断任务时的"重新发现成本"——当 Agent 从另一个 Agent 或人类手中接手未完成的任务时,需要消耗多少 token 重新理解上下文。对多 Agent 协作系统的设计有直接指导意义
本期关键词:文档预处理 · Computer Use Agent · Token 效率 · 代码文档自动生成 · 开源多模态模型 · 微软 MAI 模型矩阵 · Agent 上下文压缩 · 无 Tokenizer TTS · Copilot Desktop App · Agent Merge
夜雨聆风