乐于分享
好东西不私藏

【AI开源雷达】今日 GitHub 最热 AI 项目:Craft Agents、Codex Skills 合集、微软 VibeVoice

【AI开源雷达】今日 GitHub 最热 AI 项目:Craft Agents、Codex Skills 合集、微软 VibeVoice

 AI OPEN SOURCE · 第 36 期
 每日最值得关注的 AI 开源项目
 GitHub Trending 精选推荐 · 每日更新
 📅 2026年04月30日 · 📖 8 分钟 · 🔥 本期 3 个项目

 本期精选 GitHub Trending 中 3 个热门 AI 开源项目,覆盖AI Agent 框架Codex 技能生态语音 AI 模型方向,附完整背景分析、技术亮点、社区反馈与快速上手指引。

 PROJECT #01

 🤖
 Craft Agents
 lukilabs/craft-agents-oss
 ★ 5.3k  ·  ⑂ 722 Fork  ·  ↑ +0 每日  ·  TypeScript  ·  Apache-2.0

🧭 项目背景与定位

Craft Agents 是 craft.do 团队开源的 AI Agent 协作工具,同时使用 Claude Agent SDK 和 Pi SDK,旨在提供比传统 CLI 更直观的 Agent 交互体验。

其核心理念是 Agent Native——用文档而非代码来管理 Agent 工作流,支持多任务并行、无缝 API 连接和会话共享,团队甚至用 Craft Agents 本身来开发 Craft Agents。

AI Agent
 多 Agent 协作
 GUI 交互
 Claude SDK
 文档驱动

⚙️ 核心功能解析

 📦 多 SDK 并行
 同时集成 Claude Agent SDK 和 Pi SDK,取各家所长,灵活组合使用。

 🎨 文档化工作流
 以文档而非代码为中心管理 Agent 任务,支持直观的拖拽式多任务并行。

 🔌 无缝 API 连接
 无需冗长配置即可连接任意 API 或服务,降低 Agent 工具调用的技术门槛。

 👥 会话共享
 支持多人共享 Agent 会话,团队协作效率大幅提升。

💡 技术亮点

 ① 用 Agent 开发 Agent:开发团队完全使用 Craft Agents 进行日常开发,不使用任何代码编辑器,证明了其实际生产力。
 ② Agent Native 设计理念:不同于把 Agent 嵌入现有工具的思路,Craft Agents 从底层重新设计了 Agent 原生交互范式。
 ③ 高度可定制:Apache 2.0 开源协议下,几乎所有行为都可通过 prompt 自定义,无需修改代码。

⚡ 快速上手

① 安装与启动

 # # 克隆仓库
 git clone https://github.com/lukilabs/craft-agents-oss.git
 cd craft-agents-oss
 # # 安装依赖并启动(需配置 Claude/Pi API Key)
 npm install
 npm start

🎯 适用场景

 📊 个人知识管理:用文档化 Agent 工作流管理研究、写作和整理任务,比纯命令行更自然。
 🗂️ 团队协作开发:多人共享 Agent 会话,适合产品团队的需求调研、原型迭代等场景。
 🌐 跨 API 自动化:连接多个 API 服务实现复杂自动化流程,无需编写大量胶水代码。

 ⭐ github.com/lukilabs/craft-agents-oss

 PROJECT #02

 🛠️
 Awesome Codex Skills
 ComposioHQ/awesome-codex-skills
 ★ 4.8k  ·  ⑂ 297 Fork  ·  ↑ +0 每日  ·  Python  ·  MIT

🧭 项目背景与定位

Awesome Codex Skills 由 ComposioHQ 维护,是一个精心策划的 Codex 技能合集,覆盖代码开发、生产力协作、数据分析等多个领域。

Codex Skills 是模块化指令包,告诉 Codex 如何按你的方式执行任务。每个技能独立存放,包含 SKILL.md 元数据文件,Codex 根据元数据自动匹配触发,按需加载上下文,保持 token 高效利用。

Codex
 AI 编程
 技能市场
 MCP
 模块化指令

⚙️ 核心功能解析

 📦 一键安装器
 提供 Python 脚本安装器,一条命令即可将任意技能安装到 $CODEX_HOME/skills/ 目录。

 🔧 340+ 技能覆盖
 从代码审查、CI 修复到 PR 管理、数据库迁移,几乎覆盖开发者日常工作流。

 🌐 1000+ App 集成
 通过 Composio CLI 连接 Slack、GitHub、Notion 等 1000+ 应用,让 Codex 不只是写代码。

 ⚡ 按需加载上下文
 Codex 仅加载触发技能的元数据,匹配后才加载完整指令,大幅节省 context window。

💡 技术亮点

 ① Bernstein 多 Agent 编排:集合中包含 Bernstein——一个多 Agent 编排器,可在隔离的 git worktree 中并行运行多个 Codex Agent,并带质量门禁。
 ② AuraKit 46 种模式:收录的 AuraKit 框架提供 46 种模式、23 个子 Agent、6 层 OWASP 安全机制,token 节省约 55%。
 ③ Vibe-Skills 治理框架:收录的 Vibe-Skills 提供 340+ 技能的治理流程:需求冻结、审批、执行、验证和跨会话记忆。

⚡ 快速上手

① 安装技能

 # # 克隆仓库
 git clone https://github.com/ComposioHQ/awesome-codex-skills.git
 cd awesome-codex-skills
 # # 安装指定技能
 python skill-installer/scripts/install-skill-from-github.py –repo ComposioHQ/awesome-codex-skills –path meeting-notes-and-actions
 # # 重启 Codex 以加载新技能

🎯 适用场景

 📊 代码审查自动化:使用 brooks-lint 技能,基于六本经典工程书进行 AI 代码审查,自动识别技术债务和架构风险。
 🗂️ CI/CD 故障修复:gh-fix-ci 技能自动分析 GitHub Actions 失败原因并提出修复方案,减少手动排查时间。
 🌐 全栈产品构建:Emdash Skills 支持从 CF Workers 到 Stripe 的端到端 SaaS 产品构建,18 个 Agent 协同完成。

 ⭐ github.com/ComposioHQ/awesome-codex-skills

 PROJECT #03

 🔬
 VibeVoice
 microsoft/VibeVoice
 ★ 45.7k  ·  ⑂ 5.0k Fork  ·  ↑ +0 每日  ·  Python  ·  MIT

🧭 项目背景与定位

VibeVoice 是微软开源的前沿语音 AI 模型家族,包含 TTS(文本转语音)和 ASR(语音识别)两大产品线,核心创新是使用 7.5 Hz 超低帧率的连续语音分词器。

VibeVoice 采用 next-token diffusion 框架,利用 LLM 理解文本上下文和对话流,再通过 diffusion head 生成高保真声学细节。其 ASR 模型支持 50+ 语言、60 分钟长音频单次处理,TTS 模型已获 ICLR 2026 Oral 录用。

语音 AI
 TTS
 ASR
 LLM
 扩散模型
 微软开源

⚙️ 核心功能解析

 🎙️ 60 分钟长音频单次处理
 VibeVoice-ASR-7B 可在 64K token 长度内处理长达 60 分钟的连续音频,保持说话人追踪和语义一致性。

 🌍 50+ 语言支持
 ASR 模型原生支持超过 50 种语言,覆盖主流语种和小语种。

 👤 自定义热词
 用户可输入专有名词、技术术语等热词,显著提升特定领域内容的识别准确率。

 ⚡ vLLM 推理加速
 已支持 vLLM 推理框架,大幅提升推理速度,适合生产环境部署。

💡 技术亮点

 💡 实测数据:Intranode 8 EP 下 Dispatch 带宽达 153 GB/s(NVLink),低延迟内核在 8 EP 下仅需 77 μs,RDMA 带宽 98 GB/s

 ① 7.5 Hz 超低帧率分词器:声学 + 语义双连续语音分词器以 7.5 Hz 运行,比传统方案帧率低一个数量级,同时保持音频保真度。
 ② 结构化转录输出:联合执行 ASR、说话人分离和时间戳标注,输出包含 Who、When、What 的结构化结果。
 ③ ICLR 2026 Oral 论文:TTS 模型被 ICLR 2026 接收为 Oral 论文,学术质量有保证。

⚡ 快速上手

① 使用 VibeVoice-ASR

 # # 从 HuggingFace 加载模型(需 transformers)
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
 model = AutoModelForSpeechSeq2Seq.from_pretrained(‘microsoft/VibeVoice-ASR’)
 processor = AutoProcessor.from_pretrained(‘microsoft/VibeVoice-ASR’)
 # # 或直接访问 Playground 体验
 # https://aka.ms/vibevoice-asr

🎯 适用场景

 📊 会议录音转写:60 分钟会议音频单次处理,自动分离不同发言人并标注时间戳,输出结构化会议记录。
 🗂️ 多语言播客转写:50+ 语言支持使其成为国际化内容转写的理想选择,配合自定义热词可精准识别专业术语。
 🌐 实时语音合成:VibeVoice-Realtime-0.5B 支持流式文本输入,适合实时语音播报、语音助手等场景。

 ⭐ github.com/microsoft/VibeVoice

 📋 本期要点回顾
 Craft Agents — 用文档化 GUI 重塑 AI Agent 工作流
 Awesome Codex Skills — Codex 技能大全,模块化 AI 编程
 VibeVoice — 微软开源的 LLM 驱动语音 AI 全家桶
 ③ AI Agent 正从 CLI 走向 GUI,从单模态走向多模态——Craft Agents 用文档化交互重塑 Agent 工作流,Codex Skills 让 AI 编程模块化,VibeVoice 则用 LLM 驱动语音合成,建议关注 Agent 交互范式变革的长期趋势。

 
 AI 开源雷达
 每日精选 GitHub 上最值得关注的 AI / LLM 开源项目
深度解析 · 快速上手 · 持续追踪技术前沿

 # 大模型# AI Agent# 开源工具# 每日更新