【AI开源雷达】今日 GitHub 最热 AI 项目:Craft Agents、Codex Skills 合集、微软 VibeVoice
AI OPEN SOURCE · 第 36 期
每日最值得关注的 AI 开源项目
GitHub Trending 精选推荐 · 每日更新
📅 2026年04月30日 · 📖 8 分钟 · 🔥 本期 3 个项目
本期精选 GitHub Trending 中 3 个热门 AI 开源项目,覆盖AI Agent 框架、Codex 技能生态与语音 AI 模型方向,附完整背景分析、技术亮点、社区反馈与快速上手指引。
PROJECT #01
🤖
Craft Agents
lukilabs/craft-agents-oss
★ 5.3k · ⑂ 722 Fork · ↑ +0 每日 · TypeScript · Apache-2.0
🧭 项目背景与定位
Craft Agents 是 craft.do 团队开源的 AI Agent 协作工具,同时使用 Claude Agent SDK 和 Pi SDK,旨在提供比传统 CLI 更直观的 Agent 交互体验。
其核心理念是 Agent Native——用文档而非代码来管理 Agent 工作流,支持多任务并行、无缝 API 连接和会话共享,团队甚至用 Craft Agents 本身来开发 Craft Agents。
AI Agent
多 Agent 协作
GUI 交互
Claude SDK
文档驱动
⚙️ 核心功能解析
📦 多 SDK 并行
同时集成 Claude Agent SDK 和 Pi SDK,取各家所长,灵活组合使用。
🎨 文档化工作流
以文档而非代码为中心管理 Agent 任务,支持直观的拖拽式多任务并行。
🔌 无缝 API 连接
无需冗长配置即可连接任意 API 或服务,降低 Agent 工具调用的技术门槛。
👥 会话共享
支持多人共享 Agent 会话,团队协作效率大幅提升。
💡 技术亮点
① 用 Agent 开发 Agent:开发团队完全使用 Craft Agents 进行日常开发,不使用任何代码编辑器,证明了其实际生产力。
② Agent Native 设计理念:不同于把 Agent 嵌入现有工具的思路,Craft Agents 从底层重新设计了 Agent 原生交互范式。
③ 高度可定制:Apache 2.0 开源协议下,几乎所有行为都可通过 prompt 自定义,无需修改代码。
⚡ 快速上手
① 安装与启动
# # 克隆仓库
git clone https://github.com/lukilabs/craft-agents-oss.git
cd craft-agents-oss
# # 安装依赖并启动(需配置 Claude/Pi API Key)
npm install
npm start
🎯 适用场景
📊 个人知识管理:用文档化 Agent 工作流管理研究、写作和整理任务,比纯命令行更自然。
🗂️ 团队协作开发:多人共享 Agent 会话,适合产品团队的需求调研、原型迭代等场景。
🌐 跨 API 自动化:连接多个 API 服务实现复杂自动化流程,无需编写大量胶水代码。
⭐ github.com/lukilabs/craft-agents-oss
PROJECT #02
🛠️
Awesome Codex Skills
ComposioHQ/awesome-codex-skills
★ 4.8k · ⑂ 297 Fork · ↑ +0 每日 · Python · MIT
🧭 项目背景与定位
Awesome Codex Skills 由 ComposioHQ 维护,是一个精心策划的 Codex 技能合集,覆盖代码开发、生产力协作、数据分析等多个领域。
Codex Skills 是模块化指令包,告诉 Codex 如何按你的方式执行任务。每个技能独立存放,包含 SKILL.md 元数据文件,Codex 根据元数据自动匹配触发,按需加载上下文,保持 token 高效利用。
Codex
AI 编程
技能市场
MCP
模块化指令
⚙️ 核心功能解析
📦 一键安装器
提供 Python 脚本安装器,一条命令即可将任意技能安装到 $CODEX_HOME/skills/ 目录。
🔧 340+ 技能覆盖
从代码审查、CI 修复到 PR 管理、数据库迁移,几乎覆盖开发者日常工作流。
🌐 1000+ App 集成
通过 Composio CLI 连接 Slack、GitHub、Notion 等 1000+ 应用,让 Codex 不只是写代码。
⚡ 按需加载上下文
Codex 仅加载触发技能的元数据,匹配后才加载完整指令,大幅节省 context window。
💡 技术亮点
① Bernstein 多 Agent 编排:集合中包含 Bernstein——一个多 Agent 编排器,可在隔离的 git worktree 中并行运行多个 Codex Agent,并带质量门禁。
② AuraKit 46 种模式:收录的 AuraKit 框架提供 46 种模式、23 个子 Agent、6 层 OWASP 安全机制,token 节省约 55%。
③ Vibe-Skills 治理框架:收录的 Vibe-Skills 提供 340+ 技能的治理流程:需求冻结、审批、执行、验证和跨会话记忆。
⚡ 快速上手
① 安装技能
# # 克隆仓库
git clone https://github.com/ComposioHQ/awesome-codex-skills.git
cd awesome-codex-skills
# # 安装指定技能
python skill-installer/scripts/install-skill-from-github.py –repo ComposioHQ/awesome-codex-skills –path meeting-notes-and-actions
# # 重启 Codex 以加载新技能
🎯 适用场景
📊 代码审查自动化:使用 brooks-lint 技能,基于六本经典工程书进行 AI 代码审查,自动识别技术债务和架构风险。
🗂️ CI/CD 故障修复:gh-fix-ci 技能自动分析 GitHub Actions 失败原因并提出修复方案,减少手动排查时间。
🌐 全栈产品构建:Emdash Skills 支持从 CF Workers 到 Stripe 的端到端 SaaS 产品构建,18 个 Agent 协同完成。
⭐ github.com/ComposioHQ/awesome-codex-skills
PROJECT #03
🔬
VibeVoice
microsoft/VibeVoice
★ 45.7k · ⑂ 5.0k Fork · ↑ +0 每日 · Python · MIT
🧭 项目背景与定位
VibeVoice 是微软开源的前沿语音 AI 模型家族,包含 TTS(文本转语音)和 ASR(语音识别)两大产品线,核心创新是使用 7.5 Hz 超低帧率的连续语音分词器。
VibeVoice 采用 next-token diffusion 框架,利用 LLM 理解文本上下文和对话流,再通过 diffusion head 生成高保真声学细节。其 ASR 模型支持 50+ 语言、60 分钟长音频单次处理,TTS 模型已获 ICLR 2026 Oral 录用。
语音 AI
TTS
ASR
LLM
扩散模型
微软开源
⚙️ 核心功能解析
🎙️ 60 分钟长音频单次处理
VibeVoice-ASR-7B 可在 64K token 长度内处理长达 60 分钟的连续音频,保持说话人追踪和语义一致性。
🌍 50+ 语言支持
ASR 模型原生支持超过 50 种语言,覆盖主流语种和小语种。
👤 自定义热词
用户可输入专有名词、技术术语等热词,显著提升特定领域内容的识别准确率。
⚡ vLLM 推理加速
已支持 vLLM 推理框架,大幅提升推理速度,适合生产环境部署。
💡 技术亮点
💡 实测数据:Intranode 8 EP 下 Dispatch 带宽达 153 GB/s(NVLink),低延迟内核在 8 EP 下仅需 77 μs,RDMA 带宽 98 GB/s
① 7.5 Hz 超低帧率分词器:声学 + 语义双连续语音分词器以 7.5 Hz 运行,比传统方案帧率低一个数量级,同时保持音频保真度。
② 结构化转录输出:联合执行 ASR、说话人分离和时间戳标注,输出包含 Who、When、What 的结构化结果。
③ ICLR 2026 Oral 论文:TTS 模型被 ICLR 2026 接收为 Oral 论文,学术质量有保证。
⚡ 快速上手
① 使用 VibeVoice-ASR
# # 从 HuggingFace 加载模型(需 transformers)
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
model = AutoModelForSpeechSeq2Seq.from_pretrained(‘microsoft/VibeVoice-ASR’)
processor = AutoProcessor.from_pretrained(‘microsoft/VibeVoice-ASR’)
# # 或直接访问 Playground 体验
# https://aka.ms/vibevoice-asr
🎯 适用场景
📊 会议录音转写:60 分钟会议音频单次处理,自动分离不同发言人并标注时间戳,输出结构化会议记录。
🗂️ 多语言播客转写:50+ 语言支持使其成为国际化内容转写的理想选择,配合自定义热词可精准识别专业术语。
🌐 实时语音合成:VibeVoice-Realtime-0.5B 支持流式文本输入,适合实时语音播报、语音助手等场景。
⭐ github.com/microsoft/VibeVoice
📋 本期要点回顾
① Craft Agents — 用文档化 GUI 重塑 AI Agent 工作流
② Awesome Codex Skills — Codex 技能大全,模块化 AI 编程
③ VibeVoice — 微软开源的 LLM 驱动语音 AI 全家桶
③ AI Agent 正从 CLI 走向 GUI,从单模态走向多模态——Craft Agents 用文档化交互重塑 Agent 工作流,Codex Skills 让 AI 编程模块化,VibeVoice 则用 LLM 驱动语音合成,建议关注 Agent 交互范式变革的长期趋势。
⚡
AI 开源雷达
每日精选 GitHub 上最值得关注的 AI / LLM 开源项目
深度解析 · 快速上手 · 持续追踪技术前沿
# 大模型# AI Agent# 开源工具# 每日更新
夜雨聆风