6月1日GitHub热榜 微软文档转换神器日涨近三千星 七个项目不容错过

今日 GitHub 热榜,微软 MarkItDown 强势登顶日涨 2798 星,AI 视频生成、语音克隆、从零训 LLM 等项目扎堆上榜。实用工具与硬核教程齐飞,这七个项目值得你花五分钟了解一下。
1 MarkItDown —— 微软出品的万能文档转 Markdown 工具
🌟 136,154 星 | ⭐ 今日 +2,798 | Python
🔗 https://github.com/microsoft/markitdown
今天的热榜第一名属于微软。MarkItDown 做的事情很直接——把你手里的任何文件转成干净的 Markdown 格式。
别小看这件事。当你需要把一堆 PDF、Word、Excel、PPT、甚至图片和音频喂给大语言模型时,格式转换往往是最头疼的一步。MarkItDown 直接把这个环节干掉了。
支持的格式极其丰富:
-
📄 PDF、Word(.docx)、Excel(.xlsx)、PPT(.pptx) -
🌐 HTML 网页 -
🖼️ 图片(支持 OCR 识别和 EXIF 提取) -
🎵 音频(自动语音转录) -
📦 ZIP 压缩包(递归处理内部文件) -
📊 CSV、JSON、XML 等结构化数据
安装一行搞定:
pip install markitdown
使用也极简,命令行直接转:
markitdown path-to-file.pdf > output.md
一句话评价:给 AI 喂文档之前的”标准预处理器”,13 万星不是没道理的。
2 MoneyPrinterTurbo —— AI 一键生成短视频
🌟 75,791 星 | ⭐ 今日 +1,937 | Python
🔗 https://github.com/harry0703/MoneyPrinterTurbo
老朋友又回来了。这个项目已经是 GitHub 的常客,但它确实好用到让人反复推荐。
输入一个话题或关键词,它就能自动完成从文案撰写到视频成片的全流程:
-
📝 AI 生成文案脚本 -
🖼️ 自动搜索匹配的无版权素材 -
🗣️ 多种语音合成引擎可选,支持试听 -
📝 字幕自动生成,字体颜色位置全可调 -
🎵 自动配背景音乐 -
🎬 输出竖屏(9:16)或横屏(16:9)高清视频
后端接入了 DeepSeek、GPT、Gemini、通义千问等 10+ 大模型,灵活切换。
一句话评价:做知识类短视频的自媒体人,靠这一个工具就能把日更效率翻倍。
3 build-your-own-x —— 造轮子学编程的终极指南
🌟 509,735 星 | ⭐ 今日 +1,158 | Markdown
🔗 https://github.com/codecrafters-io/build-your-own-x
50 万星的项目,GitHub 上排名前几的”镇站之宝”。今天又涨了 1000 多星,说明一件事:永远有人在通过造轮子学编程。
这个仓库汇集了几百篇”从零实现 XXX”的高质量教程,覆盖你能想到的几乎所有技术领域:
-
🔧 自己写一个 Git、Docker、数据库 -
🌐 自己实现一个 Web 服务器、HTTP 客户端 -
🤖 自己训练一个神经网络、搜索引擎 -
🎮 自己做一个 3D 渲染器、物理引擎
每篇教程都附带完整的源码和详细步骤说明。
一句话评价:学编程最好的方式就是造轮子,而这里有全世界最全的造轮子指南。
4 VoxCPM —— 免分词器的多语言语音合成
🌟 23,841 星 | ⭐ 今日 +635 | Python
🔗 https://github.com/OpenBMB/VoxCPM
来自清华大学 OpenBMB 团队的语音合成项目。VoxCPM2 的最大特点是不需要分词器(Tokenizer-Free),直接在原始音频上建模。
这意味着什么?更自然的语音、更灵活的风格控制、更好的多语言支持。
核心能力:
-
🎤 声音克隆:给一段参考音频,就能生成同样音色的语音 -
🎭 风格可控:语速、情感、语调都能精细调节 -
🌍 多语言支持:中英日等多语种混合生成 -
🎨 创意语音设计:用文字描述想要的声音风格
提供了 WebUI 和 API 两种使用方式,支持接入 OpenAI 兼容客户端。
一句话评价:让机器说话不再”机器味”,TTS 赛道又多了一个强力选手。
5 train-llm-from-scratch —— 手把手教你从零训练大模型
🌟 3,286 星 | ⭐ 今日 +626 | Jupyter Notebook
🔗 https://github.com/FareedKhan-dev/train-llm-from-scratch
名字就是最好的介绍——从下载数据到生成文本,一步步教你训练自己的 LLM。
这不是那种”调 API 假装训练”的教程,而是真刀真枪地从数据处理、分词、模型架构、训练循环到推理生成全部手写。
教程覆盖的完整流程:
-
📥 下载和清洗训练数据 -
✂️ 分词器训练(使用 GPT-2/GPT-3 的 Tokenizer) -
🏗️ 从零搭建 Transformer 架构 -
🔥 编写训练循环,支持梯度累积 -
💬 实现推理和文本生成
所有代码都在 Jupyter Notebook 里,可以一个 Cell 一个 Cell 地跑,非常适合学习。
一句话评价:想真正理解大模型是怎么训出来的?跟着这个仓库走一遍就够了。
6 Scrapling —— 自适应反检测爬虫框架
🌟 57,247 星 | ⭐ 今日 +606 | Python
🔗 https://github.com/D4Vinci/Scrapling
如果你还在用 requests + BeautifulSoup 写爬虫,可以看看这个。Scrapling 号称是一个自适应的爬虫框架,能自动处理从单次请求到大规模爬取的所有场景。
它解决的核心痛点:
-
🛡️ 反检测:自动处理指纹识别、JavaScript 渲染、验证码等反爬手段 -
🔄 自适应选择器:网页结构变了?它能自动调整元素定位策略 -
⚡ 性能:内置连接池和并发控制 -
🧠 智能解析:支持 CSS 选择器、XPath、文本搜索等多种元素定位方式
提供同步和异步两种 API,支持 Session 管理和 Cookie 持久化。
一句话评价:爬虫界的”全自动挡”,应对网站反爬不再需要手动调参。
7 Claude Code —— Anthropic 官方的终端 AI 编程工具
🌟 129,161 星 | ⭐ 今日 +489 | Python
🔗 https://github.com/anthropics/claude-code
Anthropic 的亲儿子,Claude Code 是一个运行在终端里的 AI 编程代理。和 Copilot 之类的补全工具不同,它更像一个能理解整个项目的编程搭档。
核心特点:
-
🖥️ 直接在终端运行,不依赖任何 IDE -
📂 能扫描和理解整个代码仓库的结构 -
🔧 可以编辑文件、运行命令、调试代码 -
🧪 支持创建和运行测试 -
🔀 直接操作 Git,提交、创建 PR 一条龙
12 万星的体量说明社区已经充分验证了它的实力。如果你在用 Claude 模型但还没试过 Claude Code,建议体验一下。
一句话评价:把 Claude 搬进终端,让 AI 从”建议者”变成”动手者”。
📊 今日趋势总结

发者依然渴望”知其所以然”
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
💬 互动话题
今天这七个项目里,微软的 MarkItDown 和从零训练 LLM 的教程你更想试哪个?有没有哪个项目你已经在用了?欢迎在评论区聊聊你的体验!
如果觉得有用,别忘了点赞、在看、转发三连,让更多人看到
📌 关注我,每天为你精选 GitHub 热门开源项目,不错过技术圈的每一个新动向。
夜雨聆风