乐于分享
好东西不私藏

6月1日GitHub热榜 微软文档转换神器日涨近三千星 七个项目不容错过

6月1日GitHub热榜 微软文档转换神器日涨近三千星 七个项目不容错过

今日 GitHub 热榜,微软 MarkItDown 强势登顶日涨 2798 星,AI 视频生成、语音克隆、从零训 LLM 等项目扎堆上榜。实用工具与硬核教程齐飞,这七个项目值得你花五分钟了解一下。


1 MarkItDown —— 微软出品的万能文档转 Markdown 工具

🌟 136,154 星 | ⭐ 今日 +2,798 | Python

🔗 https://github.com/microsoft/markitdown

今天的热榜第一名属于微软。MarkItDown 做的事情很直接——把你手里的任何文件转成干净的 Markdown 格式。

别小看这件事。当你需要把一堆 PDF、Word、Excel、PPT、甚至图片和音频喂给大语言模型时,格式转换往往是最头疼的一步。MarkItDown 直接把这个环节干掉了。

支持的格式极其丰富

  • 📄 PDF、Word(.docx)、Excel(.xlsx)、PPT(.pptx)
  • 🌐 HTML 网页
  • 🖼️ 图片(支持 OCR 识别和 EXIF 提取)
  • 🎵 音频(自动语音转录)
  • 📦 ZIP 压缩包(递归处理内部文件)
  • 📊 CSV、JSON、XML 等结构化数据

安装一行搞定

pip install markitdown 

使用也极简,命令行直接转:

markitdown path-to-file.pdf > output.md 

一句话评价:给 AI 喂文档之前的”标准预处理器”,13 万星不是没道理的。


2 MoneyPrinterTurbo —— AI 一键生成短视频

🌟 75,791 星 | ⭐ 今日 +1,937 | Python

🔗 https://github.com/harry0703/MoneyPrinterTurbo

老朋友又回来了。这个项目已经是 GitHub 的常客,但它确实好用到让人反复推荐。

输入一个话题或关键词,它就能自动完成从文案撰写视频成片的全流程:

  • 📝 AI 生成文案脚本
  • 🖼️ 自动搜索匹配的无版权素材
  • 🗣️ 多种语音合成引擎可选,支持试听
  • 📝 字幕自动生成,字体颜色位置全可调
  • 🎵 自动配背景音乐
  • 🎬 输出竖屏(9:16)或横屏(16:9)高清视频

后端接入了 DeepSeek、GPT、Gemini、通义千问等 10+ 大模型,灵活切换。

一句话评价:做知识类短视频的自媒体人,靠这一个工具就能把日更效率翻倍。


3 build-your-own-x —— 造轮子学编程的终极指南

🌟 509,735 星 | ⭐ 今日 +1,158 | Markdown

🔗 https://github.com/codecrafters-io/build-your-own-x

50 万星的项目,GitHub 上排名前几的”镇站之宝”。今天又涨了 1000 多星,说明一件事:永远有人在通过造轮子学编程

这个仓库汇集了几百篇”从零实现 XXX”的高质量教程,覆盖你能想到的几乎所有技术领域:

  • 🔧 自己写一个 Git、Docker、数据库
  • 🌐 自己实现一个 Web 服务器、HTTP 客户端
  • 🤖 自己训练一个神经网络、搜索引擎
  • 🎮 自己做一个 3D 渲染器、物理引擎

每篇教程都附带完整的源码和详细步骤说明。

一句话评价:学编程最好的方式就是造轮子,而这里有全世界最全的造轮子指南。


4 VoxCPM —— 免分词器的多语言语音合成

🌟 23,841 星 | ⭐ 今日 +635 | Python

🔗 https://github.com/OpenBMB/VoxCPM

来自清华大学 OpenBMB 团队的语音合成项目。VoxCPM2 的最大特点是不需要分词器(Tokenizer-Free),直接在原始音频上建模。

这意味着什么?更自然的语音、更灵活的风格控制、更好的多语言支持。

核心能力

  • 🎤 声音克隆:给一段参考音频,就能生成同样音色的语音
  • 🎭 风格可控:语速、情感、语调都能精细调节
  • 🌍 多语言支持:中英日等多语种混合生成
  • 🎨 创意语音设计:用文字描述想要的声音风格

提供了 WebUI 和 API 两种使用方式,支持接入 OpenAI 兼容客户端。

一句话评价:让机器说话不再”机器味”,TTS 赛道又多了一个强力选手。


5 train-llm-from-scratch —— 手把手教你从零训练大模型

🌟 3,286 星 | ⭐ 今日 +626 | Jupyter Notebook

🔗 https://github.com/FareedKhan-dev/train-llm-from-scratch

名字就是最好的介绍——从下载数据到生成文本,一步步教你训练自己的 LLM。

这不是那种”调 API 假装训练”的教程,而是真刀真枪地从数据处理、分词、模型架构、训练循环到推理生成全部手写。

教程覆盖的完整流程

  1. 📥 下载和清洗训练数据
  2. ✂️ 分词器训练(使用 GPT-2/GPT-3 的 Tokenizer)
  3. 🏗️ 从零搭建 Transformer 架构
  4. 🔥 编写训练循环,支持梯度累积
  5. 💬 实现推理和文本生成

所有代码都在 Jupyter Notebook 里,可以一个 Cell 一个 Cell 地跑,非常适合学习。

一句话评价:想真正理解大模型是怎么训出来的?跟着这个仓库走一遍就够了。


6 Scrapling —— 自适应反检测爬虫框架

🌟 57,247 星 | ⭐ 今日 +606 | Python

🔗 https://github.com/D4Vinci/Scrapling

如果你还在用 requests + BeautifulSoup 写爬虫,可以看看这个。Scrapling 号称是一个自适应的爬虫框架,能自动处理从单次请求到大规模爬取的所有场景。

它解决的核心痛点

  • 🛡️ 反检测:自动处理指纹识别、JavaScript 渲染、验证码等反爬手段
  • 🔄 自适应选择器:网页结构变了?它能自动调整元素定位策略
  • ⚡ 性能:内置连接池和并发控制
  • 🧠 智能解析:支持 CSS 选择器、XPath、文本搜索等多种元素定位方式

提供同步和异步两种 API,支持 Session 管理和 Cookie 持久化。

一句话评价:爬虫界的”全自动挡”,应对网站反爬不再需要手动调参。


7 Claude Code —— Anthropic 官方的终端 AI 编程工具

🌟 129,161 星 | ⭐ 今日 +489 | Python

🔗 https://github.com/anthropics/claude-code

Anthropic 的亲儿子,Claude Code 是一个运行在终端里的 AI 编程代理。和 Copilot 之类的补全工具不同,它更像一个能理解整个项目的编程搭档

核心特点

  • 🖥️ 直接在终端运行,不依赖任何 IDE
  • 📂 能扫描和理解整个代码仓库的结构
  • 🔧 可以编辑文件、运行命令、调试代码
  • 🧪 支持创建和运行测试
  • 🔀 直接操作 Git,提交、创建 PR 一条龙

12 万星的体量说明社区已经充分验证了它的实力。如果你在用 Claude 模型但还没试过 Claude Code,建议体验一下。

一句话评价:把 Claude 搬进终端,让 AI 从”建议者”变成”动手者”。


📊 今日趋势总结

发者依然渴望”知其所以然”

趋势
说明
🔧 AI 基础设施工具持续火爆
MarkItDown 日涨近 3000 星,说明大家在 AI 应用落地时最缺的不是模型,而是数据预处理工具
🎤 语音合成赛道升温
VoxCPM 从清华杀出,Tokenizer-Free 路线或将成为 TTS 新范式
📚 硬核学习需求强劲
train-llm-from-scratch 和 build-your-own-x 同时
🕸️ 数据采集工具需求大
Scrapling 持续高涨星,反爬对抗催生更智能的爬虫方案
🤖 Claude 生态扩张
Claude Code 持续上榜,Anthropic 正在编程工具领域跑马圈地

💬 互动话题

今天这七个项目里,微软的 MarkItDown 和从零训练 LLM 的教程你更想试哪个?有没有哪个项目你已经在用了?欢迎在评论区聊聊你的体验!

如果觉得有用,别忘了点赞、在看、转发三连,让更多人看到


📌 关注我,每天为你精选 GitHub 热门开源项目,不错过技术圈的每一个新动向。