MoonStars 项目文档
1. 项目概述
MoonStars 是一个功能强大的综合性内容转换与知识管理系统。最初作为一个文章格式转换工具,现已演进为涵盖图文抓取、音视频智能解析、AI 处理及商业变现的多模态内容平台,致力于为创作者和知识管理工作者提供一站式解决方案。
2. 核心功能
- 多平台图文解析与转换 :支持微信公众号、飞书文档、语雀等平台的文章一键抓取,并自动提取文本、图片、表格等内容,转换为精美的 Markdown 博客。
- 智能音视频笔记 (Video Assistant) :支持 B站、抖音、快手、YouTube 等平台的音视频下载;利用 Whisper 等模型提取字幕转写,并通过大模型生成内容摘要和实现视频问答。
- 智能 PPT 生成 (UrlToPpt) :输入文章或网页链接,系统自动爬取内容、提取核心观点、生成配图并排版,最终导出专业的 PPT 幻灯片。
- AI 智能助手 (AI Chat) :内置多模型 AI 问答(已接入 OpenAI、DeepSeek、Qwen、Groq 等),支持文档对话、内容创作辅助。
- 知识库与思维导图 :支持 Markmap 渲染,将文章结构一键可视化为思维导图;支持复杂 PDF 及多种文档格式的解析与导入导出。
- 创作者经济与支付系统 :支持创作者创建付费专栏;集成微信支付、支付宝等 SDK,提供完整的订单流转与财务管理(充值、提现、购买记录)。
3. 平台能力
- 多模态处理能力 :整合了复杂的文本解析 (BeautifulSoup/Trafilatura)、音频转写 (Faster-Whisper/MLX-Whisper)、图像生成以及视频处理 (FFmpeg) 的全链路能力。
- 高并发与异步处理 :利用 FastAPI 的原生异步特性及异步数据库驱动 ( aiosqlite / asyncpg ),保证了在处理耗时任务(如爬虫、音视频下载)时的高并发吞吐能力。
- 插件化的大模型接入层 :后端的 GPT Factory 模式支持无缝切换底层大模型(统一接口调用),兼具灵活性和高可用性。
- 响应式现代化 UI :前端使用 React 19 结合原生 CSS 构建玻璃拟物化设计,提供多端(手机、平板、桌面)一致的优质交互体验。
4. 技术栈选型
4.1 后端技术栈 (Backend)
- 核心框架 : Python 3.13+, FastAPI
- 数据持久化 : SQLAlchemy 2.0 (异步 ORM), Alembic (数据迁移), SQLite (默认) / PostgreSQL 13+
- 网络爬虫与解析 : Requests, BeautifulSoup4, Playwright, Trafilatura
- AI 与大模型 : OpenAI SDK, LangChain, ModelScope
- 音视频与文档处理 : Faster-Whisper, FFmpeg-python, yt-dlp, PyMuPDF, Magic-PDF, python-pptx,mineru
- 安全与认证 : python-jose (JWT), bcrypt
- 第三方服务 : 阿里云短信 (Dysmsapi), Alipay SDK, WechatPy, 飞书开放平台 (Lark OAPI)
4.2 前端技术栈 (Frontend)
- 核心框架 : React 19, TypeScript
- 构建与路由 : Vite, React Router 7
- UI 组件库 : Lucide-React (图标), react-md-editor (Markdown 编辑器), react-markdown
- 可视化支持 : D3.js, Markmap (思维导图渲染)
- 状态管理与网络请求 : Axios
- 媒体处理 : react-player, qrcode.react
5. 环境与运行要求
- 操作系统 : 兼容 macOS, Linux 或 Windows
- 运行时环境 :
- Python >= 3.13
- Node.js >= 18
- 系统必须全局安装 FFmpeg (用于音视频下载与切片处理)
- 数据库 : 测试环境可直接使用内置 SQLite;生产环境推荐部署 PostgreSQL 13+。
- 硬件配置建议 :
- 基础运行 :2核 CPU / 4G RAM
- 全量功能 (含音视频转录与本地 AI 推理) :推荐 8核 CPU / 16G RAM。若启用 MLX/Faster-Whisper 本地转录,强烈建议配备兼容的 GPU 加速(如 Apple Silicon M 系列芯片或 VRAM >= 8GB 的 NVIDIA GPU)。
6.快速开始
6.1后端启动
# 进入后端目录cd backend# 创建虚拟环境 (指定使用 Python 3.14)python3.14 -m venv venv# 激活虚拟环境source venv/bin/activate # macOS/Linux# 或 venv\Scripts\activate # Windows# 更新 pip 和构建工具 (指定官方源以防镜像源报错)pip install -i https://pypi.org/simple --upgrade pip setuptools wheel# 安装核心依赖pip install -i https://pypi.org/simple -r requirements.txt# 安装 Playwright 浏览器依赖 (用于页面渲染)playwright install --with-deps# 配置环境变量cp .env.example .env# 编辑 .env 文件(默认配置已可用,使用 SQLite)# 启动服务python3.14 -m uvicorn app.main:app --reload --port 8000
后端服务将运行在 http://localhost:8000
API 文档地址:http://localhost:8000/docs
默认管理员账户:
- 用户名/邮箱:admin
- 密码:admin123
- 权限:管理员
💡 提示:首次启动时,如果数据库中没有 admin 账户,可以运行 python create_admin.py 创建默认管理员账户。
6.2前端启动
cd frontend# 推荐使用 Node.js 18+ 或 20.x# 安装依赖npm install --legacy-peer-deps# 启动开发服务器npm run dev
前端应用将运行在 http://localhost:5173
6.3 访问页面

7.功能说明
主页
- 微信/语雀文档/飞书文章支持单篇/批量转换为博客网页


- 全能文档转换


- AI 视频助手
配置模型


配置参数执行生成任务

上图里如果需要图片和对视频内容理解的话,必须需要选择视觉模型/多模态模型。
生成结果


文章列表

技术专栏

创作者中心


网页转PPT

系统设置



用户中心


8. 限制条件与注意事项
- 平台风控与反爬策略 :微信公众号、抖音、快手等平台存在动态的反爬机制(如验证码、abogus 签名校验等),系统抓取成功率会受目标平台策略更新的影响,需定期维护 Cookie 或适配签名算法。
- 资源密集型任务瓶颈 :视频下载、本地 Whisper 转写与 PPT 图像生成过程会消耗大量 CPU/GPU 和内存。当前单体架构在高并发下容易出现性能瓶颈;如需大规模商用,建议引入消息队列(如 Celery/RabbitMQ)剥离异步耗时任务并进行分布式部署。
- 版权合规风险 :视频下载与付费文章抓取涉及版权问题。该功能通常仅限用户个人学习与资料整理用途,平台在运营时需明确规避提供盗版付费内容的抓取服务。
- 第三方 API 依赖 :部分高级摘要、文档对话与问答功能强依赖外部商业大模型 API(如 OpenAI, DeepSeek),需确保网络连通性、代理配置正确以及 API 账户余额充足。
大数据、大模型相关学习资料、大数据项目、湖仓一体、架构师必知必会、数据中台建设方法论…
共有1400多份文档资料,另专为星球成员整理了一份比较详细的语雀知识库合计190万字和飞书文档资料。(内容太多,仅展示部分内容…),欢迎大家踊跃加入星球,您将获得:
一、 提供最全的大数据知识库,不限设备,随时随地打开看的在线文档。
二、免费答疑解惑、交流技术
三、面试指导、模拟面试
四、各类pdf文档下载、星球代码下载
五、提供简历模板,简历修改指导服务,星球成员免费提供简历修改指导。
另外说明加入星球后支持三天无理由退款,不满意无条件随时退。
需要资料请加微信:D1435221412

夜雨聆风