抖音视频下载+文案提取,一个 2.2GB 便携包全搞定(无需 API Key,无需 Cookie)

抖音视频下载+文案提取，一个 2.2GB 便携包全搞定（无需 API Key，无需 Cookie）

文末附便携包下载链接。

前言

做短视频搬运、资料整理、飞书表格批量归档的朋友，应该都踩过这些坑：

f2 失效了

：PyPI 最新版 0.0.1.7（2024-12-31 发布）已被抖音风控绕过，所有 aweme/detail 请求返回 status_code != 0。
提取文案要 API Key

：云端 ASR 按量计费，量大就肉疼，还要把音频上传到第三方。
浏览器方案太重

：Kimi WebBridge、Playwright 配环境、装 Chromium，每一步都在劝退。

于是我做了这个 portable-douyin-mcp 便携包：把整个环境（Python 3.11 + Edge + ffmpeg + FunASR + SenseVoiceSmall 模型）打包好，解压即用，无需安装 Python，无需 API Key，无需登录抖音。

推荐使用方式：搭配 AI 客户端

这个包本身只提供最原子的能力：下载视频和提取 ASR 文案。真正的效率体现在和 AI 编程客户端 / Agent 配合使用时——你只需要把抖音链接丢给 AI，它就能帮你：

自动选择下载 or 提取文案
指定清晰度、批量处理、断点续传
对 ASR 结果做上下文校对（修正谐音、专有名词、口误）
把文案整理成公众号/小红书/飞书文档格式

推荐的 AI 客户端：

类型	工具
国外	Claude Code、GitHub Copilot / Codex
国内	Kimi Work、MiniMax Code、ZCode

把便携包路径告诉 AI 后，直接说人话即可：

“使用目录下skill.md技能帮我下载这个抖音视频，1080p：https://v.douyin.com/xxxxx/” “使用目录下skill.md技能提取这 100 条链接的文案，保存到 output/，并校对一下”

这个包能做什么

功能	说明
下载无水印视频	支持短链/长链/分享口令/纯视频 ID，可选 1080/720/540/best/lowest
提取语音文案	本地 SenseVoiceSmall 离线识别，不上传、不消耗 API Key
批量 + 断点续传	JSON 导入，中断后自动跳过已成功的
中文文件名	保留标题、emoji、`#` 话题标签
后台长任务	进度文件持久化，关掉终端也不丢

技术方案

下载：Browser-Mode 绕过风控

不用 f2 签名库，而是启动系统自带的 Edge 浏览器（headless），让浏览器自己访问抖音页面、自己发 aweme/detail 请求。抖音服务端看到的是真实 Chromium 内核 + 真实 UA + 真实 X-Bogus/msToken，无法识别为机器流量。

拿到响应后，从 video.bit_rate[] 里挑一档无水印 CDN 直链，直接流式下载。

文案提取：本地 SenseVoiceSmall

ffmpeg 抽 16kHz 单声道 WAV
FunASR 1.3.9 + SenseVoiceSmall（约 900MB）本地识别
输出带 ASR 未校对提示，方便交给 AI 做上下文校正

实测 RTF 约 0.03~0.18，5 分钟视频 CPU 上 30 秒左右识别完。

目录结构

portable-douyin-mcp/├── bin/│   ├── dl.bat              # 一键下载│   ├── extract-text.bat    # 一键提取文案│   └── check.bat           # 环境自检├── skills/│   ├── douyin-downloader/│   └── douyin-text-extractor/├── models/                 # SenseVoiceSmall 模型├── python-embed/           # 便携 Python 3.11 + 全部依赖├── ffmpeg/                 # 静态 ffmpeg└── output/                 # 默认输出目录

快速开始

1. 下载并解压

便携包大小：zip 约 2.2GB，解压后约 3.7GB。

下载链接：夸克网盘 – 点击下载 portable-douyin-mcp.zip

解压到英文路径，例如 D:\portable-douyin-mcp。

2. 环境自检

双击或在 cmd 里运行：

"D:\portable-douyin-mcp\bin\check.bat"

通过后会提示下一步命令。

3. 下载一条视频

"D:\portable-douyin-mcp\bin\dl.bat" "https://v.douyin.com/xxxxx/"

指定 720p：

"D:\portable-douyin-mcp\bin\dl.bat" --quality 720 "https://v.douyin.com/xxxxx/"

### 4. 提取文案```batch"D:\portable-douyin-mcp\bin\extract-text.bat" ^  -O "D:\portable-douyin-mcp\output\文案.txt" ^  "https://v.douyin.com/xxxxx/"

输出示例：

【说明】以下为 ASR（自动语音识别）原始结果，未做上下文校对。标题：#揭秘军校学员高考分数视频ID：7654806977113050383话题标签：#揭秘军校学员高考分数【识别原文】我的高考分数是671分，656分，625分……欢迎报考国防科技大学……【校对建议】专有名词、数字、同音字容易识别错误，请结合标题与话题标签判断并修正。

注意事项

必须 Windows 11 + 自带 Edge

（其他位置 Edge 用 --edge PATH 指定）。
控制台默认 GBK，建议 set PYTHONIOENCODING=utf-8 或保存到文件看中文。
首次加载 SenseVoiceSmall 模型约 10 秒，模型已内置无需联网。
少数视频会触发滑块验证，可临时改 headless=True → False 过一次。
torchaudio extension not loaded

warning 可忽略，不影响识别。

适用人群

短视频运营：批量下载无水印素材
知识博主：提取口播文案做二次创作
资料整理：飞书表格批量归档视频
隐私敏感：不想把音频上传到云端 ASR
AI 工作流：配合 AI 客户端做”链接 → 文案 → 改写 → 发布”自动化

开源与声明

本项目仅供学习和技术交流，请遵守抖音平台规则和相关法律法规。

下载链接：夸克网盘 – 点击下载 portable-douyin-mcp.zip

如链接失效，欢迎在评论区留言。