
向AI转型的程序员都关注公众号 机器学习AI算法工程
一、Paper2Any 是什么?
Paper2Any 是北京大学 OpenDCAI 团队开源的论文多模态工作流工具,目前在 GitHub 上已经获得 2.6k+ Stars。
GitHub 项目:https://github.com/OpenDCAI/Paper2Any
它的核心理念很简单:
从论文 PDF / 截图 / 文本出发,一键生成可编辑的科研绘图、演示文稿、视频脚本、学术海报等多模态内容。
翻译成人话就是:你把论文丢进去,它帮你把里面的内容"翻译"成各种你需要的格式——PPT、架构图、海报、视频脚本,统统搞定。
而且生成的内容不是"看一眼就废"的静态图片,而是可编辑的。你可以修改文字、调整布局、更换风格,真正的"拿来即用"。

二、核心功能全景:一个工具顶十个
Paper2Any 不是只做一件事的工具,它是一个论文多模态内容生成平台。以下是它的核心能力:
📊 Paper2Figure — 可编辑科研绘图
从论文中一键生成模型架构图、技术路线图(PPT + SVG)和实验数据图,输出可编辑 PPTX。
🧩 Paper2Diagram / Image2Drawio — 可编辑流程图
从论文/文本或图片生成 Drawio 图,支持 drawio/png/svg 导出,还能通过对话式编辑微调。
🎬 Paper2PPT — 可编辑演示文稿
论文/文本/主题一键生成PPT,支持超长文档(40+页)、智能表格提取、图表抽取,还有AI辅助大纲编辑。
📝 Paper2Rebuttal — 审稿回复助手
自动生成结构化反驳草稿与修改建议,辅助审稿意见回复。
🖼️ PDF2PPT — 版式保留转换
精准保留版式的 PDF → 可编辑 PPTX,智能抠图不丢元素。
🖼️ Image2PPT — 图片转PPT
将图片或截图快速转换为结构化幻灯片。
🎨 PPTPolish — AI智能美化
基于AI的排版优化与风格迁移,让丑PPT焕然一新。
🎬 Paper2Video — 论文转视频
生成讲解视频脚本与配音素材,支持脚本确认与阿里云TTS语音合成。
🖼️ Paper2Poster — 论文转海报
将论文PDF自动整理为学术海报,支持版式参数、Logo注入与一键导出。
🔎 Paper2Citation — 引用追踪
按作者姓名或DOI/论文链接追踪引用作者、机构与代表性引用论文。
📚 知识库(KB)
文件入库/向量化、语义检索,以及KB驱动的PPT/播客/思维导图生成。
一句话总结:凡是跟论文内容"二次加工"相关的需求,Paper2Any 基本都能覆盖。
三、安装部署:Docker一键启动
Paper2Any 支持 Docker、Linux、Windows 三种安装方式。推荐使用 Docker 部署,省心省力。
方式一:Docker 部署(推荐)
整个流程只需要3步:
# 1. 克隆仓库git clone https://github.com/OpenDCAI/Paper2Any.gitcd Paper2Any# 2. 配置环境变量(复制示例文件即可)cp fastapi_app/.env.simple.example fastapi_app/.envcp frontend-workflow/.env.simple.example frontend-workflow/.envcp deploy/docker.env.example deploy/docker.env# 3. 构建并启动bash deploy/docker-up.sh启动后访问:
前端界面: http://localhost:3000后端健康检查: http://localhost:8000/health
⚠️ 必须配置的环境变量:
编辑 fastapi_app/.env,填入你的 LLM API 信息:
# 后端内部鉴权key(必须与前端一致)BACKEND_API_KEY=your-backend-api-key# 统一文本入口(必填)SIMPLE_TEXT_API_URL=https://your-text-gateway/v1SIMPLE_TEXT_API_KEY=your_text_key# 统一生图入口(推荐填写)SIMPLE_IMAGE_API_URL=https://your-image-gatewaySIMPLE_IMAGE_API_KEY=your_image_key同时编辑 frontend-workflow/.env:
# 必须与后端 BACKEND_API_KEY 完全一致VITE_API_KEY=your-backend-api-key# 前端显示默认值VITE_DEFAULT_LLM_API_URL=https://your-text-gateway/v1VITE_DEFAULT_LLM_MODEL=gpt-4o💡 Docker 优势:首次构建后,后续更新只需 git pull 然后 bash deploy/docker-up.sh 即可。输出和模型目录会挂载到宿主机,数据不会丢失。
方式二:Linux 本地安装
如果你不想用 Docker,也可以本地安装:
# 0. 创建 conda 环境conda create -n paper2any python=3.11 -yconda activate paper2any# 1. 克隆并安装git clone https://github.com/OpenDCAI/Paper2Any.gitcd Paper2Anypip install -r requirements-base.txtpip install -e .# 2. 安装论文相关依赖pip install -r requirements-paper.txtpip install -r requirements-cu12.txt # NVIDIA GPU 专用# 3. 安装 LaTeX 引擎conda install -c conda-forge tectonic -y# 4. 安装系统依赖(Ubuntu)sudo apt-get install -y ffmpeg inkscape libreoffice poppler-utils wkhtmltopdf# 5. 启动bash deploy/start_nv.sh方式三:Windows 安装
# 0. 创建 conda 环境conda create -n paper2any python=3.12 -yconda activate paper2any# 1. 克隆并安装git clone https://github.com/OpenDCAI/Paper2Any.gitcd Paper2Anypip install -r requirements-win-base.txtpip install -e .# 2. 安装额外依赖pip install -r requirements-paper.txtconda install -c conda-forge tectonic -y# 3. 下载安装 Inkscape(矢量图处理)# https://inkscape.org/release/inkscape-1.4.2/windows/64-bit/msi/# 并将 C:\Program Files\Inkscape\bin\ 加入 Path# 4. 启动bash deploy/start_nv.sh四、实战案例:CLI命令行快速上手
Paper2Any 不仅有漂亮的 Web 界面,还提供了完整的 CLI 命令行工具,可以直接在终端里调用。这对习惯脚本化操作的开发者来说非常友好。

案例1:从论文生成模型架构图
# 设置环境变量export DF_API_KEY=sk-your-api-keyexport DF_API_URL=https://api.openai.com/v1# 从 PDF 生成模型架构图python script/run_paper2figure_cli.py \ --input paper.pdf \ --graph-type model_arch \ --api-key sk-your-api-key生成的架构图会保存在 outputs/cli/paper2figure/ 目录下,格式为可编辑的 PPTX。
案例2:从文本生成技术路线图
# 从文本描述生成技术路线图python script/run_paper2figure_cli.py \ --input "Transformer架构采用多头注意力机制,通过编码器-解码器结构实现序列到序列的映射" \ --input-type TEXT \ --graph-type tech_route案例3:论文一键转PPT
# 基础用法:论文转PPTpython script/run_paper2ppt_cli.py \ --input paper.pdf \ --api-key sk-your-api-key \ --page-count 15# 自定义风格python script/run_paper2ppt_cli.py \ --input paper.pdf \ --style "学术风格;中文;现代设计" \ --language zh \ --api-key sk-your-api-key案例4:PDF版式保留转换为PPT
# 无AI增强的纯转换python script/run_pdf2ppt_cli.py --input slides.pdf# 启用AI增强编辑python script/run_pdf2ppt_cli.py \ --input slides.pdf \ --use-ai-edit \ --api-key sk-your-api-key案例5:PPT智能美化
# 美化现有PPTpython script/run_ppt2polish_cli.py \ --input old_presentation.pptx \ --style "学术风格,简洁大方" \ --api-key sk-your-api-key# 使用参考图片保持风格一致python script/run_ppt2polish_cli.py \ --input old_presentation.pptx \ --style "现代简约风格" \ --ref-img reference_style.png \ --api-key sk-your-api-key💡 所有CLI脚本都支持 --help 参数,查看完整参数文档:
python script/run_paper2figure_cli.py --help
· · ·
五、Web界面:可视化操作更直观
如果你更喜欢图形界面,Paper2Any 的 Web 前端同样强大。
启动后访问 http://localhost:3000,你会看到一个清爽的工作台界面:
Paper2Figure 工作台:选择图类型(模型架构图/技术路线图/实验数据图)、输入来源、模型配置与模板风格,点击即可生成。
Paper2PPT 工作台:上传论文PDF,AI自动生成大纲,支持画布内直接编辑文字,生成前可预览多页画廊,还能插入论文中的原始图片或AI生成的配图。
Drawio 工作台:上传论文配图或截图,一键转成可编辑的DrawIO画布,支持对话式编辑微调架构图。
生图模型体验页:直接调用后端托管的生图模型(如 Nano Banana 2 / Image 2),支持批量生图、压缩缩略图预览与一键打包下载。
· · ·
六、进阶配置:SAM3与MinerU
Paper2Any 的一些高级功能(如 PDF2PPT、Image2PPT、Image2Drawio)依赖于 SAM3(Segment Anything Model 3)图像分割服务。
你可以选择:
方案A:使用外部SAM3服务
# 在 fastapi_app/.env 中配置SAM3_SERVER_URLS=http://GPU机器IP:8001# 或多个端点做负载均衡SAM3_SERVER_URLS=http://GPU1:8021,http://GPU2:8022方案B:Docker内启动本地SAM3
DOCKER_WITH_SAM3=1 bash deploy/docker-up.sh方案C:本地高并发部署
使用 script/start_model_servers.sh 启动本地模型服务集群(MinerU / SAM / OCR),支持多GPU负载均衡。
💡 注意:Paper2PPT、Paper2Figure、知识库等核心功能仅依赖LLM API,Docker启动后即可使用,无需额外配置SAM3。
· · ·
七、学术成果:CVPR 2026 + ACL 2026
Paper2Any 不仅仅是一个工程项目,它背后有扎实的学术研究支撑。
2026年,两篇相关论文已经入选顶级会议:
- Paper2SysArch
:结构约束的系统架构图生成,入选 CVPR 2026 Findings - SciFlow-Bench
:结构感知的科学图表生成评测基准,入选 ACL 2026 Main
这意味着 Paper2Any 的核心能力已经通过了严格的学术评审,不是"玩具"级别。
机器学习算法AI大数据技术
搜索公众号添加:datanlp

长按图片,识别二维码
阅读过本文的人还看了以下文章:
【模型高效部署】tensorrtx 深度解读,yolov11高性能推理实战案例
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加:datayx

夜雨聆风