3月24日,MiniMax 宣布开源生产级办公文档引擎,覆盖 Word/Excel/PPT/PDF 四类格式,基于 MIT 协议。
AI 能写文档,但文档能不能直接交付企业使用?
这个问题,行业一直没有好答案。
今天,MiniMax 给出了一个方案。
他们开源了一套叫做 Office Skills 的文档生成框架,覆盖 Word、Excel、PPT、PDF 四类格式,核心目标只有一个:让 AI 生成的文档,真正达到"企业直接交付"的标准,而不是给个 Demo 就完事。
MIT 协议,代码、设计文档、评测框架全部公开。
这可能是目前大模型厂商在办公文档领域,最完整的一次开源动作。
最重要的一点先说:开源了什么
核心信息:
MiniMax Office Skills 是一套面向 AI Agent 的办公文档引擎,输入一句自然语言指令,输出可直接打开使用的 Word、Excel、PPT 或 PDF 文件。
支持的场景包括:策略报告生成、数据分析表格、多级目录长文、含修订追踪的协作文档等。
技术选型上,MiniMax 下了狠功夫:
Word(docx): 放弃社区常见的 python-docx,转而使用微软官方维护的 .NET OpenXML SDK,直接操作 Word 底层 XML 结构。这意味着对嵌套表格、多级目录、页眉页脚乃至修订追踪的完整控制——这些恰恰是 python-docx 最容易丢信息的部分。
Excel(xlsx): 同样不走寻常路,不依赖 openpyxl,而是解压 .xlsx 文件、直接修改底层 XML 节点再重新打包。这种"手术级"操作的好处是:数据透视表、迷你图、VBA 宏等高级内容不会在读写过程中被静默丢弃,所有计算依然以 Excel 公式保存。

PDF: 采用双引擎方案。封面由 HTML + CSS 设计,用 Playwright 渲染,支持渐变、网格、复杂字体等设计感元素;正文由 ReportLab 负责排版,保证段落流和分页稳定性。两部分最终脚本合并为完整 PDF。
PPT: 预定义了封面、目录、章节分割、内容页、总结页五类标准页面,配合多套视觉参数组合(字体、间距、圆角、阴影),确保生成的演示文稿风格全局统一。底层基于 PptxGenJS,编辑模板时同样采用解压 + XML 直改的方式保留原始格式。
具体来看:自进化机制才是灵魂
如果只是文档格式支持,MiniMax Office Skills 还算不上"生产级"。
真正让这套系统值得关注的,是一套名为 Execute → Evaluate → Fix 的自进化闭环。
具体流程:
Execute: AI Agent 执行真实文档任务,比如"生成一份Q1收入分析报告,包含三个图表和对比结论"。
Evaluate: 系统根据预设规则自动检查输出——文件能否打开、公式是否保持动态计算、模板结构是否完整、样式在读写后是否被破坏。
Fix: 将失败样例转化为可修复问题,沉淀到训练数据,进入下一轮迭代。
这意味着:用的人越多,系统处理复杂场景的能力就越强。
官方表示,这套机制已在生产环境中经过多轮自动化测试。实际效果是:用户只需一句自然语言指令,系统就能完成从内容组织到排版输出的全流程。
四大格式,各有技术亮点
Word:.NET OpenXML SDK 加持
微软官方维护的 .NET OpenXML SDK,是这套方案区别于社区方案的关键。它能完整解析 Word 文件的底层 XML 结构,包括:
- • 复杂表格:合并单元格、嵌套表格、跨页表格
- • 多级目录:自动生成并保持更新链接
- • 页眉页脚:奇偶页不同、章节不同
- • 修订追踪:保留所有修改记录,适合多人协作场景
python-docx 等传统 Python 库在这些场景上要么不支持,要么会静默破坏文件结构。MiniMax 选择绕过 Python 层,直接用 .NET SDK 处理,代价是部署更复杂,但换来了保真度。
Excel:在 XML 层动手术
传统的 openpyxl、xlrd/xlwt 在读写 .xlsx 文件时,会把公式转换成值、把格式信息丢失一部分。对于需要"保留 Excel 原生能力"的场景,这是致命的。
MiniMax 的做法是:不解释,不转换,直接改 XML。
具体路径:.xlsx → 解压 → 修改 xl/worksheets/sheet1.xml 等节点 → 重新打包。
这样可以原封不动保留:
- • 数据透视表和透视图
- • 条件格式和数据验证
- • VBA 宏(.xlsm)
- • 命名区域和跨表引用
所有计算依然以 Excel 公式形式保存,不会变成"死数字"。
PDF:双引擎策略
PDF 的难点在于:封面追求设计感,正文追求排版稳定性,两种需求用了完全不同的技术路径。
封面:HTML + CSS 设计 → Playwright 渲染 → PDF
这一路可以做出渐变背景、网格纹理、衬线字体等视觉元素,和用 Figma 做海报再导出的效果类似。
正文:ReportLab 排版 → PDF
ReportLab 是 Python 老牌 PDF 库,对段落流、分页、跨页表格的控制非常成熟,不容易出现"图片跑到下一页"之类的奇怪问题。
两部分最终用脚本合并,封面+正文合为一体。
PPT:五类标准页面 + 风格参数组
PPT 生成最怕的问题是:AI 生成的每一页风格都不一样,字体忽大忽小,颜色飘忽不定。
MiniMax 的解决方案是预定义视觉约束:
预定义了五类页面模板:封面、目录、章节分割、内容页、总结页。每一类配套一套"视觉参数组":字体、字号、间距、圆角、阴影、配色方案。
生成时,AI 只能从预设参数中组合选择,而不是自由发挥。这确保了输出的 PPT 风格统一、Professional。
编辑已有模板时,同样采用解压 + XML 直改的方式,最大限度保留原始格式。
我们怎么看
办公 Agent 赛道,从"能写"到"能交付",缺的从来不是大模型能力,而是对文件格式的深度控制和对质量闭环的工程能力。
MiniMax 选择在这个时间点开源 Office Skills,意味着行业正在从"Demo 时代"走向"交付时代"。
这套技术的开源,对所有做 AI 办公应用的团队都有参考价值——无论是技术选型思路,还是自进化闭环的设计。
但最终,这个赛道比拼的不仅仅是模型能力,更是工程化落地和持续迭代的速度。
#AI #人工智能 #MiniMax #Agent #OfficeSkills
你看好 AI 生成文档直接交付企业使用吗?欢迎留言聊聊。
夜雨聆风