AI大模型做金融Excel是什么水平?

论文: arXiv 2605.30907

GitHub: https://github.com/Longitude-Labs/bluefin

数据集: https://huggingface.co/datasets/Longitude-Labs/bluefin-release

一、一个Excel错误，60亿美元没了

2012年，摩根大通的伦敦鲸事件震惊全球金融圈。一个交易员在VaR模型表格里抄错了一个公式，导致风险敞口被严重低估，最终亏损超过60亿美元。这不是孤例。房利美2003年因为表格错误重述了11亿美元利润。一份对50个运营表格的审计发现了117处错误，其中一些错误的财务影响高达1亿美元。

你可能会说，这都是十几年前的事了。但问题是，到了2026年，全球还有近250万金融从业者每天花10个小时跟Excel搏斗。根据美国劳工统计局的数据，这群人产生的劳动价值以数千亿美元计。而他们手里的表格，犯错的概率是0.8%到1.8%。放在万亿级的资金规模上，这就是定时炸弹。

所以一个很自然的问题是：能不能让AI来做这些表格？大模型不是连代码都能写吗，填个Excel应该不难吧。

答案是：你想多了。

二、BlueFin：专治金融Excel的AI体检中心

2026年5月29日，Longitude Labs联合康奈尔大学和卡内基梅隆大学在arXiv上发了一篇论文，标题很直白：BlueFin，测试LLM Agent在金融电子表格上的能力基准。这个基准不是为了秀AI有多强，恰恰相反，它是为了告诉你AI现在有多弱。

BlueFin的三大任务类型：综合构建(Synthesis)、操作修改(Manipulation)、查询问答(Interrogation)

BlueFin的设计理念很讲究。之前的电子表格评测要么太浅，比如只是让模型猜一个公式，要么假设数据是干净的CSV而不是多标签页的真实工作簿。BlueFin不一样，它找了78位来自7个国家的金融专业人士做贡献者，覆盖了投行分析师、私募股权从业者、对冲基金研究员、管理咨询顾问，甚至包括CFO级别的资深人士。

这些人要做的不是凭空编造任务，而是把真实工作中的Excel需求写成测试题。每一个任务都带有细粒度的评分标准，总计3225个评分点，分成6个维度逐项打分。

这套系统的关键：20个工具组成的脚手架

很多人听到AI能做金融Excel的第一反应是：把Excel文件上传给ChatGPT，让它输出结果。这个想法完全不对。LLM本身无法直接操作Excel文件，它需要一个脚手架来桥接。这个脚手架才是决定AI能做什么的核心变量。

BlueFin自己搭了一套完全自定义的Harness，不基于任何现有框架，不是Cursor，不是OpenClaw，不是Claude Code。整套系统给LLM提供了20个工具，分成6个类别，覆盖电子表格操作的全生命周期：

读取类：get_cells预览工作表、read_range读取矩形范围、get_sheets获取所有标签页。写入类：set_cells批量写入值和公式、create_sheet新建工作表、insert_rows插入行。格式化类：set_cell_format设置字体数字格式对齐等。计算类：recalc_workbook驱动LibreOffice无头计算引擎重新计算公式，并开启迭代计算，让债务计划和LBO模型中的循环引用能正确收敛。代码执行类：execute_python在沙箱中用openpyxl批量操作，限制内置函数和白名单导入，禁文件IO禁网络。

有几个细节值得注意。第一，整个agent的系统提示词只有61个英文单词，极其简洁，没有工作流程指导，没有工具偏好，没有领域惯例。论文故意设计成这样，是为了把模型能力从指令遵循的干扰因素中剥离出来。第二，没有用SKILL.md这类技能文件系统，纯函数调用模式。第三，recalc_workbook这个工具很关键，它驱动的是LibreOffice的无头模式，而不是Excel本身，这是一个纯Python可控的技术选型。

这意味着什么？意味着BlueFin测的其实不是裸模型的能力，而是模型加脚手架这个组合体的能力。不同模型的工具使用策略截然不同。GPT-5.5在64%的操作任务中，第一个动作就是调用execute_python通过openpyxl批量检查和写入单元格，像一个先用代码理解表格结构的量化程序员。而Opus、Sonnet和Gemini只有不到25%会这样做。Opus更倾向于通过读取工具逐区域理解，然后用set_cells精准修改。这两种策略各有利弊：GPT-5.5的代码模式回合数更少，但输出验证更弱；Opus的逐区域模式更保守，但回合计多、成本更高。

这也是为什么奇哥说，评估一个AI做金融Excel的能力，不能只看模型本身的分数。工具的完备性、recalc的可靠性、沙箱的安全边界，这些都直接影响最终产出。你在实际工作中如果要用AI做表格，你的脚手架是什么，决定了你的上限在哪里。

三、三大任务：AI能做到什么程度？

BlueFin一共有131个任务，分成三类：

Synthesis 综合构建（10个任务）

给一个自然语言需求，从头创建一个完整的Excel工作簿。比如：帮我构建Take Two Interactive的DCF估值模型，包括假设页、运营模型、债务安排和合并模型。这种任务一个有经验的投行分析师要花好几个小时。

Manipulation 操作修改（82个任务）

给一个已有的工作簿，按照自然语言指令进行修改。这是最大的类别，也是IB和PE分析师最日常的工作。每个任务分析师至少需要45分钟才能完成。覆盖了5个金融建模类别和16个行业，房地产、科技、能源、消费服务和医疗占60%。

Interrogation 查询问答（39个任务）

给一个输入工作簿，回答问题。但不是简单的看一眼就答，很多问题要求先修改假设、重新计算多层依赖关系，然后才能正确回答。

Manipulation任务保留集的构成：5个金融建模类别和16个行业分布

四、核心结果：全军覆没，无一超过50%

论文测试了5个最前沿的模型：Claude Opus 4.7、Claude Sonnet 4.6、GPT-5.5、Gemini 3.1 Pro Preview和Grok 4.20。所有模型都设为高推理模式。另外在公开集上还测试了两个开源模型：Kimi K2.6和MiniMax M2.5。

结果怎么说呢，最好模型GPT-5.5综合得分49.6%，Claude Opus 4.7紧随其后49.2%。没有模型超过50%。而SWE-bench这种代码评测早被刷到70%以上了。做表格比写代码难得多。

保留集120个任务的评测结果：所有模型都低于50%

各类任务的模型表现：Synthesis最好(Opus 66.7%)，Interrogation最差

分任务类型看，Synthesis任务表现最好，Opus达到66.7%。这其实很好理解，从零开始搭模型比改别人做好的模型要自由得多。Manipulation是最大的一类82个任务，最好也只有49.4%。Interrogation最差，因为很多问题需要理解复杂的计算依赖链。

五、AI擅长什么，不擅长什么？

论文用6个维度评估每个任务的表现，结果揭示了一个非常反直觉的事实：AI写公式很强，但让它在输入变化时维持正确就崩了。

擅长的：公式正确性

各模型的公式正确性通过率在50%到68%之间。GPT-5.5尤其有意思，在64%的操作任务中，它的第一个动作是用Python代码通过openpyxl批量检查和写入单元格，像一个先用编程方式理解表格结构的策略交易员。

不擅长的：动态行为（扰动测试）

这是AI最大的短板。扰动测试的意思是：改变一个驱动输入，看所有依赖的输出是否正确更新。各模型的通过率只有15%到37%。公式正确性和扰动测试之间有约30个百分点的鸿沟。

举个例子：一个DCF模型，你把增长率从3%改成4%，最终的估值应该自动重新计算。但如果AI实现这个公式时出了问题，比如不是用Excel公式而是硬编码了数值，那修改增长率之后估值就不会变。这就是很多模型失败的原因。

6个评分维度的通过率对比：公式正确性最高，扰动测试最低

另外，输出验证也是重灾区，通过率只有20%到48%。常见错误包括：现金流项目的正负号搞反、日期轴错位比如Q1-2024和Q1-2025偏移、利率和金额混淆比如5%写成了5.0而不是0.05、期末和期初折现搞混。这些都是金融从业者一眼就能看出来的低级错误，但LLM一犯再犯。

更有趣的是Sonnet的行为。在大约8%的操作任务中，Sonnet对输入工作簿做了大量读取操作，思考了半天，然后直接调用done，返回的工作簿跟输入一模一样。等于说它在漫长的探索之后，选择了放弃。

六、做同样的事，价格差了27.7倍

论文还做了一个很现实的分析：花多少钱能干多少活。

GPT-5.5平均每任务成本8.85美元，得分49.6%。Opus 4.7每任务成本49.21美元，得分49.2%。贵了5.6倍，分数还低了一点。Gemini 3.1 Pro更夸张，每任务5.78美元，比Opus便宜8.5倍，总分只差了不到7个百分点。

成本效率图：Pareto前沿由Grok到Gemini再到GPT-5.5构成

最极端的案例是一个资产负债表构建任务。Gemini 3.1 Pro得分100%，花了3美元。Opus 4.7得分95%，花了83.05美元。同样的活，价格差了27.7倍。如果你是一个金融团队，每天要做几十个表格分析，这个差距足以影响你的采购决策。

七、人类怎么看AI做的表格？

论文还邀请了两个专家评审员评估模型输出的实用性。两个评审员分别独立判断：这个AI生成的表格能不能直接作为一个工作起点来用。

结果：Opus以75%的可用率排第一，GPT-5.5以68.75%排第二，Gemini和Sonnet都是56.25%，Grok是0%。评审员的评价是：Opus在结构和公式方面最强，但格式是所有模型的通病，AI很难遵循已有工作簿的格式约定。

这个结果其实挺说明问题的。即使是最好的AI，只有四分之三的产出能被人类专家认为可以继续用。换句话说，至少四分之一的AI产出需要重做。如果任务难度再高一点，这个比例只会更低。

八、总结：AI做表格还早，但有意思

BlueFin告诉我们几件事。

第一，金融电子表格的复杂度远超代码。SWE-bench已经被刷爆了，但BlueFin连50%都没过。表格里的公式需要处理多层依赖、动态传播、格式一致性、跨标签页引用，这些都不是写一段Python能搞定的事。

第二，AI在静态任务上还行，在动态任务上很烂。能写出正确的公式是一回事，让公式在输入变化时自动重新计算是另一回事。这30个百分点的落差是当前LLM最大的软肋。

第三，便宜不一定差。GPT-5.5以不到五分之一的价格做到了和Opus几乎一样的分数，Gemini更便宜。实际决策时不能只看绝对分数。

第四，这个基准本身很重要。全球250万金融从业者，每天花10小时做表格。如果AI能把这个效率提升哪怕20%，释放的生产力远大于让AI写代码。但目前看来，这条路还很长。

最后说一句，BlueFin的难度设计是有意为之。作者故意找了投行和PE的分析师来做贡献者，任务难度对标的是华尔街精英。所以AI做到50%其实不丢人，换一个普通打工人来做，可能还不如Opus。况且论文里的模型都是2026年5月的版本，再过半年谁知道呢。

奇哥的建议是：现阶段别指望AI替你做完整个模型，但让它帮你搭框架、写公式、做初步检查是完全可行的。关键是人要做最后的审核，尤其是在数字符号、日期对齐、折现起点这些容易出错的地方。一个Excel错误能亏60亿美元，一个AI写的Excel错误可能亏更多。