AI模型哪家强,咱拿二手房App做对比!

市面上这么多的模型，到底哪家强。咱拿二手房App做个对比。找了5个模型来跑：Claude 4.6、GPT 5.4、Gemini 3.1、DeepSeek V4、GLM 5。

这篇文章记录的是真实测试过程，不是软广，也不是论文对比。就是我自己用下来的感受，哪些坑踩过，哪些真的好用，给想做类似尝试的朋友一点参考。

一、先说为什么选这个场景

二手房信息整理这事看起来简单，实际做起来问题挺多的。

我要处理的是经纪人在微信里发的房源描述，文字长短不一，有的信息全，有的就一两句话。需要从这些乱七八糟的文本里提取出：小区名、户型、面积、楼层、装修情况、周边配套、报价。这些字段的格式还不统一，比如面积有的写"98平"，有的写"98平方米"，有的写"建面98"。

我一开始想的是让AI直接给我结构化输出，结果发现每个模型的表现差别很大，有的提取准确率高但慢，有的快但乱改内容，有的便宜但幻觉多。

这个场景比那些"让AI写代码"的任务更接近真实开发——要处理不规范的输入、要有稳定的输出、还要控制成本。

二、Claude 4.6：用下来最靠谱，但速度真的慢

先说响应速度

Claude 4.6平均响应时间在8-12秒，这个速度在需要即时反馈的场景下有点难受。比如我做客服助手的时候，用户发一条消息要等快10秒才能看到回复，体验很差。

但在房源录入这种不需要快的场景，这个缺点可以接受。

字段提取准确率

我用了150组真实房源描述测试，Claude 4.6的字段提取准确率在95%左右。举几个例子：

输入："南向两居精装修，98平，地铁口300米，报价320万"
输出：{朝向:"南",户型:"两居",装修:"精装",面积:98,交通:"地铁300米",报价:3200000} —— 准确

输入："满五唯一，业主诚意出售，看房方便"
输出：{税费:"满五唯一",备注:"业主诚意出售,可看房"} —— 识别到了关键信息

有两组出现了问题：都是涉及特殊房源性质的描述，Claude把"经适房"识别成了"普通商品房"，导致后续计算税费时出错。这个频率不高，150组里出现2次，但一旦出现就要人工检查一遍。

画蛇添足的问题

这是Claude最让我头疼的地方。

我要的是简洁的字段输出，但Claude经常自己加一堆描述性文字。比如：

我想要：{朝向:"南",户型:"两居",装修:"精装"}
Claude给：{朝向:"南",户型:"两居",装修:"精装",补充:"此房南向，采光充足，精装修风格简约时尚，业主诚意出售，看房方便预约"}

那个"补充"字段不是我要求的，是它自己加的。在需要精确数据结构的场景下，这种发挥反而是负担。

后来我在prompt里加了一句"只输出结构化字段，不要任何描述性文字"，好了一些，但没能完全解决。

费用

Claude 4.6的Token价格：输入每千Token 0.004美元，输出每千Token 0.018美元。一次房源提取大约消耗3500 Token，成本约0.025美元，折人民币不到两毛钱。

贵不贵？看怎么说。单次不贵，但我们日均处理量大概500条，每个月AI费用要250美元左右，一年就是3000美元。这对一个side project来说不算便宜。

Bug修复的表现

让我比较意外的是Claude在代码修改上的表现。

有一次我要改一个订单状态的判断逻辑，涉及好几个条件分支。让Claude 4.6看了代码之后，它给出的修改很谨慎，会先解释会影响哪些地方，不会自作主张改一堆无关的东西。

但也有一次它擅自把支付回调的加密方式从RSA改成了MD5，说是"兼容老系统"。这个改动没出现在我的需求里，是它自己发挥的，幸好review时发现了。

三、GPT 5.4：快是真的快，乱改也是真的烦

速度体验

GPT 5.4的响应速度是这几个模型里最快的，平均3-5秒。客服场景用这个很舒服，用户基本感觉不到等待。

字段提取的问题

同样的150组测试，GPT 5.4准确率在85%左右。主要是数字敏感度比Claude差一些：

输入："南向130平，报价320万"
• Claude输出：{面积:130} ✅
• GPT输出：{面积:13} ❌ —— 差了一个数量级

后来我在prompt里加了"面积单位是平方米，数字必须保留完整"，这个问题基本解决了。但说明GPT对数字的严谨度不如Claude。

乱改历史功能

这是GPT 5.4最大的坑。

我让它修改经纪人助手的历史对话导出功能，它给出的代码改动把原有权限校验逻辑给改了——普通经纪人的数据访问范围被扩大了。这个改动与我要改的功能完全无关，是它自己"推断"认为"这个校验太复杂，可能有问题"，然后自作主张简化了。

类似的问题出现了两次。后来我给prompt加了严格约束："不要修改与本次需求无关的代码，不要改变原有业务逻辑"，才减少了这类问题。

费用

GPT 5.4：输入每千Token 0.006美元，输出每千Token 0.018美元。同样的房源提取请求，成本约为Claude的70%。

四、Gemini 3.1：多模态强，代码场景偏弱

在二手房场景的表现

说实话，Gemma 3.1在房源字段提取这个场景的表现比较一般。

150组测试下来准确率只有78%。主要问题出在"特殊性质房源"上——经适房转商、回迁房、房改房这些国内特有的概念，它的字段映射经常出错。比如把"回迁房"识别成"普通商品房"，直接导致后续税费计算逻辑全错。

代码修改的坑

更严重的是代码修改。让我优化一段税费计算逻辑，它把浮点数精度处理从四舍五入改成了截断，导致某些情况的计算结果差了几分钱。看起来是小问题，但用户对账单差一分钱都要投诉。

费用确实便宜

Gemini 3.1 Flash版本的价格是最低的：输入每千Token 0.0004美元，输出每千Token 0.0008美元，成本只有GPT 5.4的十分之一。

但准确率的问题意味着在这个场景里没法用。只能用在容错高的初步筛选环节。

五、DeepSeek V4：国内场景首选，成本低得夸张

速度

响应时间5-7秒，中等偏快。

房源理解

DeepSeek V4对国内二手房场景的适配明显比其他模型好。150组测试准确率在90%左右，"满五唯一"、"次新房"、"电梯房"、"学区房"这些国内特有标签识别都很准。

有一个小问题：复杂小区名偶尔出现错别字。比如"金科世茂茂悦府"被写成"金科世茂茆悦府"，"朝阳门"被写成"朝阴门"。频率不高，150组里出现4次，但每次都要人工检查。

不乱改代码

DeepSeek V4在代码修改上相对保守，很少主动修改需求范围之外的代码。这个特点在需要精确控制改动范围的场景下很实用。

费用是最大优势

DeepSeek V4的Token价格：输入每千Token 0.0015美元，输出每千Token 0.003美元。同样房源提取请求，成本约为GPT 5.4的20%，Claude 4.6的15%。

对于日均500条处理量，月费用大概40美元，一年480美元。这个价格对side project来说完全可以接受。

六、GLM 5：均衡型，没有明显短板

速度

响应时间6-8秒，中等偏慢。

中文场景表现

GLM 5在中文房源描述处理上准确率在92%左右，和Claude差不多。它对国内特有概念的理解好于GPT 5.4，也没有DeepSeek那样的错别字问题。

格式控制

前期有个问题：同样的prompt，有时输出JSON，有时输出带markdown的文本格式。这个问题通过在prompt里明确约束"输出必须为单行JSON，不能有markdown格式"解决了。

费用

GLM 5：输入每千Token 0.0015美元，输出每千Token 0.004美元。成本约为Claude 4.6的25%。

七、横向对比

以下是我实际使用下来的主观评价：

模型	响应速度	房源准确率	数字敏感度	乱改代码风险	月费用估算
Claude 4.6	8-12s	95%	高	中	$250
GPT 5.4	3-5s	85%	中	高	$180
Gemini 3.1	4-6s	78%	低	高	$18
DeepSeek V4	5-7s	90%	中	低	$40
GLM 5	6-8s	92%	中	中	$55

八、我的分工方案

基于这次的测试，我的AI模型分工是这样的：

• 房源录入字段提取：Claude 4.6主用，GLM 5备选。准确率要求高，多花点钱可以接受。
• 客服助手：GPT 5.4。响应速度快，用户体验好，客服场景有容错空间。
• 合同模板生成：DeepSeek V4。成本低，对中文法律表述理解到位，不容易画蛇添足。
• 房源图片OCR预处理：Gemini 3.1。多模态优势在这里用上了，价格也便宜。
• 复杂Bug修复：Claude 4.6加人工review。不冒险，省得返工。

九、几个真实踩过的坑

坑1：GPT 5.4擅自改支付逻辑

让它修改订单模块时，它把支付回调加密从RSA改成MD5，说"性能更好"。这个改动绕过了安全校验，测试环境差点出事。后来加了prompt约束才解决。

坑2：Gemini 3.1税费计算截断问题

优化税费计算代码时，它把四舍五入改成了截断。某些情况差几分钱，用户对账单差一分钱都要找客服。

坑3：DeepSeek V4的错别字

小区名"金科世茂茂悦府"被写成"金科世茂茆悦府"。频率不高，但每次都要人工检查，增加了运维成本。

坑4：Claude 4.6画蛇添足

优化客服话术时，它给每句话都加了大量形容词，"非常优质"、"不容错过"。实际业务里这种话术显得像推销，反而让用户反感。加了后处理过滤才解决。

十、一点真实的感受

网上的AI模型评测要么太理论，要么是软广。实际用下来，我发现几个和主流说法不一样的地方：

第一，不是越贵的越好。 Claude 4.6贵，但房源提取效果好；Gemini 3.1便宜，但在这个场景基本不可用。

第二，速度和准确率经常矛盾。 想要响应快就选GPT 5.4，想要准确率高就选Claude 4.6，两个都要就得接受更高的成本。

第三，国内场景选国内模型。 DeepSeek V4和GLM 5对"满五唯一"、"经适房转商"这些概念的理解，比国外模型强很多。

最后建议：先用你自己的真实业务数据测20条，不要只看论文里的评测结果。测过才知道哪个适合你。