市面上这么多的模型,到底哪家强。咱拿二手房App做个对比。找了5个模型来跑:Claude 4.6、GPT 5.4、Gemini 3.1、DeepSeek V4、GLM 5。
这篇文章记录的是真实测试过程,不是软广,也不是论文对比。就是我自己用下来的感受,哪些坑踩过,哪些真的好用,给想做类似尝试的朋友一点参考。
一、先说为什么选这个场景
二手房信息整理这事看起来简单,实际做起来问题挺多的。
我要处理的是经纪人在微信里发的房源描述,文字长短不一,有的信息全,有的就一两句话。需要从这些乱七八糟的文本里提取出:小区名、户型、面积、楼层、装修情况、周边配套、报价。这些字段的格式还不统一,比如面积有的写"98平",有的写"98平方米",有的写"建面98"。
我一开始想的是让AI直接给我结构化输出,结果发现每个模型的表现差别很大,有的提取准确率高但慢,有的快但乱改内容,有的便宜但幻觉多。
这个场景比那些"让AI写代码"的任务更接近真实开发——要处理不规范的输入、要有稳定的输出、还要控制成本。
二、Claude 4.6:用下来最靠谱,但速度真的慢

先说响应速度
Claude 4.6平均响应时间在8-12秒,这个速度在需要即时反馈的场景下有点难受。比如我做客服助手的时候,用户发一条消息要等快10秒才能看到回复,体验很差。
但在房源录入这种不需要快的场景,这个缺点可以接受。
字段提取准确率
我用了150组真实房源描述测试,Claude 4.6的字段提取准确率在95%左右。举几个例子:
输入:"南向两居精装修,98平,地铁口300米,报价320万"
输出:
{朝向:"南",户型:"两居",装修:"精装",面积:98,交通:"地铁300米",报价:3200000}—— 准确
输入:"满五唯一,业主诚意出售,看房方便"
输出:
{税费:"满五唯一",备注:"业主诚意出售,可看房"}—— 识别到了关键信息
有两组出现了问题:都是涉及特殊房源性质的描述,Claude把"经适房"识别成了"普通商品房",导致后续计算税费时出错。这个频率不高,150组里出现2次,但一旦出现就要人工检查一遍。
画蛇添足的问题
这是Claude最让我头疼的地方。
我要的是简洁的字段输出,但Claude经常自己加一堆描述性文字。比如:
我想要:
{朝向:"南",户型:"两居",装修:"精装"}Claude给:
{朝向:"南",户型:"两居",装修:"精装",补充:"此房南向,采光充足,精装修风格简约时尚,业主诚意出售,看房方便预约"}
那个"补充"字段不是我要求的,是它自己加的。在需要精确数据结构的场景下,这种发挥反而是负担。
后来我在prompt里加了一句"只输出结构化字段,不要任何描述性文字",好了一些,但没能完全解决。
费用
Claude 4.6的Token价格:输入每千Token 0.004美元,输出每千Token 0.018美元。一次房源提取大约消耗3500 Token,成本约0.025美元,折人民币不到两毛钱。
贵不贵?看怎么说。单次不贵,但我们日均处理量大概500条,每个月AI费用要250美元左右,一年就是3000美元。这对一个side project来说不算便宜。
Bug修复的表现
让我比较意外的是Claude在代码修改上的表现。
有一次我要改一个订单状态的判断逻辑,涉及好几个条件分支。让Claude 4.6看了代码之后,它给出的修改很谨慎,会先解释会影响哪些地方,不会自作主张改一堆无关的东西。
但也有一次它擅自把支付回调的加密方式从RSA改成了MD5,说是"兼容老系统"。这个改动没出现在我的需求里,是它自己发挥的,幸好review时发现了。
三、GPT 5.4:快是真的快,乱改也是真的烦

速度体验
GPT 5.4的响应速度是这几个模型里最快的,平均3-5秒。客服场景用这个很舒服,用户基本感觉不到等待。
字段提取的问题
同样的150组测试,GPT 5.4准确率在85%左右。主要是数字敏感度比Claude差一些:
输入:"南向130平,报价320万"
• Claude输出: {面积:130}✅• GPT输出: {面积:13}❌ —— 差了一个数量级
后来我在prompt里加了"面积单位是平方米,数字必须保留完整",这个问题基本解决了。但说明GPT对数字的严谨度不如Claude。
乱改历史功能
这是GPT 5.4最大的坑。
我让它修改经纪人助手的历史对话导出功能,它给出的代码改动把原有权限校验逻辑给改了——普通经纪人的数据访问范围被扩大了。这个改动与我要改的功能完全无关,是它自己"推断"认为"这个校验太复杂,可能有问题",然后自作主张简化了。
类似的问题出现了两次。后来我给prompt加了严格约束:"不要修改与本次需求无关的代码,不要改变原有业务逻辑",才减少了这类问题。
费用
GPT 5.4:输入每千Token 0.006美元,输出每千Token 0.018美元。同样的房源提取请求,成本约为Claude的70%。
四、Gemini 3.1:多模态强,代码场景偏弱

在二手房场景的表现
说实话,Gemma 3.1在房源字段提取这个场景的表现比较一般。
150组测试下来准确率只有78%。主要问题出在"特殊性质房源"上——经适房转商、回迁房、房改房这些国内特有的概念,它的字段映射经常出错。比如把"回迁房"识别成"普通商品房",直接导致后续税费计算逻辑全错。
代码修改的坑
更严重的是代码修改。让我优化一段税费计算逻辑,它把浮点数精度处理从四舍五入改成了截断,导致某些情况的计算结果差了几分钱。看起来是小问题,但用户对账单差一分钱都要投诉。
费用确实便宜
Gemini 3.1 Flash版本的价格是最低的:输入每千Token 0.0004美元,输出每千Token 0.0008美元,成本只有GPT 5.4的十分之一。
但准确率的问题意味着在这个场景里没法用。只能用在容错高的初步筛选环节。
五、DeepSeek V4:国内场景首选,成本低得夸张

速度
响应时间5-7秒,中等偏快。
房源理解
DeepSeek V4对国内二手房场景的适配明显比其他模型好。150组测试准确率在90%左右,"满五唯一"、"次新房"、"电梯房"、"学区房"这些国内特有标签识别都很准。
有一个小问题:复杂小区名偶尔出现错别字。比如"金科世茂茂悦府"被写成"金科世茂茆悦府","朝阳门"被写成"朝阴门"。频率不高,150组里出现4次,但每次都要人工检查。
不乱改代码
DeepSeek V4在代码修改上相对保守,很少主动修改需求范围之外的代码。这个特点在需要精确控制改动范围的场景下很实用。
费用是最大优势
DeepSeek V4的Token价格:输入每千Token 0.0015美元,输出每千Token 0.003美元。同样房源提取请求,成本约为GPT 5.4的20%,Claude 4.6的15%。
对于日均500条处理量,月费用大概40美元,一年480美元。这个价格对side project来说完全可以接受。
六、GLM 5:均衡型,没有明显短板

速度
响应时间6-8秒,中等偏慢。
中文场景表现
GLM 5在中文房源描述处理上准确率在92%左右,和Claude差不多。它对国内特有概念的理解好于GPT 5.4,也没有DeepSeek那样的错别字问题。
格式控制
前期有个问题:同样的prompt,有时输出JSON,有时输出带markdown的文本格式。这个问题通过在prompt里明确约束"输出必须为单行JSON,不能有markdown格式"解决了。
费用
GLM 5:输入每千Token 0.0015美元,输出每千Token 0.004美元。成本约为Claude 4.6的25%。
七、横向对比
以下是我实际使用下来的主观评价:
| Claude 4.6 | |||||
| GPT 5.4 | |||||
| Gemini 3.1 | |||||
| DeepSeek V4 | |||||
| GLM 5 |
八、我的分工方案
基于这次的测试,我的AI模型分工是这样的:
• 房源录入字段提取:Claude 4.6主用,GLM 5备选。准确率要求高,多花点钱可以接受。 • 客服助手:GPT 5.4。响应速度快,用户体验好,客服场景有容错空间。 • 合同模板生成:DeepSeek V4。成本低,对中文法律表述理解到位,不容易画蛇添足。 • 房源图片OCR预处理:Gemini 3.1。多模态优势在这里用上了,价格也便宜。 • 复杂Bug修复:Claude 4.6加人工review。不冒险,省得返工。
九、几个真实踩过的坑
坑1:GPT 5.4擅自改支付逻辑
让它修改订单模块时,它把支付回调加密从RSA改成MD5,说"性能更好"。这个改动绕过了安全校验,测试环境差点出事。后来加了prompt约束才解决。
坑2:Gemini 3.1税费计算截断问题
优化税费计算代码时,它把四舍五入改成了截断。某些情况差几分钱,用户对账单差一分钱都要找客服。
坑3:DeepSeek V4的错别字
小区名"金科世茂茂悦府"被写成"金科世茂茆悦府"。频率不高,但每次都要人工检查,增加了运维成本。
坑4:Claude 4.6画蛇添足
优化客服话术时,它给每句话都加了大量形容词,"非常优质"、"不容错过"。实际业务里这种话术显得像推销,反而让用户反感。加了后处理过滤才解决。
十、一点真实的感受
网上的AI模型评测要么太理论,要么是软广。实际用下来,我发现几个和主流说法不一样的地方:
第一,不是越贵的越好。 Claude 4.6贵,但房源提取效果好;Gemini 3.1便宜,但在这个场景基本不可用。
第二,速度和准确率经常矛盾。 想要响应快就选GPT 5.4,想要准确率高就选Claude 4.6,两个都要就得接受更高的成本。
第三,国内场景选国内模型。 DeepSeek V4和GLM 5对"满五唯一"、"经适房转商"这些概念的理解,比国外模型强很多。
最后建议:先用你自己的真实业务数据测20条,不要只看论文里的评测结果。测过才知道哪个适合你。
夜雨聆风