AI学习笔记(公众号:AI学习笔记john)
作者 | John
2026年5月,AI大模型的竞争已经进入白热化阶段。OpenAI的GPT系列估值冲向3000亿美元,Anthropic的年营收15个月暴涨30倍,字节跳动一年在AI上砸下1500亿元人民币。
但对于普通用户来说,最关心的问题其实很简单:到底哪个模型最好用?
我们选取了目前最具代表性的四款AI对话模型——ChatGPT(GPT-4o)、Claude(3.5 Sonnet)、DeepSeek(V3)、豆包(1.5 Pro),从参数规格、基准跑分、API价格、中文表现、实际体验五个维度进行硬核对比。
所有数据均来自各公司官方公告、LMArena排行榜及公开基准测试,数据采集时间为2026年5月。
一、参数规格:四款模型的「硬件底牌」
参数量是衡量模型能力的基础指标,但各家公司的态度截然不同。
OpenAI和Anthropic从不公开参数量。GPT-4o的参数量业界估计约1.8万亿(基于MoE架构,活跃参数约2200亿),Claude 3.5 Sonnet的参数量则完全是个谜。
DeepSeek是唯一公开参数量的。V3版本总参数约6600亿,采用MoE架构,每次推理仅激活约660亿参数。这种「用更少的算力做更多的事」的设计思路,是DeepSeek能将API价格压到极低的核心原因。
豆包1.5 Pro同样采用稀疏MoE架构,字节跳动官方称其「性能杠杆达7倍」——即用稠密模型约1/7的参数量达到同等性能。但具体参数量未公开。
上下文窗口方面,豆包1.5 Pro以256K tokens领先,Claude 3.5 Sonnet为200K tokens,GPT-4o和DeepSeek V3均为128K tokens。
值得注意的是,截至2026年5月,这四款模型均已迭代到新版本——GPT-5.5、Claude 4.x、DeepSeek V4、豆包5.0。本文聚焦的型号均为各自系列中的重要里程碑产品,也是目前用户量最大的版本。
基础规格对比:
| 指标 | GPT-4o | Claude 3.5 | DeepSeek V3 | 豆包1.5 Pro |
|---|---|---|---|---|
| 参数量 | ~1.8T(估) | 未公开 | ~660B | 未公开 |
| 架构 | MoE | 未公开 | MoE | 稀疏MoE |
| 上下文窗口 | 128K | 200K | 128K | 256K |
| 月活用户 | ~8亿 | 未公开 | 1.63亿 | 2.27亿 |
| 免费使用 | 有限免费 | 有限免费 | 完全免费 | 完全免费 |
▲ 数据来源:各公司官方公告、公开报道。GPT-4o参数量为业界估计值。
二、基准跑分:谁是最强「做题家」
基准测试是衡量模型能力的硬指标。我们选取了MMLU(本科知识)、HumanEval(代码生成)、MATH(数学推理)、GPQA(研究生推理)四个主流基准。
| 基准测试 | GPT-4o | Claude 3.5 | DeepSeek V3 | 豆包1.5 Pro |
|---|---|---|---|---|
| MMLU(本科知识) | 88.7% | 90.4% | 88.5% | 未公开 |
| HumanEval(代码) | 90.2% | 92.0% | ~82% | 未公开 |
| MATH(数学推理) | 76.6% | 71.1% | 90.2% | 未公开 |
| GPQA(研究生推理) | 53.6% | 67.2% | ~59% | 未公开 |
| C-Eval(中文) | ~83% | ~80% | ~86% | 表现优异 |
▲ 数据来源:各模型官方技术报告、公开基准测试。蓝色加粗为该项最高分。豆包1.5 Pro未公开多数基准分数。
几个关键发现:
1、Claude 3.5 Sonnet是综合能力最强的。在MMLU、HumanEval、GPQA三项测试中均排名第一。尤其是GPQA得分67.2%,是首个突破65%「人类专业博士线」的模型。
2、DeepSeek V3是「数学之王」。MATH基准得分90.2%,远超GPT-4o的76.6%和Claude的71.1%。作为一款开源模型,这个成绩相当惊人。
3、国产模型在中文基准上有天然优势。DeepSeek在C-Eval上得分约86%,超过GPT-4o的83%。豆包的中文表现更为突出,但遗憾的是字节跳动未公开具体跑分数据。
4、豆包的「数据不透明」是个问题。在四款模型中,豆包是唯一没有公开任何基准跑分的。官方仅表示「超越Llama-3.1-405B」,但缺乏具体数据支撑。
三、API价格:国产模型的价格碾压
对于开发者和企业用户来说,API价格是选型的核心考量。
| 模型 | 输入价格 | 输出价格 | 相对GPT-4o |
|---|---|---|---|
| GPT-4o | $2.50/百万tokens | $10.00/百万tokens | 1x(基准) |
| Claude 3.5 Sonnet | $3.00/百万tokens | $15.00/百万tokens | 1.2x / 1.5x |
| DeepSeek V3 | 4元/百万tokens | 12元/百万tokens | ~0.22x / ~0.17x |
| 豆包1.5 Pro | 0.8元/百万tokens | 2元/百万tokens | ~0.044x / ~0.028x |
▲ 价格数据来源:各公司官方API定价页。汇率按1美元≈7.2元人民币计算。
这组数据非常直观:豆包1.5 Pro的API价格约为GPT-4o的1/23,DeepSeek V3约为GPT-4o的1/5。对于需要大规模调用API的企业来说,这意味着两个数量级的成本差异。
但价格低不等于「便宜没好货」。DeepSeek V3在MATH基准上以90.2%的分数碾压GPT-4o,而API价格只有后者的1/5。这种「性能相当甚至更好、价格低一个数量级」的态势,是2025-2026年AI行业最显著的趋势。
Claude 3.5 Sonnet是四款中最贵的——输入价格比GPT-4o还高20%,输出价格高出50%。但它在多项基准测试中排名第一,对于追求极致能力的用户来说,贵有贵的道理。
四、LMArena排行榜:人类盲评的真实反馈
LMArena(原Chatbot Arena)由UC Berkeley运营,采用人类盲评对战机制,用Elo评分排序。这是业界公认最贴近真实使用体验的排行榜。
在这四款模型的巅峰时期,排名情况如下:
Claude 3.5 Sonnet曾长期占据LMArena榜首,Elo分数约1300+。它是2024年下半年到2025年初公认的最强对话模型。
GPT-4o在下线前仍保持在前五,Elo分数约1280+。在多语言和视觉理解方面有显著优势。
DeepSeek R1(推理增强版)曾超越Claude Opus 4和GPT-4.1,Elo分数约1270+,是开源模型中的最高排名之一。
豆包1.5 Pro在中文子榜上表现更佳,但整体排名未进入前十。不过考虑到豆包2.27亿的月活用户,其影响力远超排名所反映的。
截至2026年5月,LMArena榜首已被GPT-5.x、Claude 4.x、Gemini 3.0等新一代模型占据。但本文讨论的四款模型,仍是目前用户基数最大、使用最广泛的版本。
五、各公司背后的「军备竞赛」
模型能力的竞争背后,是四家公司截然不同的商业策略和资本实力。
OpenAI是目前体量最大的AI公司。2025年营收约131亿美元,但现金亏损约80亿美元,2026年预计亏损扩大至140亿美元。最新估值约3000亿美元,计划2027年IPO。OpenAI的策略是「烧钱换规模」,ChatGPT全球月活约8亿,是这个赛道绝对的用户量第一。
Anthropic的增速最为惊人。年化营收从2025年初的10亿美元飙升至2026年4月的约300亿美元,15个月涨了30倍。最新估值约1.2万亿美元。人均营收约900万美元,是硅谷效率最高的公司之一。Anthropic的策略是「高端路线」,模型定价最高,但能力也最强。
深度求索走的是「开源+低价」路线。最新估值约450亿元人民币,月活1.63亿。核心优势在于MoE架构带来的极致性价比——API价格仅为GPT-4o的1/5,V4模型的API价格更是GPT-5.5的1/70。资金主要来自幻方量化的自有资金和国家大基金。
字节跳动在AI上的投入力度最大。2025年AI资本开支1500亿元人民币,2026年上调25%至2000亿元,日均投入约4.38亿元。豆包App月活2.27亿,是国内首个日活破亿的AI原生应用。但巨额投入也带来了代价——据报道字节跳动净利润下滑超70%。
六、实际体验:跑分之外的「真实体感」
跑分和价格是硬指标,但日常使用体验是另一回事。基于我们过去三个月的持续使用,总结几点真实感受:
写代码:选ChatGPT或Claude。这两款模型在代码生成上明显领先。ChatGPT的代码更简洁,Claude的可读性更好。DeepSeek的代码偶尔有小bug,豆包在复杂编程任务上还有差距。
处理复杂任务:选Claude。在多约束条件的复杂指令测试中,Claude是唯一一次就完全做对的。它对指令的理解力确实是四款中最强的。
中文场景:选豆包或DeepSeek。豆包对中文网络语境的理解最深,写出来的中文最自然。DeepSeek的中文也很流畅,但偏书面化。ChatGPT和Claude的中文虽然够用,但偶尔会出现「翻译腔」。
日常免费使用:选DeepSeek或豆包。这两款完全免费,能力也已经非常强。对于不需要API调用的普通用户来说,没有理由付费使用ChatGPT或Claude。
长文本处理:选豆包。256K的上下文窗口是四款中最大的,处理长文档、长代码有明显优势。
结语:国产模型的逆袭已成事实
这轮横评最核心的结论是:国产AI模型在多个维度已经追平甚至超越了海外模型。
DeepSeek V3在数学推理上碾压GPT-4o,API价格只有后者的1/5。豆包以1/23的价格提供了可用的中文AI能力,月活2.27亿远超Claude。这不是「够用就行」的追赶,而是在核心能力上的实质性超越。
当然,Claude 3.5 Sonnet在综合能力上仍然领先,OpenAI的生态壁垒也依然坚固。但趋势已经非常清晰:AI模型的「国产替代」不是未来时态,而是现在进行时。
对于普通用户,我们的建议很简单:日常使用DeepSeek或豆包就够了,它们免费且好用。专业场景按需选择Claude或ChatGPT。没必要为品牌溢价买单。
[AI大模型] [横评] [ChatGPT] [Claude] [DeepSeek] [豆包] [基准测试] [API价格]
相关阅读:
1. DeepSeek V3技术报告解读:MoE架构如何实现极致性价比
2. Claude 3.5 Sonnet深度体验:首个突破「人类博士线」的AI模型
3. 豆包月活破亿:字节跳动AI战略的全景分析
John · AI学习笔记
夜雨聆风