
访谈嘉宾: 人工智能领域技术专家
整理人: 普华技术产业化研究院、智谱特邀分析师
核心摘要
国内头部大模型赛道分化清晰,各平台场景定位差异明显:字节侧重 C 端多模态交互;阿里通义千问主打开源体系与电商、办公场景;腾讯依托自身社交生态布局产品;智谱、MiniMax 聚焦 B 端长文本行业服务。各家模型底层技术不存在代际差距,企业估值拉开差距核心源于商业化渠道、政策资源,并非技术性能碾压。
国内大模型代码能力普遍达到中级程序员水准,仅可完成标准化功能代码开发,尚不具备系统架构设计能力。当前研发环节 AI 编码渗透率极高,新增代码中超九成由 AI 生成,能够大量替代重复性开发工作,有效削减人力开支;但大模型天然存在幻觉问题,代码易隐藏隐性漏洞,人工调试成本偏高。现阶段 AI 仅能承接既定需求编码,在系统架构设计、业务需求拆解、多系统协同开发等核心环节存在明显短板,研发全自动化短期难以落地。
多数企业已完成业务系统 MCP 智能体改造,可自主完成设备运维监控、多维度数据分析、自动化报表、代码合规审查等标准化工作,办公运维场景降本效果突出;但面对突发业务、深度研判等非标场景,AI 适配能力不足,仅能作为辅助工具,全域智能体协同是行业中长期核心增量赛道。
当下整体算力供给充足,行业发展瓶颈不在于硬件规模,而是高质量训练数据储备。算力使用分工明确:英伟达 GPU 适配大模型训练场景;国产算力芯片受海外管制、采购限制,仅可用于推理业务,普遍存在软件生态不完善、运行稳定性不足等短板。行业服务器以 X86 架构为主,ARM 架构短期暂无全面替代基础。算力降本核心路径依靠软件调度优化提升 GPU 资源利用率,同时行业普遍上调 CPU 与硬件配比,匹配大规模智能体部署需求。
访谈问答实录
Q:评判国内大模型综合实力,通用评测维度有哪些?
A:评测分为两大核心板块。第一是基础基座能力,依托行业通用标准化测试榜单,覆盖数学运算、多语种翻译、逻辑推导、文本思辨等基础能力,各大模型新版本都会统一参与横向对比。第二是垂直场景专项能力,不同厂商产品定位区分明显,垂类专项测试各有侧重。
举例:智谱侧重企业 B 端业务,长文本、超长上下文、复杂推理任务表现突出;字节系产品面向 C 端用户,侧重多模态内容创作、人机交互专项评测;腾讯元宝围绕社交聊天场景搭建专属评测体系。整体评判标准为基础榜单得分叠加垂直场景落地效果。
Q:字节、阿里、腾讯、智谱、MiniMax头部大模型各自优势、短板与核心产品?
A:1. 字节大模型
优势:多模态图文视频处理、C 端人机交互能力行业第一梯队;落地载体为豆包、抖音、头条,同步对外开放企业 API,在内容生产、用户交互场景适配度高。
短板:面向超长篇企业文档处理能力弱于垂直 B 端厂商。
2. 阿里通义千问
优势:国内成熟开源生态,3.5 至3.7 版本持续迭代;深度适配钉钉办公、电商导购、阿里云企业服务场景。
短板 C 端产品声量不足,大众用户渗透率偏低。
3. DeepSeek
优势:轻量化设计,运行资源占用低、推理成本低廉;
短板逻辑推理性能偏弱,产品长期未更新迭代,综合表现一般。
4. 腾讯混元 / 元宝
优势:内部社交生态深度绑定,微信生态智能体即将上线;熟人对话、社交互动体验突出;对外商业化开放程度较低。
5. 智谱 AI
优势:纯 B 端定位,超长文本输入(支持百万 Token),擅长企业知识库、行业智能体开发;
短板 C 端消费产品布局空白。
6. MiniMax
优势:多轮连续对话、企业私有知识库搭建为差异化核心能力;
短板综合通用能力弱于互联网大厂基座模型。
Q:智谱与 MiniMax 估值差距较大,二者底层模型是否存在技术代差?
A:单看模型基础性能,智谱相比MiniMax 不存在明显技术碾压,二者均和通义千问处于同一技术层级,远没有 OpenAI 对比中小厂商那样巨大代际。两家市值拉开差距主要是商业化资源、政企合作渠道带来的估值溢价,和模型原生性能关联有限。另外国内全系大模型代码能力整体处于同一水平线,海外专业编码模型仍具备明显领先优势。
Q:国内大代码生成能力对标什么层级程序员?内部 AI 代码产出占比、人力替代效果如何?
A:1. 能力对标:整体等同于中级全栈开发人员,可独立完成单一功能完整代码,但架构设计、边界异常处理、代码规范性存在缺陷,隐藏漏洞较多,距离架构师差距明显。
2. 内部落地数据:新增代码总量中AI 生成占比超 90%,人工最终采纳比例 80% 以上,编码场景 AI 渗透率极高。
3. 人力影响:标准化编码岗位可减少20%-30% 研发人力;现有工作模式为架构师负责核心方案,重复性编码由外包搭配 AI 完成,综合人力成本大幅降低。
4. 调试现状:AI 产出代码改动行数不多,但漏洞具备隐蔽性,排查调试耗时久;目前所有代码强制 AI 初审,人工按需二次复核。
Q:如何衡量企业内部大模型使用规模?除编码外还有哪些高潜力新增场景?MCP 智能体运行逻辑是什么?
A:1. 规模评判:企业内部不单独统计 Token 调用量,核心以业务场景覆盖广度作为评判标准,包括代码开发、数据分析、运维监控等落地板块覆盖度。
2. 增量场景:标准化办公事务增长确定性最高,周报、数据分析、制式报表均可交由 AI 生成;突发深度研判内容仅能作为辅助参考;微信社交智能体为下一重点观测方向。
3. MCP 智能体机制:属于面向AI 增强型标准化接口,在传统接口基础上补充自然语言描述、参数、返回结果释义,让智能体可自主识别接口功能,自动串联多接口完成完整业务流程;仅做外层封装,不改动底层数据权限,无新增数据安全风险。
示例:餐饮下单系统改造后,智能体可自主调用查菜单、下单、配送多接口,自动完成全链路操作。
4. 行业现状:企业全业务系统基本完成MCP 改造,智能体自动完成监控、数据分析、报表、代码审查等标准化工作,人工操作大幅减少。
Q:AI 编码场景增长见顶,未来技术突破方向是什么?当前研发工作流程?
A:1. 能力边界区分:AI 仅能完成确定需求下的功能编码,系统架构、业务方案、跨系统协同仍无法自主处理。当前AI 承担系统 80% 标准化增删改查类重复代码,20% 核心业务逻辑仍依赖人工设计。
2. 长期目标:实现从业务需求输入到模块开发、测试、发布全链路自动化,当前仅达到 L1-L2 辅助阶段,距离成熟方案空间巨大。
3. 标准开发流程:人工先完成整体架构、接口、模块划分,明确开发边界后,交由 AI 完成标准化代码编写;跨系统、复杂业务联动场景仍是核心技术瓶颈。
Q:2026 年算力硬件采购规划,当前算力供给能否匹配业务需求?国产与海外算力卡使用差异?
A:1. 采购规模:仅字节大语言业务板块全年新增算力卡 20-30 万张,国产、海外采购比例各一半;集团整体采购规模在此基础扩大 6-7 倍。
2. 供需现状:行业整体算力储备充足,模型迭代瓶颈不在硬件,而是高质量训练数据。
3. 采购国产卡原因:海外高端卡出口受限,仅能采购阉割版本;同时满足行业政策配套要求,通用配比约 4 张国产卡搭配 1 张英伟达高端卡。
4. 硬件差异:英伟达A100/H100 生态完善、互联稳定,专供模型训练;寒武纪等国产芯片生态适配不足,存在掉卡、计算精度不足、推理速度慢问题,仅适配推理业务。
5. 集群利用率:国产算力集群规模达数万张;推理场景峰值利用率 60%,平均仅 20%-30%,海内外硬件利用率水平基本一致,波动源于用户流量变化。
Q:硬件架构选择:通用 GPU、ASIC、X86、ARM、超节点架构实际落地差异?
A:1. GPU vs ASIC:硬件架构性能差距有限,核心差距在软件生态;英伟达配套算子、开发工具成熟,国产 ASIC 需要大量定制适配,落地门槛高。
2. X86 vs ARM:行业服务器主流采用 X86 架构;ARM 低功耗优势明显,但配套软件生态不完善,国内大厂极少布局,短期无替代可能,仅华为少量落地 ARM 设备。
3. 超节点架构:仅大规模训练场景具备优势,纯推理业务和传统机架服务器无明显体验差距。
4. CPU 配套变化:智能体普及带来CPU 资源压力,新建算力机房上调 CPU/GPU 配比,由4:1 提升至 8:1;单台八卡服务器标配 64 核 CPU,保障调度、数据处理需求;英特尔、AMD x86 货源稳定,英特尔综合性能更优。
Q:推理、训练算力配比,软硬件降本优化手段?
A:1. 算力分配:推理任务占用 60%-70% 算力资源,训练任务约 30%。
2. 降本路径
硬件层面:批量集采、国产算力芯片替代降低硬件采购成本;
软件层面(核心优化方向):模型量化、长短文本调度、训推任务分离、多模态资源统筹、推理框架优化;优化后 GPU 利用率可由 30% 提升至70%-80%,推理成本大幅下降,单纯硬件降价无法释放全部性能。
Q:垂直大模型(智谱、MiniMax)对比互联网大厂模型,是否存在能力反超?
A:垂直厂商在 B 端政务、行业定制、企业私有化部署场景具备差异化优势;但 C 端高并发、大众通用交互场景,综合产品力弱于字节等大厂。以豆包为例,基座榜单成绩中等,但产品落地、用户数据回流、智能联动体系完善,综合商业化能力更强。


免责声明
夜雨聆风