AI大模型专题交流

公众号改版了，大家可能无法及时接收到文章推送，不想错过精彩文章的可以点击公众号主页右上角的三个点，将我们的公众号设置为“星标”，便于收阅，以免错过及时的信息！

Q: 当前国产大模型与海外领先模型在基础功能表现和对话能力上的差距分别有多大？未来国产模型能力提升的空间如何评估？A: 从基础功能表现看，国产模型与海外存在约一年差距：Google的原生多模态端到端推理基模能力，国产模型如通义千问3.5 Omni尚未完全实现端到端，预计今年下半年对齐；OpenAI的代码执行与原生Agent能力、Anthropic的应用生态技术完善度，国内暂无直接对标。但在对话表现层面，Kimi、智谱、通义千问等国产新旗舰模型能力已达GPT-4以上水平，接近GPT-5，差距缩小至约6个月。未来提升空间取决于多模态能力、Agent生态等方向的迭代速度。

Q: 如何看待当前全球大模型市场的竞争格局？国产模型市占率快速提升的原因是什么？A: 国内大模型市场发展趋于健康：2025年B端项目贡献显著，阿里、字节等大厂推动；2026年垂类模型公司凭借模型能力优先触达用户，在C端与中小B端获取份额，路径类似2023年北美Anthropic。大厂加速云业务与自身业务融合构建护城河。海外市场中，Anthropic聚焦全球办公与学习场景，Google模型深度赋能自有业务，OpenAI着力全模态基模研发。国产模型通过Token出海及OpenRouter等经济型平台实现对外输出，后者调用量高反映国产模型具备基础可用性。

Q: 请说明谷歌大模型的发展现状、与业务的融合情况及后续发展节奏。A: Google模型矩阵包括Gemini基模、GenAI世界模型、轻量级开源端部署模型及Vi系列。2025年下半年更新影响显著，但2026年一季度热度下降主因算力紧缺：尽管采购大量英伟达GPU并推进TPU产能，安卓、Nest硬件线及YouTube等场景算力仍严重不足，导致业务落地受阻，Gemini零售服务出现降质。即将发布的VO4视频模型预期兼顾高清与长时长，对YouTube有辅助价值。模型能力无短板，但算力制约短期难解，出量化模型成为行业主流趋势。

Q: 对阿里、字节、元宝等国内大厂后续的模型迭代节奏和能力提升斜率有何判断？文生视频、生图、编程等细分方向的发展前景如何？A: 垂类模型公司通过复用DeepSeek等开源架构保持迭代速度，若DeepSeek-V4表现符合预期，发展节奏有保障。大厂方面，通义千问、字节C系列预计2026年三四季度推出类Gemini 3的多模态基模，适配手机、车载等端侧场景；字节模型在抖音、直播间音视频监控等内部场景消耗显著。文生视频领域，2026年上半年万象、Happy House、可灵等将对齐分镜、全模态输入、音画同声等基础功能，下半年进入多场景迭代，但算力门槛高，集中于字节、阿里等资源雄厚企业。生图领域，NanoBanana为标杆，国内模型仍有差距，但字节、通义千问、可灵等持续布局，市场相对蓝海。编程方向技术门槛较低，易引发竞争，规模扩张空间有限。

Q: 推理算力紧张的情况会持续到何时？如何理解高质量token消耗下降与算力需求增长的关系？A: 推理算力紧张将持续：一是并发压力，中国市场用户使用时间高度集中，高并发场景导致GPU需求几何级上升，该压力正随全球用户增长向北美扩散；二是多模态输入普及使token量激增，叠加DAU上涨，推理负载快速攀升。尽管技术优化使高质量token消耗下降，但降幅暂无法抵消并发与多模态带来的需求增长，算力紧张局面短期难缓解。

Q: 结合推理算力需求增长和效率提升，对大模型公司毛利率提升和盈利预期有何判断？A: 海外头部公司毛利率呈U型曲线：初期高毛利，因快速迭代新模型及功能导致成本上升；待模型形态稳定，毛利率将回升。国内公司毛利率呈上升斜线：垂类模型公司复用DeepSeek架构，迭代效率提升，成本控制更成熟，毛利小幅波动后进入持续优化期；字节、阿里等大厂因自研路线、架构重构及业务战线广，短期成本难降，需待技术架构稳定后方能进入成本下降通道。

Q: 预计大模型技术何时会进入稳健期？这一窗口期对行业竞争格局有何影响？A: 预计2026年末至2027年初，除文生图外，多数模型将进入稳健期。基础大语言模型到2026年底将实现够用，成本与推理效率优化成熟，可用知识库趋于稳定；多模态基模参与公司减少，迭代节奏放缓；文生视频基础功能稳定，后续聚焦场景能力与Agent深化。稳健期后，技术迭代速度放缓，竞争重心从模型参数竞赛转向应用落地与生态构建，行业格局趋于固化，新入局者机会减少，文生图领域或存差异化机会。

Q: DeepSeek V4模型可能有哪些技术亮点和特点？A: DeepSeek V4完成重新预训练，基础数据量大幅增长，带来推理成本下降、速度提升及综合表现显著进步。MHC架构结合OCR压缩历史数据、InGram查表型信息辅助等技术，以低成本提升推理能力，灰度测试显示表现接近Anthropic Opus，优于Sonnet。架构复杂度提升可能拉大公有云平台与官方API的体验差距。V4 Pro版具备基础VL能力，将增强代码生成能力。此外，V4与国产卡结合，推理性能可达每分钟2000 tokens以上，满足基础商用需求。

Q: 如何评价Happy House多模态模型的技术特点？对2026年多模态模型在应用领域的进展有何判断？A: Happy House在人像生成与多人场景流畅度上领先，但音画同声成功率偏低，且不支持全模态参考与分镜功能；全模态参考虽仅为临摹，但能显著提升生成效率与剪辑体验。其生成5秒视频需38秒，15秒视频耗时可能达3–5倍，单块H100工作约3分钟，绝对算力消耗高，但相对CogVideoX 2.0等需多卡协作的模型资源效率更优。应用层面，若Google Veo 4不支持分镜或短期内无4.1版本跟进，国产模型在分镜等功能上将保持领先；但Veo 4若聚焦高清与长时长，国内因算力限制难跟进4K推理。文生视频、文生图市场持续扩张，功能迭代向生产力工具深化。

Q: AI coding在实际应用中的采纳率是否有可量化的数据？大模型对SaaS和软件外包行业的影响如何？A: AI coding采纳率方面，2026年C端用户付费意愿与单价超预期，非互联网头部企业采购需求提升。代码生成比例上，上一代IDE已实现规则型代码生成，AI coding主要填补后端剩余部分，宣称代码一半以上由AI生成含水分；当前比例增长受限于人工审核瓶颈，一线生成代码后需上级复审，节奏差问题待解，短期难有本质提升。对软件外包行业，因行业数据高度封闭，大模型短期难直接渗透，需外包公司作为实施桥梁；长期看，字节、阿里或Kimi等可能通过收购外包企业撬开数据封闭性，逐步实现行业AI解决方案落地，但替代过程缓慢。

Q: 端侧大模型的应用前景如何？目前在车端和手机端表现较好的模型公司有哪些？A: 当前端侧模型算力上限约7B，仅支持日常对话与基础指令，复杂任务或表达模糊场景体验受限。车端领域，字节豆包语音模型市占率超80%，应用于多数车企及特斯拉，特斯拉思考模型采用DeepSeek；图像处理方面，通义千问开源生图模型渗透率较高。阶跃星辰采取主动向下兼容策略，聚焦金融、医疗等行业定制模型与硬件绑定，在车载屏、工业硬件等大厂未覆盖场景积极布局。

Q: 如何看待海外头部大模型公司人员规模高速扩张的现象？这与国内公司策略有何差异？对行业替代节奏有何影响？A: 海外公司人员扩张聚焦Agent应用层：Anthropic的HANES方法论已在国内豆包Chatbot成熟落地；OpenAI收缩非核心战线，专注高利润的模型延伸服务；Kimi亦扩充Agent工程团队。策略差异在于：海外公司通过应用层提升客单价与利润，C端市场规模大、延伸能力强，故双向布局；国内公司当前更侧重模型能力迭代与垂直领域定制。人员扩张反映战略重心从基模研发转向应用生态构建，将加速Agent在C端/B端渗透，但对传统软件服务的替代需结合行业数据封闭性逐步推进。

Join us, 共同富裕！

不可或缺的投资利器，每日实时更新（调研纪要、会议录音）等资讯。想成为一名合格的投资者必须有一款辅助工具，需要了解更多投资资讯，会议纪要、行业分析报告可以扫下方二维码加入。

点击“在看”，以此鼓励我们坚持分享

↓↓↓