调研丨AI大模型应用专家交流(9千字深访)

与产业专家交流AI机遇

调研丨2026字节AI端侧战略布局交流（5千字深访）

交流要点

本次交流聚焦2026年AI大模型应用发展，围绕模型能力演进、落地场景、多模态视频技术影响、Web Coding冲击、算力需求、Agent幻觉解决、软件厂商转型及AI平权等方面展开。阐述了MCP协议的核心价值与大模型内建技能的发展局限，指出2026年大模型迭代以小幅突破为主，多模态尚未达专业生产水平。分析了OpenCL的市场价值，以及CDance 2.0在多模态视频领域的技术突破与版权争议，同时探讨了Web Coding对软件行业的全方位冲击和大模型算力需求的爆发式增长。

结论概述

大模型与外部工具将长期共生，MCP协议仍有持续发展的价值，2026年大模型在各领域的应用呈现专精深化特征，多模态视频技术将推动内容创作平权并引发行业变革。算力需求的激增带动产业链向能源、硬件布局，token成本难以下降。Agent的发展源于商业化需求，幻觉问题可从数据源和工程手段层面解决。传统软件厂商面临效率提升与被替代的双重影响，需通过拥抱流量入口或拆分能力实现转型。AI平权推动行业格局重构，普通人需通过高频使用头部大模型适应技术变革。

1、大模型能力演进趋势

MCP协议发展与作用：MCP协议是2014年提出的大模型与外部工具的上下文管理协议，其推出背景是2024年之前大模型仅能完成对话、内容总结等基础任务，无法执行放音乐、发邮件等具体工具操作，存在执行指令短板。MCP协议填补了这一空白，实现了大模型能力的延伸。2025年智能体概念推出后，智能体市场快速发展，MCP协议应用愈发广泛，目前已成为行业事实标准——虽未获国际标准化协会正式定义，但大模型厂商与市场应用方均逐步接受认可该协议，以此推进大模型与各类工具的融合。

大模型内建技能的趋势与局限：2025年后，大模型呈现内建技能从外围逐步融入原生能力的演进趋势，当前国内外所有大模型厂商均在产品中内置技能模块，用户无需调用外部工具，即可直接完成数据分析、PPT整理、代码撰写等任务。该模式无需在不同工具间搬迁上下文窗口内容，能降低搬运成本与时间消耗，提升运行效率，部分场景下用户反馈大模型原生能力体验优于外部工具。但这并不意味着大模型会反噬外部工具，二者将长期和谐共生。从技能滑块维度看，当前大模型原生支持的技能仅几十个，全部外部技能约5000个，而人类日常所需技能总量达200万-300万个，三者差距显著。因此，短期内大模型无法覆盖所有技能需求，MCP协议仍将拥有较长生命力，其发展路径类似移动互联网，未来会持续推进，行业将不断完善协议的复杂度与安全性，除非出现能彻底重构大模型任务执行体系的颠覆性技术，否则MCP协议核心价值不会消失。

2、大模型落地场景与热点产品

2026年大模型迭代特点：2026年大模型发布节奏较快，1月26日至2月19日期间包括Genai 3.1 Pro在内的多款大模型先后发布，Deepseek V4未如市场预期在春节期间推出。从行业观察来看，当前大模型虽发布频率高，但尚未出现颠覆性创新，也没有诞生如Cloud Code般的全新形态工具，2026年整体迭代仍处于小幅度、小范围突破阶段，难有重大颠覆。AI coding领域呈现渗透率下滑态势，但在行业专精应用上已进入深水区，例如美国军方采用Ansopp开展军用武器相关应用；Claude宣布支持Cobol语言后，IBM股价当日下跌13%，体现出AI coding在特定传统行业场景具备颠覆潜力。文本模态方面，2026年用户对大模型提出“高精尖”需求，要求达到两个9的精准度、毫秒级响应、严格SLA保障等，推动大模型能力边界持续拓展。文本领域大模型迭代速度有所放缓，但行业渗透率进一步提升，在研报分析、数据统计等擅长领域，有望出现机器为主、人类为辅的作业模式，这是2020年之前未曾出现的。多模态方向虽受市场关注，但距离达到专业生产水平仍有差距，不过ByteDance在多模态的Infra和算法上实现了2025年之前没有的突破，将带动Infra需求增长及训练方法升级，不过版权、大IP等问题仍需与市场磨合。

3、多模态视频模型技术影响

CDance 2.0技术突破：CDance 2.0在底层模型实现重要突破，推出核心视频模型与图像模型，落地后可支持制作studio级别视频。与Gemini 3.0对标可见，CDance 2.0在人物细节参考、文本音频视频对齐度，以及对用户意图的理解与衍生能力上均有大幅提升。该企业是国内多模态领域唯一可对标Gemini的公司，如今其多模态视频生成能力已能与Gemini的View模块抗衡。受CDance 2.0推动，Gemini在2026年春节后迅速推出Gemini 3.1Pro，其中借鉴了CDance 2.0的多项能力，例如支持根据三张图片内容生成视频等。不过，CDance 2.0生成的好莱坞IP对打视频引发版权争议，美国电影协会等代表版权方的权威组织提出抗议，认为其存在版权不尊重问题。对此，CDance 2.0快速调整功能，不再允许上传真人图片生成视频，避免恶搞等版权风险。

多模态视频技术行业影响：多模态视频技术对行业的影响首先体现在用户端，AI作为平权工具大幅推动视频创作平权，普通用户也可成为“好莱坞导演”“百万剪辑师”。这对简单内容创作者形成碾压式冲击，产品方对自身需求理解更深刻，或不再需要第三方服务，花费2000多块钱的token即可达到专业工作室几十万成本的视频效果，成本大幅压缩使得此类第三方创作者生存空间收窄。同时，2026年春节后各大短视频平台AI生成视频数量快速增加，且平台推荐机制会强化这一趋势，AI生成内容已逐渐成为短视频内容的主力，对短视频创作者及自媒体行业产生显著影响。技术层面，CDance 2.0在训练方法与推理上实现突破，提升了有监督学习与强化学习在视频领域的应用效果，可学习到视频资源的所有特征信息。此外，其解决了多模态视频训练的核心难题——视频数据密度比文本大几千倍，此前缺乏有效的基础设施与训练方法支撑，而CDance 2.0证明了海量视频数据的管理与训练路径可行，这一成功为行业带来振奋与提升，随后已有四五家公司推出类似产品，2026年将成为视频爆发年，产品介绍、用户指导手册等场景的视频应用也将得到拓展。

4、Web Coding对软件行业的冲击

Web Coding快速发展原因：AI coding领域2026年仍将持续发展，此前智谱因Coding Plan调用量过大采取限流措施，引发用户不满，侧面印证了AI coding的旺盛需求。其中Web Coding由原特斯拉自动驾驶负责人、OpenAI创始团队成员卡巴奇在YC年会上提出Sopear 3.0概念后，发展十分迅速。AI for Coding在AI+各行业中发展最快、易落地，背后有三方面核心逻辑：一是软件工程自美国阿波罗登月计划诞生至今已历经50年发展，方法论和操作SOP极其丰富，有成熟体系支撑软件研发；二是软件从诞生之初所有内容即可数字化存储与读取，大模型在前期语料不足时，能对软件行业代码进行透彻学习；三是软件行业特性决定开发前需求明确，开发者清楚软件的目标形态与交互方式。这些天时地利人和的因素，共同推动了AI for Coding的快速发展与落地。

Web Coding对软件行业的多维度影响：Web Coding对软件行业的冲击体现在多个维度：a.推动行业技能平权与角色融合。传统软件工程分工明确，涵盖分析师、设计师、产品经理、前端开发等多个岗位，Web Coding出现后，产品经理可2天完成原计划2个月的可Demo产品原型，大幅加速产品迭代；同时实现前端工具融合，减少工件跨岗位迁移，个人只需掌握相关方法即可完成多岗位工作，还可用于编写自动化测试、部署、运维脚本，显著提升工程效率与信息流传递效率，促使岗位边界逐渐模糊。b.对就业市场、企业分工及传统业务模式形成冲击。Web Coding改变了软件行业的就业结构与公司协作模式，也影响了传统交付物形态，从事插件、行业library等专业服务的厂商需重新评估业务必要性；例如IBM曾凭借Cobol语言行业分析师贡献40%的利润，如今这类业务也面临Web Coding的冲击。c.催生个性化需求，并推动行业主动求变。实际案例中，无人机硬件从业者靠Web Coding7天完成原计划2个月的项目；家长用其制作结合加减乘除的个性化“植物大战僵尸”学习游戏，仅训练2天就让孩子计算速度大幅提升，这类定制化需求此前难以实现。当前用户对软件的需求已从固定产品转向快速适配业务变化，市场对全栈工程师、Web Coding工程师的需求持续增长，软件公司需主动顺应市场需求与技术演进，快速捕捉并适配用户需求，提升自身响应能力以应对行业变革。

5、大模型算力需求及产业链布局

大模型算力需求增长情况：从GPT 3.5到GPT5的迭代周期约为两年多，期间大模型体量持续扩容，配套算力芯片从A100迭代至B100、Blackwell100等型号。经统一折算对比，GPT5的算力需求较GPT3.5提升170倍，直观凸显算力需求激增态势。当前大模型产业对算力及能源的需求正进入井喷阶段，且需求仍在持续扩大，行业内尚未看到需求增长的明确上限，算力及能源消耗压力将长期存在且可能进一步加剧。

6、Agent幻觉问题解决方案

Agent发展的商业化背景：大模型厂商纷纷推出Agent能力，核心源于商业化需求与博弈。此前大模型多通过Visual Studio、Cursor等中间应用触达用户，这类渠道方在用户付费后仅分给大模型厂商少量利润，例如收用户10元仅给相关方2元，令大模型厂商（如Antropic）不满，既难以获取足够利润，也无法直接触达用户。而Agent是离用户最近的服务形式，大模型厂商推出Agent，一方面能直接触达用户，掌握利润分配主动权；另一方面，通过Agent与用户日常工作的深度接触，可自主积累用户使用数据，无需向渠道方获取，这些数据能有效用于模型迭代、挖掘用户高频需求，实现自身发展。这种模式也使得原本作为管道服务的中间方生存空间被压缩，生意逐渐受影响。

企业级Agent幻觉问题解决路径：针对Agent的幻觉问题，不同大模型厂商依托自身优势采用差异化解决路径，企业级场景也有相应工程手段保障精度。a.大模型厂商层面：OpenAI投入大量成本在数据治理上，购买互联网上需付费的专业数据与内容，这类内容经过严格整理和确认，准确度远高于随机抓取的互联网数据，用户使用ChatGPT的Deep Research功能时，可直接获取这些原本需付费的内容；Gemini依托Google Patent和Google Scholar的学术论文、专利数据，这类数据源具备天然高准确性；Grok则利用Twitter的实时性优势，以及平台上权威大V发布的经过反复核验的信息，降低幻觉概率。b.企业级场景层面：解决方案根据对准确度的要求和成本承受能力有所不同，对精度要求极高的客户（如用于严肃投资场景），会要求从三个大模型取数据源进行互相校对，尽管需要支付三倍成本，但相比雇佣人员一年数十万美元的成本，多花费的成本性价比更高；此外还可通过增加额外的校验步骤来保障数据准确性，不同需求对应不同服务方案。

7、软件厂商的转型与价值变化

通用与垂类软件厂商转型路径：软件可分为通用工具软件和垂类应用软件两类，其中通用工具软件过往因通用性强，技术门槛相对较高，垂类应用软件则需具备特定行业know-how作为护城河。在大模型时代，两类软件厂商均需主动或被动转型，硅谷厂商在这方面走得更快，主要有两种转型路线：a.全面拥抱大模型流量入口：由于搜索引擎流量下滑，大模型成为新的流量入口，以Anthropic为代表的厂商推出MCP Connector，目前已接入190多个生产级生产力工具软件，Slack、ServiceNow等厂商通过该工具对接大模型，依托其联盟体系承接经大模型转化后的流量与需求；b.拆分自身能力、突出专业性：适配用户与大模型沟通的碎片化特点，按大模型推出的相关协议调整自身功能，比如亚马逊原本拥有众多功能，现在按大模型的电商协议将其包装成固定的12个步骤，满足用户在大模型内完成浏览产品、付款等碎片化电商行为需求，通过拆分自身能力适配，融入大模型生态。

传统软件厂商的价值变化风险：大模型对传统软件厂商的价值影响呈现双向性，一方面能显著提升厂商效率，当前大模型对用户意图的理解已十分精准，传递给软件厂商的需求更精准，厂商无需开展复杂的前期准备工作，可直接对接需求推进业务；另一方面厂商面临被大模型替代的风险，软件厂商的业务数据需通过大模型通道传输，其业务逻辑对大模型厂商透明，若大模型厂商具备相关能力，可能将软件厂商的业务纳入自身体系，进而吞噬其市场空间。这种双向影响下，软件厂商需谨慎选择合作的大模型厂商，部分厂商会仅与特定大模型厂商合作，以此规避风险；同时厂商需强化自身壁垒，探索如何将用户数据留存于自身侧，应对大模型带来的挑战，降低被吞噬的可能性。

8、AI Agent盈利与合作模式

OpenCloud的盈利模式：OpenCloud随用户规模扩大已成为流量入口，用户日常使用的各类skill、大模型等均通过它流转，大模型这类下游流量需求方愿意付费让OpenCloud提供相关服务。在2026年2月的版本更新中，OpenCloud公开宣称构建Kimi 2.5，二者的合作模式为Kimi向OpenCloud付费，以获得高优先级的免费使用资格；用户向Kimi付费后，双方会进行收益分成，比如用户支付十块钱，Kimi会分给OpenCloud两到三块。同时，OpenCloud这类Agent壁垒不高，当前市场已出现分流态势，网易有道推出有道龙虾、Kimi推出Clow、Minibox推出Mini Clow等同类产品，但大模型应用市场规模足够大，仍能支撑多家厂商竞争，且先入者往往能占据最大份额的市场蛋糕。

Agent与底层软件的合作逻辑：Agent调用底层软件的API需遵循付费机制，具体内容如下：a. OpenCloud本身免费，但用户使用其调用大模型、底层skill、搜索服务等均需单独付费，API接口、agent服务、Brave Search等都会产生费用，相关成本由用户自行承担，OpenCloud不负责成本支出；b.部分用户对该机制不了解，比如搜索新闻时使用Brave Search会被要求付费，需自行配置密钥才能使用，因此产生抱怨；c.用户使用OpenCloud的成本消耗远高于人工单次调用，一次请求可能触发十来次反复调用，部分用户月账单可达600多美元，而这种成本的增长反而受到大模型厂商和底层应用厂商的欢迎，因为意味着更多的服务调用量与收益；d. OpenCloud与底层软件厂商如金山办公的合作类似互联网流量转流的商业模式，用户调用底层云服务产生token消耗时，双方会通过商务谈判确定优惠或分润机制。

9、AI行业开放度与平权影响

AI行业开放度的变化趋势：AI行业正呈现开放度降低的趋势，具体表现为用户对软件的需求从大而全转向最小功能满足。以Word为例，微软研报显示复杂用户或Word高手用到的功能也不超过17%，过去用户为完成特定功能不得不购买包含冗余功能的整套软件，如今更倾向通过Web coding自行编写代码，仅实现满足需求的最小功能，不再购买传统大软件包或相关library，导致传统软件厂商用户数量减少，对IBM这类以售卖全功能大型软件为核心业务的企业产生重大冲击。在大模型领域，厂商推进开源大模型的核心动力在于售卖Tokens，Tokens已成为新的交易媒介，类似5G流量，未来用户可能像购买流量套餐一样，每月固定花费购买Tokens。同时，用户使用大模型呈现向头部聚集的特征，即便coding plan中提供六七家模型选择，实际使用最多的往往只有2-3家，头部模型因拥有更多用户数据，对用户意图的理解更精准，精准反馈又能推动模型进一步迭代，形成越用越强的正向循环，行业分化态势明显。

AI平权的多维度影响：AI平权在不同维度产生差异化影响，深刻改变行业格局与个体职业发展。从生产力工具角度，AI平权显著提升工作效率，原本需要雇佣10个工程师或初级研报分析人员完成的工作，现在借助AutoCLoud的4个subagent即可实现，每日成本仅50块钱；傅盛团队通过OpenCloud工具实现批量发布2万多条Twitter，这类案例表明AI让普通人也有能力触及原本只有行业头部才能达成的成果，大幅降低信息壁垒与能力门槛，实现技能层面的平权。但AI平权对部分群体形成挑战，比如拥有20年行业积累的资深研究员，可能因AI普及难以维持原有职业地位；同时，AI也对具有行业垄断地位的企业构成冲击，了解企业应用的从业者可仅以IBM1/5的价格提供同类服务，有能力撼动传统行业巨头的市场地位，实现行业位置层面的平权。此外，AI还能大幅增强个体能力，比如从业者借助不同大模型，即便从未涉足过某些行业，也能以每月数百美金的成本承接相关软件业务，其能力甚至超越自身过往20年的积累，这种平权带来的影响具有长远性。

10、普通人适应AI变革的建议

普通人适应AI的核心建议：AI变革的影响力可能超过以往的互联网革命，且人类可亲自参与其中。建议普通人找到全球最好的头部大模型并坚持每日使用，高频使用能培养对AI的感知；长期使用（如三年多）可摸透不同大模型的能力边界，知晓不同模型适用的具体场景。AI并非高深莫测，关键在于主动去用，以此感受这一“世界第一生产力”带来的能力飞跃。

Q：企业服务或客户流程中使用的Agent因大模型幻觉问题，在企业对准确度、可靠性要求较高的背景下，从产业端角度如何解决幻觉以推动其流行？

A：大模型厂商推动Agent的核心原因是希望更贴近用户，一方面可直接触达用户减少对管道服务商的依赖，另一方面通过Agent积累用户使用数据，助力模型迭代。幻觉问题的解决上，产业端主要是大模型厂商依托各自擅长的数据源或能力实现，比如OpenAI通过购买付费专业数据提升数据源准确性，Gemini依托Google Patent和Scholar的学术、专利数据，Grok则利用Twitter的实时性及权威大V核验后的信息，从数据源层面保障输出的准确性。

Q：大模型厂商能提供较多agent，但企业端无法容忍幻觉问题，如何平衡该问题及为何agent应用较多？

A：大模型厂商提agent能力主要基于两方面：一是商业化需求，需离用户更近以避免渠道商拿走利润，同时通过agent接触用户日常工作，获取用户使用数据用于模型迭代，无需依赖渠道商；二是不同厂商通过各自专长解决幻觉问题，如OpenAI购买付费专业数据保证数据源准确，Gemini依托Google Patent和Scholar的学术、专利数据，Grok利用Twitter的实时性及权威大V信息。

Q：企业使用Agent或Acerbic营销插件替代传统营销软件时，其中产生的幻觉问题是否由工程或实施人员解决？

A：企业需求不同，取决于对准确度的要求。部分对准确度要求高的客户，会要求通过三个大模型数据源互相校对或增加额外校验步骤来解决幻觉问题，此类方式成本远低于雇人成本，不同准确度要求对应不同解决方案，差异较大。

Q：通用工具软件与垂类应用软件厂商面对大模型时，应如何转型以更好适应时代？

A：硅谷厂商有两类转型路线：一类是全面拥抱大模型流量入口，以Anthropic为例，通过推出MCP Connector连接190多个生产级软件，开放能力承接大模型引致的细分流量；另一类是拆分自身能力强调专业性，以OpenAI为例，通过构建生态，将自身功能适配大模型用户的碎片化请求，释放专业能力，转型路线取决于企业商务策略。

Q：市场讨论大模型吞噬软件，本质上传统软件公司在大模型时代的价值量有何变化，项目效率是否会提高，能力是否会被大模型替代？

A：传统软件公司在大模型时代的影响是双向的，一方面项目效率会提升，因用户入口更直接，大模型对用户需求的意图理解精准，传递的需求无需复杂准备即可承接；另一方面存在被大模型厂商吞噬的风险，因大模型可获取软件公司的全流程数据，若大模型厂商具备相应能力，可能将软件业务纳入内部。这取决于合作大模型的生态形态，双方需双向选择。同时，软件公司需应对保持壁垒不被大模型击破及留存用户数据的挑战，只要数据通过大模型通道，对其即透明，被吞噬的风险无法避免。

Q：各个环节的盈利模式是怎样的？Open Cloud本身开源免费但调用大模型收费的模式是否成立？ Open Cloud及agent的盈利来源及方式是什么？

A：Open Cloud因用户增多已成为流量入口，用户使用的skill及大模型均通过其输出。大模型需流量会向Open Cloud付费，例如Kimi 2.5付费以获得优先或免费使用地位，最终通过用户向大模型付费后的分成盈利。

Q：Open Cloud作为agent形式的壁垒是否不高，各家均可开发不同的Open Cloud，从而形成类似个人助理端的竞争？

A：市场已出现分流，如网易有道推出有道龙虾、Kimi推出Clow、Minibox推出Mini Clow等。目前大模型应用市场盘子足够大，除行业第一线尝鲜用户外，大部分用户尚未使用，因此足够多家参与分配；且市场存在先入者优势，第一家进入的企业往往能获得最大份额。

Q：大模型生成Excel文档或PPT时是否需底层调用Office或金山办公等软件公司服务，软件公司与大模型的合作模式是怎样的？

A：大模型与软件公司的合作围绕生态展开，商务模式类似互联网流量转化模式，即大模型为软件公司引流真实业务，软件公司根据用户token消耗等给予大模型价格优惠等合作条件。

Q：从AI产业来看，传统上具有开放属性且多算法基于前人开源成果，未来竞争加剧的情况下，行业是否会趋向封闭？

A：所述情况已在发生，软件价值正在下降。以Office的Word为例，微软研报显示，即使是复杂用户或Word高手，使用的功能也不超过Word总功能的17%。当前行业用户中已出现因仅需满足特定功能需求，而选择通过Web coding自行开发替代购买专业软件或库的现象，导致原通过捐赠或捆绑销售模式销售库的厂商用户数量减少。用户需求已从大而全转向碎片化、最小功能级，即通过Web coding结合大模型实现所需功能，满足最小需求即可，这一趋势对IBM等传统销售全功能软件包的厂商形成重大冲击，且对软件行业的影响将长期存在。

Q：目前大模型端继续推进开源大模型的动力是什么？

A：动力主要是卖Token，Token相当于新的货币，类似5G流量，未来用户会像购买流量套餐一样按月花费购买Token。

Q：大模型厂商的护城河是否集中于数据资源的拥有者？

A：大模型厂商的护城河集中于数据资源的拥有者。大模型厂商拥有的数据越多、用户数据越丰富，模型应用越精准，用户会向头部聚焦——例如阿里通义上的coding plan可用六七家，但实际用最多的仅两三家，因特定行业、场景或语言下头部模型表现更优。模型会越用越强，对用户意图的理解随使用越多越准，利于下一次模型迭代；且用户需求跨地区差异小，市场易复制。此外，会用大模型与不会用的人存在明显效率差距，使用10个skill的人比使用2个的人工作效率更高。

Q：AI平权相关情况如何？

A：AI平权分角色。从生产力工具及打工人角度，AI平权带来较大影响，如原需10个工程师或初级研报分析人员完成的研报分析工作，现通过AutoCLoud的4个subagent即可完成，日成本约50元，有助于消除信息壁垒与门槛，好处多于坏处，信息获取量及工作效率可实现几何倍数增长；但对能力不强的人而言，可能威胁其原有行业位置，同时对具有垄断地位的公司形成挑战。AI平权实现了技能及行业位置的平权，如对企业