乐于分享
好东西不私藏

【AI前沿】过去 24 小时 AI 圈最值得看的,不是又多了几个新模型,而是两条战线一起打响了

【AI前沿】过去 24 小时 AI 圈最值得看的,不是又多了几个新模型,而是两条战线一起打响了

过去 24 小时 AI 圈最值得看的,不是又多了几个新模型,而是两条战线一起打响了

过去 24 小时,AI 圈表面上看有三条更新:

  • Qwen 3.6-Max-Preview 发布
  • Kimi K 2.6 发布
  • Claude 在 Cowork 里上线 live artifacts

如果把它们分别当作资讯播报来看,当然都成立。

但放在一起看,真正值得写的不是“谁又发了什么”,而是更深一层的变化:「国产模型正在往 Claude Opus、Codex、GPT-5.4 的核心腹地逼近,而 Anthropic 仍然在把模型能力继续产品化,直接去撞 SaaS 和传统软件工作流。」

今天的大模型竞争,已经越来越不像聊天机器人比赛,而更像两条战线同时推进:

  1. 「模型层战线」:谁更能做 agentic coding,谁更能长时间执行任务,谁更能接住多文件工程、工具调用和复杂开发流程。
  2. 「产品层战线」:谁能把模型变成可直接使用的工作系统,吃掉原本由软件席位费支撑的价值层。

先看这张图,就能明白为什么这三条更新不能分开看:

过去 24 小时 AI 竞争的两条战线结构图

这三条更新,刚好把这两件事同时照亮了。

一、Qwen 3.6-Max-Preview:这不是普通升级,而是继续往 agentic coding 逼近

先看 Qwen 3.6-Max-Preview。

Tongyi Lab 官方帖里给出的关键词很直接:「agentic coding、stronger world knowledge、real-world reliability」

Qwen3.6-Max-Preview 官方图

这次最值得注意的,不是它有没有把自己说成万能模型,而是它把重心明确放在了「开发者工作流上」

这很关键。因为今天高价值的大模型竞争,早就不是“谁回答更顺”这么简单,而是谁能在复杂任务里持续稳定地跑下去。

Tongyi Lab 还补了一张 benchmark 图。

Qwen Benchmark 图

这张图当然有信息量,但 Qwen 这次真正传递出来的信号,不只是分数,而是姿态:「Qwen 现在盯着的,是高强度 coding 和 agent 任务,不是普通聊天榜单。」

不过,Qwen 这次也明确写了一个词:「Preview」

这意味着它更像一个正在逼近的强信号,而不是已经完成市场验证的终局答案。

网上比较有价值的一条评论来自 @mylifcc

agentic coding gains look real, but the gap shows in multi-file, long-horizon tasks — ran a multi-agent harness in production for months, and model consistency under pressure mattered way more than raw benchmark numbers. max-preview might actually shift that

这条评论比单纯夸 benchmark 有价值得多。因为它点出了真正的生产问题:「多文件、长时执行、高压条件下的一致性」,往往比单次 benchmark 分数更重要。

另一条来自 @sebuzdugan 的保留意见也值得写进去:

preview is nice but without clear benchmarks against gpt 4 o this means little

这话虽然有点硬,但意思没错:如果缺少更直观的对比口径,外界很难直接判断它离 Opus、Codex、GPT-5.4 还有多远。

所以,Qwen 3.6-Max-Preview 给我的判断不是“已经赢了”,而是:「阿里已经把火力更明确地压到高强度 coding 和 agent 工作流上了。」

它不再只是一个中文世界里很强的通用模型,而是在主动往全球最贵、最硬的那块生产力区域里挤。

二、Kimi K 2.6:比起“逼近”,它更像一次公开进攻

如果说 Qwen 更像一个继续逼近的信号,那 Kimi K 2.6 的气势要更猛一些。

Kimi 官方发布几乎没有绕弯,直接把自己放进 「Advancing Open-Source Coding」 这个框架里。

Kimi K2.6 官方图

它给出的叙事也很完整:

  • 长时 coding,4,000+ tool calls,连续执行 12 小时以上
  • motion-rich frontend
  • 300 个并行 sub-agents
  • proactive agents
  • 研究预览阶段的 Claw Groups

这已经不是单点能力升级了,而是在把“编码模型”往完整的 agent runtime 推。

这里最危险的地方在于,Kimi 不只是说自己代码能力更强,而是在强调:「长期执行、工具链编排、前端生成、多 agent 协作」,它都要往前拿。

这意味着它抢的已经不是单个模型的位置,而是在碰整套 coding product stack。

外部讨论也很能说明这点。

比如 Unsloth AI 很快就表示,他们在做 Kimi-K 2.6 Dynamic GGUF,好让更多人本地运行:

We’re working on Kimi-K 2.6 Dynamic GGUFs so folks can run it locally…

这类反馈很关键。因为只有当社区觉得一个模型「值得部署、值得适配、值得进生产环境」时,第一反应才会是去做本地化和量化。

另一类讨论,则直接把它拉进和顶级闭源模型的对比里。@tonbistudio 的说法很激进:

Impressive model! I tested it out in Hermes Agent with 2 challenging tasks, and it really lived up to the SOTA label (even beating Opus 4.7 easily in one showdown).

这还不能直接上升成行业结论,但它至少说明了一件事:「市场已经开始认真把国产模型放进“能不能打 Opus”这个问题里了。」

还有一层更明显的情绪,是“更开放的高能力模型正在冲击原来的高价闭源格局”。比如 @JackColbySEO 这句虽然带点夸张,但很抓市场情绪:

OpenAI and Anthropic watching Chinese labs open source everything they charge $200/month for

这类情绪化表达,不足以当结论,但能说明今天海外用户对国产模型的第一感受,已经逐渐变成了:「高能力 + 更开放 + 价格压力」

Kimi 这边还有一个很适合放进正文的实战素材:它已经迅速被接进 agent 框架里跑实测了。

Kimi OpenClaw/Hermes 实测 GIF

这种素材比单纯 benchmark 更有说服力,因为它说明 Kimi 的传播已经不只是“看分数”,而是进入“拿去跑真实 agent 框架”的阶段。

再看另一条高互动回复,@SahilPanhotra 直接发了一张图,配文是:

waiting for composer 3 by cursor now

Kimi reply:Cursor / Composer 情绪图

这张图本身不是技术论据,但它很适合说明 Kimi K 2.6 在外部产品生态里引发的情绪联想:当一个开源 coding 模型突然把前端、agent、长时执行都抬上来时,大家会自然去联想到 Cursor、Composer、Codex 这类现有产品的压力。

三、但说国产模型已经全面平替 Opus、Codex、GPT-5.4,还是太早

说到这里,很容易顺手写成一句爽文式结论:国产产模型已经全面崛起,可以直接平替 Claude Opus、Codex、GPT-5.4。

我不认同这么写。

至少从这 24 小时拿到的材料看,这个判断还是太满了。

更准确的说法是:「在 coding、frontend、tool use、agent workflow 的一些关键任务上,替代已经开始发生,但“全面平替”还没有发生。」

原因很简单。

第一,Qwen 3.6-Max-Preview 自己就写了 preview,它不是最终稳定版。

第二,即便 Kimi K 2.6 的反馈很强,市场也不是一边倒。比如 @XCSme 就明确表示,它只是比 Kimi 2.5 好一点,但依然不如 GLM 5。这说明即便在国产模型内部,竞争也还在快速拉扯。

第三,闭源顶级模型真正难替代的,不只是 benchmark 顶点,而是「长时稳定性、复杂项目一致性、边界条件下的容错,以及和产品层整合后的整体体验」

也就是说,今天更负责的判断不是“替代已经完成”,而是:

「国产模型已经进入高价值替代区间,正在把原本属于 Claude / Codex / GPT-5.4 的部分任务,实打实切下来。」

这已经够重了,不需要靠夸张来抬高结论。

四、Claude live artifacts:Anthropic 依然最擅长把模型能力变成“行业冲击”

如果说 Qwen 和 Kimi 代表的是模型层的进攻,那 Claude 这次 live artifacts 更像产品层的精准打击。

Claude 官方的说法很克制:在 Cowork 里,Claude 现在可以构建 live artifacts,做出连接 app 和文件的 dashboard、tracker,并且随时打开都能用当前数据刷新。

Claude live artifacts 官方图

官方随后还补了一条串文,说这些东西会保存在新的 Live Artifacts tab 里,并且带 version history。

这几个词连起来,意思就完全不一样了。

它不是一次性生成个 demo,也不是帮你画个静态 dashboard,而是在把 artifacts 变成一种「可连接数据、可持续刷新、可回溯版本的活对象」

这一步会直接打到哪里?

就是 BI、internal tools、dashboard builder、轻量工作台这一类长期靠“把复杂数据工作包装成一个可视化工具”来卖席位费的软件。

网上几条更像从业者判断的评论,比情绪化 meme 更值得留。

比如 @iamsubha44 的这条:

Claude’s new live artifacts in Cowork finally solve the ‘build once, then manually update forever’ problem. Connected to your actual data sources and versioned over time – this is how you make AI-built tools that actually stick around and stay useful.

这条评论很准。Claude 这次真正解决的问题,不是“会不会生成”,而是「生成出来的东西能不能继续活着、持续更新、被反复使用。」

@AiwithZoaina 也点到了另一个关键点:

Live Artifacts that connect to actual data sources and persist with version history is exactly what was missing. Would love to see deeper team sharing/multiplayer support next…

这条评论很适合用来平衡文章。因为它一方面承认这次更新很强,另一方面也指出它还没完全吃掉团队协作层。

还有 @travasites 这条,也很像真正会用这类产品的人写出来的判断:

Real time dashboards without manual refresh or custom ETL is a huge workflow win. Does it support custom data sources via API, or only pre connected apps?

这不是喊“某行业死了”,而是在追问一个非常实际的问题:「连接器边界在哪里,开放度够不够,能不能接更复杂的真实系统。」

这类问题,才是真正决定它能吃掉多少 SaaS 价值的地方。

五、能否冲击行业?

这次更新对 BI 行业的冲击可以说得更具体。

AYi 对 Claude live artifacts 的中文总结图

有网友判断:「过去十年大量 SaaS 的生意,本质上是在卖“把复杂工作包成一个好看的 UI,然后按席位收费”。而现在,prompt 加 connector,已经开始吃掉中间那层 UI 封装价值。」

这句话我基本同意。

但也要修一下力度。

不是 BI 行业明天就没了,也不是 Tableau、Looker、Retool 立刻归零。数据治理、指标口径、权限管理、合规、跨团队协同,这些真正难的层面,Claude 这次并没有一键解决。

但说它没有冲击,也是假话。

它先吃掉的,很可能就是那批“为了做一个常用 dashboard 或 tracker,不得不搭一堆中间工具和手工流程”的工作。

也就是过去最容易被 SaaS 席位费收割的那一段。

六、网上的情绪已经说明,大家怕的不是单个功能,而是 Anthropic 继续按行业掀桌子

Claude 这条下面的评论区里,专业判断和 meme 已经混在一起了。

有人说 Tableau 和 Power BI 现在成了昂贵但没必要的选项。有人说,如果你的工作就是不停更新 dashboard,可能该去学 prompting 了。还有人直接说,又一个 startup category 要没了。

Claude 回复区 meme 1
Claude 回复区 meme 2

还有一张更典型的情绪图,把 Claude 直接理解成“正在往完整 AI startup starter agent 发展”:

Claude reply:AI startup starter agent 情绪图

这些图本身不是硬证据,但它们很适合证明舆论温度。

大家怕的不是 Claude 又多了一个小功能,而是 「Anthropic 总能把模型能力做成一个看起来会直接吞掉现有软件品类的东西。」

这和国产模型的冲击方式不完全一样。

国产模型这边,市场更在乎的是:能力是不是已经足够强,价格是不是更低,生态是不是更开放。

Anthropic 这边,市场更在乎的是:你这次又打到了哪个行业的核心工作流。

七、这 24 小时真正的主线,是“模型能力上移”和“软件价值下移”同时发生

如果把这篇文章压成一句判断,我会写成这样:

「国产模型正在把顶级模型的能力门槛往下打,Claude 则在把传统软件的价值边界往下拆。」

前者会让 Opus、Codex、GPT-5.4 这类高价能力越来越难维持神圣感。后者会让一批依赖 UI 封装和席位费的软件,越来越难证明自己还有多少不可替代性。

所以,今天真正值得注意的不是“又有三个新功能了”,而是两条更深的变化:

  • 「第一,国产模型已经进入 coding 主战场,不再是外围变量,而是正面选手。」
  • 「第二,大模型应用层的竞争,已经越来越像对 SaaS 垂直品类的逐层拆解。」

写在最后

回到最开始那个问题。

国产产模型崛起了吗?

我的答案是,已经不是“会不会崛起”的问题,而是:「它们已经开始在部分高价值任务上正面替代顶级闭源模型,只是还没到全面接管的阶段。」

能不能平替 Claude Opus、Codex、GPT-5.4?

如果你问的是全部能力、全部场景、全部体验,答案还是不能轻易说“能”。

但如果你问的是 coding、agent workflow、前端生成、多工具协作这些越来越贵的生产任务,那答案已经开始变成:「很多地方,能了,而且会越来越能。」

而 Claude 这边,问题甚至不是“它强不强”,而是它几乎每隔几天都会给传统软件行业补一刀。

过去 24 小时,真正值得警惕的不是某一个模型参数更高了。

而是两件事已经同时发生:

  • 一边是国产模型开始把最贵的能力做得更开放。
  • 另一边是 Anthropic 继续把模型做成能掀行业桌子的产品。

这才是今天 AI 圈真正的新鲜事。

「更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。」