

你有没有遇到过这种事?
跟同一个AI聊了十几轮之后,你问它:“那按我们刚才说的,第三步该怎么做?”它反问:“请问您之前说的是什么?”——好像前面对话从来没发生过。
你让它“帮我写一篇2000字的文章”,它写了大概500字就停住了,然后问“需要我继续吗?”而你明明一开始就说清楚了要2000字。
还有更微妙的。同一个AI,有时候回答问题条理清晰、数据翔实,像用了很强的模型;换一个时间问类似的问题,回答却变得简短敷衍,像换了个人。
很多人把这些归结为“AI技术不成熟”,或者觉得自己运气不好碰上了差劲的回复。
其实背后有一个绝大多数用户看不到的原因。
你用的这些AI——豆包、Kimi、文心一言、通义千问——大多是免费的。免费的意思是,厂商在替你支付每一次对话背后的计算成本。这个成本以Token计价,每问一句话、每生成一段回答,都在消耗Token。
厂商不是做慈善。为了不让账单失控,它们必须在用户感知不到的地方,采取一系列成本控制策略。这些策略直接导致了上面那些让你困惑的现象。

上下文截断——为什么AI总是“聊着聊着就失忆”
1.1 什么是“上下文”,为什么它烧Token
先解释一个概念。
AI本身没有记忆。
它每回复你一次,本质上是一次独立的计算。要让AI“记住”你之前说过什么,唯一的办法是:每次提问时,把之前的对话历史重新发给它一遍。
比如你问“我家猫叫汤圆”,AI回答“汤圆是个好名字”。
然后你问“它喜欢吃什么”,AI实际收到的是:
用户:我家猫叫汤圆AI:汤圆是个好名字用户:它喜欢吃什么
AI重复读完这一段,才知道“它”指的是汤圆。这段对话历史,就是“上下文”。
上下文越长,单次调用需要处理的文本越多,消耗的Token就越多。输入Token的成本虽然比输出Token低,但积少成多——一个聊了20轮的用户,单次请求的输入Token可能已经上千,成本是首轮对话的几十倍。
1.2 免费App的“滑动窗口”
厂商不会让成本无限增长。免费产品必须控制单个用户的花销,否则用户越多亏损越大。
最常见的控制手段叫“滑动窗口”。原理很简单:只保留最近N轮对话,更早的内容直接丢弃。
N是多少?不同产品不一样,一般5到15轮之间。具体数值厂商不会公开,因为公开了用户就知道边界在哪,反而不好糊弄。
举个例子。你第1轮告诉AI“我要去日本旅游,预算5000元”。聊了10轮之后,你问“那按照这个预算,东京住哪里合适?”AI可能会正常回答。但如果你聊到第20轮,前面的“预算5000元”已经被丢掉了。AI不知道你的预算,回答自然偏离你的预期。
你以为是AI忘了。其实是AI根本没收到过那条信息。
1.3 厂商为什么不让你自己调
有人会问:那给我一个开关,让我自己选择保留多少轮不行吗?
技术上可以。商业上不行。
如果允许用户自由设置,一定会有人把它调到最大,然后挂机刷超长对话。哪怕这样的人只有1%,乘以免费产品的用户基数,Token成本也会变成天文数字。
免费产品的商业逻辑是:用大多数人的轻度使用,覆盖少数人的重度使用。如果重度使用没有上限,这个模型就破了。所以厂商必须用硬性的窗口限制,把每个人的成本锁死在安全线内。
1.4 “长记忆”营销话术的真相
你可能注意到,很多AI产品宣传“支持100万Token上下文”“一次读完三体三部曲”。这不完全是假话——模型的底层能力确实支持那么长。但免费版本不会给你用满。
长上下文就像一个车的最高时速。宣传里写的300公里/小时是理论值,免费用户拿到的是限速80公里的经济模式。想体验300公里?付费。
实测一下就能验证。随便找一个免费AI,跟它连续聊50轮,中间穿插几个关键信息(比如“我最喜欢的颜色是蓝色”)。聊到最后问它“我最喜欢什么颜色”,很多产品答不上来。不是它不支持长上下文,是你这个免费账户没资格用。
厂商的套路是:用技术指标吸引你注册,用免费额度让你养成习惯,再用付费会员把被“税”掉的功能卖回给你。上下文记忆长度,是其中最典型的例子。

输出截断——为什么AI总是“话说到一半就停”
2.1 输出Token比输入更贵
上一章讲的是输入Token——你发给AI的那些话。这一章讲输出Token,也就是AI回给你的内容。
很多人不知道,输出Token的单价通常比输入Token贵。以主流API定价为例,输出Token的价格一般是输入的1.5到2倍。
原因也不复杂:生成文本比理解文本更耗算力。
输入是“读”,输出是“写”。写比读累,机器也一样。
所以如果你让AI一次性写一篇2000字的文章,光是输出Token的成本,可能就相当于几十次简短问答的总和。对于免费产品来说,这种“长回答”用户是最大的成本来源。
2.2 免费App的“字数天花板”
厂商的做法很简单:给每次回答设一个上限。
这个上限不写在产品说明里,但真实存在。可能是500个Token,可能是800个,取决于具体产品和当时的负载情况。
一旦AI生成的内容接近这个阈值,系统就会强行终止,然后再补一句“需要我继续吗?”或者“以上是部分内容,回复‘继续’获取更多”。
你以为是AI体贴地询问你的意愿。其实是被掐断了。
验证方法很简单。找一个免费AI,让它“写一篇500字的短文”。它大概率能写完。再让它“写一篇5000字的文章”,它写到某个长度就停了。不是它写不动,是系统不让它写了。
这个上限还会动态变化。高峰时段上限更低,闲时段上限可能放宽一点。你凌晨两点让它写长文,有可能比晚上八点拿到更完整的回答。
2.3 “继续”按钮的真相
“继续”按钮看上去是个方便的功能,背后的机制其实有点狡猾。
你点“继续”的时候,AI并不是从断掉的地方接着写。它是发起了一次全新的API调用,输入内容包括:之前的全部对话历史 + 已经生成的那部分回答,然后继续往下生成。
这意味着两件事。
第一,每次点“继续”都在消耗新的Token。本来一次能写完的长文,被拆成了三到五次调用,每次都要重新输入上下文。厂商没多给你任何东西,只是把一个任务的成本分摊到了多次请求里。
第二,“继续”的响应质量会逐次下降。因为每“继续”一次,上下文里就多一段之前生成的内容,占用的输入Token越来越多。如果厂商的上下文窗口本身就有上限,继续到第三次、第四次的时候,最早的那部分信息可能已经被挤掉了。你会发现后面的回答开始重复、跑题,甚至忘记前面写过什么。
2.4 什么情况下最容易触发截断
不是所有问题都会被截断。以下几种情况最容易踩到天花板:
第一,让AI写长文章、长报告、长代码。这类任务的输出天然就长,最容易触发上限。
第二,要求“详细阐述”“逐条分析”“每个点都举例子”。这些关键词会让AI倾向于生成更长的内容,撞到阈值的概率更高。
第三,多轮对话中的长回答。你在同一会话里已经问了十个问题,每个回答都不短,厂商可能已经悄悄降低了这个会话的输出上限——因为整个会话的总成本已经很高了。
最隐蔽的是第四种:你什么都没做错,但产品自己切换了模型。忙时段被调度到小模型后,小模型的输出上限通常比大模型更严格。你问同一个问题,大模型能写1000字,小模型写到400字就停了。你甚至不知道背后换了人。
了解了这些,再看“需要我继续吗”这句话,感觉就不一样了。那不是AI的礼貌,是厂商的算盘。

模型降级——为什么AI“时而聪明时而蠢”
3.1 大模型和小模型,成本差多少
上一章提到输出Token比输入Token贵。但如果连模型本身都不一样呢?
大模型和小模型之间的成本差距,比大多数人想象的大得多。
以市面上可查的API价格为例,顶尖大模型(接近GPT-4级别)每千Token的单价,可能是轻量级模型(类似GPT-3.5级别)的10到20倍。用大模型回答一次,够用小模型回答十几次。
大模型聪明、逻辑强、能处理复杂任务。小模型速度快、成本低,但容易犯傻、答非所问、编造事实。这是厂商的成本账,也是用户体验的起落线。
3.2 免费App的“智能路由”
免费AI产品不会对所有用户、所有问题都调用同一个模型。它们会用一套“智能路由”策略:先分析你的问题,然后动态决定分配给哪个模型。
简单闲聊、常识问答、翻译一句话——这类任务会被路由到小模型。复杂推理、代码生成、长文档分析、多步计算——这些才会调用大模型。
理论上这个策略没问题,便宜的问题用便宜模型,贵的问题用贵模型,整体成本可控。
但问题出在“判断”这一步。
AI判断一个问题的难度,本身就不那么可靠。你问“明天北京天气怎么样”,它觉得是简单查询,扔给小模型。但如果“明天”是某个特定比赛日,你需要的其实是带赛程影响的天气分析——小模型给不出。
你问“帮我写一封投诉邮件”,它觉得是简单任务,小模型写出来的邮件语气生硬、逻辑混乱,你还要自己改三遍。
更离谱的是,同样的问法,有时候被判断为简单,有时候被判断为复杂。你完全无法预测。这就是为什么你会有“同一个AI,昨天很聪明,今天很蠢”的错觉。
不是它变了,是你今天被分配到了经济舱。
3.3 联网搜索的“缩水版”
很多免费AI提供“联网搜索”功能,打开后AI可以抓取最新网页信息。这个功能看上去很强大,实际体验经常让人失望。
你明明打开了联网开关,问一个关于今天新闻的问题,AI却回答“根据我的知识库,截至2024年10月……”。你怀疑它到底搜了没有。
答案是:搜了,但没好好搜。
联网搜索的成本比普通对话高得多。AI需要先根据你的问题生成搜索词,调用搜索引擎,抓取返回的网页内容,把这些内容转换成Token,再结合你的问题生成答案。
光是抓取一个网页,就可能产生几千甚至上万Token的输入。
为了控制成本,免费产品会做一堆限制:只抓搜索结果的前两段,而不是整个页面;只读页面的摘要,而不是正文;限制每天、每个用户的搜索次数;在高峰期干脆关闭联网功能,或者只对付费用户开放。
所以你遇到的情况大概率是:AI确实去搜了,但它只瞥了一眼标题和第一句话,然后硬着头皮回答你。
与其说是“联网搜索”,不如说是“联网瞄一眼”。
3.4 高峰期的“隐形降级”
你有没有注意到,AI在晚上七八点、周末下午这些时段,似乎比凌晨两三点要“笨”一些?
这不是错觉。高峰期同时使用的人数暴增,厂商的总算力有限,必须做负载分摊。
分摊的手段包括但不限于:把更多请求路由到小模型、缩短上下文窗口、降低输出Token上限、关闭联网搜索等附加功能。
你感觉AI变笨了,不是因为它升级后又退步了,而是你正在和几万个人抢同一批便宜模型的使用权。
厂商的策略很直接:高峰期保可用性,保成本,体验往后排。反正免费用户没有议价权。
还有一层更隐蔽的:长期重度免费用户可能会被“打标签”。系统检测到某个用户每天发几百条消息、每次都要求长回答、频繁点“继续”,就会把他标记为“高成本用户”,然后优先给他分配小模型,或者更早触发截断。
你不是被针对了,你只是用得太多了。
下次感觉AI突然变蠢,可以先看看时间。如果是晚上八点,换到凌晨两点再试同一个问题。答案质量的差距,就是模型降级最直观的证据。
结语
免费AI不是做慈善。它只是把账单从你口袋里转移到了厂商手里。而厂商为了不让这张账单失控,必然要在你看不见的地方做文章。
上下文截断、输出截断、模型降级——这三件事本质上是一样的:用你的体验换他们的成本控制。你遇到的每一次“失忆”、每一句“需要我继续吗”、每一次“突然变笨”,背后都是一笔被省下来的Token。
这不是在骂厂商黑心。恰恰相反,正是这些“小动作”让你能零成本用上AI。
如果每款产品都老老实实给你用满长上下文、每次回答都写到完成为止、时时刻刻都用最强的模型——要么它早就倒闭了,要么它从一开始就是收费的。
所以作为普通用户,只需要记住三件事:重要信息隔几轮就重复一遍;需要长回答时主动拆成多个小问题;感觉AI变笨了,换个时间再试。
免费有免费的玩法,付费有付费的尊严。下次再遇到AI“失忆”“断片”“变蠢”,别骂它。它不是故意的,它只是在省钱。

DID系列
RWA丨从理论到实践
重要性丨多样性丨工作机制丨技术基石丨代币化丨安全与合规丨智能合约丨市场概览丨趋势与前景丨市场案例丨挑战与策略丨创新前沿丨政策与监管丨机遇与挑战丨前景展望丨不动产丨艺术品丨供应链金融丨跨界创新
RWA+

夜雨聆风