免费AI的三大“坑”:失忆、断片、变蠢

你有没有遇到过这种事？

跟同一个AI聊了十几轮之后，你问它：“那按我们刚才说的，第三步该怎么做？”它反问：“请问您之前说的是什么？”——好像前面对话从来没发生过。

你让它“帮我写一篇2000字的文章”，它写了大概500字就停住了，然后问“需要我继续吗？”而你明明一开始就说清楚了要2000字。

还有更微妙的。同一个AI，有时候回答问题条理清晰、数据翔实，像用了很强的模型；换一个时间问类似的问题，回答却变得简短敷衍，像换了个人。

很多人把这些归结为“AI技术不成熟”，或者觉得自己运气不好碰上了差劲的回复。

其实背后有一个绝大多数用户看不到的原因。

你用的这些AI——豆包、Kimi、文心一言、通义千问——大多是免费的。免费的意思是，厂商在替你支付每一次对话背后的计算成本。这个成本以Token计价，每问一句话、每生成一段回答，都在消耗Token。

厂商不是做慈善。为了不让账单失控，它们必须在用户感知不到的地方，采取一系列成本控制策略。这些策略直接导致了上面那些让你困惑的现象。

上下文截断——为什么AI总是“聊着聊着就失忆”

1.1 什么是“上下文”，为什么它烧Token

先解释一个概念。

AI本身没有记忆。

它每回复你一次，本质上是一次独立的计算。要让AI“记住”你之前说过什么，唯一的办法是：每次提问时，把之前的对话历史重新发给它一遍。

比如你问“我家猫叫汤圆”，AI回答“汤圆是个好名字”。

然后你问“它喜欢吃什么”，AI实际收到的是：

用户：我家猫叫汤圆AI：汤圆是个好名字用户：它喜欢吃什么

AI重复读完这一段，才知道“它”指的是汤圆。这段对话历史，就是“上下文”。

上下文越长，单次调用需要处理的文本越多，消耗的Token就越多。输入Token的成本虽然比输出Token低，但积少成多——一个聊了20轮的用户，单次请求的输入Token可能已经上千，成本是首轮对话的几十倍。

1.2 免费App的“滑动窗口”

厂商不会让成本无限增长。免费产品必须控制单个用户的花销，否则用户越多亏损越大。

最常见的控制手段叫“滑动窗口”。原理很简单：只保留最近N轮对话，更早的内容直接丢弃。

N是多少？不同产品不一样，一般5到15轮之间。具体数值厂商不会公开，因为公开了用户就知道边界在哪，反而不好糊弄。

举个例子。你第1轮告诉AI“我要去日本旅游，预算5000元”。聊了10轮之后，你问“那按照这个预算，东京住哪里合适？”AI可能会正常回答。但如果你聊到第20轮，前面的“预算5000元”已经被丢掉了。AI不知道你的预算，回答自然偏离你的预期。

你以为是AI忘了。其实是AI根本没收到过那条信息。

1.3 厂商为什么不让你自己调

有人会问：那给我一个开关，让我自己选择保留多少轮不行吗？

技术上可以。商业上不行。

如果允许用户自由设置，一定会有人把它调到最大，然后挂机刷超长对话。哪怕这样的人只有1%，乘以免费产品的用户基数，Token成本也会变成天文数字。

免费产品的商业逻辑是：用大多数人的轻度使用，覆盖少数人的重度使用。如果重度使用没有上限，这个模型就破了。所以厂商必须用硬性的窗口限制，把每个人的成本锁死在安全线内。

1.4 “长记忆”营销话术的真相

你可能注意到，很多AI产品宣传“支持100万Token上下文”“一次读完三体三部曲”。这不完全是假话——模型的底层能力确实支持那么长。但免费版本不会给你用满。

长上下文就像一个车的最高时速。宣传里写的300公里/小时是理论值，免费用户拿到的是限速80公里的经济模式。想体验300公里？付费。

实测一下就能验证。随便找一个免费AI，跟它连续聊50轮，中间穿插几个关键信息（比如“我最喜欢的颜色是蓝色”）。聊到最后问它“我最喜欢什么颜色”，很多产品答不上来。不是它不支持长上下文，是你这个免费账户没资格用。

厂商的套路是：用技术指标吸引你注册，用免费额度让你养成习惯，再用付费会员把被“税”掉的功能卖回给你。上下文记忆长度，是其中最典型的例子。

输出截断——为什么AI总是“话说到一半就停”

2.1 输出Token比输入更贵

上一章讲的是输入Token——你发给AI的那些话。这一章讲输出Token，也就是AI回给你的内容。

很多人不知道，输出Token的单价通常比输入Token贵。以主流API定价为例，输出Token的价格一般是输入的1.5到2倍。

原因也不复杂：生成文本比理解文本更耗算力。

输入是“读”，输出是“写”。写比读累，机器也一样。

所以如果你让AI一次性写一篇2000字的文章，光是输出Token的成本，可能就相当于几十次简短问答的总和。对于免费产品来说，这种“长回答”用户是最大的成本来源。

2.2 免费App的“字数天花板”

厂商的做法很简单：给每次回答设一个上限。

这个上限不写在产品说明里，但真实存在。可能是500个Token，可能是800个，取决于具体产品和当时的负载情况。

一旦AI生成的内容接近这个阈值，系统就会强行终止，然后再补一句“需要我继续吗？”或者“以上是部分内容，回复‘继续’获取更多”。

你以为是AI体贴地询问你的意愿。其实是被掐断了。

验证方法很简单。找一个免费AI，让它“写一篇500字的短文”。它大概率能写完。再让它“写一篇5000字的文章”，它写到某个长度就停了。不是它写不动，是系统不让它写了。

这个上限还会动态变化。高峰时段上限更低，闲时段上限可能放宽一点。你凌晨两点让它写长文，有可能比晚上八点拿到更完整的回答。

2.3 “继续”按钮的真相

“继续”按钮看上去是个方便的功能，背后的机制其实有点狡猾。

你点“继续”的时候，AI并不是从断掉的地方接着写。它是发起了一次全新的API调用，输入内容包括：之前的全部对话历史 + 已经生成的那部分回答，然后继续往下生成。

这意味着两件事。

第一，每次点“继续”都在消耗新的Token。本来一次能写完的长文，被拆成了三到五次调用，每次都要重新输入上下文。厂商没多给你任何东西，只是把一个任务的成本分摊到了多次请求里。

第二，“继续”的响应质量会逐次下降。因为每“继续”一次，上下文里就多一段之前生成的内容，占用的输入Token越来越多。如果厂商的上下文窗口本身就有上限，继续到第三次、第四次的时候，最早的那部分信息可能已经被挤掉了。你会发现后面的回答开始重复、跑题，甚至忘记前面写过什么。

2.4 什么情况下最容易触发截断

不是所有问题都会被截断。以下几种情况最容易踩到天花板：

第一，让AI写长文章、长报告、长代码。这类任务的输出天然就长，最容易触发上限。

第二，要求“详细阐述”“逐条分析”“每个点都举例子”。这些关键词会让AI倾向于生成更长的内容，撞到阈值的概率更高。

第三，多轮对话中的长回答。你在同一会话里已经问了十个问题，每个回答都不短，厂商可能已经悄悄降低了这个会话的输出上限——因为整个会话的总成本已经很高了。

最隐蔽的是第四种：你什么都没做错，但产品自己切换了模型。忙时段被调度到小模型后，小模型的输出上限通常比大模型更严格。你问同一个问题，大模型能写1000字，小模型写到400字就停了。你甚至不知道背后换了人。

了解了这些，再看“需要我继续吗”这句话，感觉就不一样了。那不是AI的礼貌，是厂商的算盘。

模型降级——为什么AI“时而聪明时而蠢”

3.1 大模型和小模型，成本差多少

上一章提到输出Token比输入Token贵。但如果连模型本身都不一样呢？

大模型和小模型之间的成本差距，比大多数人想象的大得多。

以市面上可查的API价格为例，顶尖大模型（接近GPT-4级别）每千Token的单价，可能是轻量级模型（类似GPT-3.5级别）的10到20倍。用大模型回答一次，够用小模型回答十几次。

大模型聪明、逻辑强、能处理复杂任务。小模型速度快、成本低，但容易犯傻、答非所问、编造事实。这是厂商的成本账，也是用户体验的起落线。

3.2 免费App的“智能路由”

免费AI产品不会对所有用户、所有问题都调用同一个模型。它们会用一套“智能路由”策略：先分析你的问题，然后动态决定分配给哪个模型。

简单闲聊、常识问答、翻译一句话——这类任务会被路由到小模型。复杂推理、代码生成、长文档分析、多步计算——这些才会调用大模型。

理论上这个策略没问题，便宜的问题用便宜模型，贵的问题用贵模型，整体成本可控。

但问题出在“判断”这一步。

AI判断一个问题的难度，本身就不那么可靠。你问“明天北京天气怎么样”，它觉得是简单查询，扔给小模型。但如果“明天”是某个特定比赛日，你需要的其实是带赛程影响的天气分析——小模型给不出。

你问“帮我写一封投诉邮件”，它觉得是简单任务，小模型写出来的邮件语气生硬、逻辑混乱，你还要自己改三遍。

更离谱的是，同样的问法，有时候被判断为简单，有时候被判断为复杂。你完全无法预测。这就是为什么你会有“同一个AI，昨天很聪明，今天很蠢”的错觉。

不是它变了，是你今天被分配到了经济舱。

3.3 联网搜索的“缩水版”

很多免费AI提供“联网搜索”功能，打开后AI可以抓取最新网页信息。这个功能看上去很强大，实际体验经常让人失望。

你明明打开了联网开关，问一个关于今天新闻的问题，AI却回答“根据我的知识库，截至2024年10月……”。你怀疑它到底搜了没有。

答案是：搜了，但没好好搜。

联网搜索的成本比普通对话高得多。AI需要先根据你的问题生成搜索词，调用搜索引擎，抓取返回的网页内容，把这些内容转换成Token，再结合你的问题生成答案。

光是抓取一个网页，就可能产生几千甚至上万Token的输入。

为了控制成本，免费产品会做一堆限制：只抓搜索结果的前两段，而不是整个页面；只读页面的摘要，而不是正文；限制每天、每个用户的搜索次数；在高峰期干脆关闭联网功能，或者只对付费用户开放。

所以你遇到的情况大概率是：AI确实去搜了，但它只瞥了一眼标题和第一句话，然后硬着头皮回答你。

与其说是“联网搜索”，不如说是“联网瞄一眼”。

3.4 高峰期的“隐形降级”

你有没有注意到，AI在晚上七八点、周末下午这些时段，似乎比凌晨两三点要“笨”一些？

这不是错觉。高峰期同时使用的人数暴增，厂商的总算力有限，必须做负载分摊。

分摊的手段包括但不限于：把更多请求路由到小模型、缩短上下文窗口、降低输出Token上限、关闭联网搜索等附加功能。

你感觉AI变笨了，不是因为它升级后又退步了，而是你正在和几万个人抢同一批便宜模型的使用权。

厂商的策略很直接：高峰期保可用性，保成本，体验往后排。反正免费用户没有议价权。

还有一层更隐蔽的：长期重度免费用户可能会被“打标签”。系统检测到某个用户每天发几百条消息、每次都要求长回答、频繁点“继续”，就会把他标记为“高成本用户”，然后优先给他分配小模型，或者更早触发截断。

你不是被针对了，你只是用得太多了。

下次感觉AI突然变蠢，可以先看看时间。如果是晚上八点，换到凌晨两点再试同一个问题。答案质量的差距，就是模型降级最直观的证据。

结语

免费AI不是做慈善。它只是把账单从你口袋里转移到了厂商手里。而厂商为了不让这张账单失控，必然要在你看不见的地方做文章。

上下文截断、输出截断、模型降级——这三件事本质上是一样的：用你的体验换他们的成本控制。你遇到的每一次“失忆”、每一句“需要我继续吗”、每一次“突然变笨”，背后都是一笔被省下来的Token。

这不是在骂厂商黑心。恰恰相反，正是这些“小动作”让你能零成本用上AI。

如果每款产品都老老实实给你用满长上下文、每次回答都写到完成为止、时时刻刻都用最强的模型——要么它早就倒闭了，要么它从一开始就是收费的。

所以作为普通用户，只需要记住三件事：重要信息隔几轮就重复一遍；需要长回答时主动拆成多个小问题；感觉AI变笨了，换个时间再试。

免费有免费的玩法，付费有付费的尊严。下次再遇到AI“失忆”“断片”“变蠢”，别骂它。它不是故意的，它只是在省钱。