首页 / 正文

模型突然“降智”?照这套回归排查法,10 分钟把锅找到

Mooko
发布于 2026-04-24 · 5分钟阅读
1117 浏览
0 点赞 暴击点赞!

模型突然“降智”?别吵,先把变量抓出来

你有没有遇到过这种瞬间血压飙升的场景:

  • 昨天还写得一手好代码,今天同样的需求开始胡言乱语
  • 同一个会话里越聊越“失忆”,一直重复问你同样的问题
  • 工具能不用就不用,或者反过来瞎调用,像在抽签

很多人第一反应:模型退化了。

更常见的真相是:你看到的是“叠加后的副作用”——推理时长、缓存策略、系统提示词约束,任何一个小改动都能把体验拧歪。

下面拿一次非常典型的事故当教材,把“降智”的三大来源拆开讲,再给你一套可直接照抄的排查流程。😌


这类“降智”,通常不是一个原因

某次公开说明里,团队把“变笨”归因到三类改动:

  1. 默认推理时长被调短
  2. 缓存/上下文清理写出 bug
  3. 系统提示词加了过强的“少说话”约束

它们单独看都不致命,叠一起就很像:模型智商被砍了。

关键点:用户体感是混合信号。你很难靠直觉判断是“模型真不行了”,还是“配置把它手脚绑住了”。


类型 A:推理时长被悄悄调短(表现:不动脑、浅尝辄止)

你会看到什么

  • 解题像“看一眼就交卷”,缺少中间推导
  • 复杂任务容易漏边界条件
  • 写代码不做设计,直接堆 if else

为什么会发生

有些产品会把默认推理档位从“长”调到“中”。理由通常很现实:

  • 高推理档位偶尔会想太久
  • UI 看上去像卡死
  • 速度指标更好看

问题在于:大多数用户不看设置,只会记住一句话:“它变笨了”。

你能怎么验证(3 分钟)

拿同一个任务,跑两遍:

  • 一遍强制“深度思考/高推理”
  • 一遍允许“快速回答/中推理”

看差异点:

  • 方案是否更完整
  • 是否主动列出风险、边界、测试点
  • 是否能坚持“先澄清再动手”

可直接用的提示词

这个任务请用高推理模式处理。输出时先给一份“解题路线图”,再给答案。不要省略关键假设和边界条件。


类型 B:缓存/上下文清理出 bug(表现:健忘、重复、工具乱用)

你会看到什么

  • 聊到第 6 轮,它像没听过前 5 轮
  • 反复确认你已经回答过的信息
  • 工具调用变得很奇怪:要么不用,要么一轮接一轮瞎用
  • 额度消耗异常:同样的对话感觉更“烧 token”

常见诱因

产品会做缓存优化,比如:会话闲置超过一小时后,清理旧的“思考记录”来省 token。

真正坑人的情况是:本来只该清一次,结果实现成“每轮都清”

模型就会出现一种非常像人的状态:

“我知道我在干活,但我忘了我为啥要这么干。”

你能怎么定位(不用任何内部权限)

用这套“小测试”就够了:

测试 1:一致性复述

  1. 让它记住 3 条约束(比如输出格式、接口字段、你要的风格)
  2. 连续对话 8~10 轮,每轮都插一个小修改
  3. 观察它是否稳定遵守早期约束

测试 2:额度与延迟异常

  • 同样问题复制到新会话
  • 比较两边的响应速度、工具调用次数、消耗是否明显不同

只要出现“旧会话明显更健忘、更烧 token”,八成是上下文/缓存相关的问题。

应急手段(真能救命)

  • 直接新开会话(别恋战)
  • 把关键约束贴到当前轮消息末尾,做一个“对话钉子”
  • 对长项目用“会话摘要”机制:每 10 轮让模型输出一份项目状态,下一轮把状态贴回去

会话钉子模板:

你必须一直遵守:

  • 输出用 Markdown
  • 给结论 + 可执行步骤
  • 代码默认 TypeScript
  • 不要改变接口字段名

类型 C:系统提示词加了强约束(表现:突然变话少、变保守、信息密度下降)

你会看到什么

  • 回答变短,看着“很干净”,但没信息
  • 复杂问题被压缩成几句正确废话
  • 工具调用之间几乎不解释

典型触发器

为了让模型少废话,有些系统提示词会加类似限制:

  • 工具调用之间文本不能超过 N 个词
  • 最终回复不能超过 N 个词(除非任务需要)

听上去合理,落地很容易出事:

  • 模型为了满足字数,主动删掉推导
  • 对“任务需要更多细节”的判断变保守
  • 你感觉到的就是:同样聪明,表达能力被掐住了

你能怎么拆掉这个“隐形手刹”

你没法直接改系统提示词,但可以用两招对冲:

  1. 显式授权长度

这题允许你写长一点。给我完整推导、边界条件、验证方案。字数不限。

  1. 用结构换长度(更容易过限制)

用清单回答:结论 / 关键依据 / 步骤 / 风险 / 验证。每项不超过 6 行。

清单会迫使模型把信息装回去,还不容易触发“太长”。


给你一套通用“降智排查流程”(可复制到团队 Wiki)

你下次遇到“它是不是变笨了”,别凭感觉吵架,按这 6 步走:

1)锁定输入:同一问题、同一提示词、同一输出格式

把你的问题固定成一个测试用例,别边测边改。

2)做 A/B:新会话 vs 旧会话

旧会话更差 → 优先怀疑缓存/上下文。

3)切推理档位:高推理 vs 普通

高推理明显更好 → 优先怀疑默认推理时长/档位被改。

4)加“长度授权”或“结构化输出”

加完立刻变正常 → 优先怀疑系统提示词/字数限制。

5)记录三件事:工具调用次数、重复提问次数、约束遵守率

这三项是最稳定的“降智指标”,比主观印象靠谱。

6)把案例做成你的微型评测集(5~20 题就够)

别追求大而全,追求贴合你日常工作:

  • 你常写的那类接口
  • 你常做的那类文案
  • 你最在意的那种边界条件

每次模型更新、产品改设置,用这套题跑一遍,结果一眼就知道哪里歪了。


示例:一组“能抓住退化”的小评测题(直接拿去用)

题 1:长任务规划(抓推理时长问题)

设计一个 7 天内可交付的爬虫 + 清洗 + 入库方案。要求:失败重试、反爬应对、日志结构、成本估算、验收标准。

看点:是否有边界、是否有验收、是否能落地到每天做什么。

题 2:多轮约束保持(抓缓存/上下文问题)

我们要生成 20 条商品标题。规则:不超过 18 字;必须包含品牌词;风格偏理性;禁用夸张词。记住规则,接下来我会逐条改。

看点:第 10 轮还记不记得“禁用夸张词”。

题 3:工具调用合理性(抓工具乱用/字数约束副作用)

给我一个 SQL 优化建议。表结构如下……(略)请你判断需不需要 EXPLAIN,需要就说明原因再给语句。

看点:会不会不解释就乱 call 工具,或者解释被压成一句话。


避坑清单(踩中一个就会很像“降智”)

  • ✅ 同一个长会话聊到后面开始失忆:别硬撑,开新会话 + 贴会话摘要
  • ✅ 回答突然短得离谱:给“长度授权”,再要求结构化
  • ✅ 复杂问题一上来就给结论:要求“路线图 + 边界条件 + 验证方案”
  • ✅ 工具调用频率异常:记录调用次数,换新会话对照
  • ✅ 额度掉得飞快:怀疑缓存没命中/上下文重算,尽量缩短无效对话

你要把问题反馈给厂商?照这个格式写,命中率高

厂商最怕你只说一句“变笨了”。他们需要的是可复现信息。

把下面这段填好发过去:

  • 复现用例(完整提示词):
  • 期望输出:
  • 实际输出:
  • 是否新会话可恢复:是/否
  • 推理档位切换是否可恢复:是/否
  • 是否出现重复提问/工具乱用:是/否 + 例子
  • 时间点与版本号(如果看得到):

写到这份上,对方基本没法装死。


你不需要迷信“模型降智”这种玄学。

把推理档位、上下文、系统约束当成三根旋钮。哪根松了,体验就歪。

把上面的微型评测集建起来,你就从“靠感觉吐槽”,升级成“有证据地定位”。这才是成年人该有的快乐。😄

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取