Opus 4.6 变聪明了,额度却更不经花:怎么把每一次提问都榨出价值
你有没有这种瞬间:
- “诶?Opus 4.6 智商回来了!”
- “太好了,再问两个……”
- “额度不足。”
真的很像刚点开豪华自助餐,夹了两盘就被请出门。🤦
别急,这不是你一个人的错觉。高阶模型更贵、更吃算力,峰值时段更容易限流。咱们能做的是:把 Opus 用在刀刃上,把日常对话交给更便宜的模型扛,再配一套“省额度的提问法”。
下面这套方法,你照着做,基本能把“两个问题见底”改成“能撑一整天”。
1)先把话说死:哪些任务必须上 Opus?
给你一个特别实用的判断法:能不能用更便宜的模型做出 80 分?能就别上 Opus。
适合上 Opus 的场景(花得值)
- 复杂推理:多约束决策、冲突条件、需要权衡取舍
- 长上下文整合:十几页文档合并总结、跨多段信息找矛盾
- 高风险输出:合同条款审阅、关键邮件措辞、PR 公告
- 需要“像人”的表达:重要演讲稿、对外声明、品牌文案
不适合上 Opus 的场景(烧钱不划算)
- 翻译、改写成不同语气
- 代码补全、简单 bug 定位
- 资料查询、百科式问答
- “帮我列 20 个点子”这类发散需求(先用便宜模型发散,再用 Opus 收敛)
你可以把它当成一条铁律:
发散用便宜模型,收敛用 Opus。
2)把一次对话拆成“省钱的两段式”
很多人额度爆炸,根源是把“思考、查漏、润色、输出格式”全塞进一次请求里。
更省的做法:拆两段。
两段式模板
A 段(便宜模型):整理需求 + 产出提纲
- 把目标、受众、限制条件、输出格式全部写清楚
- 让它吐一个“结构化提纲 + 待确认问题列表”
B 段(Opus):按提纲一次成稿
- 你把 A 段提纲贴进去
- 明确“不要扩写无关内容”
- 让它直接给最终稿
示例:写一篇 AI 教程
A 段(便宜模型)提示词:
我想写一篇《如何用 X 工具做 Y》的中文教程。受众:完全没用过的新手。风格:口语、短句、可执行。请输出: 1)文章大纲(含小标题) 2)每节要点列表 3)需要读者准备的东西 4)可能踩坑清单 如果你觉得信息不够,先问我 3 个问题。
B 段(Opus)提示词:
按下面的大纲写完整文章。要求:短段落、给步骤、给示例、给避坑清单。不要加入大段背景科普。输出 Markdown。
【大纲】 ……(粘贴 A 段输出)
你会发现:Opus 的“聪明”主要体现在收敛和质量上。把它用在这一步,最爽。
3)一句话说清楚:控制输出长度,额度立省
很多回答其实是被你“诱导得很长”。尤其你说“详细一点”“越多越好”“尽可能全面”,那它当然给你写作文。
省额度的写法
- 限制字数:
- “控制在 200 字以内”
- “只给 8 条要点”
- 限制格式:
- “只输出表格,不要解释”
- “只输出 JSON,不要多余文字”
- 限制轮次:
- “如果信息缺失,只问我 2 个问题”
你可以直接复制的短输出指令
用 10 条 bullet 输出结论。每条不超过 20 个字。不需要解释。
这一招对“额度不够用”很管用。你要的不是文学作品,是能拿去干活的结果。
4)给模型喂“资料”,别让它自己瞎搜瞎猜
高阶模型最贵的消耗之一:它在对话里“绕圈想”,你在旁边看它表演。
更省的方式:把必要资料一次性给全,让它直接处理。
你可以这样做(RAG 的平替用法)
- 你把文档复制进来(或贴关键段落)
- 明确范围:
- “只能基于我提供的内容回答”
- “引用原句并标注段落号”
示例:让它改合同条款
只基于以下条款内容,找出对甲方不利的点,给出替代表述。输出两列:风险点/修改建议。不要做法律免责声明。
资料齐了,它就不需要“猜”。猜的过程最花额度,还容易跑偏。
5)模型路由:让不同模型各干各的
如果你有 API 或者有多个模型可用,强烈建议上“路由策略”。说白了就是:
- 小事用小刀
- 大事用菜刀
- 只有砍骨头才用电锯
一个简单可用的路由规则
- 便宜模型:
- 翻译、润色、列清单、写代码小片段、生成提纲
- 中档模型:
- 大多数日常问答、一般写作、常规调试
- Opus:
- 高风险文案、复杂推理、长文高质量成稿、关键决策
更“工程化”的判断条件(给做产品/做工具的人)
可以按这些信号升级到 Opus:
- 输入很长(比如 > 6k tokens)
- 任务类型是“对比/权衡/找矛盾/审阅”
- 用户明确说“要发给客户/要上线/要签字”
你把这套规则写进工作流里,额度会稳定很多。
6)缓存与复用:别让同样的问题重复烧钱
你是不是经常问这些:
- “把这段话改成更礼貌的语气”
- “给我一个项目计划模板”
- “写一个周报结构”
这种东西完全可以缓存。
个人用户也能做的“低配缓存”
- 建一个「Prompt 仓库」笔记
- 把高频提示词保存成模板
- 把“好用的输出结果”存成可复用片段
团队/产品侧的“高配缓存”
- 对同样输入做 hash
- 命中缓存直接返回
- 对静态知识(制度、产品说明)做版本化缓存
缓存命中一次,就等于白赚一轮额度。
7)额度爆了怎么办:三个兜底方案
方案 A:换成“便宜模型 + 更狠的提示词约束”
你可以把 B 段那种强约束提示词拿去用,质量会比“随便问问”好得多。
方案 B:本地模型扛粗活
- 让本地模型做:提纲、初稿、批量处理
- 让 Opus 做:终审、润色、关键段落重写
你会感觉像“初稿外包、终稿总编”。
方案 C:调整工作节奏
有些平台在高峰期更容易限流。
- 重要任务挪到低峰时段
- 长任务拆成多段离线跑
听着土,真有效。
避坑清单:这些操作最容易把额度烧穿
- 一上来就让 Opus “全面分析、尽可能详细”
- 一次对话塞 5 个目标:又要方案、又要文案、又要代码、又要排期
- 反复追问“再详细点”,却不限定字数
- 不提供资料,让模型在空中建楼
- 不保存模板,每次从零开始写提示词
你可以直接抄的“省额度通用提示词”
把下面这段当万能开头,用任何模型都好使:
你按我给的目标输出结果,不要写背景科普。
输出用 Markdown。
限制:不超过 12 条要点;每条不超过 20 字。
如果信息缺失,只问我 2 个问题。
目标:{你要做什么}
受众:{给谁看}
约束:{不能做什么/必须包含什么}
素材:{粘贴资料}
一句话收尾
Opus 4.6 变聪明当然爽,问题是它贵、它挤、它容易限。把它当“终审专家”用,把便宜模型当“干活小弟”用,你的额度会突然变得很耐用。
要不然你就会一直陷在:刚觉得它聪明,下一秒就提示你余额不足。谁受得了啊。😅