DeepSeek-V4 发布:百万上下文来了,Flash/Pro 两档怎么用才不亏
DeepSeek-V4 这次最扎眼的点就两件事:
- 100 万上下文(1M tokens):能把一堆长文档、代码库、会议纪要,一口气喂进去。
- 分两档:
deepseek-v4-flash和deepseek-v4-pro。一个适合“天天用、用得多”,一个适合“要结果、要上限”。
下面按你最关心的顺序讲:怎么选、怎么用、钱怎么算、坑在哪。😄
1)两档模型怎么选:别纠结,按场景来
deepseek-v4-flash:省钱、快、适合高频
适合这些活:
- 日常问答、资料整理
- 批量写摘要、改写文案
- 轻量代码生成(脚手架、简单函数、SQL、正则)
- “我就想先跑通流程”的原型验证
你可以把它当成团队里的“干活小能手”。量大管饱,成本好控。
deepseek-v4-pro:冲上限、强推理、适合关键任务
原始信息里提到,V4-Pro 在这些方面非常能打:
- 数学、STEM、竞赛型代码测评:超过已公开评测的开源模型
- Agent 能力增强:在 Agentic Coding 评测里达到开源最佳水平
- 世界知识:大幅领先其他开源模型,接近顶尖闭源模型(仅略逊 Gemini-Pro-3.1)
适合这些活:
- 复杂 Debug、复杂系统设计(要推理链条、要抓边界条件)
- Agent 编程:拆任务、写代码、跑测试、修 bug 的闭环
- 长上下文里做精细抽取:合同条款、论文方法、代码跨文件依赖
一句话:你只要在意“少返工、少扯皮、一次给对”,Pro 更值。
2)价格怎么理解:按“百万 tokens 输入/输出”算
你给的价格是按 1,000,000 tokens 计费:
| 模型 | 1M 输入 tokens | 1M 输出 tokens | |---|---:|---:| | deepseek-v4-flash | 1 元 | 2 元 | | deepseek-v4-pro | 12 元 | 24 元 |
这里有个很现实的点:
- 输出比输入贵,而且通常“你让它写得越多,越贵”。
- 真正烧钱的往往不是“喂资料”,是“让它吐长文”。
一个好用的费用心算公式
把 token 当成“字数的近似量”就行(不同语言会有偏差)。
- 成本 ≈ 输入tokens/1e6 × 输入单价 + 输出tokens/1e6 × 输出单价
你不需要精确到个位数,抓个量级就够了。
三个常见场景的成本直觉
- 长文档问答:输入很大、输出不必长 → 成本主要在输入
- 写报告/长文章:输出很大 → 成本主要在输出
- Agent 编程:多轮交互 + 可能输出较多代码 → 预算要留富余
3)百万上下文怎么用才爽:给你一套“喂资料”姿势
百万上下文不是让你把所有东西无脑塞进去。
你想象一下:你把整个代码库丢给一个同事,还跟他说“你自己看着办”。同事也会翻白眼。
资料打包建议(强烈建议照做)
把长上下文组织成“可被引用”的结构:
- 目录:告诉模型资料有哪些部分
- 每段资料加 ID:比如
DOC_03、CODE_A12 - 给每段加一句摘要:让模型快速定位
示例(你可以直接复制这个格式):
你将收到一批资料。请严格按“引用ID”回答。
资料目录:
- DOC_01:需求说明(摘要:用户要做登录+风控)
- DOC_02:接口文档(摘要:有 /login /sendCode /verifyCode)
- CODE_01:当前后端代码(摘要:Node + Express)
资料正文:
[DOC_01]
...长文...
[DOC_02]
...长文...
[CODE_01]
...长代码...
任务:
1) 列出需求与现有实现的差距
2) 给出最小改动方案
3) 输出修改后的关键代码片段,并标注对应文件路径
回答要求:每条结论后面都要带引用ID,例如(引用:DOC_01)。
这个格式的好处:
- 模型不会乱编“资料里没有的内容”那么多
- 你能快速定位它依据了哪一段
- 特别适合合同、论文、代码库这种“错一个字就翻车”的场景
4)用 Pro 做 Agentic Coding:把“写代码”变成“跑流程”
原始信息强调 V4-Pro 的 Agent 能力提升,这类能力最适合拿来做:
- 拆解任务
- 自动生成代码
- 自检(写测试、跑静态检查)
- 发现 bug 后再修
你不需要真的搭一个很复杂的框架,提示词里把流程写清楚就够用了。
一个能落地的 Agent 编程提示词模板
你是资深工程师,目标是把任务做成可合并的 PR。
项目约束:
- 语言/框架:XXX
- 代码风格:遵循现有 lint 规则
- 不允许大重构,只能最小改动
交付物:
- 变更方案(分点)
- 需要修改的文件清单
- 代码补丁(按文件分块输出)
- 自测清单(包含命令、预期结果)
工作方式:
- 每次输出都要先给“下一步计划”,再给实现
- 如果信息不够,集中问我 3 个以内关键问题,不要发散
任务:XXX
你会发现它更像一个“能推进事情的人”,而不是只会吐代码片段。
5)Flash 和 Pro 的组合用法:省钱还好用
很多人一上来就全程 Pro,然后发现账单不太友好。
更舒服的打法:
- Flash 负责粗活:整理资料、提取要点、生成草稿、列疑问清单
- Pro 负责硬仗:关键结论、最终代码、复杂推理、最终交付
一个很实际的例子:
你要做“几十页需求文档 → 输出技术方案”。
- 用 Flash:把文档拆成结构化要点 + 风险列表
- 用 Pro:基于结构化要点做最终方案,顺带把风险变成可执行的技术措施
这样干,通常比“全程 Pro”省不少,而且结果更稳。
6)避坑清单:不想被百万上下文反噬就看这段
坑 1:把所有资料塞进去,却没告诉它“要用哪部分”
解法:给目录、给 ID、给引用要求。上面模板直接抄。
坑 2:输出写太长,钱从指缝里漏
解法:加输出上限。
例如:
输出不超过 600 字。
代码只输出必要片段,不要贴完整文件。
坑 3:让模型自由发挥“世界知识”,你却想要“基于资料”
解法:把回答模式写死。
- “只能基于我提供的资料回答”
- “资料没有就回答‘资料不足’并提出需要哪段信息”
坑 4:Agent 写代码不落地,没法跑
解法:强制它交付“自测清单”。没有自测清单就让它补。
7)你可以怎么开始:一套最小可行的练习路径
- 用 Flash 做一个“长文档摘要 + 问答”小工具:把你手头的产品文档、会议纪要塞进去试试
- 用 Pro 做一次“从需求到可合并代码”的小改动:带测试、带文件路径、带自测命令
- 记一笔账:每次请求记录输入/输出大概多少、花了多少,三天你就知道自己适合哪档
百万上下文的意义不在“能塞多少”,在于“塞进去以后还能做对事”。把结构、引用、输出边界这三件事抓住,你就能把 V4 用出价值。