首页 / 正文

用免费额度跑完 474 个文档分类:蚂蚁百灵实测打法 + OpenRouter 选型思路

Mooko
发布于 2026-05-07 · 5分钟阅读
1470 浏览
0 点赞 暴击点赞!

用免费额度跑完 474 个文档分类:蚂蚁百灵实测打法 + OpenRouter 选型思路

大家做过“文档分类”就懂:看起来简单,真跑起来全是坑。

  • 类目一多就乱
  • 内容一长就贵
  • 结果一飘就没法上线

最近看到一个很有意思的信号:蚂蚁百灵在免费额度内跑完 474 个文档分类,速度还不慢,性价比很顶。再看 OpenRouter 的 token 消耗份额,国产模型的消耗量已经压过美国“三巨头”。

别急着激情下单,咱们把这事拆成可执行的教程:你要真想把分类系统落地,应该怎么做。


你需要的不是“一个模型”,而是一套分类流水线

很多人上来就问:用哪个模型更准?

问题是:分类任务的准确率,模型只占一半,另一半是你的流程。

一个能跑起来的分类流水线,至少包含这几块:

  • 标签体系(474 类怎么定义才不互相打架)
  • 输入裁剪(不裁剪就等着账单起飞)
  • 提示词策略(让模型“只做分类”,别写小作文)
  • 置信度与兜底(别把不确定的答案硬塞给业务)
  • 评测集与回归(改一次 prompt,别把整体效果改崩)

你把这些搭好,换模型才有意义。否则你用再贵的模型也照样翻车。


场景:474 个类的文档分类,怎么拆才不痛苦?

想象一下常见的公司场景:

  • 法务合同、研发文档、客服工单、制度流程、财务票据
  • 你老板一句话:全给我按类归档,越快越好 😅

474 个类这种规模,建议别“一步到位”。更稳的做法是分层:

1)做成两段式分类:先粗分,再细分

  • 第 1 段:大类(比如 15~30 个)
  • 第 2 段:细类(每个大类下面再分 10~30 个)

好处很现实:

  • 模型更容易选对范围
  • prompt 更短
  • 每次只给它一小份候选类,准得多

2)每个类都要写“边界说明”

474 类最怕的不是模型不聪明,是标签本身互相重叠。

你要给每个类补两句话:

  • 收什么(正例)
  • 不收什么(反例/排除项)

这一步做完,你的准确率通常会明显提升。


提示词怎么写:让模型别废话,直接出结果

分类 prompt 的核心就一句:输出必须结构化

这里给你一个通用模板(你可以直接抄):

你是企业文档分类器。
任务:从候选类别中选择最匹配的 1 个。
要求:
- 只输出 JSON,不要解释。
- 如果信息不足,返回 "unknown"。

输入文档:
《{title}》
{content_excerpt}

候选类别(JSON 数组):
{candidate_labels_json}

输出 JSON 格式:
{
  "label": "...",
  "confidence": 0-1,
  "reason": "不超过 20 字"
}

几个小技巧:

  • content_excerpt 只放前 800~1500 字。很多文档后面是附录,放进去纯烧钱。
  • reason 限字数。你要的是分类,不是作文比赛。
  • 必须加 unknown。否则模型会“硬猜”,你线上就开始背锅。

省钱提速:免费额度能跑完的关键在“控 token”

想用免费额度跑大批量分类,靠的就是三个动作:

1)只给候选集合,不给“全量 474 类”

如果你每次把 474 类都塞进去:

  • prompt 直接膨胀
  • 模型注意力发散
  • 花钱买错答案

更好的做法:

  • 用关键词规则 / 向量检索(embedding)先召回 TopK(比如 20 个)
  • 再让 LLM 在这 20 个里选 1 个

2)输出格式短小

  • 不要“请详细说明选择理由”
  • 不要“输出该类目定义”

你就是要一个 label + 置信度。

3)失败重试要有策略

别无脑重试三次。

  • 第一次:正常分类
  • 如果 confidence < 0.55:扩大候选集(Top20 → Top50)再跑一次
  • 如果还不行:打 unknown,进人工队列

这套策略很像“把钱花在刀刃上”:

  • 大部分文档一次过
  • 少数疑难杂症再加算力

评测怎么做:别被“感觉很准”骗了

分类任务最怕一句话:我感觉还行。

你需要一个小而精的评测集:

  • 每个大类至少 20 条样本
  • 高频细类再加样本
  • 专门留一批“容易混淆”的对照样本(这批最值钱)

建议你盯这 3 个指标:

  • Top1 准确率(主指标)
  • unknown 命中率(该 unknown 的时候能不能 unknown)
  • 混淆矩阵(哪些类老互相串门)

一旦混淆高,别急着换模型,优先:

  • 改类目边界
  • 给混淆类加反例
  • 限制候选集合

OpenRouter 份额怎么看:这是强信号,但别当“唯一依据”

OpenRouter 的 token 消耗份额很直观:国产模型用量上来了

这说明啥?

  • 价格/性能比有优势,大家真在用
  • 工程可用性在变强(否则不会持续烧 token)

但落到你自己项目里,别只看“份额”或“口碑”。你要按任务做选型:

  • 你要的是分类:速度、稳定、成本、JSON 服从性
  • 你要的是客服:多轮对话、拒答策略、幻觉率

同一个模型在不同任务里,表现可能两极分化。


一套你可以照做的落地步骤(按这个走不容易翻车)

  • 整理标签体系:大类/细类 + 边界说明
  • 准备评测集:真实数据,带混淆样本
  • 搭两段式分类:粗分 → 召回候选 → LLM 精分
  • 写强约束 prompt:只出 JSON + unknown
  • 加置信度策略:低置信度扩候选/转人工
  • 做回归测试:每改一次 prompt 或候选策略都要跑评测集
  • 再谈换模型:同一套流程下对比成本/速度/准确率

避坑清单(真的是血泪经验)

  • 把 474 类全塞进 prompt:贵、慢、还不准
  • 没有 unknown:线上一定会出现“胡乱归类”
  • 只看平均准确率:混淆类会把你折磨疯
  • 类目定义不写排除项:标签越多,越乱
  • 评测集用“干净样本”:上线就被真实数据暴打

你该怎么开始(最低成本的第一步)

你今天就能做的事:

  1. 随便挑一个业务线(比如“客服工单”)
  2. 做 30 个大类内的二段式分类
  3. 抽 200 条真实数据做评测
  4. 用免费额度跑一轮,算清楚:每 1000 条文档大概多少钱、多久能跑完

你会立刻知道:

  • 这个项目能不能落地
  • 钱烧在哪里
  • 哪些类目在互相打架

如果你愿意,把你的类目结构(大类/细类示例)和 5 条典型文档(脱敏后)发我,我可以按你的场景把“候选召回 + prompt + 置信度阈值”这套配置直接给你一版可用的。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取