别把 AI 项目做成“漏水的船”：一套低成本试错教程

你以为自己上了船，准备乘风破浪。
结果开出去三公里，发现船底漏水。
更扎心的是：这船还是你花大价钱租的。

很多 AI 项目就是这么翻车的。

开会时听起来很美：

用大模型做智能客服
用 AI 写营销文案
用知识库问答替代人工查询
用 Agent 自动处理业务流程
用 AI 分析销售线索

老板一拍桌子：干！

团队开始买账号、接 API、搭知识库、招算法、买算力、做 Demo。两个月后发现：

答案经常胡说
员工不愿意用
成本比人工还贵
数据一团乱麻
Demo 很炫，真实业务很拉

这不是 AI 不行。
是试错方式太贵。

AI 时代，最危险的打法不是慢，而是用“抢地盘”的方式做 AI。谁先烧钱谁先占坑？不一定。很多坑，你占了才发现下面全是水。

这篇文章给你一套能直接照做的 AI 项目试错流程。目标很简单：

用最少的钱，最快判断这条船能不能开。 🚤

一、AI 项目最容易漏水的 4 个地方

做 AI，不要一上来问“用哪个模型”。

这问题太早了。

你应该先问：这件事值得 AI 做吗？

很多项目翻车，漏点通常在这几个地方。

1. 场景太虚，没人真用

典型说法：

我们要做一个企业级智能助手。

听着很高级，对吧？

可员工打开它后问什么？

报销制度？
合同模板？
客户背景？
销售话术？
会议纪要？

如果你答不上来，项目已经开始漏水了。

AI 项目不要从“宏大愿景”开始。
要从一个具体动作开始。

比如：

客服每天重复回答 200 次“怎么申请退款”
销售每天花 30 分钟查客户历史沟通记录
HR 每周被问 80 次“年假怎么算”
运营每天下班前要写 10 条小红书标题

越具体，越容易验证。

一句话判断：

如果这个场景不能描述成“谁在什么时间为了什么结果做什么动作”，先别急着上 AI。

2. 数据不干净，模型再强也救不了

很多人对大模型有一种误会：

只要模型够强，什么烂数据都能变黄金。

醒醒。模型不是垃圾处理站。

你把一堆过期制度、重复文档、错误表格、旧版 SOP 丢进去，它给你一本正经地胡说八道，甚至语气特别自信。

这才可怕。

AI 知识库项目尤其容易中招。

常见事故：

同一个政策有 3 个版本
文档标题看不懂
PDF 扫描件无法正确识别
表格里的关键字段缺失
文件权限混乱，谁都能搜到敏感内容

结果呢？

员工问：“试用期能请年假吗？”

AI 回答：“可以。”

HR 当场血压上来了。

做 AI 前，先做数据体检。别嫌麻烦，这一步能省掉后面 80% 的锅。

3. 成本账没算，越成功越亏

有些 AI Demo 看起来很香。

一上线，大家都来用。老板开心，产品经理开心，技术同学开始冒汗。

因为账单来了。

比如一个客服机器人：

每次用户提问要调用大模型
还要检索知识库
还要重排结果
还要生成答案
还要记录日志
高峰期还得扩容

如果每次对话成本 0.15 元，一天 10 万次，就是 1.5 万。一个月 45 万。

更扎心的是，人工客服原来一个月才多花 20 万。

这就尴尬了。

AI 项目不能只看“能不能做”。
还要看“做成了会不会亏”。

你要提前算这三笔账：

调用成本：模型 API、向量数据库、重排模型、语音识别等
维护成本：知识库更新、标注、审核、监控、人工兜底
错误成本：答错一次会不会引发投诉、退款、合规风险

别等项目火了才算账。那时候已经在漏水了。

4. 只做 Demo，不做真实流程

AI Demo 最会骗人。

演示时问：

请帮我总结一下这份合同。

AI 回答得很漂亮。掌声响起。

真实业务来了：

合同是扫描件
里面有手写批注
附件缺了两页
条款引用了旧模板
法务想要风险等级
销售只想知道能不能签

Demo 直接沉船。

所以测试 AI 项目时，不要用精心准备的样例。要用真实世界的脏数据。

比如：

客服历史工单里最难的 100 条
销售真实通话纪要 50 份
HR 最近一个月真实提问
合同库里格式最乱的 30 份

能扛住这些，才有资格继续投钱。

二、低成本试错：用 7 天判断一个 AI 项目值不值得做

别一上来立项三个月。

咱们用 7 天跑一个小闭环。

目标不是做出完美产品。
目标是回答三个问题：

用户真的需要吗？
AI 能稳定完成吗？
成本能接受吗？

第 1 天：把场景砍到小得不能再小

不要说“做智能客服”。

改成：

让 AI 回答退款相关问题，覆盖最近 30 天最高频的 20 个问题。

不要说“做企业知识库”。

改成：

让 AI 回答员工关于年假、病假、报销的 50 个问题。

不要说“做 AI 写作平台”。

改成：

让 AI 每天生成 20 条适合小红书投放的护肤品标题。

一个好场景，要满足这 4 个条件：

高频：每天都有人做
重复：规则相对固定
可验收：答案对不对能判断
有收益：省时间、省钱、少出错，至少占一个

你可以用这个模板：

我们要让 AI 帮助【用户角色】在【具体场景】完成【具体任务】，目标是把【当前成本/时间/错误率】降到【目标值】。

示例：

我们要让 AI 帮助客服在售后咨询场景回答退款问题，目标是把人工回复量从每天 300 条降到 150 条。

这才叫能落地。

第 2 天：拿真实样本，不要自己编题

很多项目测试失败，是因为题目太“乖”。

团队自己写 20 个问题给 AI 测。每个问题都很标准。AI 当然表现不错。

真实用户可不这么问。

他们会这样问：

“我昨天买的那个能退不？”
“你们这破东西用了两天坏了，咋办？”
“发票开错了，能不能重开，急！”
“之前客服说可以，现在又不行？”

这才是真战场。

样本怎么拿？

客服：导出最近 30 天工单
销售：拿真实客户聊天记录，脱敏后使用
HR：整理飞书/企微群里的高频问题
法务：选最近处理过的合同样本
运营：拿真实爆款和扑街内容对比

建议样本量：

快速判断：30 条
初步验证：100 条
准备上线：300 条以上

别追求一次吃成胖子。先拿 30 条最典型、最头疼、最常见的样本开刀。

第 3 天：别急着开发，先用手工流程模拟

很多人做 AI 项目，第一反应是找开发。

慢点。

你可以先用“人工拼装版”验证。

比如做知识库问答：

用飞书文档放资料
用 ChatGPT、Claude、Kimi、通义千问等模型测试
人工复制问题
人工粘贴相关资料
让模型回答
人工记录好坏

这叫 Wizard of Oz 测试。名字不重要，思路很香：

先假装系统已经存在，看用户会不会用、结果能不能达标。

不用写代码。
不用买服务器。
不用开需求评审大会。

一天就能看出苗头。

第 4 天：设计一套评分表，别靠感觉拍脑袋

“我觉得效果还行。”

这句话没用。

AI 项目要有评分表。

你可以按 5 个维度打分，每项 0～2 分：

| 维度 | 0 分 | 1 分 | 2 分 | |---|---|---|---| | 准确性 | 明显错误 | 部分正确 | 完全正确 | | 完整性 | 漏掉关键点 | 基本覆盖 | 覆盖完整 | | 可执行性 | 用户不知道怎么做 | 有方向 | 步骤清楚 | | 语气风格 | 不像品牌/不合适 | 勉强可用 | 很自然 | | 风险控制 | 有误导/越权 | 需要审核 | 安全可靠 |

满分 10 分。

建议标准：

平均分低于 6：别急着做，先改场景或数据
平均分 6～8：可以小范围试点
平均分高于 8：值得继续投入

还要单独记录“致命错误”。

什么叫致命错误？

医疗、法律、金融场景给出错误建议
客服承诺了不该承诺的赔付
HR 透露了员工隐私
销售生成了违规宣传话术
合同审核漏掉关键风险

只要致命错误频繁出现，平均分再高也别上线。

别被漂亮话骗了。AI 最擅长把错误说得像真的。

第 5 天：算清楚每次任务到底多少钱

做 AI，别只盯着模型价格表。

你要算单次任务成本。

公式很简单：

单次任务成本 = 模型调用成本 + 检索成本 + 存储成本 + 人工审核成本 + 失败返工成本

举个例子。

你做 AI 客服，每天处理 10,000 次咨询：

| 成本项 | 单次成本 | 每日成本 | |---|---:|---:| | 大模型生成 | 0.04 元 | 400 元 | | 知识库检索 | 0.01 元 | 100 元 | | 日志与监控 | 0.005 元 | 50 元 | | 人工抽检 | 0.02 元 | 200 元 | | 错误补救 | 0.015 元 | 150 元 | | 合计 | 0.09 元 | 900 元 |

一天 900 元，一个月约 27,000 元。

再看它省了多少人工。

如果只省下半个人力，那就不划算。
如果能减少 3 个客服的重复回复，那可以继续看。

算账不丢人。
不算账才容易被账单教育。💸

第 6 天：做一个最小可用版本，不要做“大而全平台”

很多团队最爱犯的错：

既然要做 AI，那就顺便做权限、看板、插件、工作流、运营后台、多模型路由、提示词市场……

停。

你还不知道用户会不会用，就开始装修豪华驾驶舱。

最小可用版本只保留三件事：

用户能提交任务
AI 能返回结果
人能评价结果

比如知识库问答 MVP：

一个输入框
一个答案区
一个“有用/没用”按钮
一个反馈文本框
后台记录问题、答案、评分

够了。

比如 AI 文案 MVP：

输入产品卖点
选择平台：小红书/朋友圈/公众号
输出 5 条标题和 3 个正文版本
用户勾选采用哪条

也够了。

别追求酷。
先追求有人愿意反复用。

第 7 天：拉真实用户试用，观察他们会不会回来

上线给内部同事试一轮。

不要只问：

你觉得怎么样？

大家会说：

挺好的。

然后再也不打开。

你要看行为。

重点看这几个指标：

有多少人主动使用
每人一天用几次
生成结果有多少被采纳
用户有没有继续追问
失败后用户有没有放弃
哪些问题反复出现

更狠一点：让用户用 AI 和不用 AI 各完成一次任务。

比如运营写 10 条标题：

不用 AI：花 40 分钟，采用 3 条
用 AI：花 15 分钟，采用 6 条

这就有价值。

如果用户用了之后还是回到老办法，别自我感动。船可能还在漏。

三、提示词别写成许愿池，要写成操作手册

很多人写提示词像许愿：

请你作为一个专业客服，认真回答用户问题，要求准确、友好、详细。

看起来没毛病。实际很虚。

模型不知道：

哪些话不能说
答案依据是什么
遇到不确定怎么处理
什么情况要转人工
回复格式是什么

更好用的提示词，要像操作手册。

客服场景提示词模板

你是品牌售后客服助手。你的任务是根据【知识库内容】回答用户问题。

回答规则：
1. 只能使用知识库中明确出现的信息。
2. 如果知识库没有答案，回复：“这个问题我需要帮你转人工确认。”
3. 不要承诺退款、赔偿、补发，除非知识库明确说明。
4. 回复要简短，控制在 120 字以内。
5. 语气自然，不要使用“亲亲”。

输出格式：
- 直接回答用户问题
- 如果需要用户补充信息，列出最多 3 项

用户问题：
{{用户问题}}

知识库内容：
{{检索到的内容}}

这个提示词好在哪里？

限定信息来源
写清楚禁止事项
给出转人工规则
控制字数
固定输出格式

AI 不是你肚子里的蛔虫。你不写清楚，它就自由发挥。自由发挥通常等于埋雷。

四、模型选择：别迷信最贵的，够用才是王道

很多团队选模型，就像买车只看马力。

贵的当然强。问题是你每天只是开车买菜，非要上赛车吗？

模型选择可以按任务分层。

轻任务：便宜模型优先

适合：

分类
标签提取
简单改写
标题生成
格式整理
情绪判断

这类任务不一定需要顶级模型。

你可以用较便宜的模型跑批量任务，把成本压下来。

中任务：稳定比聪明更重要

适合：

客服问答
知识库检索回答
会议纪要总结
销售话术生成
FAQ 自动回复

这类任务要看：

答案是否稳定
是否遵守指令
是否容易胡说
是否能拒答

别只测一次。相同问题换 5 种问法，看模型会不会乱。

重任务：强模型加人工审核

适合：

合同审查
医疗建议
投研分析
财务审计
法律咨询
复杂代码生成

这类任务别幻想全自动。

正确姿势是：

AI 初筛 + 人工复核 + 日志留痕 + 风险兜底

该花钱的地方要花。
不该烧的地方别烧。

五、RAG 知识库项目的避坑清单

RAG 很火，也很容易翻车。

RAG 简单说，就是“先查资料，再让模型根据资料回答”。

听起来稳。实际坑不少。

坑 1：文档切片太随意

把文档按固定字数切开，可能会把关键上下文切断。

比如退款规则一半在上一段，一半在下一段。模型只拿到半截，就开始编。

建议：

按标题、章节、问答对切分
每个切片保留来源标题
给切片加元信息，比如产品线、地区、版本、更新时间

坑 2：检索到了，但不是最相关

用户问“会员退款”，系统检索出“普通订单退款”。

看着相关，其实错了。

建议：

加重排模型
保留关键词检索和向量检索混合方案
对高频问题维护标准问答
定期查看“检索失败问题”

坑 3：没有版本管理

制度更新了，旧文档还在库里。

AI 一会儿按新版答，一会儿按旧版答。用户直接懵。

建议：

每份文档标注生效时间
过期文档不能进入召回结果
答案里展示引用来源
重要政策更新后跑回归测试

坑 4：没有拒答机制

知识库没有答案时，模型也硬答。

这就像一个不懂装懂的同事，偏偏说话还特别自信。

建议在提示词里写死：

如果资料中没有明确答案，不允许猜测。请回复“我需要转人工确认”。

拒答不是失败。
乱答才是事故。

六、一个能直接套用的 AI 项目试错表

你可以把下面这张表复制到飞书、Notion 或 Excel。

| 项目 | 内容 | |---|---| | 场景名称 | 例如：售后退款问答助手 | | 用户角色 | 客服、销售、HR、运营等 | | 当前痛点 | 每天重复回答退款问题 300 次 | | AI 要完成的任务 | 根据知识库自动回复退款问题 | | 样本来源 | 最近 30 天真实客服工单 | | 测试样本量 | 100 条 | | 成功标准 | 平均评分 ≥ 8，致命错误 = 0 | | 单次成本上限 | ≤ 0.1 元 | | 人工兜底方式 | 不确定时转人工客服 | | MVP 形态 | 输入问题，输出回复，支持点赞/点踩 | | 试点范围 | 5 名客服，试用 1 周 | | 是否继续投入 | 根据采纳率和成本决定 |

决策别靠热情。
靠数据。

七、AI 项目上线前，必须问这 10 个问题

这部分建议贴在会议室墙上。

每次有人说“我们要上 AI”，就拿出来过一遍。

这个任务现在是谁在做？每天做几次？
不用 AI 的成本是多少？
AI 做错一次，最坏结果是什么？
有没有真实样本？样本够不够脏？
答案对不对，谁能判断？
知识库有没有过期内容？
模型不知道时，会不会拒答？
单次任务成本算过吗？
用户为什么要换掉旧流程？
试点失败后，最多亏多少钱？

如果这些问题答不上来，别急着开船。

先补洞。

八、什么样的 AI 项目值得继续投钱？

判断标准很现实。

值得投的项目

用户不用催也会回来用
AI 输出能被直接采纳
错误可控，有人工兜底
成本随着规模扩大能下降
数据越积累，效果越好
能嵌入现有工作流，不逼用户换习惯

比如：

客服高频问题自动回复
销售通话纪要自动整理
HR 制度问答
运营标题批量生成
合同风险初筛
内部知识库问答

该暂停的项目

只是为了“看起来有 AI”
用户没有明确痛点
数据质量差到没法用
答错一次代价很高，还没有审核机制
成本比人工更高
业务方只想要 Demo，不愿意参与验收

这种项目，越早停越省钱。

别怕停。
怕的是明知道漏水，还继续往远海开。

九、给团队的一句实话

AI 时代不是谁嗓门大、预算多，谁就赢。

真正能跑出来的团队，通常有三个特点：

场景切得小
验证跑得快
算账算得狠

别迷信“大厂都在做”。大厂试错有大厂的钱包。咱们普通团队，没必要用真金白银买同一份教训。

做 AI 项目，最好的姿势不是豪赌。

是先拿一只小桶，舀点水试试深浅。
水深再造船。
船漏就补洞。
风向不对，赶紧靠岸。

这才是成年人做 AI 的方式。