Hassabis 的播客重点，怎么落到你手里变成“可操作”

很多人听这种访谈，听完只剩一句“AGI 要来了”。这不够用。

咱们换个方式：把他抛出的几个判断，翻译成你今天就能改的工作流。让你做产品少走弯路，让你评测模型不被 demo 骗，让你做决策不被情绪带跑。🙂

1）“AGI 五年内到来”：别拿它做预言，拿它做倒计时计划

五年这个数字，争议一定大。关键不在准不准，而在它逼你做两件事：

把“长期准备”挪到日程表：不是收藏几篇论文就叫准备。
用倒计时思维做能力建设：每个季度要多一块“可迁移能力”。

你可以怎么做（很实用）

把接下来 12 个月拆成三条线：

工具线：每月掌握一个能立刻变现的 AI 工具/框架（例如评测框架、RAG、Agent 工作流、数据合成）。
数据线：建立你自己的私有数据资产（客户问题、业务知识库、标注规范、反馈日志）。
系统线：把“模型会变”当常态，架构要支持随时换模型、加护栏、加评测。

目标很直白：模型更新时，你不用通宵改一周；换供应商时，你不被卡脖子。

2）“短期被过度炒作，长期被严重低估”：你要学会两套指标

短期看热闹的人爱看：

生成得像不像
demo 炫不炫

长期真正决定胜负的是：

稳定性（同一类问题，成功率能不能守住）
可控性（能不能按规则做事，越用越靠谱）
可运营性（成本、延迟、故障处理、回滚策略）

给你一套“反炒作”评估表

挑一个你要做的功能，把指标写死：

成功率：≥ 95%（按真实用户输入分布统计）
幻觉率：≤ 1%（要定义什么叫幻觉）
延迟：P95 ≤ 3s（或你的业务阈值）
单次成本：≤ ¥0.X（按月规模估算）
可解释：输出必须带引用/证据/来源（能抽查）

把这些写成表，谁跟你聊“效果炸裂”，你就让他拿数据填表。填不出来，说明还在讲故事。

3）“参差不齐的智能”：别再迷信一次性 prompt，把鲁棒性当核心功能

Hassabis 说得很狠：同一个问题，换个问法就翻车。你肯定见过：

你问“给我总结”，它很稳。
你问“按我们的口径总结+带数据+按模板输出”，它开始胡来。

这不是你不会写 prompt，这是碎片化智能的典型表现。

把 prompt 从“文案”升级成“测试用例集合”

你要做的是：针对同一意图，准备 20～50 个真实变体输入，专门用来折磨模型。

举个场景：做“客服退款助手”。

标准问法：
- “我想退款”
真实世界问法：
- “这玩意根本用不了，给我退了”
- “能不能换货？不行就退”
- “我已经用了三天还能退吗？”
- “我在抖音买的，订单号找不到了”

然后你做三件事：

同义改写压力测试：同一个意图，换 30 种说法，输出一致性是否崩。
规则注入测试：把公司政策、法律合规写进 system prompt，看它会不会“自作主张”。
边界条件测试：缺订单号、超时、情绪化辱骂、跨渠道订单，这些才是生产环境的地雷。

一个很管用的做法：固定输出结构

别让模型自由发挥。给它“填空题”。例如：

请按以下 JSON 输出，不要输出多余内容：
{
  "intent": "退款/换货/咨询/投诉/其他",
  "need_human": true/false,
  "policy_citation": ["政策条款编号或链接"],
  "next_step": "给用户的一句话操作指引",
  "risk": "合规风险点（如有）"
}

你会明显感觉：模型更稳，工程更好接，评测更好做。

4）Scaling Laws “收益递减但没死”：别把预算当护城河，把“想法”变成可复用资产

他说得很现实：规模化还在起作用，只是边际收益在降。

更关键的转变是：竞争从“谁钱多”变成“谁能想出新东西”。

对团队/个人的启发：把“新东西”具体化

“新东西”不是玄学，常见落点就三类：

数据方法：更好的数据配方（清洗、合成、标注规范、反馈闭环）。
系统方法：更好的架构（缓存、路由、多模型协作、失败回退、监控告警）。
交互方法：更贴近用户任务的产品形态（把对话变成流程，把生成变成可验证结果）。

一张“钱 vs 想法”的自检清单

你可以用它判断项目是不是在烧冤枉钱：

你们的效果提升，来自“多跑几轮训练/多堆 token”，还是来自“数据/流程/评测”改造？
你们有没有自己的评测集？还是只看公开 benchmark？
用户反馈有没有进入下一轮迭代？还是停在“客服转述”？

答不上来，说明你们在赌模型升级，没在做自己的壁垒。

5）“前沿 4 家差距在拉大”：别幻想同一起跑线，学会借力 + 选战场

这句话很扎心：领先者更领先。

普通团队该怎么打？两条路：

借力：用最强的基础模型，自己做“最后一公里”。
选战场：挑模型巨头不愿意深耕的细分问题（强流程、强合规、强本地数据）。

适合中小团队的战场长什么样

高专业语料：法律、医疗、工业、财税、制造、招投标。
强流程约束：必须按 SOP 出结果，错一步就出事故。
强责任链：需要记录、审计、追溯、可回滚。

这类场景拼的不是“更会写诗”，拼的是“出错要有人背锅时还能用”。

6）“十倍工业革命、十倍速度”：别只看机会，先把副作用写进需求

他提了一个很重要的点：工业革命的副作用，人类花了一百年消化；这次可能压进十年。

你做 AI 产品时，别等出事了才补洞。

直接照抄的安全/合规需求（建议写进 PRD）

输出可追溯：关键结论必须给来源；没有来源就降级为“建议人工确认”。
权限隔离：谁能看什么数据，谁能触发什么动作，要像银行系统一样严。
高风险动作双确认：转账、删除、发公告、改合同，默认必须人工确认。
日志与审计：输入、模型版本、提示词、工具调用、输出、用户反馈，全记录。
红队测试：专门找人攻击你的系统（越坏越好），把漏洞在上线前爆出来。

一套你今天就能用的“落地流程”

把上面所有观点压成一个工作流，你照着跑就行：

定义任务边界：这个功能做什么，不做什么。写清楚“拒绝回答”的范围。
固定输出结构：让模型填模板，别自由发挥。
做真实评测集：从客服/工单/聊天记录里抽样，做 50～200 条起步。
做鲁棒性测试：同义改写、脏话、缺信息、诱导违规，全上。
加失败回退：不确定就问澄清问题；再不行就转人工。
上线后闭环：用户反馈 → 标注 → 进评测集 → 每周回归。

跑满一轮，你会发现：你不是在“玩模型”，你在做工程系统。

避坑清单（很常见，踩中一个就容易崩）

把 demo 当能力：演示 10 次成功，不代表线上 10 万次能扛住。
只盯模型分数，不建评测集：没有自己的数据，等于没有方向盘。
让模型直接执行高风险动作：删库、发钱、发公告，这些别让它一键干。
提示词越写越长：长 prompt 往往是在掩盖“需求没定义清楚”。
只做“回答”，不做“验证”：没有引用、没有证据链，迟早翻车。

结尾：把“AGI 焦虑”变成“每周可交付”

Hassabis 的核心信息很直白：短期会吵翻天，长期会更猛；能力不稳定是现状；规模化还有效，赢的方式在变；领先者会更领先。

听完别焦虑。

把它转成行动：做评测、做闭环、做架构、做合规、做数据资产。你每周能交付一点点，哪怕外面再吵，你也在往前走。🚀

听完 Hassabis 播客，我把“AGI 五年论”拆成一份可执行的 AI 行动手册