首页 / 正文

听完 Hassabis 播客,我把“AGI 五年论”拆成一份可执行的 AI 行动手册

Mooko
发布于 2026-04-18 · 5分钟阅读
165 浏览
0 点赞 暴击点赞!

Hassabis 的播客重点,怎么落到你手里变成“可操作”

很多人听这种访谈,听完只剩一句“AGI 要来了”。这不够用。

咱们换个方式:把他抛出的几个判断,翻译成你今天就能改的工作流。让你做产品少走弯路,让你评测模型不被 demo 骗,让你做决策不被情绪带跑。🙂


1)“AGI 五年内到来”:别拿它做预言,拿它做倒计时计划

五年这个数字,争议一定大。关键不在准不准,而在它逼你做两件事:

  • 把“长期准备”挪到日程表:不是收藏几篇论文就叫准备。
  • 用倒计时思维做能力建设:每个季度要多一块“可迁移能力”。

你可以怎么做(很实用)

把接下来 12 个月拆成三条线:

  • 工具线:每月掌握一个能立刻变现的 AI 工具/框架(例如评测框架、RAG、Agent 工作流、数据合成)。
  • 数据线:建立你自己的私有数据资产(客户问题、业务知识库、标注规范、反馈日志)。
  • 系统线:把“模型会变”当常态,架构要支持随时换模型、加护栏、加评测。

目标很直白:模型更新时,你不用通宵改一周;换供应商时,你不被卡脖子。


2)“短期被过度炒作,长期被严重低估”:你要学会两套指标

短期看热闹的人爱看:

  • 生成得像不像
  • demo 炫不炫

长期真正决定胜负的是:

  • 稳定性(同一类问题,成功率能不能守住)
  • 可控性(能不能按规则做事,越用越靠谱)
  • 可运营性(成本、延迟、故障处理、回滚策略)

给你一套“反炒作”评估表

挑一个你要做的功能,把指标写死:

  • 成功率:≥ 95%(按真实用户输入分布统计)
  • 幻觉率:≤ 1%(要定义什么叫幻觉)
  • 延迟:P95 ≤ 3s(或你的业务阈值)
  • 单次成本:≤ ¥0.X(按月规模估算)
  • 可解释:输出必须带引用/证据/来源(能抽查)

把这些写成表,谁跟你聊“效果炸裂”,你就让他拿数据填表。填不出来,说明还在讲故事。


3)“参差不齐的智能”:别再迷信一次性 prompt,把鲁棒性当核心功能

Hassabis 说得很狠:同一个问题,换个问法就翻车。你肯定见过:

  • 你问“给我总结”,它很稳。
  • 你问“按我们的口径总结+带数据+按模板输出”,它开始胡来。

这不是你不会写 prompt,这是碎片化智能的典型表现。

把 prompt 从“文案”升级成“测试用例集合”

你要做的是:针对同一意图,准备 20~50 个真实变体输入,专门用来折磨模型。

举个场景:做“客服退款助手”。

  • 标准问法:
    • “我想退款”
  • 真实世界问法:
    • “这玩意根本用不了,给我退了”
    • “能不能换货?不行就退”
    • “我已经用了三天还能退吗?”
    • “我在抖音买的,订单号找不到了”

然后你做三件事:

  • 同义改写压力测试:同一个意图,换 30 种说法,输出一致性是否崩。
  • 规则注入测试:把公司政策、法律合规写进 system prompt,看它会不会“自作主张”。
  • 边界条件测试:缺订单号、超时、情绪化辱骂、跨渠道订单,这些才是生产环境的地雷。

一个很管用的做法:固定输出结构

别让模型自由发挥。给它“填空题”。例如:

请按以下 JSON 输出,不要输出多余内容:
{
  "intent": "退款/换货/咨询/投诉/其他",
  "need_human": true/false,
  "policy_citation": ["政策条款编号或链接"],
  "next_step": "给用户的一句话操作指引",
  "risk": "合规风险点(如有)"
}

你会明显感觉:模型更稳,工程更好接,评测更好做。


4)Scaling Laws “收益递减但没死”:别把预算当护城河,把“想法”变成可复用资产

他说得很现实:规模化还在起作用,只是边际收益在降。

更关键的转变是:竞争从“谁钱多”变成“谁能想出新东西”。

对团队/个人的启发:把“新东西”具体化

“新东西”不是玄学,常见落点就三类:

  • 数据方法:更好的数据配方(清洗、合成、标注规范、反馈闭环)。
  • 系统方法:更好的架构(缓存、路由、多模型协作、失败回退、监控告警)。
  • 交互方法:更贴近用户任务的产品形态(把对话变成流程,把生成变成可验证结果)。

一张“钱 vs 想法”的自检清单

你可以用它判断项目是不是在烧冤枉钱:

  • 你们的效果提升,来自“多跑几轮训练/多堆 token”,还是来自“数据/流程/评测”改造?
  • 你们有没有自己的评测集?还是只看公开 benchmark?
  • 用户反馈有没有进入下一轮迭代?还是停在“客服转述”?

答不上来,说明你们在赌模型升级,没在做自己的壁垒。


5)“前沿 4 家差距在拉大”:别幻想同一起跑线,学会借力 + 选战场

这句话很扎心:领先者更领先。

普通团队该怎么打?两条路:

  • 借力:用最强的基础模型,自己做“最后一公里”。
  • 选战场:挑模型巨头不愿意深耕的细分问题(强流程、强合规、强本地数据)。

适合中小团队的战场长什么样

  • 高专业语料:法律、医疗、工业、财税、制造、招投标。
  • 强流程约束:必须按 SOP 出结果,错一步就出事故。
  • 强责任链:需要记录、审计、追溯、可回滚。

这类场景拼的不是“更会写诗”,拼的是“出错要有人背锅时还能用”。


6)“十倍工业革命、十倍速度”:别只看机会,先把副作用写进需求

他提了一个很重要的点:工业革命的副作用,人类花了一百年消化;这次可能压进十年。

你做 AI 产品时,别等出事了才补洞。

直接照抄的安全/合规需求(建议写进 PRD)

  • 输出可追溯:关键结论必须给来源;没有来源就降级为“建议人工确认”。
  • 权限隔离:谁能看什么数据,谁能触发什么动作,要像银行系统一样严。
  • 高风险动作双确认:转账、删除、发公告、改合同,默认必须人工确认。
  • 日志与审计:输入、模型版本、提示词、工具调用、输出、用户反馈,全记录。
  • 红队测试:专门找人攻击你的系统(越坏越好),把漏洞在上线前爆出来。

一套你今天就能用的“落地流程”

把上面所有观点压成一个工作流,你照着跑就行:

  1. 定义任务边界:这个功能做什么,不做什么。写清楚“拒绝回答”的范围。
  2. 固定输出结构:让模型填模板,别自由发挥。
  3. 做真实评测集:从客服/工单/聊天记录里抽样,做 50~200 条起步。
  4. 做鲁棒性测试:同义改写、脏话、缺信息、诱导违规,全上。
  5. 加失败回退:不确定就问澄清问题;再不行就转人工。
  6. 上线后闭环:用户反馈 → 标注 → 进评测集 → 每周回归。

跑满一轮,你会发现:你不是在“玩模型”,你在做工程系统。


避坑清单(很常见,踩中一个就容易崩)

  • 把 demo 当能力:演示 10 次成功,不代表线上 10 万次能扛住。
  • 只盯模型分数,不建评测集:没有自己的数据,等于没有方向盘。
  • 让模型直接执行高风险动作:删库、发钱、发公告,这些别让它一键干。
  • 提示词越写越长:长 prompt 往往是在掩盖“需求没定义清楚”。
  • 只做“回答”,不做“验证”:没有引用、没有证据链,迟早翻车。

结尾:把“AGI 焦虑”变成“每周可交付”

Hassabis 的核心信息很直白:短期会吵翻天,长期会更猛;能力不稳定是现状;规模化还有效,赢的方式在变;领先者会更领先。

听完别焦虑。

把它转成行动:做评测、做闭环、做架构、做合规、做数据资产。你每周能交付一点点,哪怕外面再吵,你也在往前走。🚀

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取