首页 / 正文

未来 5 年 AI 赚钱点在哪?别只盯模型和显卡:把“电”搞定的人更吃香

Mooko
发布于 2026-05-13 · 5分钟阅读
1089 浏览
0 点赞 暴击点赞!

未来 5 年 AI 赚钱点在哪?别只盯模型和显卡:把“电”搞定的人更吃香

很多人有个幻觉:AI 赚钱=训练个模型、卖点算力、搞个平台。

真落地你就会发现,最常见的崩盘原因很朴素:没电。或者有电但太贵,贵到你每晚都想把服务器拔了。

这篇不聊宏大叙事,聊能让你项目活下来的硬东西:AI 算力背后的能源配置


1)为什么说“算力拼到后面,拼的是电”?

你看一眼 GPU 集群的账单就懂了。

  • GPU 很贵,大家都知道。
  • 更狠的是:GPU 一开机,你就开始为“电 + 散热 + 机房”持续烧钱

当行业里 GPU 供给慢慢变充足,能拉开差距的就变成了:

  • 你能不能拿到足够的供电容量(kW/MW)
  • 你有没有更低的综合电价(含峰谷、需量、基本电费等)
  • 你能不能把 PUE 压下来(不然散热把利润吃光)
  • 你能不能稳(停一次电,业务口碑直接塌方)

一句话:会买卡的人多,会把“电”这套系统做顺的人少。差价就出在这里。


2)把问题说透:AI 项目真正需要的“电力指标”有哪些?

别只问“电价多少”,那是外行问法。你得把这些问清楚:

2.1 供电容量(你到底能上多少 GPU)

  • 机房能给你多少 kW / MW
  • 扩容要多久?批复、施工、验收周期多长?

场景感给你:

你买了 256 张卡,准备大干一场。 结果机房告诉你:目前只能给 300kW,你这批卡上电就跳闸。 你只能把卡当“收藏品”。钱就这么压死了。

2.2 供电可靠性(稳定比便宜更值钱)

关键看三块:

  • 双路市电有没有?
  • UPS 能撑多久?
  • 柴油发电机是不是摆设?油料、维护、联动测试做不做?

AI 训练断一次电很刺激:

  • checkpoint 没做好,可能直接回到解放前
  • 即便能恢复,排队、重跑、损耗的时间也能让人吐血 😤

2.3 PUE(你买的电,有多少用来“烧风扇”了)

PUE 越高,散热等附属能耗越大。

  • 同样 1 度电,你的对手更多花在 GPU 上,你更多花在空调上
  • 长期下来就是成本差距

别纠结理论,记住一条:

PUE 不只是环保指标,是利润指标。

2.4 电价结构(真正决定你能不能打价格战)

问清楚这些项:

  • 峰谷电价怎么计?
  • 基本电费按容量还是按需量?
  • 需量上限怎么约束?超了怎么罚?
  • 有无地方补贴/绿电协议/大用户直购?

同样一句“0.5 元/度”,可能一个是全包,一个是“电费只是开胃菜,需量费才是主菜”。


3)给你一套能照着做的“能源配置落地清单”

你要做 AI 算力相关的项目(自建机房、托管、算力租赁、推理服务都算),按这个清单走,不容易踩雷。

3.1 先把功耗算明白(别拍脑袋)

建议你用这个思路估算:

  • 单卡功耗(TDP)× 卡数
  • 再加上 CPU、内存、主板、网卡、存储
  • 再乘一个冗余系数(业务波动、峰值、升级空间)

经验提醒:

  • 训练型集群功耗更“刚”,推理型更“波动”
  • 你以为 1MW 能顶住,实际一跑满就发现供电链路哪段发热、哪段报警

3.2 把“电力交付周期”当成主线排期

很多团队排期是这样:

卡到货 → 机房上架 → 开跑

现实更常见:

电力审批/增容 → 变压器/配电施工 → 机电联调 → 上架

你要把电力交付放到排期核心位置。

要问供应商三个问题:

  • 扩容最慢卡在哪个环节?
  • 失败风险谁承担?(审批不过/验收不过怎么办)
  • 临时过渡方案有没有?(临电、分期上电)

3.3 决定“把电便宜用”的策略

常见的几条路:

  • 选址策略:更低电价区域 + 更好的并网条件
  • 负载策略:把可迁移任务放到低谷时段(适合推理/批处理)
  • 架构策略:同等性能下选更高能效的硬件组合(别把电费当空气)
  • 散热策略:风冷/液冷/冷热通道封闭等,目标就是压 PUE

你做算力租赁更要狠一点:

客户只盯你的“每小时多少钱”。 你赢不赢,取决于你“每小时电+冷却多少钱”。

3.4 可靠性设计别省(省出来的是事故)

建议你把这几件事当硬指标:

  • 关键链路冗余:供电、网络、冷却
  • 定期演练:断电切换、UPS 放电测试、发电机带载测试
  • 监控要全:温度、电流、电压、PDU、机柜功率、告警联动

很多事故不是“设备坏了”,是“没人知道它快坏了”。


4)避坑清单:这几个坑,一踩就亏钱

  • 只谈电价,不谈电价结构:最后电费单让你怀疑人生。
  • 只看机房宣传的 PUE:要看实际运行数据,最好能看历史曲线。
  • 供电容量写在合同里含糊其辞:明确可交付容量、扩容条款、违约责任。
  • 忽略散热方案的上限:GPU 一热就降频,性能掉得比你想象快。
  • 没做“断电恢复流程”:再强的工程也挡不住偶发故障,流程决定损失大小。

5)你能怎么抓住这波机会?给三条现实路线

不管你是创业者、做企业 IT、做运维、做算力服务商,都能对号入座。

路线 A:做“电力 + 机房 + 算力”的整合商

客户要的不是机柜,是“稳定能跑的算力”。 你能把电力指标、交付周期、成本模型讲清楚,就能拿到更高客单价。

路线 B:做企业侧的“AI 能源成本官”

很多公司 AI 预算花得快,回头看发现电费和托管费是黑洞。 你能把功耗核算、用电策略、调度策略做起来,老板会发现你比买新卡更管用。

路线 C:做能源侧的“AI 负载运营”

能源公司、园区、储能、售电,开始需要理解 AI 负载。 你能把 AI 的功耗曲线、稳定性要求、扩容节奏说清楚,就能把“电”卖得更值钱。


结语

未来几年,AI 肯定热。

热归热,赚钱要落到地上。

模型会卷,卡会降价,平台会打架。 电力和基础设施这套硬约束,反而更难被替代。

你真想在 AI 里长期吃到肉,别只研究参数和框架。 抽点时间,把“电怎么来、怎么用、怎么省、怎么稳”搞明白。这个技能很硬,也很值钱。

OpenClaw
OpenClaw
木瓜AI支持养龙虾啦
木瓜AI龙虾专供API,限时领取免费tokens
可在 OpenClaw接入全球顶尖AI大模型
立即领取