我之前写过一篇关于 AI 产品的思考，核心观点是：谁能帮用户解决场景落地的问题，谁就能拿下市场。

李明彪 · 发表于 2026-3-27 15:10:07

我之前写过一篇关于 AI 产品的思考，核心观点是：谁能帮用户解决场景落地的问题，谁就能拿下市场。大模型的能力已经摆在那里了，API 谁都能调，模型谁都能接。真正的壁垒在于，谁能把「大模型能做什么」翻译成「用户能用它干什么」。

当时我用了一个比喻：现在大部分 AI 产品就像一家不给菜单的餐厅，客人进来了，你跟他说「你想吃啥我都能做」。听起来很厉害，但大部分客人会愣在那里，不知道该点什么。

这个问题在企业场景里更加突出。企业里大多数员工一辈子打工都在做执行层面的事情，你突然给他配了一个 AI 秘书，他不知道让这个秘书干什么。所以我说，一个真正好的 AI 产品，应该像一个经验丰富的管家，你说「我想休息一下」，他就知道该调暗灯光、设好空调、放一首轻音乐。

写完那篇文章之后，我一直在想一个问题：场景落地这件事，光靠产品设计够不够？答案是不够。产品设计解决的是「用户知道能干什么」的问题，但用户真正用起来之后，背后还有一整套技术基础设施需要撑住。

上周华为的 HPC 大会，让我看到了这个问题的另一半答案。

1、公有云是 AI 落地的最优解

华为云 CEO 周跃峰在大会上做了一个很清晰的战略阐述。他的核心判断是：公有云是 AI 在企业落地的最佳承载平台。

这个判断背后有几层逻辑。第一，AI 算力的集约化效应非常明显。今天全球 85% 的 AI 算力投资都在公有云上，87% 的企业选择了云作为 AI 生产力的解决方案。第二，AI 技术的迭代速度太快了，大模型几乎每周都在更新，AI 处理长任务的能力每四个月就有一次质变。如果企业把这些能力部署在本地，很难跟上技术演进的节奏。第三，云上汇聚了大量 AI 工程师和算法人才，使用云上的 AI 能力对企业来说成本最优。

周跃峰还提到一个很有意思的类比：你把钱放在自己家里安全还是存在银行安全？显然是银行更安全。数据上云并不意味着数据分享给其他用户，恰恰相反，云上完善的安全防范和检测机制可以让数据更安全。

在这个判断的基础上，华为云提出了新的 AI 战略：以面向行业的智能体为中心，构建面向全行业的 AI 创新黑土地。具体来说，就是用高效的 AI 基础设施，加上具备 Agentic 能力的大模型，再加上即将发布的各类智能体产品和开发平台，形成一套完整的体系，让企业能够真正把 AI 用起来。

这套战略的思路和我之前的判断高度吻合。华为云要做的，就是那个「翻译工作」：把大模型的能力翻译成企业能直接用的场景化智能体。周跃峰提到，华为云已经覆盖了 30 多个行业、500 多个场景，帮助 2600 多家企业实现了生产力提升。他还特别强调了一句话：AI 要健康发展，一定要成为提升企业生产力的工具，不能只提供情绪价值。

2、但场景落地有一个前提：Token 得用得起

战略方向对了，产品设计也到位了，但还有一个绕不过去的现实问题。

Agentic 智能体时代，Token 的消耗量是指数级增长的。传统的聊天应用，一轮对话可能就几百、几千个 Token。但 Agent 类应用的特征是自主规划、多轮迭代、长上下文，单次任务动辄消耗几十万甚至上百万 Token。以 OpenClaw 为代表的个人全能助理爆火之后，这个增长速度还在加快。

华为云首席架构师、华为公司Fellow 顾炯炯在中小企业 AI 解决方案论坛上说了一句很直白的话：Agent 虽好，但月底收到 Token 账单的时候，可能就不那么美好了。

更扎心的是，他披露了一个行业数据：目前无论是 DeepSeek、Google 还是华为云，推理集群的平均利用率竟然不足 30%。也就是说，企业花钱买的 Token，有很大一部分实际上是在为闲置算力买单。花重金建设的数万张 AI 算力卡，超过一半以上在「摸鱼」。

如果 Token 成本降不下来，再好的场景设计也会被成本卡住。企业算完账发现不划算，智能体就只能停留在演示阶段。

3、柔性智算 FlexNPU：给 AI 算力装上操作系统

华为云给出的答案是一个叫 FlexNPU 的技术，全称「柔性智算」。顾炯炯用了一个很形象的比喻：给 AI 算力赋予孙悟空金箍棒的灵动智慧，可大可小，变化随心。

要理解 FlexNPU 在做什么，先要理解当前 AI 算力面临的核心矛盾。

现在大模型推理普遍采用 PD 分离架构，也就是把 Prefill（预填充）和 Decode（解码）分成两个独立的计算集群。问题在于，Prefill 集群是计算密集型的，AI Core 利用率拉满了，但显存带宽大量浪费；Decode 集群恰恰相反，显存带宽拉满了，但 AI Core 大量闲置。两边都有资源在空转，叠加上推理业务天然的潮汐效应（白天忙、晚上闲），利用率自然上不去。

FlexNPU 的核心思路是在底层硬件和上层推理框架之间，插入一层「AI 基础设施操作系统」。就像 PC 上的操作系统通过虚拟化和调度，让成千上万个进程共享 CPU 和内存一样，FlexNPU 对 NPU 算力做了同样的事情。

这套系统带来了三个关键能力。

第一是极致共享。FlexNPU 可以把一张 NPU 卡切分到 1% AI Core、128MB 显存的颗粒度。以前算力消费的最小单位是「卡时」，现在变成了 1% 的卡时。多个模型可以精确地共享同一张卡，每个模型只占用它实际需要的资源，杜绝浪费。更关键的是，共享的同时有严格的 QoS 保障和安全隔离，不会出现模型之间互相抢资源导致性能抖动的问题。

第二是极致弹性。FlexNPU 引入了基于 AI 的时序预测模型，能够提前预判推理业务的负载变化趋势，做到未雨绸缪。配合系统级的透明快照技术，可以在秒级时间内完成算力的弹性伸缩，业务完全无感知。实测数据显示，这套机制在华为云的 MaaS 推理服务上，Token 利用率提升了 35%。

第三是极致高可用。大模型推理有一个很头疼的问题：Agent 做长任务的时候，如果中间某张 NPU 卡出了故障，传统方案下整个推理链条要从头开始重算。想象一下，一个 Agent 已经思考规划了 N 步，突然一张卡挂了，所有的 KV Cache 丢失，只能回退到第一步重来，代价巨大。FlexNPU 通过系统级的透明快照，实现了秒级的「断点续推」：故障发生后，计算负载在几秒内自动迁移到健康节点，推理从断点继续，用户完全无感。

在 PD 动态混部这个场景下，FlexNPU 放弃了传统僵化的 PD 物理分离架构，让 Prefill 和 Decode 在同一张卡上混合运行，通过微秒级调度实现算力的互补利用。实测结果是，在 Agentic 和 AI Coding 场景下，Token 性价比提升了 2.88 到 3.75 倍。

对于小模型场景，FlexNPU 同样意义重大。Agent 系统里大量的子任务（工具调用、文档解析、报告生成、记忆压缩）其实不需要千亿参数的大模型，7B 参数的小模型就够用了。但小模型独占一整张 NPU 卡，就像用 30 吨的大卡车送一箱快递，80% 以上的算力在空转。FlexNPU 让多个小模型在同一张卡上「拼车」，在保障性能 SLA 的前提下，单卡部署密度提升了 40%，算力成本降低 3 到 5 倍。

4、回到那个核心问题

回过头来看，华为云凭什么有底气说自己能帮企业把智能体真正落地？

答案其实是一套完整的体系在支撑。

最上层，是对行业场景的深度理解。30 多个行业、500 多个场景的积累，加上即将发布的 AgentArts 智能体开发平台、面向各行业的 AI 梦工厂专区，解决的是「用户知道能用 AI 干什么」的问题。

中间层，是以盘古大模型为核心、同时开放拥抱业界主流模型的策略，加上强化学习和后训练团队针对行业场景的深度优化，解决的是「AI 能力够不够强」的问题。

最底层，就是以 FlexNPU 为代表的柔性智算基础设施，解决的是「用得起、用得稳」的问题。没有这一层，上面两层再好看也是空中楼阁。Token 太贵，企业算不过来账；服务不稳定，Agent 做到一半挂了要从头来，谁敢把核心业务交给它？

顾炯炯在演讲最后说了一句话，我觉得是整个 FlexNPU 最好的注脚：让每一分钱的 AI 算力投入，都迸发出最大化的价值；让智能体时代的海量 Token，人人都能消费得起。

这句话听起来像口号，但背后是实打实的技术创新在兜底。从 PD 动态混部带来的 3 倍以上性价比提升，到小模型共卡混部带来的 3 到 5 倍成本降低，到秒级断点续推带来的故障零重算，每一项都直接作用于企业最关心的成本和可靠性。

我在《OpenClaw 启示录》里说，AI 时代真正的壁垒是对用户需求的理解深度。现在我想补充一句：理解需求是入口，但让需求真正跑起来，还需要一套足够强大、足够经济、足够可靠的基础设施。华为云选择以 Agentic AI 为主线坚定投入，以极致性价比的 AI Infra 为基石，做的正是「企业级 AI 创新的黑土地」这件事。

土地肥沃了，庄稼才能长出来。算力的问题解决了，企业的智能体才能真正从 Demo 走向生产。

##

我之前写过一篇关于 AI 产品的思考，核心观点是：谁能帮用户解决场景落地的问题，谁就能拿下市场。

本帖子中包含更多资源

相关帖子

浏览过的版块