查看: 1|回复: 0

我之前写过一篇关于 AI 产品的思考,核心观点是:谁能帮用户解决场景落地的问题,谁就能拿下市场。

[复制链接]

13

主题

0

回帖

39

积分

新手上路

积分
39
发表于 4 小时前 来自手机 | 显示全部楼层 |阅读模式
我之前写过一篇关于 AI 产品的思考,核心观点是:谁能帮用户解决场景落地的问题,谁就能拿下市场。大模型的能力已经摆在那里了,API 谁都能调,模型谁都能接。真正的壁垒在于,谁能把「大模型能做什么」翻译成「用户能用它干什么」。

当时我用了一个比喻:现在大部分 AI 产品就像一家不给菜单的餐厅,客人进来了,你跟他说「你想吃啥我都能做」。听起来很厉害,但大部分客人会愣在那里,不知道该点什么。

这个问题在企业场景里更加突出。企业里大多数员工一辈子打工都在做执行层面的事情,你突然给他配了一个 AI 秘书,他不知道让这个秘书干什么。所以我说,一个真正好的 AI 产品,应该像一个经验丰富的管家,你说「我想休息一下」,他就知道该调暗灯光、设好空调、放一首轻音乐。

写完那篇文章之后,我一直在想一个问题:场景落地这件事,光靠产品设计够不够?答案是不够。产品设计解决的是「用户知道能干什么」的问题,但用户真正用起来之后,背后还有一整套技术基础设施需要撑住。

上周华为的 HPC 大会,让我看到了这个问题的另一半答案。

1、公有云是 AI 落地的最优解

华为云 CEO 周跃峰在大会上做了一个很清晰的战略阐述。他的核心判断是:公有云是 AI 在企业落地的最佳承载平台。

这个判断背后有几层逻辑。第一,AI 算力的集约化效应非常明显。今天全球 85% 的 AI 算力投资都在公有云上,87% 的企业选择了云作为 AI 生产力的解决方案。第二,AI 技术的迭代速度太快了,大模型几乎每周都在更新,AI 处理长任务的能力每四个月就有一次质变。如果企业把这些能力部署在本地,很难跟上技术演进的节奏。第三,云上汇聚了大量 AI 工程师和算法人才,使用云上的 AI 能力对企业来说成本最优。

周跃峰还提到一个很有意思的类比:你把钱放在自己家里安全还是存在银行安全?显然是银行更安全。数据上云并不意味着数据分享给其他用户,恰恰相反,云上完善的安全防范和检测机制可以让数据更安全。

在这个判断的基础上,华为云提出了新的 AI 战略:以面向行业的智能体为中心,构建面向全行业的 AI 创新黑土地。具体来说,就是用高效的 AI 基础设施,加上具备 Agentic 能力的大模型,再加上即将发布的各类智能体产品和开发平台,形成一套完整的体系,让企业能够真正把 AI 用起来。

这套战略的思路和我之前的判断高度吻合。华为云要做的,就是那个「翻译工作」:把大模型的能力翻译成企业能直接用的场景化智能体。周跃峰提到,华为云已经覆盖了 30 多个行业、500 多个场景,帮助 2600 多家企业实现了生产力提升。他还特别强调了一句话:AI 要健康发展,一定要成为提升企业生产力的工具,不能只提供情绪价值。

2、但场景落地有一个前提:Token 得用得起

战略方向对了,产品设计也到位了,但还有一个绕不过去的现实问题。

Agentic 智能体时代,Token 的消耗量是指数级增长的。传统的聊天应用,一轮对话可能就几百、几千个 Token。但 Agent 类应用的特征是自主规划、多轮迭代、长上下文,单次任务动辄消耗几十万甚至上百万 Token。以 OpenClaw 为代表的个人全能助理爆火之后,这个增长速度还在加快。

华为云首席架构师、华为公司Fellow 顾炯炯在中小企业 AI 解决方案论坛上说了一句很直白的话:Agent 虽好,但月底收到 Token 账单的时候,可能就不那么美好了。

更扎心的是,他披露了一个行业数据:目前无论是 DeepSeek、Google 还是华为云,推理集群的平均利用率竟然不足 30%。也就是说,企业花钱买的 Token,有很大一部分实际上是在为闲置算力买单。花重金建设的数万张 AI 算力卡,超过一半以上在「摸鱼」。

如果 Token 成本降不下来,再好的场景设计也会被成本卡住。企业算完账发现不划算,智能体就只能停留在演示阶段。

3、柔性智算 FlexNPU:给 AI 算力装上操作系统

华为云给出的答案是一个叫 FlexNPU 的技术,全称「柔性智算」。顾炯炯用了一个很形象的比喻:给 AI 算力赋予孙悟空金箍棒的灵动智慧,可大可小,变化随心。

要理解 FlexNPU 在做什么,先要理解当前 AI 算力面临的核心矛盾。

现在大模型推理普遍采用 PD 分离架构,也就是把 Prefill(预填充)和 Decode(解码)分成两个独立的计算集群。问题在于,Prefill 集群是计算密集型的,AI Core 利用率拉满了,但显存带宽大量浪费;Decode 集群恰恰相反,显存带宽拉满了,但 AI Core 大量闲置。两边都有资源在空转,叠加上推理业务天然的潮汐效应(白天忙、晚上闲),利用率自然上不去。

FlexNPU 的核心思路是在底层硬件和上层推理框架之间,插入一层「AI 基础设施操作系统」。就像 PC 上的操作系统通过虚拟化和调度,让成千上万个进程共享 CPU 和内存一样,FlexNPU 对 NPU 算力做了同样的事情。

这套系统带来了三个关键能力。

第一是极致共享。FlexNPU 可以把一张 NPU 卡切分到 1% AI Core、128MB 显存的颗粒度。以前算力消费的最小单位是「卡时」,现在变成了 1% 的卡时。多个模型可以精确地共享同一张卡,每个模型只占用它实际需要的资源,杜绝浪费。更关键的是,共享的同时有严格的 QoS 保障和安全隔离,不会出现模型之间互相抢资源导致性能抖动的问题。

第二是极致弹性。FlexNPU 引入了基于 AI 的时序预测模型,能够提前预判推理业务的负载变化趋势,做到未雨绸缪。配合系统级的透明快照技术,可以在秒级时间内完成算力的弹性伸缩,业务完全无感知。实测数据显示,这套机制在华为云的 MaaS 推理服务上,Token 利用率提升了 35%。

第三是极致高可用。大模型推理有一个很头疼的问题:Agent 做长任务的时候,如果中间某张 NPU 卡出了故障,传统方案下整个推理链条要从头开始重算。想象一下,一个 Agent 已经思考规划了 N 步,突然一张卡挂了,所有的 KV Cache 丢失,只能回退到第一步重来,代价巨大。FlexNPU 通过系统级的透明快照,实现了秒级的「断点续推」:故障发生后,计算负载在几秒内自动迁移到健康节点,推理从断点继续,用户完全无感。

在 PD 动态混部这个场景下,FlexNPU 放弃了传统僵化的 PD 物理分离架构,让 Prefill 和 Decode 在同一张卡上混合运行,通过微秒级调度实现算力的互补利用。实测结果是,在 Agentic 和 AI Coding 场景下,Token 性价比提升了 2.88 到 3.75 倍。

对于小模型场景,FlexNPU 同样意义重大。Agent 系统里大量的子任务(工具调用、文档解析、报告生成、记忆压缩)其实不需要千亿参数的大模型,7B 参数的小模型就够用了。但小模型独占一整张 NPU 卡,就像用 30 吨的大卡车送一箱快递,80% 以上的算力在空转。FlexNPU 让多个小模型在同一张卡上「拼车」,在保障性能 SLA 的前提下,单卡部署密度提升了 40%,算力成本降低 3 到 5 倍。

4、回到那个核心问题

回过头来看,华为云凭什么有底气说自己能帮企业把智能体真正落地?

答案其实是一套完整的体系在支撑。

最上层,是对行业场景的深度理解。30 多个行业、500 多个场景的积累,加上即将发布的 AgentArts 智能体开发平台、面向各行业的 AI 梦工厂专区,解决的是「用户知道能用 AI 干什么」的问题。

中间层,是以盘古大模型为核心、同时开放拥抱业界主流模型的策略,加上强化学习和后训练团队针对行业场景的深度优化,解决的是「AI 能力够不够强」的问题。

最底层,就是以 FlexNPU 为代表的柔性智算基础设施,解决的是「用得起、用得稳」的问题。没有这一层,上面两层再好看也是空中楼阁。Token 太贵,企业算不过来账;服务不稳定,Agent 做到一半挂了要从头来,谁敢把核心业务交给它?

顾炯炯在演讲最后说了一句话,我觉得是整个 FlexNPU 最好的注脚:让每一分钱的 AI 算力投入,都迸发出最大化的价值;让智能体时代的海量 Token,人人都能消费得起。

这句话听起来像口号,但背后是实打实的技术创新在兜底。从 PD 动态混部带来的 3 倍以上性价比提升,到小模型共卡混部带来的 3 到 5 倍成本降低,到秒级断点续推带来的故障零重算,每一项都直接作用于企业最关心的成本和可靠性。

我在《OpenClaw 启示录》里说,AI 时代真正的壁垒是对用户需求的理解深度。现在我想补充一句:理解需求是入口,但让需求真正跑起来,还需要一套足够强大、足够经济、足够可靠的基础设施。华为云选择以 Agentic AI 为主线坚定投入,以极致性价比的 AI Infra 为基石,做的正是「企业级 AI 创新的黑土地」这件事。

土地肥沃了,庄稼才能长出来。算力的问题解决了,企业的智能体才能真正从 Demo 走向生产。

##




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部