快速导读:别再以为带视觉功能的AI模型只能在云端服务器上运行。一个0.8B参数的Qwen多模态模型现在已经能完全在浏览器里跑起来了。这意味着AI正在从后端API,变成前端的一个本地组件。
---
一个开发者分享了一个网页链接,初看平平无奇。点开后,浏览器开始下载一个大约860MB的资源包。几分钟后,一个能理解图像的多模态AI,Qwen 3.5的小尺寸版(0.8B参数),就这样在你的浏览器里、用你本地的GPU跑了起来,不需要任何服务器。
Qwen 3.5: huggingface.co/collections/Qwen/qwen35
demo: huggingface.co/spaces/webml-community/Qwen3.5-0.8B-WebGPU
这事儿听起来像个技术宅的小玩具,但它踩过了一条很重要的线。
我们习惯的AI应用开发模式是:前端负责交互,核心的智能部分交给云端的庞大模型处理,通过API调用连接两者。这套模式稳定、强大,但也昂贵、有延迟,且隐私是个绕不开的问题。我们默认了,强大的AI能力必然来自云端。
而浏览器本地运行的模型,直接把这个前提给拆了。它意味着,对于一些中轻度任务,AI不再是一个需要付费调用的远程服务,而更像一个前端可以直接加载的JavaScript库。隐私数据完全不出本地,没有网络延迟,甚至可以离线运行。
当AI视觉能力像加载一个jQuery库一样简单和本地化时,无数需要“看一眼”的应用场景就被打开了。比如实时分析视频会议里你的仪态,或者不上传任何数据就能帮你整理相册的应用。
这当然不是说云端大模型要被取代了。但它标志着一个重要的分工正在开始:云端负责处理“原子弹”级别的问题,而越来越多的“子弹”级别任务,将直接在用户的设备上,在浏览器里解决。
所以,那个860MB的网页背后真正的问题是:当AI从后端服务变成前端组件,下一个杀手级应用会诞生在哪个领域?
---
简评:
最恐怖的变化,往往发生在那些看起来“不过是个技术Demo”的时刻。这篇文章抓住了这一点,把一个技术细节(模型本地化运行)提升到了架构变迁和行业分工的层面。所谓的“前端已死”可能说早了,前端只是在等待它的新武器。
---
ref: reddit.com/r/LocalLLaMA/comments/1rizodv/running_qwen_35_08b_locally_in_the_browser_on
##