【显卡里的“头号玩家”:0.5B模型如何把图片变成可交互游戏】
最近Reddit上一位开发者展示了令人惊叹的研究:一个不到1B参数的小模型,能在RTX 5090上把一张静态图变成可以实时操作的“游戏”。这不只是视频生成,而是一个运行在本地的、具备实时反馈能力的隐空间世界模型。
这件事的技术逻辑非常性感。作者没有走大模型暴力计算的老路,而是把Transformer的Causal机制和扩散模型(Diffusion)结合。简单说,它把视频帧看作LLM里的Token。通过引入KV Cache,模型能记住之前的画面状态,你按下的WASD键则成了引导下一帧生成的条件输入。
最值得关注的切入点是:它证明了“世界模型”未必需要数据中心级的算力。当大家都在卷视频生成的时长和画质时,这个项目在卷“交互延迟”。它通过在隐空间进行时间压缩,实现了一次预测输出4帧像素,从而在0.5B的体量下跑出了60FPS的丝滑感。
虽然目前还存在画面闪烁和空间一致性漂移的问题,但它揭示了一个趋势:未来的游戏引擎可能不再由复杂的几何代码组成,而是由无数个轻量化、可交互的神经网络切片构成。我们正在从“观察AI生成的视频”进化到“走进AI生成的幻觉”。
reddit.com/r/LocalLLaMA/comments/1ub2kmt/deep_neural_network_that_can_turn_any_image_into
#人工智能##AI创造营##世界模型##神经网络# http://t.cn/AXS7DEtp