显卡里的“头号玩家”：0.5B模型如何把图片变成可交互游戏

一切都过去 · 发表于昨天 15:53

【显卡里的“头号玩家”：0.5B模型如何把图片变成可交互游戏】

最近Reddit上一位开发者展示了令人惊叹的研究：一个不到1B参数的小模型，能在RTX 5090上把一张静态图变成可以实时操作的“游戏”。这不只是视频生成，而是一个运行在本地的、具备实时反馈能力的隐空间世界模型。

这件事的技术逻辑非常性感。作者没有走大模型暴力计算的老路，而是把Transformer的Causal机制和扩散模型（Diffusion）结合。简单说，它把视频帧看作LLM里的Token。通过引入KV Cache，模型能记住之前的画面状态，你按下的WASD键则成了引导下一帧生成的条件输入。

最值得关注的切入点是：它证明了“世界模型”未必需要数据中心级的算力。当大家都在卷视频生成的时长和画质时，这个项目在卷“交互延迟”。它通过在隐空间进行时间压缩，实现了一次预测输出4帧像素，从而在0.5B的体量下跑出了60FPS的丝滑感。

虽然目前还存在画面闪烁和空间一致性漂移的问题，但它揭示了一个趋势：未来的游戏引擎可能不再由复杂的几何代码组成，而是由无数个轻量化、可交互的神经网络切片构成。我们正在从“观察AI生成的视频”进化到“走进AI生成的幻觉”。

reddit.com/r/LocalLLaMA/comments/1ub2kmt/deep_neural_network_that_can_turn_any_image_into

#人工智能##AI创造营##世界模型##神经网络# http://t.cn/AXS7DEtp