查看: 24|回复: 0

显卡里的“头号玩家”:0.5B模型如何把图片变成可交互游戏

[复制链接]

6

主题

1

回帖

20

积分

新手上路

积分
20
发表于 昨天 15:53 | 显示全部楼层 |阅读模式
【显卡里的“头号玩家”:0.5B模型如何把图片变成可交互游戏】

最近Reddit上一位开发者展示了令人惊叹的研究:一个不到1B参数的小模型,能在RTX 5090上把一张静态图变成可以实时操作的“游戏”。这不只是视频生成,而是一个运行在本地的、具备实时反馈能力的隐空间世界模型。

这件事的技术逻辑非常性感。作者没有走大模型暴力计算的老路,而是把Transformer的Causal机制和扩散模型(Diffusion)结合。简单说,它把视频帧看作LLM里的Token。通过引入KV Cache,模型能记住之前的画面状态,你按下的WASD键则成了引导下一帧生成的条件输入。

最值得关注的切入点是:它证明了“世界模型”未必需要数据中心级的算力。当大家都在卷视频生成的时长和画质时,这个项目在卷“交互延迟”。它通过在隐空间进行时间压缩,实现了一次预测输出4帧像素,从而在0.5B的体量下跑出了60FPS的丝滑感。

虽然目前还存在画面闪烁和空间一致性漂移的问题,但它揭示了一个趋势:未来的游戏引擎可能不再由复杂的几何代码组成,而是由无数个轻量化、可交互的神经网络切片构成。我们正在从“观察AI生成的视频”进化到“走进AI生成的幻觉”。

reddit.com/r/LocalLLaMA/comments/1ub2kmt/deep_neural_network_that_can_turn_any_image_into

#人工智能##AI创造营##世界模型##神经网络# http://t.cn/AXS7DEtp


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部