字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型：OmniShow，妥妥的电商广告专用模型

清旧入梦 · 发表于 2026-4-15 11:27:02

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型：OmniShow，妥妥的电商广告专用模型

全模态，一个模型通吃图+音+姿势+文本输入

任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式，目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的

人脸保持、物理合理性、表现力以及口型同步看起来效果都还可以

原生长镜头生成，最长可生成10秒连续视频

项目页：http://t.cn/AXMQ6yOR
目前代码还没放出来http://t.cn/AXMQ6yO8
#

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型：OmniShow，妥妥的电商广告专用模型

本帖子中包含更多资源