查看: 5|回复: 0

字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型

[复制链接]

10

主题

1

回帖

32

积分

新手上路

积分
32
发表于 昨天 11:27 | 显示全部楼层 |阅读模式
字节、港中文等最新搞了一个专用于人-物交互的端到端视频生成模型:OmniShow,妥妥的电商广告专用模型


全模态,一个模型通吃图+音+姿势+文本输入

任务可以覆盖R2V、RA2V、RP2V、RAP2V四种生成模式,目前应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的

人脸保持、物理合理性、表现力以及口型同步看起来效果都还可以

原生长镜头生成,最长可生成10秒连续视频

项目页:http://t.cn/AXMQ6yOR
目前代码还没放出来http://t.cn/AXMQ6yO8
#

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注公众号

相关侵权、举报、投诉及建议等,请发 E-mail:2776601884@qq.com

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|青ICP备2025004122号-1

在本版发帖
关注公众号
返回顶部