ElevenLabs 和 LTX 合作推出了一个新功能:音生视频(Audio to Video)。
传统 AI 视频生成,AI 会根据文字描述或图片生成视频。而这款模型则是根据声音生成视频,可以是人声、音乐或者音效,然后 AI 根据声音的节奏、停顿、语调这些特征来生成对应的画面。
这意味着什么呢?比如你有一段配乐,鼓点在哪里、旋律起伏怎样,视频画面会自动跟着这些变化。或者你有一段旁白,说话的节奏和情绪会直接影响画面的呈现。不用再把声音翻译成文字提示词,也不用后期去对时间轴。
目前这个功能支持 20 秒时长的视频,比较适合制作 MV。
## http://t.cn/AXGg38Gb