来源:数字生命卡兹克
今天是火山Force原动力大会,我在现场。
这次他们也掏了很多有意思的新货出来,但我觉得最炸的,还是他们的新视频模型,Seedance 1.5 Pro。
因为这次的更新,真的做到了影视级别的音画同步,而且中文能力和方言能力是目前所有模型里的独一档。
语音生成能力这点在他们的技术报告里也有体现。
左边是视频生成能力,右边是语音生成能力。绿色的就是Seedance新模型,在语音生成这一块可以说是遥遥领先。。。
模型昨天已经上线了,可以直接在豆包,即梦或者火山方舟上玩起来。
豆包是在视频生成或者照片动起来这一栏里选1.5 Pro模型。
即梦是在生成视频里选3.5 Pro,也是基于Seedance 1.5 Pro的能力。
目前3.5 Pro支持文生图,单参考和首尾帧,智能多帧和主体参考还要再等等,不过现在这些其实已经很够用了。
还有火山方舟,网址在此:https://exp.volcengine.com/ark/vision?launch=seedance
京剧玩法,名画玩法什么的都可以在方舟上体验。
API也在路上了,现在就可以预约。
Seedance 1.5 Pro的能力维度呢,我觉得可以分成这么几大块,复杂场景的音画同步能力、中文和方言内容输出能力、情感表现力。
我们一个一个说。
一.音画同步
最基本也最重要的,就是主体说话时的唇形一致性,我们的第一个case也从这个测起。
提示词:让这个猴子在摄影棚里唱一段rap,猴子对着镜头说唱,镜头跟随猴子的动作运镜,雷鬼+tropical风格,浑厚黑人嗓音,从口哨声引入,第二秒开始加入强节奏的鼓点,第三秒后加入有节奏感的rap词,语速100BPM,同步配合鼓点:As Moko the monkey, skankin’ in the sun, Swingin’ through the palm trees, life’s just for fun,Big smile,no fear— One love from the jungle, yeah I’m right here!
如上,对口型对的很完美,呲着一口大白牙,非常引人瞩目。
非要挑点什么问题的话就是,rap的节奏感还有进步的空间。。。
这里要说一个小小小技巧,如果想在这个视频里说什么词,一定要在提示词里给模型规定好。
包括你想要的音效节奏啥的,也和它说清楚,总之别让它太自由发挥,不然效果你懂的。
然后再看一个多人对话场景,提示词如下:
一来一回总共四句对话,只要写清楚对话内容和顺序,就能准确地把台词分给每一个人。
唯一美中不足的是,它暂时还不理解罐头笑声是啥意思,当我想要在视频结尾加一段罐头笑声的时候,它给我生成了真正的,罐头。
无伤大雅。
除了对口型同步之外,Seedance 1.5 Pro还能做到多分镜音画同步。
而且因为它最高支持秒12秒的视频生成,所以你甚至可以直接用参考图+文生分镜,roll一个小小的广告短片。
这,是我给它的提示词。
而这,是它给我的视频,声音效果和细节的准确性都非常在线,几乎已经可以说是一个80%的成品了。
毫不夸张地说,能省下至少一半做片子的时间。
或者,也可以让它直接完成一段12秒的剧情。
我让瑞克和莫蒂俩人致敬了一把无间道的经典天台片段。
提示词长这样:
人物声音设定- Morty(左):声音偏高、发颤,语速不稳,带明显犹豫与恐惧,气息短,像硬挤出来的勇气。 Rick(右):低沉沙哑,语速快而不耐烦,带嘲讽,尾音下压,充满控制感。 Shot 1:中景 天台。Morty僵直站立,直视Rick。 Morty: “I wanna be a good person.” Shot 2:特写 Rick半侧脸近景。 Rick(冷笑): “Oh yeah? go tell the cops, Morty.” Shot 3:快切 a 大全景:Rick举起手枪 b 大特写:枪口贴近Morty额头,无台词。 Shot 4:大全景,Rick持枪抵住Morty头顶,镜头环绕,风声呼啸。
整个过程中,无论是台词还是音效,匹配的都很恰到好处。
而且镜头切换和运镜也有点东西,很酷。
二.中文和方言能力
第二个,就是中文和方言的输出能力。
其实我测下来发现,1.5 Pro的多语言能力很拿得出手,英语日语韩语西语都能无障碍输出。
具体效果可以看下面这个合集:毛利小五郎用各种语言,在线抢柯南台词,真相只有一个。
但我要重点说的还不是多语言能力,因为我觉得,中文和方言能力才是它最强的技能点。
在所有模型中,seedance 1.5pro的方言能力是断档的强。
它是我见过的第一个,说粤语说得有点韵味的模型。
即使还做不到最地道的程度,但氛围感已经出来了。。。
除了粤语之外,四川话,上海话,东北话,台湾腔,也都能自如切换。
所以,你就可以让上海人和北京人用自己的方言吵架,也可以在东北话和台湾腔之间无缝切换。
考虑到公众号里最多只能放十条视频,我依然是做了个方言合集,大家可以点进来感受一下。
怎么样,是不是还挺有那味儿的。
说不同语言跟方言这里也有一个小技巧,就是,要给它原版语言或者方言的提示词,比如英文版的真相只有一个就得跟它说,There’s only one truth,说粤语的话,就要这样写:呢个世界上有一种雀係冇脚嘅。
不会粤语也没关系,直接和ChatGPT帮你翻译就行,就像这样。
三.情感表现力
Seedance 1.5 Pro这次还有一个大幅度提升的能力,就是情感表现力。
哪怕是同一句台词,规定不同的情境之后,也能说出完全不一样的感觉。
提示词非常简单,就一句话。
这个表演合集,大家也可以品鉴一下。
我自己看这些表演的时候,有好几个瞬间都感觉,我是不是正在看什么豪门真假千金的短剧片段。
因为它真的能演出来嘴角颤抖,一声冷哼,皮笑肉不笑,眼睛叽里咕噜转,倒吸一口凉气,这些短剧中熟悉而微妙的细节。
而且声线也会跟着不同的情绪变化,很有代入感。
就感觉,Seedance 1.5 Pro已经可以进军短剧界了。。。
而且更强的是,哪怕我只是给它一句话,不加别的提示,它也能够根据这句话的内容,给我配一段合适的表演,直接一条过。
就是,现实中的演员都没这么省心好吧。。。
而且这个情感表现力不只是体现在台词上,而是包括配乐,音效,运镜,各种能力和细节综合起来,最终实现你想要的效果。
比如这个第一视角驾驶战斗机的片段,所有的声画元素都综合起来,就是一段效果非常丰富,非常有沉浸感的视频。
之前要在剪辑软件里倒腾一大通,现在一键直出。
没什么可说的,Seedance NB。。。
写在最后
这次会上,他们还提到了一个很有意思的能力,没上线,但我非常期待,就是draft样片。
什么意思呢,就是在成片之前,先给你一个较低分辨率的draft样片,让你可以锁定这个画面中的关键元素,等你修改完确认没问题之后,它再帮你生成高清晰度的成片。
也就是,减少抽卡次数,精准锁定效果,实在是一个对于钱包和时间都非常友好的功能。
快上吧孩子已经等不及了。。。
最后,来总结一下这次的Seedance 1.5 Pro更新。
虽然最近视频模型集体从默片时代跨入有声时代,可以说是前狼后虎,但在这种局面之下,我觉得,1.5 Pro依然很能打。
它的优势,除了能够满足方言这种更加细粒度和个性化的需求之外,更重要的是,真正让声画的结合做到了1+1大于2的效果。
我们都说,电影是声画的艺术。
这次的更新,就让画面,台词,音效,节奏,情绪,都能很好地融合在一个视频里,输出一个广告级,甚至是影视级别的成品。
这意味着,生成出来的不再是只有画面加上简单音效的半成品,而是可以直接上剪辑台的素材。
这对于AI视频的工业化,是一个巨大的提升。
再往上一层,甚至对于AI视频的创作方式和理念来说,也是一个巨大的提升。
以后的创作,就不再只是考虑画面如何了,声音也会一起纳入考虑的范畴。
就会出现新的提示词方式、新的视频形态、新的制作流程,进而引发,新的生产力变革。
新的风暴已经出现。
而我真的,非常期待。
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。