近期,抖音集團(tuán)旗下備受矚目的圖片視頻工具即夢(mèng)AI在官方社交媒體上重磅發(fā)布了一條新功能上線預(yù)告片,預(yù)示著即夢(mèng)AI又將帶來(lái)全新的精彩體驗(yàn)!
視頻顯示,新功能采用了全新的多模態(tài)視頻生成模型OmniHuman,讓用戶僅需輸入一張圖片和一段音頻,就可以生成一條生動(dòng)的AI視頻,有望大幅提升AI短片的制作效率和質(zhì)量。
OmniHuman技術(shù)主頁(yè)信息顯示,該模型為字節(jié)跳動(dòng)自研的閉源模型,可支持肖像、半身以及全身等不同尺寸的圖片輸入,并根據(jù)輸入的音頻,在視頻中讓人物生成與之匹配的動(dòng)作,包括演講、唱歌、樂(lè)器演奏以及移動(dòng)。
對(duì)于人物視頻生成中常見(jiàn)的手勢(shì)崩壞,也相比現(xiàn)有方法取得了顯著的改善。
此外,對(duì)動(dòng)漫、3D卡通等非真人圖片輸入的支持效果也較為出色,生成的視頻能保持特定風(fēng)格和原有的運(yùn)動(dòng)模式。
根據(jù)技術(shù)主頁(yè)展示的演示效果來(lái)看,OmniHuman的生成效果已經(jīng)具有較高的自然度。為防止該項(xiàng)技術(shù)被不當(dāng)利用,字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)在主頁(yè)中特別標(biāo)注稱,OmniHuman將不會(huì)對(duì)外提供下載。
即夢(mèng)AI相關(guān)負(fù)責(zé)人透露,該模型目前已具備較好的表現(xiàn),但在生成影視真實(shí)級(jí)別的視頻上仍存在一定的提升空間。
由其支持的多模態(tài)視頻生成功能會(huì)在即夢(mèng)上以小范圍內(nèi)測(cè)的形式進(jìn)行調(diào)優(yōu)調(diào)整,并逐步開(kāi)放。
該負(fù)責(zé)人同時(shí)表示,即夢(mèng)還會(huì)對(duì)這一功能設(shè)置嚴(yán)格的安全審核機(jī)制,并且對(duì)輸出的視頻標(biāo)注水印以作提醒,從而確保AI發(fā)揮正面、積極的作用,助力視頻創(chuàng)作者更好地實(shí)現(xiàn)想象力的表達(dá)。