摘要:目前全世界有3.05億視頻創(chuàng)作者,每天有200億次以上的視頻播放量,視頻需求非常大。在“視頻為王”的時(shí)代,文生視頻大模型Vidu的問世,有望推動(dòng)視頻創(chuàng)作者生產(chǎn)力革命,大幅降低生產(chǎn)成本與創(chuàng)作門檻!
《中國(guó)AIGC應(yīng)用全景報(bào)告》指出,今年中國(guó)AIGC(生成式人工智能)應(yīng)用市場(chǎng)規(guī)模將達(dá)200億元,到2030年將達(dá)萬億規(guī)模,2024年到2028年的年平均復(fù)合增長(zhǎng)率將超30%。在這個(gè)炙手可熱的賽道上,新模型與新應(yīng)用正持續(xù)涌現(xiàn),不斷顛覆著內(nèi)容生產(chǎn)模式。
4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布了中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu。這是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對(duì)標(biāo)國(guó)際頂尖水平。
與Sora一致,Vidu能夠根據(jù)提供的文本描述直接生成長(zhǎng)達(dá)16秒的高質(zhì)量視頻,且分辨率高達(dá)1080P。
生數(shù)科技方面介紹,Vidu采用的核心技術(shù)U-ViT架構(gòu),由團(tuán)隊(duì)于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion(擴(kuò)散概率模型)與Transformer融合的架構(gòu),完全由團(tuán)隊(duì)自主研發(fā)。
當(dāng)前,Vidu主要有以下特點(diǎn)與優(yōu)勢(shì):
一是模擬真實(shí)物理世界,可以生成復(fù)雜、細(xì)節(jié)豐富的場(chǎng)景,光影 效果與人物表情都能夠符合真實(shí)的物理規(guī)律。
二是富有想象力,可以虛構(gòu)場(chǎng)景以及想象超現(xiàn)實(shí)主義的畫面。
三是具有多鏡頭語(yǔ)言,不再局限于固定鏡頭,能夠在遵循主體一致性的情況下實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的動(dòng)態(tài)切換,還可以實(shí)現(xiàn)長(zhǎng)鏡頭、追焦等效果。
四是有出色的視頻時(shí)長(zhǎng),能支持16秒長(zhǎng)度的視頻生成,保持鏡頭和主體的連貫一致。
五是能理解中國(guó)元素,可以更好地理解生成熊貓、龍等富有中國(guó)文化特色的形象。
在生數(shù)科技發(fā)布的Vidu模型生成視頻樣片中,視頻的整體質(zhì)感可與Sora相媲美,并能創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容,比如“畫室里的一艘船正在海浪中駛向鏡頭”。
Vidu背后的生數(shù)科技成立于2023年3月,公司創(chuàng)始團(tuán)隊(duì)來自清華大學(xué)人工智能研究院,是全球范圍內(nèi)最早從事擴(kuò)散概率模型研究的團(tuán)隊(duì)之一。截至目前,生數(shù)科技已完成數(shù)億元融資,投資方包括啟明創(chuàng)投、螞蟻集團(tuán)、BV百度風(fēng)投、達(dá)泰資本、錦秋基金、卓源亞洲等知名機(jī)構(gòu)。
目前全世界有3.05億視頻創(chuàng)作者,每天有200億次以上的視頻播放量,視頻需求非常大。在“視頻為王”的時(shí)代,文生視頻大模型Vidu的問世,有望推動(dòng)視頻創(chuàng)作者生產(chǎn)力革命,大幅降低生產(chǎn)成本與創(chuàng)作門檻!
編輯/姬妍
您需要登錄后才可以評(píng)論,登錄| 注冊(cè)