摘要:目前Sora模型還處于測試階段,預計再經過一段時間的安全測試和用戶反饋后才會正式提供服務。
新年剛剛開工,AI又來搶人類飯碗了。
2月16日,OpenAI在其官網發布了文生視頻模型Sora。Sora作為OpenAI首推的文本轉視頻模型,能夠嚴格根據用戶輸入的提示詞、文本指令或靜態圖像,生成長達1分鐘的視頻,并且保持較高的視覺質量,其中包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動。同時也接受現有視頻擴展或填補缺失的幀。
橫空出世的Sora,實現了三大突破:
一是Sora可生成60秒一鏡到底視頻。60秒的視頻長度,遠高于Pika Labs的3秒、Meta Emu Video的4秒和Runway公司Gen-2的18秒的視頻時長,并且能保持視頻主體與背景的高度流暢性與穩定性。
二是單視頻多角度鏡頭,Sora在一個視頻內實現了多角度鏡頭,分鏡切換符合邏輯且十分流暢。
三是理解真實世界的能力,OpenAI利用大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力。Sora產生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況。同時Sora對于光影反射、運動方式、鏡頭移動等細節也處理得十分優秀,極大地提升了真實感。
目前其官網已更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。無論從視頻流暢度還是細節表現能力上,Sora的效果都相當驚艷。
AI想象中的龍年春節,紅旗招展人山人海。有緊跟舞龍隊伍抬頭好奇觀望的兒童,還有不少人掏出手機跟拍,海量人物角色各有各的行為。
例如一個Prompt(大語言模型中的提示詞)的描述是:在東京街頭,一位時髦的女士穿梭在充滿溫暖霓虹燈光和動感城市標志的街道上。
在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩定,還有多鏡頭,包括從大街景慢慢切入到對女士的臉部表情的特寫,以及潮濕的街道地面反射霓虹燈的光影效果。
對于存在的不足,OpenAI也沒有刻意回避,目前Sora可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。在OpenAI發布的技術報告中有一段Sora模型生成的錯誤視頻,展示了桌上的水杯會先從底部流出果汁,然后沿著錯誤的方向和角度倒在桌上。
OpenAI一直在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。這次發布Sora只是小試牛刀,未來可能帶來更具顛覆性的成果。
作為視頻生成工具,Sora可以降低視頻制作的門檻和成本,使得更多人能夠輕松創建高質量的視頻內容。這將對影視、廣告、游戲、新聞、教育、VR\AR等諸多行業產生深遠的影響。同時也將對視頻剪輯師、后期制作等崗位產生沖擊。后期制作包括剪輯、特效、音效等環節,這些工作都可以通過AI技術進行自動化或半自動化處理。
目前Sora模型還處于測試階段,預計再經過一段時間的安全測試和用戶反饋后才會正式提供服務。
編輯/姬妍