Sora的6大優勢
(1)準確性和多樣性:Sora可將簡短的文本描述轉化成長達1分鐘的高清視頻。它可以準確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風景、城市場景、花園,甚至是水下的紐約市,可根據用戶的要求提供多樣化的內容。另據Medium,Sora能夠準確解釋長達135個單詞的長提示。
(2)強大的語言理解:OpenAI利用Dall·E模型的recaptioning(重述要點)技術,生成視覺訓練數據的描述性字幕,不僅能提高文本的準確性,還能提升視頻的整體質量。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,并將其發送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質量的視頻。
(3)以圖/視頻生成視頻:Sora除了可以將文本轉化為視頻,還能接受其他類型的輸入提示,如已經存在的圖像或視頻。這使Sora能夠執行廣泛的圖像和視頻編輯任務,如創建完美的循環視頻、將靜態圖像轉化為動畫、向前或向后擴展視頻等。OpenAI在報告中展示了基于DALL·E 2和DALL·E 3的圖像生成的demo視頻。這不僅證明了Sora的強大功能,還展示了它在圖像和視頻編輯領域的無限潛力。
(4)視頻擴展功能:由于可接受多樣化的輸入提示,用戶可以根據圖像創建視頻或補充現有視頻。作為基于Transformer的擴散模型,Sora還能沿時間線向前或向后擴展視頻。
(5)優異的設備適配性:Sora具備出色的采樣能力,從寬屏的 1920x1080p 到 豎 屏 的1080x1920,兩者之間的任何視頻尺寸都能輕松應對。這意味著Sora能夠為各種設備生成與其原始縱橫比完美匹配的內容。而在生成高分辨率內容之前,Sora還能以小尺寸迅速創建內容原型。
(6)場景和物體的一致性和連續性:Sora可以生成帶有動態視角變化的視頻,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題。現有模型的一個問題是,當物體離開視野時,它們可能無法對其進行追蹤。而通過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野也能保持不變。
Sora這一名稱源于日文“空”,即天空之意,以示其無限的創造潛力。其背后的技術是在OpenAI的文本到圖像生成模型DALL-E基礎上開發而成的。Sora可以根據用戶的文本提示創建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。繼承了DALL-E 3的畫質和遵循指令能力,能理解用戶在提示中提出的要求。Sora對于需要制作視頻的藝術家、電影制片人或學生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計劃的其中一步,也標志著人工智能在理解真實世界場景并與之互動的能力方面實現飛躍 。
2022年底,OpenAI正式推出ChatGPT,這款由人工智能技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話 。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智能潛力的現象級產品,展現出了文字對于過去人工智能的理解力和邏輯能力的超越。隨后,OpenAI的開發重點逐步過渡到圖像的生成,Dall-E模型在生成圖像方面也獲得了重大突破。視覺算法的進步:覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示著技術拐點的臨近以及爆款應用的涌現。特別是在3D資產生成和視頻生成領域,由于擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多。盡管如此,考慮到大型語言模型(LLM)對人工智能各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。
2021年1月5日文生圖模型Dall-E發布
Dall-E可以根據簡單的描述創建逼真和清晰的圖像,精通各種藝術風格,還可以生成文字制作建筑物上的標志,并制作同一場景的草圖和全彩圖像。
2022年4月Dall-E 2發布
Dall-E 2不僅可以生成更真實和更準確的畫像,而且能夠將文本描述中的概念、屬性和風格等元素綜合起來,生成現實主義的圖像和藝術作品。
2022年11月30日大語言模型ChatGPT發布
ChatGPT不僅能與人對話,還能編寫代碼、創作內容等,這一款革命性產品的上線引發全球關注,上線僅5天用戶數量就已突破100萬。
2023年3月15日GPT-4正式面世
GPT-4可以更準確地解決用戶的難題,多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章,在高級推理方面的表現超過其前代產品。
2023年9月21日Dall-E 3正式發布
Dall-E 3能夠更準確、更優秀地生成效果,可以更準確地呈現用戶的想法,用戶可以要求ChatGPT提供合適的提示詞。
2024年2月16日Sora問世
Sora繼承了Dall-E 3的畫質和遵循指令能力,可以根據用戶的文本提示創建逼真的視頻,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的復雜場景。