您當(dāng)前位置：游戲鳥(niǎo)手游網(wǎng) > 大陸新聞 > openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀

openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀

作者：游戲獵人發(fā)布時(shí)間：2024-04-28 02:03:12

openai視頻生成模型sora最近徹底爆火了，對(duì)于這次的爆火事件很多人還不是很了解，想要知道OpenAI王炸模型究竟是什么樣的，那么大家可以看看下面游戲鳥(niǎo)小編帶來(lái)的官方技術(shù)報(bào)告解讀，會(huì)給大家具體的介紹這次科技大爆炸的詳情。

OpenAI王炸模型官方技術(shù)報(bào)告解讀

OpenAI 2月16日凌晨發(fā)布了文生視頻大模型Sora，在科技圈引起一連串的震驚和感嘆，在2023年，我們見(jiàn)證了文生文、文生圖的進(jìn)展速度，視頻可以說(shuō)是人類(lèi)被AI攻占最慢的一塊“處女地”。而在2024年開(kāi)年，OpenAI就發(fā)布了王炸文生視頻大模型Sora，它能夠僅僅根據(jù)提示詞，生成60s的連貫視頻，“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。

為了方便理解，我們簡(jiǎn)單總結(jié)了這個(gè)模型的強(qiáng)大之處：

1、文本到視頻生成能力：Sora能夠根據(jù)用戶提供的文本描述生成長(zhǎng)達(dá)60S的視頻，這些視頻不僅保持了視覺(jué)品質(zhì)，而且完整準(zhǔn)確還原了用戶的提示語(yǔ)。

2、復(fù)雜場(chǎng)景和角色生成能力：Sora能夠生成包含多個(gè)角色、特定運(yùn)動(dòng)類(lèi)型以及主題精確、背景細(xì)節(jié)復(fù)雜的場(chǎng)景。它能夠創(chuàng)造出生動(dòng)的角色表情和復(fù)雜的運(yùn)鏡，使得生成的視頻具有高度的逼真性和敘事效果。

3、語(yǔ)言理解能力：Sora擁有深入的語(yǔ)言理解能力，能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令，并在生成的視頻內(nèi)容中忠實(shí)地反映這些指令。

4、多鏡頭生成能力：Sora可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭，同時(shí)保持角色和視覺(jué)風(fēng)格的一致性。這種能力對(duì)于制作電影預(yù)告片、動(dòng)畫(huà)或其他需要多視角展示的內(nèi)容非常有用。

5、從靜態(tài)圖像生成視頻能力：Sora不僅能夠從文本生成視頻，還能夠從現(xiàn)有的靜態(tài)圖像開(kāi)始，準(zhǔn)確地動(dòng)畫(huà)化圖像內(nèi)容，或者擴(kuò)展現(xiàn)有視頻，填補(bǔ)視頻中的缺失幀。

6、物理世界模擬能力：Sora展示了人工智能在理解真實(shí)世界場(chǎng)景并與之互動(dòng)的能力，這是朝著實(shí)現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實(shí)物理世界的運(yùn)動(dòng)，如物體的移動(dòng)和相互作用。

可以說(shuō)，Sora的出現(xiàn)，預(yù)示著一個(gè)全新的視覺(jué)敘事時(shí)代的到來(lái)，它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動(dòng)的動(dòng)態(tài)畫(huà)面，將文字的魔力轉(zhuǎn)化為視覺(jué)的盛宴。在這個(gè)由數(shù)據(jù)和算法編織的未來(lái)，Sora正以其獨(dú)特的方式，重新定義著我們與數(shù)字世界的互動(dòng)。

以下為OpenAI文生視頻模型Sora官方技術(shù)報(bào)告

我們探索了利用視頻數(shù)據(jù)對(duì)生成模型進(jìn)行大規(guī)模訓(xùn)練。具體來(lái)說(shuō)，我們?cè)诓煌掷m(xù)時(shí)間、分辨率和縱橫比的視頻和圖像上聯(lián)合訓(xùn)練了以文本為輸入條件的擴(kuò)散模型。我們引入了一種transformer架構(gòu)，該架構(gòu)對(duì)視頻的時(shí)空序列包和圖像潛在編碼進(jìn)行操作。我們最頂尖的模型Sora已經(jīng)能夠生成最長(zhǎng)一分鐘的高保真視頻，這標(biāo)志著我們?cè)谝曨l生成領(lǐng)域取得了重大突破。我們的研究結(jié)果表明，通過(guò)擴(kuò)大視頻生成模型的規(guī)模，我們有望構(gòu)建出能夠模擬物理世界的通用模擬器，這無(wú)疑是一條極具前景的發(fā)展道路。

這份技術(shù)報(bào)告主要聚焦于兩大方面：首先，我們?cè)敿?xì)介紹了一種將各類(lèi)可視數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示的方法，從而實(shí)現(xiàn)了對(duì)生成式模型的大規(guī)模訓(xùn)練;其次，我們對(duì)Sora的能力及其局限性進(jìn)行了深入的定性評(píng)估。需要注意的是，本報(bào)告并未涉及模型的具體技術(shù)細(xì)節(jié)。

在過(guò)去的研究中，許多團(tuán)隊(duì)已經(jīng)嘗試使用遞歸網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸Transformer和擴(kuò)散模型等各種方法，對(duì)視頻數(shù)據(jù)的生成式建模進(jìn)行了深入研究。然而，這些工作通常僅限于較窄類(lèi)別的視覺(jué)數(shù)據(jù)、較短的視頻或固定大小的視頻上。相比之下，Sora作為一款通用的視覺(jué)數(shù)據(jù)模型，其卓越之處在于能夠生成跨越不同持續(xù)時(shí)間、縱橫比和分辨率的視頻和圖像，甚至包括生成長(zhǎng)達(dá)一分鐘的高清視頻。

將可視數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)包(patchs)

在可視數(shù)據(jù)的處理上，我們借鑒了大語(yǔ)言模型的成功經(jīng)驗(yàn)。這些模型通過(guò)對(duì)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練，獲得了強(qiáng)大的通用能力。同樣，我們考慮如何將這種優(yōu)勢(shì)引入到可視數(shù)據(jù)的生成式模型中。大語(yǔ)言模型通過(guò)token將各種形式的文本代碼、數(shù)學(xué)和自然語(yǔ)言統(tǒng)一起來(lái)，而Sora則通過(guò)視覺(jué)包(patchs)實(shí)現(xiàn)了類(lèi)似的效果。我們發(fā)現(xiàn)，對(duì)于不同類(lèi)型的視頻和圖像，包是一種高度可擴(kuò)展且有效的表示方式，對(duì)于訓(xùn)練生成模型具有重要意義。

圖注：OpenAI專(zhuān)門(mén)設(shè)計(jì)的解碼器模型，它可以將生成的潛在表示重新映射回像素空間

在更高層次上，我們首先將視頻壓縮到一個(gè)低維度的潛在空間:這是通過(guò)對(duì)視頻進(jìn)行時(shí)間和空間上的壓縮實(shí)現(xiàn)的。這個(gè)潛在空間可以看作是一個(gè)“時(shí)空包”的集合，從而將原始視頻轉(zhuǎn)化為這些包。

視頻壓縮網(wǎng)絡(luò)

我們專(zhuān)門(mén)訓(xùn)練了一個(gè)網(wǎng)絡(luò)，專(zhuān)門(mén)負(fù)責(zé)降低視覺(jué)數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)接收原始視頻作為輸入，并輸出經(jīng)過(guò)壓縮的潛在表示。Sora模型就是在這個(gè)壓縮后的潛在空間中接受訓(xùn)練，并最終生成視頻。此外，我們還設(shè)計(jì)了一個(gè)解碼器模型，它可以將生成的潛在表示重新映射回像素空間，從而生成可視的視頻或圖像。

時(shí)空包

當(dāng)給定一個(gè)壓縮后的輸入視頻時(shí)，我們會(huì)從中提取出一系列的時(shí)空包，這些包被用作轉(zhuǎn)換token。這一方案不僅適用于視頻，因?yàn)橐曨l本質(zhì)上就是由連續(xù)幀構(gòu)成的，所以圖像也可以看作是單幀的視頻。通過(guò)這種基于包的表示方式，Sora能夠跨越不同分辨率、持續(xù)時(shí)間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理階段，我們只需在適當(dāng)大小的網(wǎng)格中安排隨機(jī)初始化的包，就可以控制生成視頻的大小和分辨率。

用于視頻生成的縮放Transformers

Sora是一個(gè)擴(kuò)散模型，它接受輸入的噪聲包(以及如文本提示等條件性輸入信息)，然后被訓(xùn)練去預(yù)測(cè)原始的“干凈”包。重要的是，Sora是一個(gè)基于擴(kuò)散的轉(zhuǎn)換器模型，這種模型已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)了顯著的擴(kuò)展性，包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)以及圖像生成等領(lǐng)域。

圖注：隨著訓(xùn)練量的增加，擴(kuò)散轉(zhuǎn)換器生成的樣本質(zhì)量有了明顯提高

在這項(xiàng)工作中，我們發(fā)現(xiàn)擴(kuò)散轉(zhuǎn)換器在視頻生成領(lǐng)域同樣具有巨大的潛力。我們展示了不同訓(xùn)練階段下，使用相同種子和輸入的視頻樣本對(duì)比，結(jié)果證明了隨著訓(xùn)練量的增加，樣本質(zhì)量有著明顯的提高。

豐富的持續(xù)時(shí)間、分辨率與縱橫比

過(guò)去，圖像和視頻生成方法常常需要將視頻調(diào)整大小、裁剪或修剪至標(biāo)準(zhǔn)尺寸，如4秒、256x256分辨率的視頻。但Sora打破了這一常規(guī)，它直接在原始大小的數(shù)據(jù)上進(jìn)行訓(xùn)練，從而帶來(lái)了諸多優(yōu)勢(shì)。

采樣更靈活

Sora具備出色的采樣能力，無(wú)論是寬屏1920x1080p視頻、垂直1080x1920視頻，還是介于兩者之間的任何視頻尺寸，它都能輕松應(yīng)對(duì)。這意味著Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。更令人驚嘆的是，即使在生成全分辨率內(nèi)容之前，Sora也能以較小的尺寸迅速創(chuàng)建內(nèi)容原型。而所有這一切，都得益于使用相同的模型。

圖注：Sora可以為各種設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容

改進(jìn)構(gòu)圖與框架

我們的實(shí)驗(yàn)結(jié)果顯示，在視頻的原始縱橫比上進(jìn)行訓(xùn)練，能夠顯著提升構(gòu)圖和框架的質(zhì)量。為了驗(yàn)證這一點(diǎn)，我們將Sora與一個(gè)將所有訓(xùn)練視頻裁剪為方形的模型版本進(jìn)行了比較。結(jié)果發(fā)現(xiàn)，在正方形裁剪上訓(xùn)練的模型有時(shí)會(huì)生成僅部分顯示主題的視頻。而Sora則能呈現(xiàn)出更加完美的幀，充分展現(xiàn)了其在視頻生成領(lǐng)域的卓越性能。

圖注：將所有訓(xùn)練視頻裁剪為方形的模型相比(左)，Sora能呈現(xiàn)出更加完美的幀

語(yǔ)言理解深化

為了訓(xùn)練文本轉(zhuǎn)視頻生成系統(tǒng)，需要大量帶有相應(yīng)文本字幕的視頻。為此，我們借鑒了DALL·E3中的re-captioning技術(shù)，并應(yīng)用于視頻領(lǐng)域。首先，我們訓(xùn)練了一個(gè)高度描述性的轉(zhuǎn)譯員模型，然后使用它為我們訓(xùn)練集中的所有視頻生成文本轉(zhuǎn)譯。通過(guò)這種方式，我們發(fā)現(xiàn)對(duì)高度描述性的視頻轉(zhuǎn)譯進(jìn)行訓(xùn)練，可以顯著提高文本保真度和視頻的整體質(zhì)量。

與此同時(shí)，與DALL·E3類(lèi)似，我們還利用GPT技術(shù)將簡(jiǎn)短的用戶提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)轉(zhuǎn)譯，并將其發(fā)送到視頻模型。這一創(chuàng)新使得Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。

圖片與視頻提示

在上述所有結(jié)果和我們的演示中，你可能已經(jīng)注意到了文本轉(zhuǎn)視頻的示例。但Sora的功能遠(yuǎn)不止于此，它還能接受其他類(lèi)型的輸入提示，如預(yù)先存在的圖像或視頻。這種多樣化的提示方式使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)，如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫(huà)、向前或向后擴(kuò)展視頻等。

將DALL·E圖片變成動(dòng)畫(huà)

值得一提的是，Sora還能在提供圖像和提示作為輸入的情況下生成視頻。下面展示的示例視頻就是基于DALL·E 2和DALL·E 3的圖像生成的。這些示例不僅證明了Sora的強(qiáng)大功能，還展示了它在圖像和視頻編輯領(lǐng)域的無(wú)限潛力。

一幅逼真的云朵圖像生成視頻，上面寫(xiě)著“SORA”;在一個(gè)華麗的歷史大廳里，一股巨大的浪潮達(dá)到頂峰，并開(kāi)始崩散，兩個(gè)沖浪者抓住時(shí)機(jī)，巧妙地在海浪表面飛馳

擴(kuò)展生成視頻

Sora不僅具備生成視頻的能力，更能在時(shí)間維度上實(shí)現(xiàn)向前或向后的無(wú)限擴(kuò)展。以下三個(gè)視頻便是從同一生成視頻片段出發(fā)，逐步向后擴(kuò)展的示例。盡管它們的起始部分各異，但結(jié)局卻出奇地一致。

視頻到視頻編輯

隨著擴(kuò)散模型的發(fā)展，我們已經(jīng)開(kāi)發(fā)出多種方法來(lái)編輯基于文本提示的圖像和視頻。在此，我們將其中一種名為SDEdit 32的技術(shù)應(yīng)用于Sora。這項(xiàng)技術(shù)賦予了Sora轉(zhuǎn)換零拍攝輸入視頻風(fēng)格和環(huán)境的能力，為視頻編輯領(lǐng)域帶來(lái)了革命性的變革。

視頻的無(wú)縫連接

更令人驚嘆的是，Sora還能在兩個(gè)截然不同的輸入視頻之間實(shí)現(xiàn)無(wú)縫過(guò)渡。通過(guò)逐漸插入技術(shù)，我們能夠在具有完全不同主題和場(chǎng)景構(gòu)圖的視頻之間創(chuàng)建出流暢自然的過(guò)渡效果。

圖片生成能力

Sora的出色能力不止于數(shù)據(jù)處理和分析，它現(xiàn)在還能生成圖像!這一創(chuàng)新功能的實(shí)現(xiàn)得益于一種獨(dú)特的算法，該算法在一個(gè)精確的時(shí)間范圍內(nèi)，巧妙地在空間網(wǎng)格中排列高斯噪聲補(bǔ)丁。

值得一提的是，Sora的圖像生成功能不僅限于特定大小的圖像。它可以根據(jù)用戶需求，生成可變大小的圖像，最高可達(dá)驚人的2048 × 2048分辨率。

圖注：一個(gè)女人在秋天的特寫(xiě)肖像，每一個(gè)細(xì)節(jié)都被捕捉得淋漓盡致，淺景深的應(yīng)用使得主體脫穎而出

圖注：充滿生機(jī)的珊瑚礁吸引了五顏六色的魚(yú)類(lèi)和海洋生物

新的模擬能力

在大規(guī)模訓(xùn)練過(guò)程中，我們發(fā)現(xiàn)視頻模型展現(xiàn)出了許多令人興奮的新能力。這些功能使得Sora能夠模擬現(xiàn)實(shí)世界中的人物、動(dòng)物和環(huán)境等某些方面。值得注意的是，這些屬性的出現(xiàn)并沒(méi)有依賴(lài)于任何明確的3D建模、物體識(shí)別等歸納偏差，而是純粹通過(guò)模型的尺度擴(kuò)展而自然涌現(xiàn)的。

3D一致性：在3D一致性方面，Sora能夠生成帶有動(dòng)態(tài)攝像頭運(yùn)動(dòng)的視頻。隨著攝像頭的移動(dòng)和旋轉(zhuǎn)，人物和場(chǎng)景元素在三維空間中始終保持一致的運(yùn)動(dòng)規(guī)律。

較長(zhǎng)視頻的連貫性和對(duì)象持久性：視頻生成領(lǐng)域面對(duì)的一個(gè)重要挑戰(zhàn)就是，在生成的較長(zhǎng)視頻中保持時(shí)空連貫性和一致性。Sora，雖然不總是，但經(jīng)常能夠有效地為短期和長(zhǎng)期物體間的依賴(lài)關(guān)系建模。例如，在生成的視頻中，人物、動(dòng)物和物體即使在被遮擋或離開(kāi)畫(huà)面后，仍能被準(zhǔn)確地保存和呈現(xiàn)。同樣地，Sora能夠在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，并在整個(gè)視頻中保持其外觀的一致性。

與世界互動(dòng)：Sora有時(shí)還能以簡(jiǎn)單的方式模擬影響世界狀態(tài)的行為。例如，畫(huà)家可以在畫(huà)布上留下新的筆觸。隨著時(shí)間的推移，一個(gè)人吃漢堡時(shí)也能在上面留下咬痕。

模擬數(shù)字世界：Sora還能夠模擬人工過(guò)程，比如視頻游戲。它可以在高保真度渲染世界及其動(dòng)態(tài)的同時(shí)，用基本策略控制《我的世界》中的玩家。這些功能都無(wú)需額外的訓(xùn)練數(shù)據(jù)或調(diào)整模型參數(shù)，只需向Sora提示“我的世界”即可實(shí)現(xiàn)。

這些新能力表明，視頻模型的持續(xù)擴(kuò)展為開(kāi)發(fā)高性能的物理和數(shù)字世界模擬器提供了一條充滿希望的道路。通過(guò)模擬生活在這些世界中的物體、動(dòng)物和人等實(shí)體，我們可以更深入地理解現(xiàn)實(shí)世界的運(yùn)行規(guī)律，并開(kāi)發(fā)出更加逼真、自然的視頻生成技術(shù)。

局限性與展望

盡管Sora在模擬能力方面已經(jīng)取得了顯著的進(jìn)展，但它目前仍然存在許多局限性。例如，它不能準(zhǔn)確地模擬許多基本相互作用的物理過(guò)程，如玻璃破碎等。此外，在某些交互場(chǎng)景中，比如吃東西時(shí)，Sora并不能總是產(chǎn)生正確的對(duì)象狀態(tài)變化。我們?cè)诎l(fā)布頁(yè)面中列舉了模型的其他常見(jiàn)故障模式，包括在長(zhǎng)時(shí)間樣本中發(fā)展的不一致性或某些對(duì)象不受控的出現(xiàn)等。

然而，我們相信隨著技術(shù)的不斷進(jìn)步和創(chuàng)新，Sora所展現(xiàn)出的能力預(yù)示著視頻模型持續(xù)擴(kuò)展的巨大潛力。未來(lái)，我們期待看到更加先進(jìn)的視頻生成技術(shù)，能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界中的各種現(xiàn)象和行為，并為我們帶來(lái)更加逼真、自然的視覺(jué)體驗(yàn)。

圈內(nèi)人如何看Sora?

最后再來(lái)看看各位技術(shù)大牛和內(nèi)容行業(yè)從業(yè)者如何評(píng)價(jià)Sora?

馬斯克評(píng)OpenAI視頻模型：人類(lèi)認(rèn)賭服輸，但AI增強(qiáng)的人類(lèi)將創(chuàng)造出最好作品

OpenAI周四發(fā)布了首個(gè)視頻生成模型Sora。馬斯克的前女友格萊姆斯發(fā)布了一連串帖子，討論這項(xiàng)新技術(shù)對(duì)電影以及更廣泛的藝術(shù)創(chuàng)作的影響。

馬斯克在其中一條帖子下回應(yīng)稱(chēng)：“AI增強(qiáng)的人類(lèi)將在未來(lái)幾年里創(chuàng)造出最好的作品?！?

值得注意的是，馬斯克和格萊姆斯在過(guò)去大約半年時(shí)間里一直在就他們?nèi)齻€(gè)子女的撫養(yǎng)權(quán)問(wèn)題對(duì)薄公堂。兩人之間在X平臺(tái)上這次罕見(jiàn)的互動(dòng)引發(fā)了人們對(duì)他們目前關(guān)系狀態(tài)的猜測(cè)。

稍早，一位X用戶分享了Sora生成的一名女子在東京街頭漫步的視頻，并評(píng)論稱(chēng)：“OpenAI今天宣布了Sora，它使用混合擴(kuò)散和變壓器模型架構(gòu)生成長(zhǎng)達(dá)1分鐘的視頻。他們似乎又領(lǐng)先了其他所有人1-2年?！绷硪晃籜用戶評(píng)論稱(chēng)：“gg皮克斯?！?

馬斯克回應(yīng)稱(chēng)：“gg人類(lèi)。”(注：gg是網(wǎng)絡(luò)游戲用語(yǔ)“good games”的縮寫(xiě)，主要用于游戲結(jié)束后，輸贏雙方都可以用，但現(xiàn)在多由失敗方發(fā)出，表示認(rèn)賭服輸、心服口服的意思。)在馬斯克帖子的評(píng)論區(qū)里，還有用戶附和道：“gg好萊塢”。

Jim Fan感嘆：Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎

英偉達(dá)人工智能研究院Jim Fan表示“如果你還是把Sora當(dāng)做DALLE那樣的生成式玩具，還是好好想想吧，這是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎?！盝im Fan大神的言下之意是，我們不能忽略Sora背后，“世界模型”更進(jìn)一步，AI已經(jīng)可以讀懂物理規(guī)律。

YouTube大V ：動(dòng)畫(huà)師和3D藝術(shù)家的工作可能有危險(xiǎn)了

YouTube大V Paddy Galloway感慨：“內(nèi)容創(chuàng)作永遠(yuǎn)改變了。這不是夸張。我在YouTube世界已經(jīng)15年了，OpenAI剛剛展示的東西讓我說(shuō)不出話來(lái)…”他認(rèn)為，Sora將帶來(lái)以下這些改變：

● 動(dòng)畫(huà)師和3D藝術(shù)家的工作可能有危險(xiǎn)了庫(kù)存素材網(wǎng)站將變得無(wú)關(guān)緊要

● 任何人都可以立即擁有出色的B-roll(輔助鏡頭)

● 制作精美視頻的門(mén)檻降至零

● 在一個(gè)每個(gè)人都能制作出美麗視頻的世界里，內(nèi)容背后的“想法”和故事變得更加重要

● Sora將真正顛覆教育、視頻論文和解說(shuō)視頻的細(xì)分市場(chǎng)

AI創(chuàng)業(yè)公司創(chuàng)始人：五年之后，你將能夠生成完全沉浸式的世界，并實(shí)時(shí)體驗(yàn)它們

Takeoff AI是專(zhuān)注于AI Tools的創(chuàng)業(yè)公司，它的創(chuàng)始人認(rèn)為這一波OpenAI新技術(shù)的最大受益者可能是虛擬現(xiàn)實(shí)?！霸趦芍軆?nèi)，我們連續(xù)有了蘋(píng)果的Vision Pro和OpenAI的Sora文本到視頻AI模型。五年之后，你將能夠生成完全沉浸式的世界，并實(shí)時(shí)體驗(yàn)它們。Holodeck(應(yīng)該是指今年火爆的掌機(jī)Steamdeck的虛擬現(xiàn)實(shí)版本)很快就要來(lái)了。”

除了這些技術(shù)上的猜測(cè)和對(duì)產(chǎn)業(yè)影響的正面預(yù)測(cè)外，也有老反對(duì)派指出Sora的潛在問(wèn)題不那么容易糾正。

Gary Marcus：Sora奇怪的物理故障可能不是數(shù)據(jù)中出現(xiàn)的

紐約大學(xué)教授Gary Marcus以其對(duì)AI領(lǐng)域的深刻見(jiàn)解和對(duì)現(xiàn)有技術(shù)的批判性思考而聞名，他的觀點(diǎn)和研究對(duì)AI社區(qū)產(chǎn)生了重要影響。他表示“Sora奇怪的物理故障(例如動(dòng)物和人在人群中自發(fā)出現(xiàn)和消失)令人著迷：這些錯(cuò)誤可能不是數(shù)據(jù)中出現(xiàn)的。這種小故障在某些方面類(lèi)似于LLM“幻覺(jué)”，即從有損壓縮中(大致)解壓縮產(chǎn)生的偽影，而不是來(lái)自這個(gè)世界的東西?！?

而且這種錯(cuò)誤在他看來(lái)是一種“與現(xiàn)實(shí)世界物理學(xué)的系統(tǒng)性偏差，可能很難糾正?！?

不過(guò)此刻最悲傷的應(yīng)該是Google，今天本來(lái)拿來(lái)翻盤(pán)用的的Gemini1.5發(fā)布風(fēng)頭完全被Sora壓過(guò)。作為AI界的汪峰，它對(duì)此沒(méi)有評(píng)論。

以上就是openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀全部?jī)?nèi)容，希望對(duì)你有幫助。想查找更多游戲資訊，歡迎持續(xù)關(guān)注游戲鳥(niǎo)查看。

復(fù)制本文鏈接攻略文章為游戲鳥(niǎo)手游網(wǎng)所有，未經(jīng)允許不得轉(zhuǎn)載。