您當(dāng)前位置：游戲鳥手游網(wǎng) > 海外新聞 > OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的

OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的

作者：技能魔法師發(fā)布時(shí)間：2024-04-30 00:20:41

OpenAIsora怎么用？很多人還不知道這到底是什么，這次我們就主要來(lái)討論一下這個(gè)問(wèn)題，想要了解OpenAI sora的小伙伴，可以趕緊看看下面游戲鳥小編帶來(lái)的介紹，方便大家更好的了解Sora是如何訓(xùn)練的，詳細(xì)的請(qǐng)趕緊來(lái)小編這里了解一下。

OpenAI sora是什么意思

OpenAI網(wǎng)站上的技術(shù)報(bào)告，主要提供了訓(xùn)練Sora的方法，以及對(duì)其能力和局限性的定性評(píng)估。技術(shù)報(bào)告的13位作者中，有4位華人。報(bào)告也明確地說(shuō)，不提供模型和實(shí)現(xiàn)細(xì)節(jié)。尤其是公眾和監(jiān)管者最關(guān)注的數(shù)據(jù)來(lái)源。但是，這篇報(bào)告所列舉的32篇參考論文，已經(jīng)提供了所有的方法和技術(shù)。OpenAI用一句話概括：“我們利用了一種在視頻和圖像潛碼的時(shí)空塊上操作的transformer架構(gòu)”。具體點(diǎn)說(shuō)就是：這幫大牛訓(xùn)練了一個(gè)網(wǎng)絡(luò)，用于降低視覺(jué)數(shù)據(jù)的維度。許多專家認(rèn)為其視頻來(lái)源是Youtube。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入，輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間內(nèi)接受訓(xùn)練，隨后也在此空間內(nèi)生成視頻。他們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型，將生成的潛碼映射回像素空間。應(yīng)該掌握四個(gè)關(guān)鍵詞：潛碼(latent code)，時(shí)空塊(spacetime patches)，擴(kuò)展 (scaling)，通用模擬器 (general purpose simulators)。許多之前的研究已經(jīng)通過(guò)各種方法研究了視頻數(shù)據(jù)的生成模型，包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變換器和擴(kuò)散模型。這些工作通常專注于視覺(jué)數(shù)據(jù)的一個(gè)狹窄類別、較短的視頻，或者固定大小的視頻。Sora是一個(gè)視覺(jué)數(shù)據(jù)的通用模型——它可以生成跨越不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像，最長(zhǎng)可達(dá)一分鐘的高清視頻。Sora是一個(gè)擴(kuò)散模型;給定輸入的噪聲塊(和條件信息，如文本提示)，它被訓(xùn)練用于預(yù)測(cè)初始的“干凈”塊。重要的是，Sora是一個(gè)擴(kuò)散Transformer，在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能，包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)和圖像生成。Sora能夠適應(yīng)寬屏1920x1080p視頻、豎屏1080x1920視頻以及它們之間的所有格式。這使得Sora能夠直接以不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。它還允許我們?cè)谑褂孟嗤Ｐ鸵匀直媛噬芍?，快速原型化較小尺寸的內(nèi)容。簡(jiǎn)單地說(shuō)，OpenAI集大成了先前的技術(shù)，而其中的每一項(xiàng)技術(shù)，都有過(guò)論文介紹，OpenAI在前人及同行研究的基礎(chǔ)之上，構(gòu)建出Sora，一個(gè)非常重要的原因，是他們堅(jiān)信數(shù)據(jù)-Transformer-擴(kuò)展-涌現(xiàn)這一法則。下面是所有的參考論文及其為Sora所用之處：

Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "使用LSTMs進(jìn)行視頻表示的無(wú)監(jiān)督學(xué)習(xí)." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.

Chiappa, Silvia, 等. "循環(huán)環(huán)境模擬器." arXiv預(yù)印本 arXiv:1704.02254 (2017).

Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv預(yù)印本 arXiv:1803.10122 (2018).

(注：1-3，許多之前的研究已經(jīng)通過(guò)各種方法研究了視頻數(shù)據(jù)的生成模型，包括循環(huán)網(wǎng)絡(luò) )

Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有場(chǎng)景動(dòng)態(tài)的視頻." 神經(jīng)信息處理系統(tǒng)進(jìn)展 29 (2016).

Tulyakov, Sergey, 等. "MoCoGAN: 分解運(yùn)動(dòng)和內(nèi)容以生成視頻." IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2018.

Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在復(fù)雜數(shù)據(jù)集上生成對(duì)抗視頻." arXiv預(yù)印本 arXiv:1907.06571 (2019).

Brooks, Tim, 等. "生成動(dòng)態(tài)場(chǎng)景的長(zhǎng)視頻." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 35 (2022): 31769-31781.

(注：4-7，生成對(duì)抗網(wǎng)絡(luò)的方法與技術(shù))

Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成視頻." arXiv預(yù)印本 arXiv:2104.10157 (2021).

Wu, Chenfei, 等. "Nüwa: 為創(chuàng)造神經(jīng)視覺(jué)世界進(jìn)行視覺(jué)合成預(yù)訓(xùn)練." 歐洲計(jì)算機(jī)視覺(jué)會(huì)議. 瑞士: 施普林格自然, 2022.

(注：8-9，自回歸Transformer )

Ho, Jonathan, 等. "Imagen視頻: 使用擴(kuò)散模型生成高清視頻." arXiv預(yù)印本 arXiv:2210.02303 (2022).

Blattmann, Andreas, 等. "對(duì)齊你的潛碼: 使用潛在擴(kuò)散模型合成高分辨率視頻." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2023.

Gupta, Agrim, 等. "使用擴(kuò)散模型生成逼真視頻." arXiv預(yù)印本 arXiv:2312.06662 (2023).

(注：10-12，擴(kuò)散模型，如何逼真)

Vaswani, Ashish, 等. "注意力就是你所需要的一切." 神經(jīng)信息處理系統(tǒng)進(jìn)展 30 (2017).

Brown, Tom, 等. "語(yǔ)言模型是小樣本學(xué)習(xí)者." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 33 (2020): 1877-1901.

(注：13-14 ，作者從大型語(yǔ)言模型中受到的啟發(fā)是，通過(guò)對(duì)互聯(lián)網(wǎng)級(jí)數(shù)據(jù)進(jìn)行訓(xùn)練，可以獲得通用能力。)

Dosovitskiy, Alexey, 等. "一幅圖像值16x16個(gè)詞: 大規(guī)模圖像識(shí)別的transformers." arXiv預(yù)印本 arXiv:2010.11929 (2020).

Arnab, Anurag, 等. "Vivit: 視頻視覺(jué)transformer." IEEE/CVF國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議論文集. 2021.

He, Kaiming, 等. "掩碼自動(dòng)編碼器是可擴(kuò)展的視覺(jué)學(xué)習(xí)者." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2022.

Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 適用于任何寬高比和分辨率的視覺(jué)transformer." arXiv預(yù)印本 arXiv:2307.06304 (2023).

(注：15-18，Transformer已經(jīng)被證明在在計(jì)算機(jī)視覺(jué)中顯示出非凡的擴(kuò)展特征，能訓(xùn)練出適用于任何寬高比和分辨率的視頻)

Rombach, Robin, 等. "使用潛在擴(kuò)散模型合成高分辨率圖像." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2022.

(注：通過(guò)把視頻壓縮成為低維度的潛碼空間，把視頻轉(zhuǎn)換為時(shí)空塊 )

把視覺(jué)數(shù)據(jù)變成時(shí)空塊

Kingma, Diederik P., 和 Max Welling. "自編碼變分貝葉斯." arXiv預(yù)印本 arXiv:1312.6114 (2013).

(注：訓(xùn)練出一個(gè)能減少視覺(jué)維度數(shù)據(jù)的網(wǎng)絡(luò))

Sohl-Dickstein, Jascha, 等. "使用非平衡熱力學(xué)的深度無(wú)監(jiān)督學(xué)習(xí)." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.

Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪擴(kuò)散概率模型." 神經(jīng)信息處理系統(tǒng)進(jìn)展 33 (2020): 6840-6851.

Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改進(jìn)的去噪擴(kuò)散概率模型." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.

Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "擴(kuò)散模型在圖像合成上勝過(guò)GANs." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展. 2021.

Karras, Tero, 等. "闡明基于擴(kuò)散的生成模型的設(shè)計(jì)空間." 神經(jīng)信息處理系統(tǒng)進(jìn)展 35 (2022): 26565-26577.

(注：21-25， Sora是一個(gè)擴(kuò)散模型，給定輸入的噪聲塊(和條件信息，如文本提示)，它被訓(xùn)練用于預(yù)測(cè)初始的“干凈”塊 )

Peebles, William, 和 Saining Xie. "用transformers擴(kuò)展擴(kuò)散模型." IEEE/CVF國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議論文集. 2023.

(注：Sora是一個(gè)擴(kuò)散Transformer)

Transformer跨越不同的模態(tài)，其擴(kuò)展功能依然有效

Chen, Mark, 等. "像素的生成預(yù)訓(xùn)練." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2020.

Ramesh, Aditya, 等. "零樣本文本到圖像生成." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.

(注：27-28，Transformer在圖像生成方面具有非凡的擴(kuò)展特征)

Yu, Jiahui, 等. "擴(kuò)展自回歸模型以生成內(nèi)容豐富的文生圖." arXiv預(yù)印本 arXiv:2206.10789 2.3 (2022): 5.

Betker, James, 等. "用更好的圖說(shuō)改善圖像生成." 計(jì)算機(jī)科學(xué). https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8

(注：29-30，使用了Dall.E3的字幕和標(biāo)題技術(shù)，用于視頻)

Ramesh, Aditya, 等. "使用CLIP潛碼的分層文本條件圖像生成." arXiv預(yù)印本 arXiv:2204.06125 1.2 (2022): 3.

(注：30-31，用Dall.E2和Dall.E3圖像生成視頻)

Meng, Chenlin, 等. "Sdedit: 使用隨機(jī)微分方程的引導(dǎo)圖像合成和編輯." arXiv預(yù)印本 arXiv:2108.01073 (2021).

以上就是OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的全部?jī)?nèi)容，希望對(duì)你有幫助。想查找更多游戲資訊，歡迎持續(xù)關(guān)注游戲鳥查看。

復(fù)制本文鏈接攻略文章為游戲鳥手游網(wǎng)所有，未經(jīng)允許不得轉(zhuǎn)載。

金鏟鏟之戰(zhàn)玉劍攝魂莫甘娜陣容推薦玉劍攝魂莫甘娜陣容裝備搭配攻略

絕地求生2.21更新公告2024 pubg2月21日更新時(shí)間內(nèi)容一覽

玩家要聞更多

相關(guān)資訊更多

《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布，還有限定周邊！

卡繆2025-07-02 17:55:35
像素火影網(wǎng)頁(yè)版一周年入口像素火影一周年網(wǎng)頁(yè)版鏈接

技能魔法師2025-07-01 10:35:12
送完P(guān)S5PRO又送NS2！《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2！

卡繆2025-06-18 15:22:28
開啟卡牌新紀(jì)元，《影之詩(shī)》新資料片“超凡世界”正式上線！

QQlove2025-06-18 15:10:19
魔獸世界冰dk天賦加點(diǎn)推薦

阿姆羅2025-04-07 17:11:51
NS2發(fā)布會(huì)匯總：港版售價(jià)3450港幣，馬車新作首發(fā)護(hù)航，支持4K120FPS輸出！

卡繆2025-04-03 10:14:35
可能漲價(jià)？CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。

卡繆2025-03-28 17:31:44
期待不？巴西博主曝Faker的S14冠軍皮膚選擇為永恩！

卡繆2025-03-21 17:04:15
openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀

游戲獵人2024-04-28 02:03:12
逆水寒手游元宵節(jié)時(shí)裝怎么獲得 2024元宵節(jié)時(shí)裝獲取方法

亡靈指揮官2024-03-25 15:31:16

熱門資訊更多

玩玩用用更多

精選資訊更多

熱門專題全部>

網(wǎng)易游戲合集

抖音游戲

紙嫁衣

熱門標(biāo)簽全部>

放置類手機(jī)游戲懸疑推理游戲寶可夢(mèng)肉鴿版合集城市英雄冒險(xiǎn)類游戲合集阿徹威爾奇妙冒險(xiǎn)拱谷世界游戲合集三國(guó)RPG類游戲合集俠客冒險(xiǎn)類游戲合集魔塔冒險(xiǎn)類游戲合集刷裝備的rpg游戲合集中世紀(jì)RPG合集

国产呦系列呦交,国产午夜福利100集发布,国产精品,色哟哟哟哟,国产精品久久久久9999吃药,国产伦久视频免费观看视频

youxiniao.com

OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的