OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的
OpenAIsora怎么用?很多人還不知道這到底是什么,這次我們就主要來(lái)討論一下這個(gè)問(wèn)題,想要了解OpenAI sora的小伙伴,可以趕緊看看下面游戲鳥小編帶來(lái)的介紹,方便大家更好的了解Sora是如何訓(xùn)練的,詳細(xì)的請(qǐng)趕緊來(lái)小編這里了解一下。
OpenAI sora是什么意思
OpenAI網(wǎng)站上的技術(shù)報(bào)告,主要提供了訓(xùn)練Sora的方法,以及對(duì)其能力和局限性的定性評(píng)估。技術(shù)報(bào)告的13位作者中,有4位華人。報(bào)告也明確地說(shuō),不提供模型和實(shí)現(xiàn)細(xì)節(jié)。尤其是公眾和監(jiān)管者最關(guān)注的數(shù)據(jù)來(lái)源。但是,這篇報(bào)告所列舉的32篇參考論文,已經(jīng)提供了所有的方法和技術(shù)。OpenAI用一句話概括:“我們利用了一種在視頻和圖像潛碼的時(shí)空塊上操作的transformer架構(gòu)”。具體點(diǎn)說(shuō)就是:這幫大牛訓(xùn)練了一個(gè)網(wǎng)絡(luò),用于降低視覺(jué)數(shù)據(jù)的維度。許多專家認(rèn)為其視頻來(lái)源是Youtube。這個(gè)網(wǎng)絡(luò)以原始視頻為輸入,輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間內(nèi)接受訓(xùn)練,隨后也在此空間內(nèi)生成視頻。他們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛碼映射回像素空間。應(yīng)該掌握四個(gè)關(guān)鍵詞:潛碼(latent code),時(shí)空塊(spacetime patches),擴(kuò)展 (scaling),通用模擬器 (general purpose simulators)。許多之前的研究已經(jīng)通過(guò)各種方法研究了視頻數(shù)據(jù)的生成模型,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)、自回歸變換器和擴(kuò)散模型。這些工作通常專注于視覺(jué)數(shù)據(jù)的一個(gè)狹窄類別、較短的視頻,或者固定大小的視頻。Sora是一個(gè)視覺(jué)數(shù)據(jù)的通用模型——它可以生成跨越不同持續(xù)時(shí)間、寬高比和分辨率的視頻和圖像,最長(zhǎng)可達(dá)一分鐘的高清視頻。Sora是一個(gè)擴(kuò)散模型;給定輸入的噪聲塊(和條件信息,如文本提示),它被訓(xùn)練用于預(yù)測(cè)初始的“干凈”塊。重要的是,Sora是一個(gè)擴(kuò)散Transformer,在多個(gè)領(lǐng)域展示了顯著的擴(kuò)展性能,包括語(yǔ)言建模、計(jì)算機(jī)視覺(jué)和圖像生成。Sora能夠適應(yīng)寬屏1920x1080p視頻、豎屏1080x1920視頻以及它們之間的所有格式。這使得Sora能夠直接以不同設(shè)備的原生寬高比創(chuàng)建內(nèi)容。它還允許我們?cè)谑褂孟嗤P鸵匀直媛噬芍?,快速原型化較小尺寸的內(nèi)容。簡(jiǎn)單地說(shuō),OpenAI集大成了先前的技術(shù),而其中的每一項(xiàng)技術(shù),都有過(guò)論文介紹,OpenAI在前人及同行研究的基礎(chǔ)之上,構(gòu)建出Sora,一個(gè)非常重要的原因,是他們堅(jiān)信數(shù)據(jù)-Transformer-擴(kuò)展-涌現(xiàn)這一法則。下面是所有的參考論文及其為Sora所用之處:
Srivastava, Nitish, Elman Mansimov, 和 Ruslan Salakhudinov. "使用LSTMs進(jìn)行視頻表示的無(wú)監(jiān)督學(xué)習(xí)." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.
Chiappa, Silvia, 等. "循環(huán)環(huán)境模擬器." arXiv預(yù)印本 arXiv:1704.02254 (2017).
Ha, David, 和 Jürgen Schmidhuber. "世界模型." arXiv預(yù)印本 arXiv:1803.10122 (2018).
(注:1-3,許多之前的研究已經(jīng)通過(guò)各種方法研究了視頻數(shù)據(jù)的生成模型,包括循環(huán)網(wǎng)絡(luò) )
Vondrick, Carl, Hamed Pirsiavash, 和 Antonio Torralba. "生成具有場(chǎng)景動(dòng)態(tài)的視頻." 神經(jīng)信息處理系統(tǒng)進(jìn)展 29 (2016).
Tulyakov, Sergey, 等. "MoCoGAN: 分解運(yùn)動(dòng)和內(nèi)容以生成視頻." IEEE計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2018.
Clark, Aidan, Jeff Donahue, 和 Karen Simonyan. "在復(fù)雜數(shù)據(jù)集上生成對(duì)抗視頻." arXiv預(yù)印本 arXiv:1907.06571 (2019).
Brooks, Tim, 等. "生成動(dòng)態(tài)場(chǎng)景的長(zhǎng)視頻." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 35 (2022): 31769-31781.
(注:4-7,生成對(duì)抗網(wǎng)絡(luò)的方法與技術(shù))
Yan, Wilson, 等. "VideoGPT: 使用VQ-VAE和transformers生成視頻." arXiv預(yù)印本 arXiv:2104.10157 (2021).
Wu, Chenfei, 等. "Nüwa: 為創(chuàng)造神經(jīng)視覺(jué)世界進(jìn)行視覺(jué)合成預(yù)訓(xùn)練." 歐洲計(jì)算機(jī)視覺(jué)會(huì)議. 瑞士: 施普林格自然, 2022.
(注:8-9,自回歸Transformer )
Ho, Jonathan, 等. "Imagen視頻: 使用擴(kuò)散模型生成高清視頻." arXiv預(yù)印本 arXiv:2210.02303 (2022).
Blattmann, Andreas, 等. "對(duì)齊你的潛碼: 使用潛在擴(kuò)散模型合成高分辨率視頻." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2023.
Gupta, Agrim, 等. "使用擴(kuò)散模型生成逼真視頻." arXiv預(yù)印本 arXiv:2312.06662 (2023).
(注:10-12,擴(kuò)散模型,如何逼真)
Vaswani, Ashish, 等. "注意力就是你所需要的一切." 神經(jīng)信息處理系統(tǒng)進(jìn)展 30 (2017).
Brown, Tom, 等. "語(yǔ)言模型是小樣本學(xué)習(xí)者." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展 33 (2020): 1877-1901.
(注:13-14 ,作者從大型語(yǔ)言模型中受到的啟發(fā)是,通過(guò)對(duì)互聯(lián)網(wǎng)級(jí)數(shù)據(jù)進(jìn)行訓(xùn)練,可以獲得通用能力。)
Dosovitskiy, Alexey, 等. "一幅圖像值16x16個(gè)詞: 大規(guī)模圖像識(shí)別的transformers." arXiv預(yù)印本 arXiv:2010.11929 (2020).
Arnab, Anurag, 等. "Vivit: 視頻視覺(jué)transformer." IEEE/CVF國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議論文集. 2021.
He, Kaiming, 等. "掩碼自動(dòng)編碼器是可擴(kuò)展的視覺(jué)學(xué)習(xí)者." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2022.
Dehghani, Mostafa, 等. "Patch n'Pack: NaViT, 適用于任何寬高比和分辨率的視覺(jué)transformer." arXiv預(yù)印本 arXiv:2307.06304 (2023).
(注:15-18,Transformer已經(jīng)被證明在在計(jì)算機(jī)視覺(jué)中顯示出非凡的擴(kuò)展特征,能訓(xùn)練出適用于任何寬高比和分辨率的視頻)
Rombach, Robin, 等. "使用潛在擴(kuò)散模型合成高分辨率圖像." IEEE/CVF計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議論文集. 2022.
(注:通過(guò)把視頻壓縮成為低維度的潛碼空間,把視頻轉(zhuǎn)換為時(shí)空塊 )
把視覺(jué)數(shù)據(jù)變成時(shí)空塊
Kingma, Diederik P., 和 Max Welling. "自編碼變分貝葉斯." arXiv預(yù)印本 arXiv:1312.6114 (2013).
(注:訓(xùn)練出一個(gè)能減少視覺(jué)維度數(shù)據(jù)的網(wǎng)絡(luò))
Sohl-Dickstein, Jascha, 等. "使用非平衡熱力學(xué)的深度無(wú)監(jiān)督學(xué)習(xí)." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2015.
Ho, Jonathan, Ajay Jain, 和 Pieter Abbeel. "去噪擴(kuò)散概率模型." 神經(jīng)信息處理系統(tǒng)進(jìn)展 33 (2020): 6840-6851.
Nichol, Alexander Quinn, 和 Prafulla Dhariwal. "改進(jìn)的去噪擴(kuò)散概率模型." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.
Dhariwal, Prafulla, 和 Alexander Quinn Nichol. "擴(kuò)散模型在圖像合成上勝過(guò)GANs." 神經(jīng)信息處理系統(tǒng)會(huì)議進(jìn)展. 2021.
Karras, Tero, 等. "闡明基于擴(kuò)散的生成模型的設(shè)計(jì)空間." 神經(jīng)信息處理系統(tǒng)進(jìn)展 35 (2022): 26565-26577.
(注:21-25, Sora是一個(gè)擴(kuò)散模型,給定輸入的噪聲塊(和條件信息,如文本提示),它被訓(xùn)練用于預(yù)測(cè)初始的“干凈”塊 )
Peebles, William, 和 Saining Xie. "用transformers擴(kuò)展擴(kuò)散模型." IEEE/CVF國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議論文集. 2023.
(注:Sora是一個(gè)擴(kuò)散Transformer)
Transformer跨越不同的模態(tài),其擴(kuò)展功能依然有效
Chen, Mark, 等. "像素的生成預(yù)訓(xùn)練." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2020.
Ramesh, Aditya, 等. "零樣本文本到圖像生成." 國(guó)際機(jī)器學(xué)習(xí)會(huì)議. PMLR, 2021.
(注:27-28,Transformer在圖像生成方面具有非凡的擴(kuò)展特征)
Yu, Jiahui, 等. "擴(kuò)展自回歸模型以生成內(nèi)容豐富的文生圖." arXiv預(yù)印本 arXiv:2206.10789 2.3 (2022): 5.
Betker, James, 等. "用更好的圖說(shuō)改善圖像生成." 計(jì)算機(jī)科學(xué). https://cdn.openai.com/papers/dall-e-3.pdf 2.3 (2023): 8
(注:29-30,使用了Dall.E3的字幕和標(biāo)題技術(shù),用于視頻)
Ramesh, Aditya, 等. "使用CLIP潛碼的分層文本條件圖像生成." arXiv預(yù)印本 arXiv:2204.06125 1.2 (2022): 3.
(注:30-31,用Dall.E2和Dall.E3圖像生成視頻)
Meng, Chenlin, 等. "Sdedit: 使用隨機(jī)微分方程的引導(dǎo)圖像合成和編輯." arXiv預(yù)印本 arXiv:2108.01073 (2021).
以上就是OpenAI sora是什么意思 Sora是怎么訓(xùn)練出來(lái)的全部?jī)?nèi)容,希望對(duì)你有幫助。想查找更多游戲資訊,歡迎持續(xù)關(guān)注游戲鳥查看。-
- 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 卡繆2025-07-02 17:55:35
-
- 像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 技能魔法師2025-07-01 10:35:12
-
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 卡繆2025-06-18 15:22:28
-
- 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- QQlove2025-06-18 15:10:19
-
- 魔獸世界冰dk天賦加點(diǎn)推薦
- 阿姆羅2025-04-07 17:11:51
-
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 卡繆2025-04-03 10:14:35
-
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 卡繆2025-03-28 17:31:44
-
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 卡繆2025-03-21 17:04:15
-
- openai視頻生成模型sora爆火 OpenAI王炸模型官方技術(shù)報(bào)告解讀
- 游戲獵人2024-04-28 02:03:12
-
- 逆水寒手游元宵節(jié)時(shí)裝怎么獲得 2024元宵節(jié)時(shí)裝獲取方法
- 亡靈指揮官2024-03-25 15:31:16
- 1 《絕區(qū)零》聯(lián)動(dòng)芬達(dá)PV公布,還有限定周邊!
- 2 像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 3 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 4 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- 5 魔獸世界冰dk天賦加點(diǎn)推薦
- 6 NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 7 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 8 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
-
殺死僵尸鳥
殺死僵尸鳥是一款以闖關(guān)形式開啟的僵尸鳥消滅為主要玩法的動(dòng)作冒險(xiǎn)類游戲,充滿壓抑的游戲背景以及詭異的僵尸鳥進(jìn)攻音樂(lè)讓你毛骨... -
九州伏魔錄
九州伏魔錄將帶你進(jìn)入上古九州神魔亂世爭(zhēng)霸戰(zhàn)場(chǎng),經(jīng)歷血火磨練不斷成長(zhǎng),不同的職業(yè)體系會(huì)讓每個(gè)玩家都能擁有不同的戰(zhàn)斗方式,掌... -
搬磚模擬器游戲
搬磚模擬器安卓版是一款以模擬搬磚為游戲玩法設(shè)計(jì)的家園的建造類休閑游戲,玩家在游戲中將以最真實(shí)逼真的角度去感受搬磚者的辛勤,多樣... -
城市旅游巴士駕駛
城市旅游巴士駕駛是一款充滿趣味性的都市模擬駕駛游戲,在這里你將體驗(yàn)到成為一名司機(jī)的奇妙樂(lè)趣,駕駛豪華巴士不斷在城... -
超能幻想計(jì)劃
超能幻想計(jì)劃將帶你進(jìn)入到超能幻想世界開啟全新的冒險(xiǎn)征途,在這里你將牽手各種英雄一起踏上全新征途,等待你的不僅是困難重重的... -
Infinite Pool
Infinite Pool是一款讓玩家們使用小球人進(jìn)行帽子射擊的手機(jī)游戲,在這款非常精致的游戲中,玩家們將會(huì)在各種地形上... -
天天魔斗士
《天天魔斗士》是騰訊首款3D魔幻冒險(xiǎn)手游,在黑暗童話世界里,勇敢?guī)洑獾男』锇閭兩響呀^技,配合默契地展開英勇冒險(xiǎn)之旅。精美的原畫,大氣磅礴的全3D畫面,酣暢淋漓的戰(zhàn)斗,輕松爽快的操控,讓心感動(dòng)的指尖樂(lè)趣!激烈的競(jìng)技場(chǎng)戰(zhàn)斗,極具挑戰(zhàn)性的試煉玩法,強(qiáng)大的公主養(yǎng)成等無(wú)限豐富的玩法盡在《天天魔斗士》! -
珠寶學(xué)院
珠寶學(xué)院是一款趣味的消除寶石類手機(jī)單機(jī)游戲,在風(fēng)格和玩法上都十分的簡(jiǎn)潔,趣味魔性的消除手法會(huì)讓你很快的掌握游戲的節(jié)奏感,... -
三國(guó)霸主豪氣凌云
三國(guó)霸主豪氣凌云手游是一款策略加RPG玩法的手游。故事的背景是以東漢末年的三國(guó)事件展開,全新的劇情故事,精致的人物形象設(shè)定,3... -
九州劍俠
九州劍俠手游是一款以個(gè)人角色的養(yǎng)成為主要的玩法的手機(jī)網(wǎng)絡(luò)游戲,采用可較為濃烈的武俠氣息,角色的外形在屬性上對(duì)于其名字和特性十分...
-
像素火影網(wǎng)頁(yè)版一周年入口 像素火影一周年網(wǎng)頁(yè)版鏈接
- 送完P(guān)S5PRO又送NS2!《劍星》開發(fā)商為慶祝游戲大賣贈(zèng)送每位員工一臺(tái)NS2!
- 開啟卡牌新紀(jì)元,《影之詩(shī)》新資料片“超凡世界”正式上線!
- 魔獸世界冰dk天賦加點(diǎn)推薦
- NS2發(fā)布會(huì)匯總:港版售價(jià)3450港幣,馬車新作首發(fā)護(hù)航,支持4K120FPS輸出!
- 可能漲價(jià)?CDPR稱《GTA6》漲價(jià)對(duì)他們來(lái)說(shuō)是有利的。
- 期待不?巴西博主曝Faker的S14冠軍皮膚選擇為永恩!
- 罵歸罵買歸買?育碧官宣《刺客信條:影》首日玩家數(shù)突破100萬(wàn)人!