已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃
發(fā)布日期:
2024-03-18

今年初,由OpenAI發(fā)布的文生視頻大模型Sora震驚了世界。僅需輸入文字指令,便可生成長(zhǎng)達(dá)一分鐘高清分辨率、畫面精致的動(dòng)態(tài)視頻。Sora優(yōu)異的性能表現(xiàn)讓許多人感嘆。但同時(shí),關(guān)于國(guó)內(nèi)人工智能技術(shù)發(fā)展?fàn)顩r也不可避免地被提及國(guó)內(nèi)能否研發(fā)出中文版的Sora?

已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃

▲Sora生成視頻截圖。圖片來(lái)源:OpenAI官網(wǎng)

3月12日,南山轄區(qū)的北京大學(xué)深圳研究生院-兔展智能AIGC聯(lián)合實(shí)驗(yàn)室正式發(fā)布了“Open-Sora”計(jì)劃旨在復(fù)現(xiàn)一個(gè)“開源版Sora”。該項(xiàng)目由2014年成立的南山企業(yè)深圳兔展智能創(chuàng)始人、CEO董少靈與北京大學(xué)信息工程學(xué)院助理教授、博士生導(dǎo)師袁粒領(lǐng)銜發(fā)起,期望通過產(chǎn)業(yè)公司和科研機(jī)構(gòu)的強(qiáng)強(qiáng)聯(lián)手,以開源的方式對(duì)外傳播中國(guó)團(tuán)隊(duì)的技術(shù)自信,號(hào)召全球社區(qū)一起做人類普惠的技術(shù)內(nèi)容。

已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃

復(fù)現(xiàn)“開源版Sora”全球用戶都可用

不久前,馬斯克對(duì)OpenAI提起了訴訟,指控OpenAI背離了創(chuàng)立初衷,從一個(gè)開源的非營(yíng)利組織轉(zhuǎn)變?yōu)殚]源、追求商業(yè)利益的機(jī)構(gòu)。截至目前,發(fā)布近一個(gè)月的Sora還尚未面向全部公眾開放,在其官方網(wǎng)站上也只有一份非常簡(jiǎn)短的技術(shù)報(bào)告,并未涉及模型背后的原理——在董少靈看來(lái),“OpenAI”正逐漸變成“CloseAI”。

“與之恰恰相反,我們Open-Sora Plan中的數(shù)據(jù)是完全開源的,全世界范圍內(nèi)的用戶都可以直接拿去用,甚至利用它們來(lái)盈利?!弊鳛榧夹g(shù)模塊的主要負(fù)責(zé)人,袁粒在發(fā)布現(xiàn)場(chǎng)向記者表示。據(jù)袁粒介紹,Open-Sora計(jì)劃的核心技術(shù)框架包括視頻編碼器與解碼器、Diffusion Transformer模型和條件注入模型三大模塊,目前基于已經(jīng)搭好的訓(xùn)練框架,能夠支持動(dòng)態(tài)輸入、多尺度、多分辨率的訓(xùn)練,對(duì)于可變比例、可變時(shí)長(zhǎng)的視頻已經(jīng)取得了較好的生成效果。

已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃

與“財(cái)大氣粗”的OpenAI相比,該團(tuán)隊(duì)在條件和算力存在一定缺口的情況下選擇了更高效、低功耗的大模型訓(xùn)練方式,例如用“2D+1D Diffusion Transformer”替代計(jì)算量更大的3D Diffusion Transformer,以及同步推進(jìn)除了文本控制外的更多條件控制的視頻生成訓(xùn)練。

該項(xiàng)目在GitHub上一經(jīng)發(fā)布,就立馬引起國(guó)際人工智能界相當(dāng)一部分的關(guān)注。發(fā)布一周內(nèi)就有超5000名技術(shù)開發(fā)人員為該項(xiàng)目標(biāo)星,融合了30余次開源創(chuàng)作者的拉取請(qǐng)求(Pull Request),獲得14萬(wàn)余次訪問,代碼被克隆超800次,來(lái)自美國(guó)、英國(guó)、加拿大、德國(guó)、澳大利亞、迪拜、沙特阿拉伯、伊朗等多個(gè)國(guó)家的技術(shù)人員參與其中,積極貢獻(xiàn)。
在袁??磥?lái),“Open-Sora”作為一個(gè)開源的項(xiàng)目,其優(yōu)勢(shì)在于能夠集結(jié)全世界技術(shù)人員的力量,讓大家在自己擅長(zhǎng)的領(lǐng)域發(fā)揮專業(yè)優(yōu)勢(shì),同時(shí)也能夠獲得算力和數(shù)據(jù)方面的資源支持。目前,該計(jì)劃“初步驗(yàn)證當(dāng)前框架有效性”的第一階段目標(biāo)已完成,第二階段團(tuán)隊(duì)希望在有效框架基礎(chǔ)上訓(xùn)練出能夠生成20秒以上720p清晰度視頻的模型,同時(shí)將“生成更加逼近Sora時(shí)長(zhǎng)和效果的視頻”作為第三階段的拓展目標(biāo)。
盡管目前由于較大的算力缺口和數(shù)據(jù)要求,能夠?qū)崿F(xiàn)拓展目標(biāo)的難度較大,但董少靈依然表示:“在技術(shù)方面中國(guó)并不比Sora弱,Sora能做的我們也能做,大家要樹立這樣的自信?!?/span>

不止步于娛樂視頻生產(chǎn),AI技術(shù)應(yīng)賦能產(chǎn)業(yè)

Open-Sora背后的底層模型,是兔展智能在去年推出的基于視覺為核心的原創(chuàng)多模態(tài)大模型“兔靈”,這是一個(gè)視覺占七成、語(yǔ)言占三成的全新混合體。同是作為視覺大模型,目前外界對(duì)Sora的想象止步于娛樂向視頻的生產(chǎn),但兔展智能對(duì)于Open-Sora的展望卻遠(yuǎn)不止于此,對(duì)董少靈來(lái)說,將Open-Sora背后的底層模型打造成深植于產(chǎn)業(yè)、賦能產(chǎn)業(yè)發(fā)展的中國(guó)本土的視覺大模型,讓產(chǎn)業(yè)的供給與用戶的需求更精準(zhǔn)的匹配,才是更有價(jià)值的事情。

已投企業(yè) | 兔展智能發(fā)布“Open-Sora”計(jì)劃

在董少靈的介紹里,“兔靈”是一個(gè)聚焦于設(shè)計(jì)領(lǐng)域的視覺大模型,能夠根植于工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)、室內(nèi)設(shè)計(jì)、服裝設(shè)計(jì)等多個(gè)設(shè)計(jì)類細(xì)分行業(yè),在供給大于需求的時(shí)代讓客戶的個(gè)性化需求更加精準(zhǔn),同時(shí)節(jié)約設(shè)計(jì)成本、打通產(chǎn)業(yè)鏈,實(shí)現(xiàn)真正的“人工智能+”賦能行業(yè)。

發(fā)布會(huì)現(xiàn)場(chǎng),董少靈對(duì)目前大模型已經(jīng)落地的項(xiàng)目進(jìn)行了展示。其中在建筑設(shè)計(jì)方面,“兔靈”能夠通過文本描述引導(dǎo)生成三維建筑模型,自由調(diào)整建筑視角,并結(jié)合AI局部重繪的能力補(bǔ)全設(shè)計(jì)效果圖,這樣一來(lái)實(shí)現(xiàn)方案設(shè)計(jì)及效果圖制作提效97%,成本節(jié)約達(dá)14.6%。

“我們想做的絕不是‘下一代的抖音’,而是希望能將AI真正應(yīng)用到行業(yè)中,更加精準(zhǔn)地匹配產(chǎn)業(yè)鏈中的供給與需求?!倍凫`向記者表示。在他的展望中,隨著Open-Sora計(jì)劃的不斷發(fā)展,“兔靈”大模型也將不斷獲得訓(xùn)練,未來(lái),不具備設(shè)計(jì)專業(yè)技能的普通人也能夠設(shè)計(jì)出個(gè)性化的物品,隨之而來(lái)的則是建筑、服裝、材料等各個(gè)行業(yè)產(chǎn)能的提高與產(chǎn)業(yè)鏈的完善。

本次Open-Sora開源計(jì)劃堅(jiān)持“人類級(jí)使命”“奮斗者為本”“開放式創(chuàng)新”“真問題驅(qū)動(dòng)”四大原則,共同探索產(chǎn)學(xué)研協(xié)同創(chuàng)新發(fā)展的新路徑。未來(lái),兔展智能與北京大學(xué)深圳研究生院將在推動(dòng)視覺大模型更好賦能中國(guó)產(chǎn)業(yè)發(fā)展方面攜手并進(jìn),為世界帶來(lái)更多中國(guó)聲音。


來(lái)源?|??蛇口消息報(bào)?綜合深圳商報(bào)?讀特新聞 SNG大灣區(qū)

編輯?|?喻夢(mèng)婷?責(zé)編?|?楊澤楠??審核 |?盧東勃?王婷婷

轉(zhuǎn)載 | 創(chuàng)新南山


相關(guān)推薦