2025-08-06 06:51:46
OpenAI邁出重要一步,推出六年來首次開放權(quán)重模型GPT-OSS,包括1170億參數(shù)的gpt-oss-120b和210億參數(shù)的gpt-oss-20b,均以Apache 2.0許可證發(fā)布,可免費商用。同時,亞馬遜將提供OpenAI模型。此外,谷歌DeepMind推出Genie 3世界模型,可實現(xiàn)實時交互,為具身智能體提供訓(xùn)練場。
每經(jīng)編輯|杜宇
OpenAI向開源模型邁出重要一步:六年來首次推出開放權(quán)重模型。
OpenAI首席執(zhí)行官山姆·奧爾特曼當(dāng)?shù)貢r間8月5日宣布,公司將在未來幾天里帶來許多新東西,其中周二迎來一項“小而重磅”的更新——預(yù)熱已久的開源模型GPT-OSS。
簡單而言,OpenAI在8月5日共發(fā)布兩款開放權(quán)重AI推理模型。其中參數(shù)量達(dá)到1170億的gpt-oss-120b能力更強,可以由單個英偉達(dá)專業(yè)數(shù)據(jù)中心GPU驅(qū)動;參數(shù)量210億的gpt-oss-20b模型,則能夠在配備16GB內(nèi)存的消費級筆記本電腦上運行。
在今年1月DeepSeek引爆開源AI風(fēng)暴后,奧爾特曼曾認(rèn)錯稱OpenAI在開源技術(shù)方面“站在了歷史的錯誤一邊”,這正是OpenAI重新推出開源模型的原因。
兩款模型都以寬松的Apache 2.0許可證發(fā)布,企業(yè)在商用前無需付費或獲得許可。
奧爾特曼在社交媒體表示:gpt-oss是一個重大突破,這是最先進(jìn)的開放權(quán)重推理模型,具有與o4-mini相當(dāng)?shù)膹姶蟋F(xiàn)實世界性能,可以在你自己的電腦(或手機的較小版本)上本地運行。我們相信這是世界上最好、最實用的開放模型。
同時,亞馬遜宣布將首次向客戶提供OpenAI的模型,計劃在其Bedrock和SageMaker平臺上提供OpenAI的開放AI權(quán)重新模型。這是云計算巨頭亞馬遜首次提供OpenAI的產(chǎn)品。
gpt-oss-20b和120b的發(fā)布標(biāo)志著OpenAI戰(zhàn)略轉(zhuǎn)向的重要節(jié)點,此前該公司多次推遲開放權(quán)重模型發(fā)布,并進(jìn)行了廣泛的安全測試和評估,以確保模型不被惡意利用。
OpenAI介紹,兩款gpt-oss模型采用了其最先進(jìn)的預(yù)訓(xùn)練和后訓(xùn)練技術(shù),特別注重推理、效率和跨部署環(huán)境的實用性。它們都是使用專家混合(MoE)架構(gòu)的Transformer,以減少處理輸入所需的活躍參數(shù)數(shù)量。
gpt-oss-120b每個token激活5.1億參數(shù),總參數(shù)量為1170億;gpt-oss-20b激活3.6B參數(shù),總參數(shù)量為210億。模型使用交替的密集和局部帶狀稀疏注意力模式,支持高達(dá)128k的上下文長度。
OpenAI稱gpt-oss-20b是一款中型開放模型,gpt-oss-120b則是可在“大多數(shù)臺式機和筆記本電腦”上運行的大型開放模型。
OpenAI表示,較小的模型至少需要16GB顯存或統(tǒng)一內(nèi)存才能發(fā)揮最佳性能,并且“非常適合高端消費級GPU和搭載蘋果芯片的Mac電腦”。較大的全尺寸模型則需要至少60GB顯存或統(tǒng)一內(nèi)存。
在性能評估方面,OpenAI披露,gpt-oss-120b在核心推理基準(zhǔn)測試中接近OpenAI o4-mini的表現(xiàn)。較小的gpt-oss-20b模型在相同評估中達(dá)到或超過OpenAI o3-mini的性能。
gpt-oss-120b在競賽編碼(Codeforces)、通用問題求解(MMLU和HLE)以及工具調(diào)用(TauBench)方面均優(yōu)于OpenAI o3?mini,并匹敵甚至超越了OpenAI o4-mini。它在健康相關(guān)查詢(HealthBench?)和競賽數(shù)學(xué)(AIME 2024和2025)方面的表現(xiàn)甚至超過o4-mini。
即使規(guī)模較小,gpt-oss-20b在上述同類的評估中也匹敵甚至超越了OpenAI o3?mini,甚至在競賽數(shù)學(xué)和健康方面也超越了后者。
值得注意的是,相較o3和o4-mini模型,兩款開放模型也會出現(xiàn)更多的幻覺。OpenAI解釋稱,由于較小的模型擁有的世界知識比大型前沿模型少,所以更容易產(chǎn)生幻覺也在意料之中。在OpenAI內(nèi)部用于衡量模型對人物知識準(zhǔn)確性的PersonQA基準(zhǔn)測試中,gpt-oss-120b和gpt-oss-20b分別對49%和53%的問題產(chǎn)生幻覺,達(dá)到o1模型的3倍多,也高于o4-mini模型的36%。
順便一提,作為毫無驚喜的預(yù)告,奧爾特曼同時強調(diào)本周晚些時候會有一項“重大更新”。鑒于公司這段日子不斷吊業(yè)界胃口的舉動,市場普遍預(yù)期OpenAI下一個重磅更新將是推出GPT-5。
OpenAI對開放權(quán)重模型的安全性給予了特別關(guān)注,因為一旦發(fā)布,對手可能對模型進(jìn)行惡意微調(diào)。該公司在預(yù)訓(xùn)練期間過濾了與化學(xué)、生物、放射性和核(CBRN)相關(guān)的有害數(shù)據(jù)。
為直接評估風(fēng)險,OpenAI對模型進(jìn)行了專門的生物學(xué)和網(wǎng)絡(luò)安全數(shù)據(jù)微調(diào),創(chuàng)建了攻擊者可能制作的特定領(lǐng)域非拒絕版本。經(jīng)過內(nèi)部和外部測試,這些惡意微調(diào)的模型無法達(dá)到其準(zhǔn)備框架中的"高能力"閾值。
OpenAI此次發(fā)布開放權(quán)重模型很大程度上受到市場競爭壓力驅(qū)動。OpenAI總裁Greg Brockman在本周二的記者會上表示:"看到生態(tài)系統(tǒng)的發(fā)展令人興奮,我們很高興能為此做出貢獻(xiàn),真正推動前沿發(fā)展,然后看看會發(fā)生什么。"
OpenAI與英偉達(dá)、AMD、Cerebras和Groq等芯片制造商合作,確保模型在各種芯片上良好運行。英偉達(dá)CEO黃仁勛在聲明中稱:OpenAI向世界展示了在英偉達(dá)AI上可以構(gòu)建什么——現(xiàn)在他們正在推進(jìn)開源軟件的創(chuàng)新。
圖片來源:視覺中國
值得注意的是,谷歌 DeepMind 8月4日宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多樣化交互式環(huán)境,給出文本提示,Genie 3 可以生成動態(tài)世界,可以以每秒 24 幀的速度實時導(dǎo)航,并以 720p 的分辨率保持幾分鐘的一致性。
DeepMind 在模擬環(huán)境領(lǐng)域已有十余年的深厚積累。從訓(xùn)練能玩轉(zhuǎn)即時戰(zhàn)略游戲的 AI,到為機器人開發(fā)開放式學(xué)習(xí)環(huán)境,這些研究都指向了一個共同的目標(biāo):構(gòu)建強大的世界模型。
與前代模型(如 Genie 1/2)和視頻生成模型(如 Veo 2,Veo 3對直覺物理學(xué)的深刻理解)相比,Genie 3 是第一個允許實時交互的世界模型,同時與 Genie 2 相比,其一致性和真實感也得到了提升。
Genie 3的終極目標(biāo)之一是為具身智能體(Embodied Agent)提供一個無限豐富的訓(xùn)練場。DeepMind已將其與通用智能體SIMA進(jìn)行結(jié)合測試。研究人員可以為SIMA設(shè)定一個目標(biāo)(如在面包房里找到工業(yè)攪拌機),SIMA則通過向Genie 3發(fā)送導(dǎo)航指令來嘗試完成任務(wù)。Genie 3像一個真正的世界一樣,根據(jù)SIMA的行為實時反饋結(jié)果,從而讓智能體在海量的what if場景中學(xué)習(xí)和成長。
每日經(jīng)濟新聞綜合公開資料
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP