要聞

阿里開(kāi)源新架構(gòu)Qwen3-Next，模型訓(xùn)練成本降9成，長(zhǎng)文本推理吞吐提升10倍

2025-09-12 08:26:38

阿里通義于9月12日發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。該架構(gòu)針對(duì)大模型未來(lái)擴(kuò)展趨勢(shì)設(shè)計(jì)，采用全新高稀疏MoE架構(gòu)，重構(gòu)Transformer核心組件，實(shí)現(xiàn)訓(xùn)練和推理雙重性價(jià)比突破。基于新架構(gòu)，“打樣”Qwen3-Next-80B-A3B系列模型，性能媲美千問(wèn)3旗艦版235B模型，計(jì)算效率大增，訓(xùn)練成本降超90%。

每經(jīng)記者｜葉曉丹每經(jīng)編輯｜張益銘

每經(jīng)杭州9月12日電（記者葉曉丹）9月12日，阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。Qwen3-Next針對(duì)大模型在上下文長(zhǎng)度和總參數(shù)兩方面不斷擴(kuò)展（Scaling）的未來(lái)趨勢(shì)而設(shè)計(jì)，采用全新的高稀疏MoE架構(gòu)，并對(duì)經(jīng)典Transformer核心組件進(jìn)行了重構(gòu)，創(chuàng)新采用線性注意力和自研門(mén)控注意力結(jié)合的混合注意力機(jī)制，實(shí)現(xiàn)了模型訓(xùn)練和推理的雙重性價(jià)比突破。

基于這一新架構(gòu)，阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型，開(kāi)源指令（Instruct）和推理（Thinking）兩大模型版本。新模型總參數(shù)80B僅激活3B，性能可媲美千問(wèn)3旗艦版235B模型，模型計(jì)算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%，長(zhǎng)文本推理吞吐量提升10倍以上，并可支持百萬(wàn)Tokens（文本處理的最小單位?）超長(zhǎng)上下文。

封面圖片來(lái)源：圖片來(lái)源：視覺(jué)中國(guó)-VCG211478193393

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

周四日元兌主要貨幣多數(shù)走低

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

全球最長(zhǎng)航線開(kāi)始售票，上海出發(fā)全程2萬(wàn)公里無(wú)需換乘，去程近26小時(shí)，經(jīng)濟(jì)艙票價(jià)12235元起，東航計(jì)劃用波音777機(jī)型執(zhí)飛

相關(guān)文章