近日,騰訊云小微提出的多語(yǔ)言預(yù)訓(xùn)練模型“神農(nóng)MShenNonG”以平均分85分的成績(jī)登頂XTREME榜單。與此同時(shí),該模型僅包含5億級(jí)別的小參數(shù)量,也一舉刷新業(yè)界記錄。

據(jù)了解,該榜單是目前最受國(guó)內(nèi)外行業(yè)公司認(rèn)可的多語(yǔ)言評(píng)測(cè)榜單,研究人員以多語(yǔ)言預(yù)訓(xùn)練模型在此榜單的表現(xiàn)作為其跨語(yǔ)言遷移能力的評(píng)價(jià)標(biāo)準(zhǔn)。

目前,全球有超過(guò)6900種語(yǔ)言,其中大多數(shù)語(yǔ)種都沒(méi)有足夠的數(shù)據(jù)支撐研究者將其單獨(dú)訓(xùn)練成成熟模型。騰訊云小微深耕知識(shí)挖掘、語(yǔ)義理解技術(shù)以及預(yù)訓(xùn)練技術(shù),“神農(nóng)MShenNonG”此次登頂XTREME榜單,代表了其從單語(yǔ)言到多語(yǔ)言理解能力的一個(gè)顯著擴(kuò)展,將跨語(yǔ)言遷移開發(fā)由市場(chǎng)平均的月級(jí)降低至10天。同時(shí),“神農(nóng)”系列的預(yù)訓(xùn)練模型已應(yīng)用于云小微全系列產(chǎn)品矩陣,可顯著提升AI語(yǔ)音助手、智能客服機(jī)器人、數(shù)智人等產(chǎn)品的多項(xiàng)技術(shù)指標(biāo),助力出海企業(yè)快速落地本地化服務(wù)。

刷新行業(yè)記錄,跨語(yǔ)言遷移開發(fā)周期縮短至10天

憑借對(duì)自然語(yǔ)言應(yīng)用程序等領(lǐng)域發(fā)展研究的積極作用,XTREME榜單備受業(yè)界認(rèn)可。

由于大多數(shù)的NLP預(yù)訓(xùn)練模型主要為中文、英文等高資源語(yǔ)種,低資源小語(yǔ)種的研究并未得到足夠重視。2020年,來(lái)自 CMU、谷歌研究院和 DeepMind 的科學(xué)家們提出了覆蓋四十種語(yǔ)言、橫跨了12個(gè)語(yǔ)系的大規(guī)模多語(yǔ)言多任務(wù)基準(zhǔn) XTREME,其中包含了9項(xiàng)需要不同句法或語(yǔ)義層面進(jìn)行推理的任務(wù),并可以為語(yǔ)句文本分類、結(jié)構(gòu)預(yù)測(cè)、語(yǔ)句檢索和跨語(yǔ)言問(wèn)答等自然語(yǔ)言處理任務(wù)提供有效支持。

此次登頂XTREME榜單,主要是由于“神農(nóng)MShenNonG”在以下三個(gè)不同維度做了創(chuàng)新性的嘗試。

C:\Users\kittyxie\AppData\Local\Temp\WeChat Files\e7bb74bac631c247f63cba6d01fc1af.png

首先,在數(shù)據(jù)層面,預(yù)訓(xùn)練模型的訓(xùn)練數(shù)據(jù)主要由兩種形式的數(shù)據(jù)構(gòu)成:?jiǎn)握Z(yǔ)種句子和雙語(yǔ)平行句對(duì)。此前的模型處理方法是,對(duì)于單語(yǔ)種句子,單純地將單語(yǔ)種信息輸入模型,并以MLM作為訓(xùn)練目標(biāo),非常依賴相似語(yǔ)系之間“共享詞”的預(yù)測(cè)來(lái)建模各語(yǔ)言間的語(yǔ)義對(duì)齊關(guān)系;對(duì)于平行句對(duì),又依賴平行語(yǔ)料的規(guī)模和組合,模型對(duì)其對(duì)齊關(guān)系的建模存在一定缺陷。為緩解以上問(wèn)題,騰訊云小微研究團(tuán)隊(duì)提出了基于混合編碼的數(shù)據(jù)構(gòu)造方式,分別利用雙語(yǔ)對(duì)齊詞典和句子檢索工具,構(gòu)造大量的“多語(yǔ)言混合”訓(xùn)練數(shù)據(jù)。

其次,在模型層面,研究團(tuán)隊(duì)提出了一種可插拔的、基于多尺度的多語(yǔ)言信息融合模塊,分別從詞級(jí)別和句子級(jí)別多個(gè)尺度融入多語(yǔ)言信息,期望在訓(xùn)練過(guò)程中,加強(qiáng)所有語(yǔ)種的詞向量的更新和對(duì)齊,解決多語(yǔ)言模型對(duì)低資源語(yǔ)種、低頻次詞匯建模較弱的問(wèn)題。

第三,在訓(xùn)練方式上,研究團(tuán)隊(duì)分別通過(guò)語(yǔ)種層面和語(yǔ)義層面引入對(duì)比學(xué)習(xí)策略,使得相同語(yǔ)義的表示相互拉近,不同語(yǔ)義的表示相互遠(yuǎn)離,進(jìn)一步強(qiáng)化多語(yǔ)言預(yù)訓(xùn)練模型對(duì)于多語(yǔ)言的語(yǔ)義建模能力和語(yǔ)義匹配能力。

值得注意的是,研究團(tuán)隊(duì)重視多尺度的多語(yǔ)言的一致性建模,以強(qiáng)化預(yù)訓(xùn)練模型的跨語(yǔ)言遷移能力,并將跨語(yǔ)言遷移開發(fā)由市場(chǎng)平均的月級(jí)降低至周級(jí),同時(shí),相較市場(chǎng)平均1個(gè)月以上的模型迭代周期,“神農(nóng)MShenNonG”僅需10天。

多次登頂權(quán)威榜單 神農(nóng)以技術(shù)優(yōu)勢(shì)探索出海場(chǎng)景

“神農(nóng)MShenNonG”登頂XTREME榜單,依托于騰訊云小微團(tuán)隊(duì)技術(shù)研發(fā)和行業(yè)知識(shí)的長(zhǎng)期積累。此前,騰訊云小微的中文預(yù)訓(xùn)練模型ShenNonG就以十億級(jí)參數(shù)量一舉登頂CLUE總排行榜、1.1分類任務(wù)、閱讀理解任務(wù)和命名實(shí)體任務(wù)四個(gè)榜單,刷新行業(yè)記錄。

專注于語(yǔ)義理解技術(shù)以及預(yù)訓(xùn)練技術(shù)的研發(fā),此次登頂XTREME榜單代表了騰訊云小微從單語(yǔ)言到多語(yǔ)言理解相關(guān)技術(shù)的一個(gè)擴(kuò)展。目前,“神農(nóng)”系列的預(yù)訓(xùn)練模型已應(yīng)用于全系列產(chǎn)品矩陣,可顯著提升AI語(yǔ)音助手、智能客服機(jī)器人、數(shù)智人等產(chǎn)品的多項(xiàng)技術(shù)指標(biāo)。

隨著開發(fā)的不斷成熟,優(yōu)勢(shì)產(chǎn)品向海外拓展成為不少國(guó)內(nèi)企業(yè)的選擇。但產(chǎn)品出海通常要面臨適應(yīng)新語(yǔ)種、業(yè)務(wù)本地化的挑戰(zhàn)。過(guò)往,以機(jī)器翻譯的方式將單語(yǔ)種遷移到多語(yǔ)言場(chǎng)景,不僅費(fèi)時(shí)費(fèi)力,效果也差強(qiáng)人意。相對(duì)于傳統(tǒng)的機(jī)器翻譯模式,騰訊云小微“神農(nóng)MShenNonG”預(yù)訓(xùn)練模型有著低成本、低門檻的優(yōu)勢(shì),以輕量參數(shù)為多行業(yè)、小語(yǔ)種提供跨語(yǔ)言遷移服務(wù),助力企業(yè)降本增效,落地出海業(yè)務(wù)。

未來(lái),騰訊云小微團(tuán)隊(duì)還將持續(xù)深耕知識(shí)挖掘和深度學(xué)習(xí)技術(shù),探索更多技術(shù)落地場(chǎng)景,以科技助力各行業(yè)的企業(yè)更好地服務(wù)用戶,為社會(huì)創(chuàng)造更多價(jià)值。