中國(guó)林科院研發(fā)出可持續(xù)學(xué)習(xí)的林業(yè)預(yù)訓(xùn)練語言模型
中國(guó)林科院資源所智慧林草創(chuàng)新團(tuán)隊(duì)日前研發(fā)了一種可持續(xù)學(xué)習(xí)領(lǐng)域知識(shí)的林業(yè)預(yù)訓(xùn)練語言模型(ForestryBERT),通過構(gòu)建一套通用的技術(shù)體系,突破了通用預(yù)訓(xùn)練語言模型難以應(yīng)對(duì)林業(yè)知識(shí)動(dòng)態(tài)更新的難題,實(shí)現(xiàn)了從動(dòng)態(tài)變化的林業(yè)語料庫中持續(xù)學(xué)習(xí)新知識(shí)并有效記憶舊知識(shí),顯著提高了模型的環(huán)境適應(yīng)性和理解能力。
該模型實(shí)現(xiàn)了3項(xiàng)關(guān)鍵技術(shù)突破:一是通過對(duì)林業(yè)術(shù)語、林業(yè)法律法規(guī)、林業(yè)文獻(xiàn)等大規(guī)模動(dòng)態(tài)語料庫的學(xué)習(xí),為模型提供了豐富多元的知識(shí)來源,使模型能精準(zhǔn)捕捉林業(yè)語義信息,提升了模型對(duì)林業(yè)文本的理解能力;二是融合了持續(xù)學(xué)習(xí)方法,構(gòu)建了動(dòng)態(tài)知識(shí)吸收機(jī)制,通過軟掩碼技術(shù)與對(duì)比學(xué)習(xí)策略,使模型在面對(duì)不斷更新的林業(yè)知識(shí)時(shí),既能高效吸收新知識(shí),又能適當(dāng)保留舊知識(shí),有效緩解了災(zāi)難性遺忘問題,提升了模型的適應(yīng)性和穩(wěn)定性;三是研發(fā)了多任務(wù)評(píng)估體系,準(zhǔn)確評(píng)測(cè)模型在林業(yè)文本分類和林業(yè)抽取式問答中的性能,使模型具有較好的泛化性。
ForestryBERT是在智慧林草創(chuàng)新團(tuán)隊(duì)研發(fā)的問答式林業(yè)預(yù)訓(xùn)練語言模型基礎(chǔ)上的又一重要技術(shù)突破。通過與學(xué)習(xí)了同樣林業(yè)知識(shí)但未采取持續(xù)學(xué)習(xí)機(jī)制的5種領(lǐng)域預(yù)訓(xùn)練語言模型的對(duì)比結(jié)果表明:ForestryBERT性能表現(xiàn)最好,知識(shí)遺忘率降低68.5%,具備可持續(xù)性和可擴(kuò)展性。這一成果為林業(yè)文本處理提供了創(chuàng)新策略,為林草行業(yè)大模型-林龍大模型中林草大語言模型的研發(fā)提供了核心技術(shù)支撐,也為構(gòu)建其他行業(yè)預(yù)訓(xùn)練語言模型提供了可借鑒的思路。
相關(guān)研究論文“ForestryBERT: A pre-trained language model with continual learning adapted to changing forestry text”發(fā)表在Knowledge-Based Systems,中國(guó)林科院資源所碩士生譚晶維為第一作者,張懷清研究員為通訊作者。該項(xiàng)研究得到國(guó)家重點(diǎn)研發(fā)計(jì)劃政府間國(guó)際科技創(chuàng)新合作項(xiàng)目和國(guó)家自然科學(xué)基金項(xiàng)目的聯(lián)合資助。
版權(quán)聲明: 1.依據(jù)《服務(wù)條款》,本網(wǎng)頁發(fā)布的原創(chuàng)作品,版權(quán)歸發(fā)布者(即注冊(cè)用戶)所有;本網(wǎng)頁發(fā)布的轉(zhuǎn)載作品,由發(fā)布者按照互聯(lián)網(wǎng)精神進(jìn)行分享,遵守相關(guān)法律法規(guī),無商業(yè)獲利行為,無版權(quán)糾紛。 2.本網(wǎng)頁是第三方信息存儲(chǔ)空間,阿酷公司是網(wǎng)絡(luò)服務(wù)提供者,服務(wù)對(duì)象為注冊(cè)用戶。該項(xiàng)服務(wù)免費(fèi),阿酷公司不向注冊(cè)用戶收取任何費(fèi)用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網(wǎng)絡(luò)地址:www.arkoo.com 3.本網(wǎng)頁參與各方的所有行為,完全遵守《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》。如有侵權(quán)行為,請(qǐng)權(quán)利人通知阿酷公司,阿酷公司將根據(jù)本條例第二十二條規(guī)定刪除侵權(quán)作品。 |