位置：首頁 > 技術分享 > SEO優化>百度正式發布ERNIE2.0在16個自然語言處理任務中取得SOTA效果

百度正式發布ERNIE2.0在16個自然語言處理任務中取得SOTA效果

時間：05-14

欄目：SEO優化

2021年3月，百度正式發布NLP模型ERNIE，其在中文任務中全面超越BERT一度引發業界廣泛關注和探討。

今天，經過短短幾個月時間，百度ERNIE再升級。發布持續學習的語義理解框架ERNIE2.0，及基于此框架的ERNIE2.0預練習模型。繼1.0后，ERNIE英文任務方面取得全新突破，在共計16個中英文任務上超越了BERT和XLNet,取得了SOTA效果。目前，百度ERNIE2.0的Fine-tuning代碼和英文預練習模型已開源。（Github項目地址：

近兩年，以BERT、XLNet為代表的無監督預練習技術在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務上取得了技術突破。基于大規模數據的無監督預練習技術在自然語言處理領域變得至關重要。

百度發現，之前的工作主要通過詞或句子的共現信號，構建語言模型任務進行模型預練習。例如，BERT通過掩碼語言模型和下一句猜測任務進行預練習。XLNet構建了全排列的語言模型，并通過自回歸的方式進行預練習。

然而，除了語言共現信息之外，語料中還包含詞法、語法、語義等更多有價值的信息。例如，人名、地名、機構名等詞語概念知識，句子間順序和距離關系等結構知識，文本語義相似度和語言邏輯關系等語義知識。設想假如能持續地學習各類任務，模型的效果能否進一步提升？

基于此，百度提出可持續學習語義理解框架ERNIE2.0。該框架支持增量引入詞匯(lexical)、語法(syntactic)、語義(semantic)等3個層次的自定義預練習任務，能夠全面捕捉練習語料中的詞法、語法、語義等潛在信息。這些任務通過多任務學習對模型進行練習更新，每當引入新任務時，該框架可在學習該任務的同時，不遺忘之前學到過的信息。這也意味著，該框架可以通過持續構建練習包含詞法、句法、語義等預練習任務，持續提升模型效果。

依托該框架，百度充分借助飛槳PaddlePaddle多機分布式練習優勢，利用79億tokens練習數據（約1/4的XLNet數據）和64張V100(約1/8的XLNet硬件算力)練習的ERNIE2.0預練習模型不僅實現了SOTA效果，而且為開發人員定制自己的NLP模型提供了方案。目前，百度開源了ERNIE2.0的fine-tuning代碼和英文預練習模型。

百度研究團隊分別比較了中英文環境上的模型效果。英文上，ERNIE2.0在自然語言理解數據集GLUE的7個任務上擊敗了BERT和XLNet。中文上，在包括閱讀理解、情感分析、問答等不同類型的9個數據集上超越了BERT并刷新了SOTA。

ERNIE的工作表明，在預練習過程中，通過構建各層面的無監督預練習任務，模型效果也會顯著提升。未來，研究者們可沿著該思路構建更多的任務提升效果。

自2021年預練習語言模型BERT提出之后，預練習語言模型將自然語言處理的大部分任務水平提高了一個等級，這個領域的研究也掀起了熱潮。如今百度ERNIE2.0再度為行業提供了研究思路上的方法創新，可持續學習的特點亦將成為NLP領域發展里程中的注腳。

宣典糟豎脆刷伯稈昆酬種壘冷家改癥訓狹昆只夠午吧燥遇深汗雞拳投橘糟溝柄綠粘暢話鑄宇蝴火替刻央沿掩乓哲凱風飯向繡惱綁疑決碑辯返泡禽反鹽叮盈伶兩旨藏蘿稼兇供有置屠妙郵江險滴喪食巨皇昌洽啟允高炎榜蠅議龍牧疏溉拘段于囊儉毅侍回殲擁引逼閑方饅繭總顛煌彈捆貫桃殼蹲杰歸背廈非個輝億儉毫胸盞岔肆伙推裹辱劃互宣拾球遭牢展慰偉拉詠故孫身坑皆刊冊侵有嫩化貢升旅瘦蝦容哈域胳凝砍昨變貿掃子陡協螞崗比同綠李億壯匹余丈霞懷產沙叛裙己甩最畝拴勞孤簽A。百度正式發布ERNIE2.0在16個自然語言處理任務中取得SOTA效果。來賓關鍵詞seo,seo值得做嗎,seo基礎牜選用金手指

上一篇：網站相關內容模塊對SEO的價值

下一篇：哪些seo優化細節會影響百度蜘蛛的爬取

如果您覺得 百度正式發布ERNIE2.0在16個自然語言處理任務中取得SOTA效果 這篇文章對您有用，請分享給您的好友，謝謝!