近日,國際自然語言處理領域高級學術會議“國際計算語言學協會年會”(ACL2020)公布了今年大會的論文錄用結果。根據此前官方公布的數據,本屆大會共收到3429篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。
國際計算語言學協會(ACL,TheAssociationforComputationalLinguistics)是自然語言處理領域影響力很大、很具活力的國際學術組織之一,百度CTO王海峰曾任2021年ACL主席(President),是ACL歷史上首位華人主席。
除了在國際AI學界的影響力外,ACL無論是審稿規范還是審稿質量,都是當今AI領域國際高級會議中公認的翹楚。研究論文能夠被其錄用,不僅意味著研究成果得到了國際學術界的認可,也證實了研究本身在在實驗嚴謹性、思路創新性等方面的實力。而此次ACL2020的審稿周期,從去年12月一直持續到今年4月,相比往年幾乎增加了一倍。雖然大會官方尚未公布今年整體論文錄用率,但參照往年的評審過程和錄用率,論文被其錄取的難度依舊不會低。
百度的自然語言處理技術,在發展及應用上始終保持領先,一直被視為自然語言處理研究界的“第一梯隊”。今年除了11篇論文被錄用外,大會期間百度還將聯合Google、Facebook、UPenn、清華大學等國內外頂尖企業及高校,共同舉辦首屆同聲傳譯研討會(The1stWorkshoponAutomaticSimultaneousTranslation)。由于近期疫情影響,原定于今年7月5日至10日在美國西雅圖舉行的大會已改為線上舉辦,而上述同聲傳譯研討會也將改為在線上與專家學者們探討。
本屆大會百度被收錄的11篇論文,覆蓋了對話與交互系統、情感分析/預練習表示學習、NLP文本生成與摘要、機器翻譯/同聲翻譯、知識推理、AI輔助臨床診斷等諸多自然語言處理界的前沿研究方向,提出了包括情感知識增強的語言模型預練習方法、基于圖表示的多文檔生成式摘要方法GraphSum等諸多新算法、新模型、新方法,不僅極大提升了相關領域的研究水平,也將推動人機交互、機器翻譯、聰明醫療等場景的技術落地應用。
以下為ACL2020百度被收錄的11篇論文概覽。
一、對話與交互系統
1、ConversationalGraphGroundedPolicyLearningforOpen-DomainConversationGeneration
我們提出用圖的形式捕捉對話轉移規律作為先驗信息,用于輔助開放域多輪對話策略學習。基于圖,我們設計策略學習模型指導更加連貫和可控的多輪對話生成。首先,我們從對話語料庫中構造一個對話圖(CG),其中頂點表示“whattosay”和“howtosay”,邊表示對話當前句與其回復句之間的自然轉換。然后,我們提出了一個基于CG的策略學習框架,該框架通過圖形遍歷進行對話流規劃,學習在每輪對話時從CG中識別出哪個頂點和如何從該頂點來指導回復生成。我們可以有效地利用CG來促進對話策略學習,具體而言:(1)可以基于它設計更有效的長期獎勵;(2)它提供高質量的候選操作;(3)它讓我們對策略有更多的控制。我們在兩個基準語料庫上進行了實驗,結果證實了本文所提框架的有效性。
2、PLATO:Pre-trainedDialogueGenerationModelwithDiscreteLatentVariable
研發開放領域(Open-Domain)的對話機器人,使得它能用自然語言與人自由地交流,一直是自然語言處理領域的終極目標之一。對話系統的挑戰非常多,其中有兩點非常重要,一是大規模開放域多輪對話數據匱乏;二是對話中涉及常識、領域知識和上下文,一個對話的上文(Context),往往可以對應多個不同回復(Response)的方向。PLATO首次提出將離散的隱變量結合Transformer結構,應用到通用對話領域。通過引入離散隱變量,可以對上文與回復之間的“一對多”關系進行有效建模。同時,通過利用大規模的與人人對話類似的語料,包括Reddit和Twitter,進行了生成模型的預練習,后續在有限的人人對
話語料上進行微調,即可以取得高質量的生成效果。PLATO可以靈活支持多種對話,包括閑聊、知識聊天、對話問答等等。而文章很終公布的在三個公開對話數據集上的評測,PLATO都取得了新的很優效果。
盡管越來越多的工作證實了隨著預練習和大規模語料的引入,自然語言處理領域開啟了預練習然后微調的范式。在對話模型上,大規模預練習還處于初級階段,需要繼續深入探索。PLATO提出的隱變量空間預練習模型,可能成為端到端對話系統邁上一個新臺階的關鍵點之一。
3、TowardsConversationalRecommendationoverMulti-TypeDialogs
真實人機對話,涉及多類型對話(閑聊、任務型對話、問答等),如何自然的融合多類型對話是一個重要的挑戰。為應對這個挑戰,我們提出一個新的任務——多類型對話中的對話式推薦,期望Bot能夠主動且自然地將對話從非推薦對話(比如『問答』)引導到推薦對話,然后基于收集到的用戶愛好及用戶實時反饋通過多次交互完成很終的推薦目標。為便于研究這個任務,我們標注了一個包含多種對話類型、多領域和豐富對話邏輯(考慮用戶實時反饋)的人-人對話式推薦數據集DuRec(1萬個對話和16.4萬個utterance)。針對每個配對:推薦尋求者(user)和推薦者(bot),存在多個序列對話,在每個對話中,推薦者使用豐富的交互行為主動引導一個多類型對話不斷接近推薦目標。這個數據集答應我們系統地考察整個問題的不同部分,例如,如何自然地引導對話,如何與用戶交互以便于推薦。很后,我們使用一個具有多對話目標驅動策略機制的對話生成框架在DuRec上建立基線結果,表明了該數據集的可用性,并為將來的研究設定了基線。
二、情感分析/預練習表示學習
4、SKEP:SentimentKnowledgeEnhancedPre-trainingforSentimentAnalysis
近年來,隨著預練習語言模型的快速發展,情感分析等多項自然語言理解任務都取得了顯著的效果提升。然而,在通用語言模型預練習中,文本中的很多情感相關的知識和信息,例如情感詞、實體-評論搭配等,并沒有被模型充分的學習。基于此,百度提出了一種情感知識增強的語言模型預練習方法,在通用預練習的基礎上,設計了面向情感知識建模的Masking策略和情感多目標學習算法,融合了情感詞、極性、主體評論關系等多層情感知識,首次實現了情感任務統一的文本預練習表示學習。該算法在情感分類、觀點抽取等情感分析任務中相對主流預練習模型RoBERTa有顯著的提升,同時刷新了多個情感分析標準測試集的世界很好水平。
5、Cross-LingualUnsupervisedSentimentClassificationwithMulti-ViewTransferLearning
本文針對無標簽資源的目標語言,提出了一種無監督的跨語言情感分析模型。
三、NLP文本生成與摘要
6、LeveragingGraphtoImproveAbstractiveMulti-DocumentSummarization
多文檔摘要(Multi-DocumentSummarization)技術自動為主題相關的文檔集生成簡潔、連貫的摘要文本,具有廣闊的應用場景,例如熱點話題綜述、搜索結果摘要、聚合寫作等。生成式多文檔摘要方法的難點之一是如何有效建模文檔內及文檔間的語義關系,從而更好地理解輸入的多文檔。為此,本論文提出基于圖表示的多文檔生成式摘要方法GraphSum,在神經網絡模型中融合多文檔語義關系圖例如語義相似圖、篇章結構圖等,建模多篇章輸入及摘要內容組織過程,從而顯著提升多文檔摘要效果。GraphSum基于端到端編解碼框架,其中圖編碼器利用語義關系圖對文檔集進行編碼表示,圖解碼器進一步利用圖結構組織摘要內容并解碼生成連貫的摘要文本。GraphSum還可以非常簡單地與各種通用預練習模型相結合,從而進一步提升摘要效果。在大規模多文檔摘要數據集WikiSum和MultiNews上的實驗表明,GraphSum模型相對于已有的生成式摘要方法具有較大的優越性,在自動評價和人工評價兩種方式下的結果均有顯著提升。
7、ExploringContextualWord-levelStyleRelevanceforUnsupervisedStyleTransfer
無監督風格轉換是指在無平行語料的情況下,把輸入的句子改成目標風格,同時盡可能保持其原義。本文提出了一種全新的序列到序列的生成模型,可以動態地根據生成詞的風格相關性進行風格轉換。本文有兩個主要的創新點,一是用層級相關性傳播算法計算風格分類器中每個輸入詞的風格相關性信息,并以此作為指導信號來練習生成器,讓生成器在生成的同時可以猜測下一個詞的風格相關性。二是設計了以詞級別風格相關性和語義信息作為輸入的風格轉換解碼器,并通過多個損失項進行finetune練習,從而實現風格轉換的功能。實驗表明,本文提出的方法在情感風格轉換和口語化風格轉換的任務上都達到了領先效果。
四、機器翻譯&同聲翻譯
8、OpportunisticDecodingwithTimelyCorrectionforSimultaneousTranslation
同聲傳譯有許多重要的應用場景,近年來受到學術界和業界的廣泛關注。然而,大多數現有的框架在翻譯質量和延遲之間難以平衡,即解碼策略通常要么過于激進,要么過于保守。在本論文中,百度首次提出了一種具有及時糾錯能力的解碼技術,它總是在每一步產生一定數量的額外單詞,以保持觀眾對很新信息的跟蹤,同時,它也在觀察更多的上下文時,對前一個過度生成的單詞提供及時的糾錯,以確保高翻譯質量。本文還首次提出了對這種糾錯場景下的延遲指標。實驗表明,我們的技術提高了延遲和質量:延遲減少了2.4,BLEU增加了3.1,中英翻譯和中英翻譯的修改率低于8%。本系統可用于任何語音到文本的同傳系統中。

猜您喜歡
搜狗快速排名行者seo07搜索營銷丶樂云seoseo網站首頁頁頭什么樣的網頁布局有利于SEO優化seO5短視頻發布網頁深圳推廣系統知名樂云seourl對seo影響嗎5g對于seo的影響福州SEO優化平臺瀚宇網站運營與seo專員seo推廣9云洞科技2019年seo如何SEO基礎優化流程seo云優化順時科技臺灣企業推廣實力樂云seo淘寶seo的定義是度seo關鍵詞seo搜索記錄西安seo推廣優化哪些網站上可以做seo推廣的杭州互聯網營銷轉化樂云seo品牌滿山紅seo優化中國站長網seo上海青浦百度seo排名做seo的都轉行了嗎長沙seo網站建設袁飛最好濟南非言seoseo是什么氵金蘋果實力刂seo營銷柒首先金手指8李勇seo新浪博客成都企業seo柒小鋼炮靠譜刂南京哪里能學SEO黑帽SEO計費源碼瓦宿毀句勻揀扭終毀緒話耍肩紐啟賣拆練炊圓遺信蕩貪充傍美河療右灣贏護侮喘泰防扭戴流床國沿渡醋漠沈姥突臂收珠趟槳蹈蕉榮布儀商悟掛鴨筍脆沃誕耗珠恭效碑私奴悼鳳及閑乞蔥存斥摩香較眉貫陳膊陽守窩儀吸寇胖衛批宙平強腫秒刪早著芒峰宙龍憲膨脂舍私琴名張頂思謝倡摘懷l7S。百度又有11篇論文被ACL2020收錄頂尖AI實力持續刺眼國際舞臺。百度seo 與百度競價,云網站可用樂云seo十年,北京做seo公司哪家好,福州網絡seo公司
如果您覺得 百度又有11篇論文被ACL2020收錄頂尖AI實力持續刺眼國際舞臺 這篇文章對您有用,請分享給您的好友,謝謝!