日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

樹人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹人論文網(wǎng)

融合單語語言模型的漢越偽平行語料生成

來源: 樹人論文網(wǎng)發(fā)表時(shí)間:2021-03-25
簡(jiǎn)要:神經(jīng)機(jī)器翻譯在資源豐富的語種上取得了良好的翻譯效果,但是由于數(shù)據(jù)稀缺問題在漢語-越南語這類低資源語種上性能不佳。目前緩解該問題最有效的方法之一是利用現(xiàn)有資源生成偽平

  神經(jīng)機(jī)器翻譯在資源豐富的語種上取得了良好的翻譯效果,但是由于數(shù)據(jù)稀缺問題在漢語-越南語這類低資源語種上性能不佳。目前緩解該問題最有效的方法之一是利用現(xiàn)有資源生成偽平行數(shù)據(jù)。考慮到單語數(shù)據(jù)的可利用性,在回譯方法的基礎(chǔ)上,首先將利用大量單語數(shù)據(jù)訓(xùn)練的語言模型與神經(jīng)機(jī)器翻譯模型進(jìn)行融合,然后在回譯過程中通過語言模型融入語言特性,以此生成更規(guī)范質(zhì)量更優(yōu)的偽平行數(shù)據(jù),最后將生成的語料添加到原始小規(guī)模語料中訓(xùn)練最終翻譯模型.在漢-越翻譯任務(wù)上的實(shí)驗(yàn)結(jié)果表明,與普通的回譯方法相比,通過融合語言模型生成的偽平行數(shù)據(jù)使?jié)h-越神經(jīng)機(jī)器翻譯的性能獲得了 1.41 個(gè) BLEU 值的提升。

融合單語語言模型的漢越偽平行語料生成

  計(jì)算機(jī)應(yīng)用 發(fā)表時(shí)間:2021-03-22《計(jì)算機(jī)應(yīng)用》雜志,于1981年經(jīng)國家新聞出版總署批準(zhǔn)正式創(chuàng)刊,CN:51-1307/TP,本刊在國內(nèi)外有廣泛的覆蓋面,題材新穎,信息量大、時(shí)效性強(qiáng)的特點(diǎn),其中主要欄目有:先進(jìn)計(jì)算、網(wǎng)絡(luò)與通信、計(jì)算機(jī)軟件技術(shù)等。

  關(guān)鍵詞: 漢-越神經(jīng)機(jī)器翻譯;數(shù)據(jù)增強(qiáng);偽平行數(shù)據(jù);單語數(shù)據(jù);語言模型

  0 引言

  神經(jīng)機(jī)器翻譯 (Neural Machine Translation, NMT)是 Sutskever 等[1]提出的端到端的機(jī)器翻譯方法,其訓(xùn)練數(shù)據(jù)越多模型性能越好,但對(duì)于資源稀缺型語言而言,可獲取的雙語數(shù)據(jù)十分有限,這也是導(dǎo)致翻譯效果不佳的主要原因。

  目前改善低資源語言神經(jīng)機(jī)器翻譯系統(tǒng)性能的方法有很多,其中利用現(xiàn)有資源擴(kuò)充偽平行數(shù)據(jù)的方法是目前較為有效的方法之一。目前實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充的方法主要有四類:第一類方法是在可比語料中抽取偽平行句對(duì)[2-3],通過將源語言與目標(biāo)語言映射到同一空間中,根據(jù)一定規(guī)則挑選出候選平行句對(duì),這種方法能夠有效地抽取偽平行語料,但是不容易捕捉句子特征,并且抽取到的偽平行句對(duì)噪聲較大;第二類方法是基于詞的替換[4-5],利用現(xiàn)有小規(guī)模平行句對(duì)指定的詞進(jìn)行規(guī)則替換得到新的偽平行句對(duì),但是當(dāng)出現(xiàn)單詞一對(duì)多的情況時(shí)效果不佳;第三類是基于樞軸語言的方法[6],文獻(xiàn)[7] 將其整理分為系統(tǒng)級(jí)、語料級(jí)以及短語級(jí)三種方法,并提出通過擴(kuò)大生成訓(xùn)練數(shù)據(jù)的規(guī)模以及優(yōu)化詞對(duì)齊質(zhì)量的方式來提高系統(tǒng)的翻譯性能,此方法適用于零資源語言但產(chǎn)生的語料質(zhì)量不佳,針對(duì)此問題文獻(xiàn)[8]將源-樞軸及樞軸-目標(biāo)語言的稀有詞整理為雙語詞典并融入到樞軸語言方法的翻譯過程中,有效地提升了樞軸語言方法生成偽平行數(shù)據(jù)的質(zhì)量;第四類是利用單語數(shù)據(jù)進(jìn)行回譯(Back Translation, BT)[9],通過小規(guī)模訓(xùn)練數(shù)據(jù)訓(xùn)練目標(biāo)語言到源語言的翻譯模型,將目標(biāo)語言單語數(shù)據(jù)翻譯為源語言數(shù)據(jù),以此生成偽平行數(shù)據(jù)。

  漢語-越南語是典型的低資源語言對(duì),可獲取的平行語料較少,通過數(shù)據(jù)擴(kuò)充生成偽平行數(shù)據(jù)可以較好地緩解此類問題。考慮到單語數(shù)據(jù)易于獲取且資源充足,但大多數(shù)現(xiàn)有的方法沒有充分利用單語資源,因此本文針對(duì)利用單語數(shù)據(jù)生成偽平行語料的方法進(jìn)行了探索研究。由于利用大量單語數(shù)據(jù)訓(xùn)練的語言模型可以較好的學(xué)習(xí)到語言特性,因此本文將單語語言模型與神經(jīng)機(jī)器翻譯模型融合,使得在偽平行數(shù)據(jù)生成過程中可以通過語言模型融入目標(biāo)語言的語言特性。實(shí)驗(yàn)表明,相比基準(zhǔn)系統(tǒng)本文方法生成的偽平行數(shù)據(jù)能有效提高漢越神經(jīng)機(jī)器翻譯的性能。

  1 相關(guān)工作

  近年來,國內(nèi)外相關(guān)研究人員對(duì)單語言數(shù)據(jù)如何提升系統(tǒng)翻譯性能進(jìn)行了廣泛研究,文獻(xiàn)[10]將利用單語數(shù)據(jù)提升神經(jīng)機(jī)器翻譯性能的方法分為與體系結(jié)構(gòu)相關(guān)的方法和與體系結(jié)構(gòu)無關(guān)的方法。與體系結(jié)構(gòu)相關(guān)的方法是需要神經(jīng)機(jī)器翻譯模型的特定結(jié)構(gòu)特征或需要對(duì)體系結(jié)構(gòu)進(jìn)行更改,與體系結(jié)構(gòu)無關(guān)方法是使用單語語料生成偽平行語料,然后將偽平行語料與平行語料混合。

  目前,目標(biāo)語言端的單語數(shù)據(jù)已經(jīng)被證實(shí)能夠極大的提升模型的翻譯質(zhì)量,并被廣泛利用,最有效的就是文獻(xiàn)[9]提出的回譯方法,即反向翻譯(Back Translation, BT),使用預(yù)先訓(xùn)練的機(jī)器翻譯系統(tǒng)翻譯目標(biāo)語言的單語數(shù)據(jù),從而生成大量的偽雙語數(shù)據(jù),并將這些偽雙語數(shù)據(jù)添加到原始數(shù)據(jù)中進(jìn)行源語言到目標(biāo)語言翻譯模型的訓(xùn)練,但是其翻譯生成的句子會(huì)存在許多錯(cuò)誤,從而影響源語言到目標(biāo)語言的翻譯模型訓(xùn)練。文獻(xiàn)[11]利用不同性能的翻譯模型通過回譯生成質(zhì)量不同的偽平行數(shù)據(jù),研究偽平行數(shù)據(jù)質(zhì)量對(duì)性能提升的影響,證明了偽平行數(shù)據(jù)的質(zhì)量越好對(duì)模型性能的提升也會(huì)越高,但其只是通過不同模型改變質(zhì)量,并沒有對(duì)如何提升偽平行數(shù)據(jù)質(zhì)量進(jìn)行研究。在Park等[12]和Crego等[13]的研究中表明,通過正向翻譯(Forward Translation, FT)獲得的人工平行語料也可以證明是有利的,但是提升效果相比回譯較差。Stahlberg 等[14]對(duì)偽平行數(shù)據(jù)有效性的上界進(jìn)行了探索,偽平行數(shù)據(jù)與原始數(shù)據(jù)的比例不超過 8:1,就不會(huì)降低系統(tǒng)的性能。文獻(xiàn)[15] 提出了一種將源語言單語數(shù)據(jù)和目標(biāo)語言單語數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練的方法,通過同時(shí)訓(xùn)練源到目標(biāo)和目標(biāo)到源的翻譯模型,在訓(xùn)練過程中同時(shí)利用正向和反向生成的偽平行數(shù)據(jù)對(duì)兩個(gè)模型進(jìn)行迭代訓(xùn)練。文獻(xiàn)[16]提出利用源語言和目標(biāo)語言的大規(guī)模單語數(shù)據(jù),通過正向翻譯和反向翻譯生成偽平行數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明只使用源端或目標(biāo)端的單語數(shù)據(jù)生成更多的偽平行數(shù)據(jù),對(duì)模型的提升效果不會(huì)隨著數(shù)據(jù)量的增加而增加。

  以上方法均是利用單語數(shù)據(jù)生成偽平行數(shù)據(jù)提升神經(jīng)機(jī)器翻譯的性能,但對(duì)低資源語言神經(jīng)機(jī)器翻譯性能的提升仍然有限。漢語和越南語都是獨(dú)立派系的語言且漢越雙語訓(xùn)練數(shù)據(jù)稀缺,考慮到偽平行數(shù)據(jù)的數(shù)量對(duì)系統(tǒng)性能的提升有限,而語言模型容易通過訓(xùn)練得到,因此本文在偽平行數(shù)據(jù)的生成過程中,將利用大量單語數(shù)據(jù)訓(xùn)練得到目標(biāo)語言語言模型融合到神經(jīng)機(jī)器翻譯模型中,融合目標(biāo)語言模型的預(yù)期效果是通過語言模型在偽平行數(shù)據(jù)的生成中融入語言特性,幫助生成語法正確的句子,使得到的偽平行數(shù)據(jù)更加規(guī)范,從而提高偽平行數(shù)據(jù)的質(zhì)量。由于正向翻譯和反向翻譯生成的數(shù)據(jù)均可以提升系統(tǒng)的性能,同時(shí)為了充分證明融合單語語言模型方法的有效性,本文在正向和反向上都生成了漢越偽平行數(shù)據(jù),其中正向翻譯中融合的是越南語越南源語言模型,反向翻譯中融合的是漢語語言模型。由于生成的偽平行語料中包含部分噪聲,因此本文對(duì)生成的偽平行語料利用漢語和越南語語言模型對(duì)其進(jìn)行質(zhì)量篩選,將最后得到的偽平行數(shù)據(jù)與原始數(shù)據(jù)一起訓(xùn)練最終漢-越神經(jīng)機(jī)器翻譯模型。

  2 單語數(shù)據(jù)生成偽平行數(shù)據(jù)方法

  2.1 偽平行數(shù)據(jù)生成框架

  目前已知正向翻譯和回譯生成的偽平行數(shù)據(jù)對(duì)系統(tǒng)性能均有提升,因此在兩個(gè)方向上生成偽平行數(shù)據(jù),并對(duì)其對(duì)翻譯系統(tǒng)提升的效果進(jìn)行了實(shí)驗(yàn)對(duì)比。對(duì)于語言模型與翻譯模型的融合,本文進(jìn)行了兩種融合方法的實(shí)驗(yàn),分別稱為基于獨(dú)立訓(xùn)練的語言模型融合和基于合并訓(xùn)練的語言模型融合。語言模型的選擇上采用可以處理任意長度輸入序列的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(Recurrent Neural Network Language Model, RNNLM)[17],整體結(jié)構(gòu)流程如圖 1 所示。

  語言模型可以看作是對(duì)一個(gè)句子存在概率的評(píng)估,通過將語言模型融合后對(duì)單語數(shù)據(jù)進(jìn)行翻譯生成偽平行數(shù)據(jù),在偽平行數(shù)據(jù)生成過程中可以結(jié)合目標(biāo)語言的語言特性。圖 1 中對(duì)正向翻譯和反向翻譯生成的偽平行數(shù)據(jù)進(jìn)行篩選所用的漢越語言模型是相同的,均是利用相同的單語數(shù)據(jù)訓(xùn)練得到的語言模型。以下將從生成偽平行數(shù)據(jù)的方式、RNNLM 和 NMT 獨(dú)立訓(xùn)練融合、RNNLM 和 NMT 合并訓(xùn)練融合以及語言模型困惑度語料篩選幾個(gè)方面對(duì)本文利用單語數(shù)據(jù)實(shí)現(xiàn)語料擴(kuò)充的方法進(jìn)行說明。

  2.2 融合語言模型的偽平行數(shù)據(jù)生成方法

  反向翻譯方法被證實(shí)是一種非常有效并且能較好的提升翻譯系統(tǒng)性能的方法,該方法有效地利用了目標(biāo)語言的單語數(shù)據(jù)。具體流程如圖 1 所示,首先使用小規(guī)模漢越雙 語 語 料 ( ) ( ) 1 { ( , ) } n n N D x y n ??訓(xùn) 練 一 個(gè) 越 漢 翻 譯 模 型 M y x ?,然后將此翻譯模型與外部語言模型進(jìn)行融合,同時(shí)將 越 南 語 單 語 數(shù) 據(jù) ( ) 1 { } t T t Y y ??翻 譯 為 漢 語 數(shù) 據(jù) ( ) 1 ' { } t T t X x ??,在翻譯期間通過融合的語言模型對(duì)翻譯的數(shù)據(jù)結(jié)合越南語的語言特性使其規(guī)范化,以此構(gòu)成反向翻譯生成的漢越偽平行數(shù)據(jù) ~ ( ) ( ) 1 { ' , } t t T y x t D x y ? ? ?,然后將生成的偽平行數(shù)據(jù)經(jīng)過語言模型篩選后與原始數(shù)據(jù)一起訓(xùn)練漢越神經(jīng)機(jī)器翻譯模型。

  正向翻譯方法生成的偽平行數(shù)據(jù)對(duì)系統(tǒng)的提升效果比反向翻譯的略差一些,但對(duì)系統(tǒng)的翻譯性能仍有提升。流程如圖 1 所示,使用小規(guī)模雙語語料 D ,訓(xùn)練漢到越的翻譯模型,然后用此模型將漢語單語數(shù)據(jù) ( ) 1 { } t T t X x ??翻譯為越南語數(shù)據(jù),在翻譯過程中本文將外部單語語言模型融合進(jìn)來,通過語言模型將越南語語言特性結(jié)合進(jìn)來,生成通過正向翻譯的漢越偽平行數(shù)據(jù) ~ ( ) ( ) 1 { ' , } t t T y x D x y t ? ? ?,最后將生成的偽平行數(shù)據(jù)與原始數(shù)據(jù)一起訓(xùn)練漢越神經(jīng)機(jī)器翻譯模型。

  2.2.1 基于獨(dú)立訓(xùn)練的語言模型融合

  語言模型訓(xùn)練方便并且可以學(xué)習(xí)到較好的語言特性,對(duì)翻譯性能可以有很好的提升效果,因此本文探索了語言模型獨(dú)立于翻譯模型的融合方式,因?yàn)槟P烷g相互獨(dú)立所以對(duì)語言模型的架構(gòu)沒有限制,本文可以選擇基于 n 元語法(n-gram)的前饋語言模型[18]或是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型,由于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型通過使用詞向量 (Word Embedding)作為輸入能夠在一定程度上緩解數(shù)據(jù)稀疏問題,并且循環(huán)結(jié)構(gòu)的引入,可以對(duì)長距離信息進(jìn)行有效建模,獲得更好的語言模型性能,因此本文方法選用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行實(shí)驗(yàn)。

  RNNLM 與 NMT 獨(dú)立訓(xùn)練融合,是對(duì) NMT 與 RNNLM 分別進(jìn)行訓(xùn)練,最后在模型 softmax 層輸出概率進(jìn)行拼接融合的方法。首先利用大量越南語單語語料對(duì)語言模型進(jìn)行預(yù)訓(xùn)練,同時(shí)利用現(xiàn)有數(shù)據(jù)訓(xùn)練一個(gè)漢越神經(jīng)機(jī)器翻譯模型,然后在神經(jīng)機(jī)器翻譯模型每一時(shí)間步長預(yù)測(cè)下一個(gè)單詞的時(shí)候,將 NMT 的概率分布與 RNN 語言模型的概率分 布 進(jìn) 行 加 權(quán) 合 并 , 以 包 含 注 意 力 機(jī) 制 (Attention Mechanism)[19]的 RNNsearch 模型[20]為例,模型融合后在 t 時(shí)刻下翻譯流程如圖 2 所示。

  在神經(jīng)機(jī)器翻譯模型和 RNN 語言模型的每個(gè)時(shí)間步長,翻譯模型和語言模型都會(huì)根據(jù)前一時(shí)刻預(yù)測(cè)的單詞對(duì)建議下一個(gè)可能的單詞進(jìn)行概率預(yù)測(cè),然后將 NMT 預(yù)測(cè)的概率 N M T ( | ) t P y x 與語言模型預(yù)測(cè)的概率 LM ( ) t P y 乘以超參數(shù)?相加,最后概率最高的單詞被選為序列中的下一個(gè)單詞 t y ,式(1)為 NMT 模型在 t 時(shí)刻預(yù)測(cè)的單詞概率,此方法思想便是將 t y 的概率預(yù)測(cè)從式(1)修改成式(2): N M T lo g a rg m a x lo g ( | ) t y y P y x ? (1) N M T L M lo g a rg m a x lo g ( | ) lo g ( ) t y y P y x P y ? ? ? (2)

  其中: x 為源語言詞, y 為目標(biāo)語言詞, t 1 y ? 為前一時(shí)刻預(yù)測(cè)的目標(biāo)語言單詞,?為超參數(shù),作為語言模型譯句的概率分布的權(quán)重,此方法需要對(duì)驗(yàn)證數(shù)據(jù)進(jìn)行額外的微調(diào),以控制語言模型的影響。為了使單詞序列獲得的更加準(zhǔn)確,神經(jīng)機(jī)器翻譯模型中解碼器應(yīng)用集束搜索(Beam Search),選擇 beam size=3,即選擇概率最大的產(chǎn)生 3 個(gè)最可能的序列,直到預(yù)測(cè)結(jié)束為止,然后選擇概率最高的序列。

  通過此融合后的模型,利用正向翻譯和反向翻譯方法生成偽平行數(shù)據(jù),與原始數(shù)據(jù)混合后再進(jìn)行漢越神經(jīng)機(jī)器翻譯模型訓(xùn)練。

  2.2.2 基于合并訓(xùn)練的語言模型融合

  在訓(xùn)練過程中,考慮到更深的融合可以更好的融合語言特性,因此本文對(duì)語言建模集成到神經(jīng)機(jī)器翻譯模型體系結(jié)構(gòu)中的方法進(jìn)行了實(shí)驗(yàn)。合并訓(xùn)練融合的好處是,考慮到神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的特征,本文可以更有效地利用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型。合并訓(xùn)練融合直接將基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型的隱狀態(tài)和神經(jīng)機(jī)器翻譯模型解碼器的隱狀態(tài)合并在一起,然后用此合并的隱狀態(tài)預(yù)測(cè)最終翻譯概率,合并訓(xùn)練融合方法的結(jié)構(gòu)流程如圖 3 所示。

  如圖 3 所示,與原始神經(jīng)機(jī)器翻譯模型不同,最終的隱藏層除了 NMT 的隱藏狀態(tài)外,還將循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的隱藏狀態(tài)作為輸入。其中 t y 為 t 時(shí)刻預(yù)測(cè)的目標(biāo)語言單詞, C t 為 t 時(shí)刻的上下文向量, LM t s 為語言模型 t 時(shí)刻的隱藏層狀態(tài), N M T t s 為神經(jīng)機(jī)器翻譯模型 t 時(shí)刻解碼器的隱狀態(tài),在每一時(shí)間步長中語言模型和翻譯模型的隱狀態(tài)還將嵌入前一時(shí)刻預(yù)測(cè)的單詞序列。因此影響整體性能的因素為上下文向量 C t 、前一時(shí)刻的單詞序列 t 1 y ? 以及隱向量狀態(tài) N M T s 和 LM s , t 時(shí)刻預(yù)測(cè)單詞概率如式(3) 所示: lo g a rg m a x lo g ( | , ) t y P y x y t ? ? (3)

  為了平衡語言模型對(duì)神經(jīng)機(jī)器翻譯模型的影響,用一個(gè)控制器網(wǎng)絡(luò) t g 在每一步計(jì)算中調(diào)整語言模型隱狀態(tài)和解碼器隱狀態(tài)之間的權(quán)重,并根據(jù)訓(xùn)練數(shù)據(jù)對(duì)模型的隱藏輸出和控制器機(jī)制參數(shù)進(jìn)行微調(diào),具體過程如式(4)~(5)所示: 1 T L M N M T ( | , ) e x p ( ( ( , , , ) )) t t o t o o t t t P y y t x y f y b ?? ? W s s C ? (4)

  其中:W o 是學(xué)習(xí)得到的權(quán)重矩陣, o f 是具有雙向最大非線性輸出的單層前饋神經(jīng)網(wǎng)絡(luò), o b 為偏差。 T L M ( ) t g t g o g b f ? ? ? v s (5)

  其中:?是 logistic 函數(shù), g ? v 和 g b 是學(xué)習(xí)參數(shù)。通過將控制器的輸出與語言模型的隱狀態(tài)相乘,使解碼器可以充分利用 NMT 的信號(hào),而控制器則控制語言模型信號(hào)的權(quán)重。同時(shí)為了使語言模型所學(xué)到的越南語特性不被覆蓋,在訓(xùn)練過程中,只對(duì)用于參數(shù)化輸出的參數(shù)進(jìn)行調(diào)整。

  在漢到越的情況下,當(dāng)沒有與中文單詞相對(duì)應(yīng)的越南語單詞時(shí),在這種情況下語言模型可以提供更多信息,同時(shí)如果要翻譯單詞為名詞時(shí),則最好忽略來自語言模型隱藏層的信號(hào),因?yàn)槊~對(duì)后續(xù)單詞概率預(yù)測(cè)的影響較大,這可能會(huì)影響解碼器選擇正確的翻譯。

  2.3 基于語言模型困惑度的數(shù)據(jù)篩選

  在統(tǒng)計(jì)機(jī)器翻譯中語料質(zhì)量評(píng)價(jià)的方法有很多,路琦等 [21]對(duì)其訓(xùn)練語料質(zhì)量的篩選方法進(jìn)行了詳細(xì)的研究。對(duì)于神經(jīng)機(jī)器翻譯偽平行數(shù)據(jù)的篩選,由于語言模型計(jì)算句子的困惑度(perplexity)實(shí)現(xiàn)方便且準(zhǔn)確度高,同時(shí)語言模型的困惑度評(píng)價(jià)可以評(píng)判句子中單詞序列出現(xiàn)的合理性,可以對(duì)句子的流暢度進(jìn)行評(píng)判,因此本文選擇此方式來過濾低質(zhì)量的偽平行語料。困惑度的評(píng)判標(biāo)準(zhǔn)是越小句對(duì)的合理性越高,句子的流暢度也越好。基于語言模型困惑度的漢越偽平行數(shù)據(jù)篩選流程如圖 4 所示。

  利用語言模型篩選數(shù)據(jù)的特點(diǎn)在于首先對(duì)生成的偽平行數(shù)據(jù)進(jìn)行排序標(biāo)號(hào),然后同時(shí)利用漢語語言模型和越南語語言模型對(duì)偽平行數(shù)據(jù)中各自語言部分進(jìn)行困惑度評(píng)判,通過過濾得到困惑度小于閾值的句子序號(hào),然后根據(jù)句對(duì)的序號(hào)排列取其交集得到最終符號(hào)條件的句對(duì)序號(hào),最后在原始偽平行數(shù)據(jù)中遍歷掃描,得到最終實(shí)驗(yàn)可用的偽平行數(shù)據(jù)。

  3 實(shí)驗(yàn)與分析

  3.1 實(shí)驗(yàn)設(shè)置

  為驗(yàn)證融合單語語言模型生成的漢越偽平行數(shù)據(jù)的有效性,本文分別在正向翻譯和反向翻譯上生成偽平行數(shù)據(jù),并與原始數(shù)據(jù)結(jié)合訓(xùn)練漢越神經(jīng)機(jī)器翻譯模型。同時(shí)為了驗(yàn)證融合單語語言模型生成的數(shù)據(jù)質(zhì)量要比原始模型生成的偽平行數(shù)據(jù)質(zhì)量高,可以使模型獲得更好的性能提升,本文分別對(duì)不同的偽平行數(shù)據(jù)對(duì)系統(tǒng)性能提升的影響進(jìn)行對(duì)比分析。考慮到生成偽平行數(shù)據(jù)所用單語數(shù)據(jù)與訓(xùn)練語言模型所用單語數(shù)據(jù)的相關(guān)性對(duì)最終模型性能的影響,本文還對(duì)來自不同領(lǐng)域的單語數(shù)據(jù)生成的偽平行語料對(duì)系統(tǒng)性能的影響進(jìn)行了實(shí)驗(yàn)對(duì)比。

  實(shí)驗(yàn)中所用漢越雙語語料是通過網(wǎng)絡(luò)爬取并進(jìn)行數(shù)據(jù)清洗后得到的 160K 平行句對(duì),并分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,其中驗(yàn)證集、測(cè)試集為在 160K 平行句對(duì)中隨機(jī)抽取的 2K 個(gè)句對(duì),本文總共收集漢語單語語料和越南語單語語料各 3200K,其中 3000K 用來訓(xùn)練語言模型,其中 500K 來自教育 領(lǐng) 域 語 料 庫 QCRI , 2500K 來 自 維 基 百 科 (Wikipedia)20191201 整理的數(shù)據(jù)集,余下 200K 用來進(jìn)行偽平行數(shù)據(jù)生成,其中 QCRI 和 Wikipedia 語料各 100K。對(duì)單語數(shù)據(jù)進(jìn)行隨機(jī)打亂后進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)所用數(shù)據(jù)如表 1 和表 2 所示。

  在進(jìn)行實(shí)驗(yàn)前需要先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,首先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行 tokenization 處理,并將句子長度在 50 個(gè)詞以上的句對(duì)過濾。實(shí)驗(yàn)中使用的神經(jīng)機(jī)器翻譯模型是 RNNsearch 和谷歌(Google)開源模型 Transformer,使用的語言模型是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型(RNNLM)。所有實(shí)驗(yàn)均使用大小為 156K 的雙語平行語料作為訓(xùn)練集,詞表大小均設(shè)置為 30K,實(shí)驗(yàn)均在單卡 GPU 服務(wù)器上進(jìn)行,為防止出現(xiàn)過擬合現(xiàn)象,在多次實(shí)驗(yàn)調(diào)整后將損失值 dropout 設(shè)置為 0.1,批值(batch size)為64,隱層單元(hidden units)為512,訓(xùn)練步長(train steps) 為 200K,使用 BLEU4 作為評(píng)測(cè)指標(biāo)。

  3.2 實(shí)驗(yàn)結(jié)果與分析

  為了對(duì)比了在 RNNsearch 模型和 Transformer 模型與 RNNLM 融合生成的偽平行數(shù)據(jù)對(duì)漢越神經(jīng)機(jī)器翻譯性能的影響,并在實(shí)驗(yàn)中對(duì)比了不同語言模型融合方式生成的偽平行數(shù)據(jù)對(duì)漢越神經(jīng)機(jī)器翻譯性能的影響。實(shí)驗(yàn)中 baseline 為僅利用原始數(shù)據(jù)訓(xùn)練得到的模型效果,最終模型翻譯方向均為漢到越,生成的偽平行數(shù)據(jù)通過語言模型篩選在正向和反向翻譯中分別過濾了 5982 和 8073 個(gè)句對(duì),通過正向翻譯方法擴(kuò)展了 194K 偽平行數(shù)據(jù),通過反向翻譯方法擴(kuò)展了 192K 可用偽平行數(shù)據(jù)。為保證實(shí)驗(yàn)結(jié)果的可靠性,每組實(shí)驗(yàn)結(jié)果的 BLEU 值都是利用相同測(cè)試集進(jìn)行實(shí)驗(yàn)得到的結(jié)果,實(shí)驗(yàn) 結(jié)果如表 3 所示。

  實(shí)驗(yàn)結(jié)果表明,增加偽平行數(shù)據(jù)后可以提升漢越神經(jīng)機(jī)器翻譯模型的翻譯性能,并且通過基于合并訓(xùn)練融合生成的偽平行語料對(duì)翻譯性能的提升效果要優(yōu)于基于獨(dú)立訓(xùn)練融合的效果,同時(shí)相較于獨(dú)立訓(xùn)練融合方法 BLUE 值約平均提升了 0.45。正向翻譯方法生成的偽平行語料提升效果相比于反向翻譯方法要略低一些,這是因?yàn)榉聪蚍g生成的偽平行數(shù)據(jù)中越南語部分是真實(shí)語句,漢語部分為翻譯生成的語句,而正向翻譯剛好相反,這使得模型在進(jìn)行訓(xùn)練時(shí)無法較為準(zhǔn)確的獲取越南語語言信息,所以反向翻譯比正向翻譯生成的偽平行數(shù)據(jù)對(duì)系統(tǒng)的提升效果要好。最后將正向和反向生成的偽平行數(shù)據(jù)合并,進(jìn)一步增加了偽平行數(shù)據(jù)的數(shù)量,在 Transformer 模型中相較于 baseline 最高獲得了 1.41 個(gè) BLEU 值的提升。

  在實(shí)驗(yàn)中,RNNsearch 模型的效果較差,這是因?yàn)榛?RNN 的翻譯模型在訓(xùn)練過程中由于線形序列依賴特性很難具備高效的并行計(jì)算能力,并且編碼器產(chǎn)生固定長度的源語言上下文向量,這種方式無法充分的利用上下文關(guān)系,而 Transformer 模型的編碼器層是由 6 個(gè) encoder 堆疊而成,解碼器也一樣,每個(gè) encoder 包含兩層,一個(gè) self-attention 層和一個(gè)前饋神經(jīng)網(wǎng)絡(luò),self-attention 能幫助當(dāng)前節(jié)點(diǎn)不僅僅只關(guān)注當(dāng)前的詞,同時(shí)能更好的獲取上下文的語義信息, decoder 也包含這兩層網(wǎng)絡(luò),并在這兩層中間還有一個(gè) attention 層,幫助當(dāng)前節(jié)點(diǎn)獲取到當(dāng)前需要關(guān)注的重點(diǎn)內(nèi)容,所以 Transformer 可以更好地利用上下文信息并且充分的利用數(shù)據(jù)訓(xùn)練翻譯模型。

  為了驗(yàn)證融合單語語言模型方法生成的偽平行數(shù)據(jù)質(zhì)量相對(duì)較好,在此對(duì)不同的偽平行數(shù)據(jù)對(duì)系統(tǒng)性能提升的影響進(jìn)行對(duì)比分析,下面將在 RNNsearch 和 Transformer 模型下對(duì)比無語言模型融合與融合語言模型生成的偽平行數(shù)據(jù),對(duì)最終翻譯模型性能提升的效果進(jìn)行實(shí)驗(yàn),其中偽平行語料規(guī)模均固定為 200K,結(jié)果如表 4 所示。

  實(shí)驗(yàn)結(jié)果表明,基于獨(dú)立訓(xùn)練融合生成的偽平行數(shù)據(jù)與無語言模型生成的偽平行數(shù)據(jù)對(duì)系統(tǒng)性能的提升相近,影響不大,而通過基于合并訓(xùn)練融合生成的偽平行數(shù)據(jù)相對(duì)無語言模型生成的偽平行數(shù)據(jù)對(duì)系統(tǒng)性能提升較高,這是因?yàn)閭纹叫袛?shù)據(jù)的質(zhì)量得到了提高,可以進(jìn)一步提升模型的翻譯效果。

  為了驗(yàn)證使用與訓(xùn)練語言模型來自不同領(lǐng)域的單語語料生成的偽平行語料對(duì)模型性能提升的影響,本文在漢語-越南語翻譯方向上,利用基于合并訓(xùn)練的語言模型融合方式,通過反向翻譯方法利用越南語單語數(shù)據(jù)生成偽平行數(shù)據(jù)。其中訓(xùn)練語言模型的數(shù)據(jù)來自維基百科的單語語料,將生成偽平行語料的單語語料分為 4 種不同組成,分別為完全來自 Wikipedia、75%與語言模型的領(lǐng)域相同余下部分為教育領(lǐng)域語料、50%相同和領(lǐng)域完全不同(0%),結(jié)果如表 5 所示。

  實(shí)驗(yàn)結(jié)果表明,當(dāng)訓(xùn)練語言模型與翻譯利用的單語數(shù)據(jù)領(lǐng)域相似越多,偽平行數(shù)據(jù)對(duì)最終翻譯模型 BLEU 值的提升也會(huì)越高。

  3.3 譯文對(duì)比分析

  以正向翻譯(漢到越)生成的偽平行數(shù)據(jù)為例,對(duì)比分析融入循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型后生成偽平行數(shù)據(jù)的質(zhì)量影響,將漢語通過本文方法翻譯為越南語,翻譯對(duì)比結(jié)果如表 6 所示。

  通過對(duì)比不同方式生成的偽平行句對(duì)可以看出, Transformer 模型生成的偽平行數(shù)據(jù)質(zhì)量要高于 RNNsearch 模型,主要原因是 Transformer 模型可以更好地結(jié)合上下文信息,并且對(duì)于部分詞的翻譯更為準(zhǔn)確,如“與藍(lán)色混合”譯文為“pha trô?n(混合) v?i(與) màu xanh lam(藍(lán)色)”,而 RNNsearch 的譯文為“và(與) xanh(綠色) ???c trô?n(混在一起)”,存在明顯的句法錯(cuò)誤和詞的翻譯問題。同時(shí)可以看出通過基于合并訓(xùn)練的語言模型融合方式翻譯得到的越南語譯文質(zhì)量比基于獨(dú)立訓(xùn)練融合得好,如“那些幫助過我的人”的正確譯文為“nh??ng(那些) ng???i(人) t??ng(曾經(jīng)) giu?p ???(幫助) tôi(我)”,合并融合方式翻譯得到的越南語譯文更加符合越南語語言特性,而獨(dú)立訓(xùn)練融合方式效果相對(duì)較弱。

  4 結(jié)語

  本文針對(duì)漢越神經(jīng)機(jī)器翻譯數(shù)據(jù)稀缺問題,充分利用單語數(shù)據(jù)資源,提出了利用單語數(shù)據(jù)在正向和反向兩個(gè)方向上生成偽平行數(shù)據(jù)的過程中將循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型融合到神經(jīng)機(jī)器翻譯模型中的方法,通過語言模型結(jié)合語言特性,從而提升了偽平行數(shù)據(jù)的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,這種方法與單一的正向翻譯和反向翻譯生成方法相比,可以在漢越神經(jīng)機(jī)器翻譯中通過提升偽平行數(shù)據(jù)質(zhì)量從而更好的提升翻譯系統(tǒng)的性能。在未來工作中,本文會(huì)探索單語數(shù)據(jù)的選擇以及偽平行數(shù)據(jù)與原始數(shù)據(jù)的權(quán)重比對(duì)系統(tǒng)翻譯性能的影響。

主站蜘蛛池模板: 解开白丝老师的短裙猛烈进入 | 99在线播放| 国产精品1卡二卡三卡四卡乱码 | 久久99r66热这里有精品 | 精品四虎国产在免费观看 | 热久久2018亚洲欧美 | 99re8热视频这在线视频 | 不良网站进入窗口软件下载免费 | 中文字幕在线免费视频 | 色-情-伦-理一区二区三区 | 日韩欧美三区 | 好大好爽CAO死我了BL | 超碰最新网站 | 在线看片av以及毛片 | 美女不要啊 | 丝袜美腿美女被狂躁在线观看 | 一本色道久久综合亚洲AV蜜桃 | 在线成 人av影院 | WWW夜片内射视频在观看视频 | 污到湿的爽文免费阅读 | 亚洲高清免费在线观看 | 精品日产1区2卡三卡麻豆 | 乳色吐息在线观看全集免费观看 | 成年女人免费播放影院 | 国产亚洲欧美ai在线看片 | 伊人久久大香线蕉综合影 | 亚洲va在线va天堂XX xX | 在线色av | 秋霞伦理电影在2017韩国在线伦 | 中文字幕日本久久2019 | 3d在线看小舞被躁视频 | 国产伦精品一区二区三区免费 | 午夜福到在线2019 | 共妻肉多荤文高h一女n男 | 幺妹视频福利视频 | 久久精品黄色 | 麻豆免费版 | 99久久国产宗和精品1上映 | 网红主播 国产精品 开放90后 | 国产午夜精AV在线麻豆 | 国内外成人免费在线视频 |