摘 要:由于術(shù)語信息的多樣化需求對術(shù)語數(shù)據(jù)來源提出了新要求,專用語料庫在術(shù)語知識庫編纂中發(fā)揮了愈益重要的作用。 文章以氣象學科為例,通過與通用語料庫比較,從類型定位、語料規(guī)模、語料選擇和語料加工四方面明確了如何設(shè)計面向術(shù)語知識庫編纂的專用語料庫。
盧華國, 中國科技術(shù)語 發(fā)表時間:2021-09-16
關(guān)鍵詞:術(shù)語信息;術(shù)語數(shù)據(jù);術(shù)語知識庫;專用語料庫
引言
為了提高語言內(nèi)部或語言之間專業(yè)交際的效率,術(shù)語學家借助術(shù)語標準化來消除專業(yè)語言中的歧義,其工作原則構(gòu)成了普通術(shù)語學的基本理念[1] ,其實踐成果主要表現(xiàn)為術(shù)語庫。 自 20 世紀 90 年代開始,伴隨著術(shù)語學研究的描寫轉(zhuǎn)向[2-4] , 術(shù)語庫的宏觀和微觀結(jié)構(gòu)也發(fā)生了顯著的變化,不再只是以規(guī)范為導向的單語或雙語術(shù)語集,已經(jīng)轉(zhuǎn)變?yōu)榧婢邔iT用途語言描寫的術(shù)語知識庫。 具體講,收錄的術(shù)語拓展至名詞以外的其他詞性;除了種-屬和部分-整體等層級概念關(guān)系,功能、因果、處所等聯(lián)想關(guān)系日益受到重視;術(shù)語的語言維度已然進入編纂者的視野,對句法、搭配以及近義、派生等聚合關(guān)系的描寫在一定程度上模糊了術(shù)語與詞語之間的界限。 西班牙格拉納達大學以框架術(shù)語學為依托,編纂了生態(tài)詞庫(EcoLexicon) [5] ,加拿大魁北克學派借鑒詞匯語義學相關(guān)理論,編纂了環(huán)境詞庫(DiCoEnviro) [6] ,二者可以看作是描寫范式下的術(shù)語知識庫的代表。
術(shù)語知識庫多樣化的信息類型對數(shù)據(jù)獲取提出了新要求,對內(nèi)省和文檔閱讀等傳統(tǒng)數(shù)據(jù)獲取方式提出了新挑戰(zhàn)。 語料庫大大突破了編者能夠閱讀的文檔數(shù)量,彌補了編者在專業(yè)知識儲備和外語語感方面的不足,語料庫工具的使用又能顯著提高數(shù)據(jù)獲取的效率。 因此,語料庫在術(shù)語知識庫編纂中發(fā)揮了不可或缺的作用。 然而,筆者發(fā)現(xiàn)鮮有研究系統(tǒng)梳理面向術(shù)語知識庫編纂的語料庫與一般用途的語料庫在設(shè)計上的共性和差異。 一般認為, 目的性、代表性和可機讀性是語料庫應該至少滿足的三個要求,也是語料庫設(shè)計中需要重點考慮的三個因素:目的性確定了語料庫的類型特征,代表性制約著語料的規(guī)模和選擇,可機讀性則對語料提出了具體的加工要求。 本文將以氣象學科為例,從語料庫設(shè)計的類型定位以及語料的規(guī)模、選擇和處理四方面探討如何設(shè)計面向氣象術(shù)語知識庫編纂的氣象英語語料庫。
1 類型定位
不同類型的語料庫對語料的規(guī)模、選擇和處理有著不同的要求。 因此,明確氣象英語語料庫的類型定位是語料庫設(shè)計的前提。 語料庫的分類可從多個角度切入:
(1)單語語料庫和多語語料庫。 多語語料庫根據(jù)研究的目的又可以進一步分為平行語料庫和可比語料庫。 在平行語料庫中,兩種語言的語料相互對應,即一種語言是另外一種語言的譯文。 在可比語料庫中,兩種語言的語料的收集雖然參照同一個抽樣框架,但二者在內(nèi)容上并不存在翻譯對應關(guān)系。
(2)通用語料庫和專用語料庫。 通用語料庫廣泛采集某種語言的口、筆語形式,取樣時盡可能考慮口、筆語的主要社會變體、地域變體、行業(yè)變體等各種變異及語言使用的各種場合之間的平衡,力求最好地代表一種語言的全貌。 而專用語料庫出于某種特定的研究目的,常常只收集某特定領(lǐng)域的語言使用樣本。
(3)共時語料庫和歷時語料庫。 共時語料庫由同一時代(主要是當代) 的語言使用樣本構(gòu)成, 歷時語料庫則由不同時代的語言使用樣本構(gòu)成。
(4)本族語語料庫和學習者語料庫,前者收集的語言使用樣本全部源自本族語者,后者的語料則由非本族語學習者語言使用樣本構(gòu)成。
(5)口語語料庫和筆語語料庫。 雖然,在日常生活中,口頭交際是最主要的交流方式。 但是由于口語語料需要先轉(zhuǎn)寫成文本才能為語料庫分析軟件進行識別和處理,口語語料庫的建設(shè)需要耗費更多的人力和物力, 因而純粹的口語語料庫非常少見[7] 4 [8] 69-74 。
綜上 所 述, 語 料 庫 的 分 類 體 系 可 以 用 圖 1 表示。
在上述分類體系中,從同一視角對語料庫的二元劃分只是為了方便討論,并不能排除兩種劃分之間的過渡類型。 例如,時間跨度只是一個相對的概念,歷時語料庫和共時語料庫之間僅僅存在度的差異,無法截然分開。 盡管如此,該分類體系為理解氣象英語語料庫的類型特征提供了一個參照的框架。 首先,氣象英語語料庫不關(guān)心整個語言的使用情況,僅專注于氣象學科,顯然應該歸于專用語料庫,這是氣象英語語料庫最基本的類型特點。 此外,氣象英語語料庫不以翻譯或跨語對比為研究目標。 其次,氣象英語語料庫屬單語語料庫,僅涉及英語這一種語言,旨在記錄和描寫氣象專業(yè)英語的語義/ 概念或句法特征,所收集的語料源自能夠熟練使用英語進行專業(yè)交際的氣象專家,主要指以英語為母語的氣象專業(yè)人士,與服務于中介語研究的學習者語料庫有著明顯的區(qū)別。 再次,氣象交際主要是一種書面語交際,雖然也涉及課堂教學和學術(shù)講座等口頭形式,但是本質(zhì)上屬于正式的語體。 因此,氣象英語語料庫可歸為筆語語料庫。 最后,氣象英語語料庫關(guān)注的是當代氣象英語的使用情況, 并不特別關(guān)心氣象英語的發(fā)展變化,因而本質(zhì)上屬于共時語料庫。 通過在語料庫的整個分類體系中對氣象英語語料庫進行定位,可以幫助語料庫的設(shè)計者從宏觀上把握其類型特征,為確定語料的規(guī)模大小、語料選擇的具體標準、語料的加工處理奠定基礎(chǔ)。
2 語料規(guī)模
語料的規(guī)模是指語料庫所包含的形符( token) 總數(shù)(包含多次出現(xiàn)且被重復計入的詞),是設(shè)計者在語料庫建設(shè)之初就需要考慮的一個重要方面。 20 世紀 60—70 年代,語料的收集主要靠鍵盤輸入和光學掃描,需要耗費大量的時間、人力和資金。受技術(shù)水平的限制,能夠存儲和處理的數(shù)據(jù)量也非常有限。 而現(xiàn)在大部分文本都以電子形式存在,省去了人工輸入之苦。 就硬件而言,普通的個人電腦已經(jīng)能夠滿足語料庫建設(shè)對海量數(shù)據(jù)的存儲和處理要求。 因此,討論“語料規(guī)模需要有多大” 比探討“語料規(guī)模能有多大”更有實際意義。
語料規(guī)模的大小首先取決于建庫的目的。 語料庫可用于研究語法,也可以用于考察詞匯。 與詞匯相比,語法結(jié)構(gòu)數(shù)量少且復現(xiàn)率高,所以用于研究語法特征的語料規(guī)模較小。 例如,Biber [9] 指出 1000 詞的語料就能滿足研究英語動詞現(xiàn)在時和過去時的需要。 用于考察詞匯特征的語料規(guī)模則需要大很多[10] 。 由齊普夫定律[11] 可知,部分詞匯 (如 and、the)在文本中出現(xiàn)的頻率非常高,部分詞匯的出現(xiàn)頻率卻非常低。 只有增加語料的規(guī)模,才可能增加相對生僻的詞匯在語料庫中出現(xiàn)的頻次。對詞典編纂而言,只有當語料庫包含的類符總量足夠大時,基于語料庫產(chǎn)生的詞表才能滿足詞典對收詞量的需要,為詞典編者提供足夠量的索引行作為描寫詞匯特征的數(shù)據(jù)基礎(chǔ)。 Krishnamurthy [12] 認為形符量達到 1 億的語料庫能夠滿足袖珍詞典的編纂需要,但是還不足以用來描寫詞匯的類連接特征。 Atkins 和 Rundell [8] 54 指出有時候一個詞即使在語料庫中出現(xiàn) 100 次也不足以保證描寫詞匯特征所需要的確定性( descriptive certainty)。 如果被描寫的詞是多義詞,有著復雜的語法結(jié)構(gòu)和豐富的搭配型式,那么語料規(guī)模只有成倍增加才能滿足編者描寫多義詞的需要。
語料的規(guī)模還與涉及的領(lǐng)域( domain) 或主題 (topic)的多少和寬窄有關(guān)。 就通用語料庫而言,為了取得平衡的效果,語料往往需要涵蓋多個主題, 其規(guī)模也必然很大。 相比之下,“專用語料庫往往較小,但是依然能夠代表專業(yè)語言變體,因為涉及的專業(yè)領(lǐng)域越窄,代表該領(lǐng)域所需要的文本數(shù)量就越小” [13] 408 。 專用語料庫在語料規(guī)模方面的這一特點與術(shù)語自身的特點是分不開的。 首先,與通用詞匯比,術(shù)語具有專業(yè)特殊性( domain-specificity), 數(shù)量相對少,在專業(yè)文本中的分布密集程度高。 因此,規(guī)模較小的專用語料庫也能夠滿足術(shù)語研究對覆蓋范圍和復現(xiàn)率的要求。 其次,由于術(shù)語在搭配方面透明度高且規(guī)律性強,無需借助對大量語料的頻次統(tǒng)計以濾掉那些高度依賴語境的非典型搭配 (例如,. . . went to the graveyard with weeping eyes and hairs 中的軛式搭配 weeping eyes and hairs)。最后,在術(shù)語中,單義術(shù)語占據(jù)多數(shù),即使有多義術(shù)語,其 義 項 數(shù) 量 與 通 用 語 言 中 的 常 用 詞 匯 ( 如 break)也不可同日而語。 因此,描寫術(shù)語需要的索引行的數(shù)量在理論上比描寫常用詞匯要小。
Bowker 和 Pearson [14]45 指出“不應該想當然地認為(專用語料庫) 總是越大越好”。 李德俊[15] 98 也提醒說,由于“規(guī)模悖論”的存在,語料庫的規(guī)模并不是越大越好,在語料庫建設(shè)時,要特別注意“收益遞減率”(the law of diminishing returns)。 作為典型的專用語料庫,氣象英語語料庫僅涉及氣象專業(yè)文本,其語料規(guī)模無需達到通用語料庫的級別。 參考同類面向術(shù)語知識庫編纂的專用語料庫的設(shè)計經(jīng)驗(如[16]),筆者認為氣象英語語料庫的語料規(guī)模至少達到百萬級別,才能滿足氣象術(shù)語知識庫術(shù)語知識描寫對語料規(guī)模的要求。 此外,考慮到氣象英語中新術(shù)語、新用法持續(xù)出現(xiàn)的特點,氣象英語語料庫應該呈現(xiàn)出一定的開放性,允許編者根據(jù)編纂的實際需要定期補充新文本。 換言之,氣象英語語料庫的語料收集不是一次就能完成的,而是一個在百萬級別基礎(chǔ)上不斷充實的動態(tài)過程。
3 選擇標準
語料有規(guī)模大小之別,但代表性是其共同特點。 語料的代表性主要通過對文本的選擇來實現(xiàn)。文本選擇的標準可以分為內(nèi)部標準和外部標準兩類。 就通用語料庫而言,語料選擇的內(nèi)部標準是指文本所共享的語言或文體特征。 Atkins 和 Rundell [8] 54 介紹了基于內(nèi)部標準的文本選擇過程: (1)選擇系列來源不同的文本;(2) 分析文本中反復出現(xiàn)的詞匯或語法特征(如語態(tài)、人稱、搭配); (3)基于這些特點嘗試對文本進行分類;(4) 收集更多能夠包含這些語言特征的文本,繼續(xù)分析文本的語言特征,改進其分類,收集更多文本,直至這些特征在語料庫中更清晰地反映出來。 值得注意的是,依據(jù)內(nèi)部標準從語料中獲取的數(shù)據(jù)可能因循環(huán)論證而信度受損[17] 171 。 鑒于此, Sinclair [17]提出按照文本的情景、功能等非語言( non-linguistic) 或語言外(extra-linguistic)特征選擇語料,這樣至少可以使語言特征在語料庫建設(shè)的開始階段不受文本選擇的影響。 語料庫的建設(shè)者在按照外部標準選擇語料的同時,還可以根據(jù)從語料分析中獲取的語言特征評估和改進語料的代表性[18]150 ,從而把外部標準和內(nèi)部標準統(tǒng)一到文本的選擇過程中。
專用語料庫也可以把語言特征作為選擇專業(yè)文本的內(nèi)部標準。 Halskov [19]主張把易讀性(readability)和專業(yè)知識密度作為衡量專業(yè)文本質(zhì)量的重要指標。 他認為易讀性是學術(shù)文本的重要特征, 與句子長度、詞(包括復合詞) 長度和被動語態(tài)的使用量呈反比關(guān)系,與通用詞匯密度和人稱代詞的使用量呈正比關(guān)系。 專業(yè)知識密度是學術(shù)文本的另一個特征,與未登錄詞( out of vocabulary words, 指在自然語言處理中沒有被詞典收錄的各類專有名詞、縮略語、新增詞匯等)和知識型式(主要包含詞匯或語法標記語,能夠幫助文本讀者理解概念的意義和概念之間的關(guān)系)的密度呈正比關(guān)系。 換言之,易讀性越低,知識密度越高,文本質(zhì)量就越高。易讀性和知識密度雖然為專用語料庫的文本選擇提供了參考,但是由于偏好知識密集型文本,容易造成文本類型單一的缺點。
Bowker 和 Pearson [14] 51 指出,為了保證更全面地覆蓋專門用途語言的概念和語言特征,專用語料庫應該選擇與所涉學科相關(guān)的各類文本。 他們根據(jù)參與方把專業(yè)交際分為專家-專家、專家-初學者(initiate)、相對專家(relative expert) -外行(uninitiate)和老師-學生四種類型[20]35-39 。 他們認為,第三種交際不僅術(shù)語密度低,而且對術(shù)語的使用也比 較隨意,因而主張把該類交際中涉及的文本排除在語料庫之外。 筆者認為在該類交際中,鑒于信息接受者的專業(yè)知識水平低,信息發(fā)出者為了有效傳遞專業(yè)信息,往往以深入淺出的方式對核心概念進行解釋,專業(yè)文本因而提供了較豐富的認知語境信息,也值得納入專用語料庫的選材范圍。
就氣象英語語料庫而言,這四類交際場景涉及專著(如 Severe Convective Storms) 和學術(shù)期刊(如 Atmospheric Research)、專業(yè)教材(如 An Introduction to Dynamic Meteorology)、報刊科普或?qū)谖恼?如 ScienceDaily 網(wǎng)站上有關(guān)氣象的科普文章)、入門級教材( 如 Essentials of Meteorology: An Invitation to the Atmosphere) 等文本類型。 Bergenholtz 和 Tarp [21]94指出專用語料庫在選擇文本的時候還應該兼顧各個子學科并根據(jù)其重要性確定各類文本在語料中所占的比重。 具體到氣象英語語料庫,對語料的選擇應該至少涵蓋大氣、大氣探測、大氣物理學、大氣化學、動力物理學、天氣學、氣候?qū)W、應用氣象學 8 個學科分支。
4 加工處理
語料庫的一大優(yōu)勢是可以借助分析軟件對語料進行多文本檢索,快速提取所需要的具體信息或統(tǒng)計某一語言特征的整體分布情況。 語料的可機讀性是語料庫發(fā)揮這一優(yōu)勢的前提。 為此,首先需要對選取的語料進行清潔處理。 用于氣象英語語料庫建設(shè)的語料資源多是 PDF 和 HTML 數(shù)字文本,在投入使用之前,需要統(tǒng)一轉(zhuǎn)換成純文本。 在此過程中,還會產(chǎn)生一些不合規(guī)范的符號或格式, 若不加以清理會導致詞匯分析、搭配統(tǒng)計不準確以及詞性賦碼出錯或無法進行[7] 32 。 此外,由于語料來源于各種類型的出版物,被選取的文本可能還包含致謝、版權(quán)頁、頁頭書名、圖表公式、索引目錄、參考文獻等內(nèi)容。 它們對氣象術(shù)語知識庫編纂沒有參考價值,也需要從文本中清理出去[8]85 。
在進行必要的清理之后,還需要對語料做進一步的處理,以便借助軟件從語料分析中得到更準確的結(jié)果:(1)分詞處理( tokenization)是語料預處理中的一個常見步驟,指將一連串的字符轉(zhuǎn)換成相互分離、容易識別的形符。 梁茂成、李文中和許家金[7] 45 指出,如果不對語料進行分詞處理,一來容易導致檢索困難,二來可能會使語料庫的頻率統(tǒng)計出現(xiàn)誤差,還可能會影響語料庫的標注和后期加工。 (2)詞目還原( lemmatization)是語料預處理中的另一項基本操作,是指將詞匯的各種屈折形式映射至原形,使分析軟件能夠把它們歸并為同一個類符,從而把與詞目相關(guān)的各類統(tǒng)計信息匯總給編者。 氣象英語語料庫同樣有必要進行分詞和詞目還原,但是由于某些分析軟件( 如術(shù)語提取軟件 TermoStat、搭配關(guān)系和概念關(guān)系提取軟件 Sketch Engine)已經(jīng)整合了這兩項功能,語料庫的建設(shè)者無需對語料再做這方面的處理。
Leech [22]4 指出“為了從語料庫中提取信息,經(jīng)常得先從輸入信息開始”。 對語料進行清理、分詞和削尾處理之后,語料庫已經(jīng)可以投入使用,但是為了讓使用者更合理地解讀由軟件獲取的分析結(jié)果,還需要增加元數(shù)據(jù)(meta-data)標記,盡可能恢復在語料采集中丟失的語境信息。 在各類元數(shù)據(jù)中,文本分類信息和結(jié)構(gòu)信息對合理解讀從語料庫中獲取的數(shù)據(jù)特別重要[18]155 。 就英語氣象術(shù)語知識庫而言,前者旨在明確某一具體文本在氣象學學科體系中的定位,可以幫助編者確定某一術(shù)語或特征的學科分支來源。 后者旨在說明文本的各組件之間的界限(如學術(shù)論文的摘要、綜述、結(jié)論等組件)。 這類信息可幫助編者確定某一語言特征在文本中的不同位置,從而結(jié)合文本結(jié)構(gòu)對數(shù)據(jù)做出更全面的解讀。
語料還需要進行必要的標注。 對術(shù)語數(shù)據(jù)庫創(chuàng)建而言,術(shù)語、搭配和概念關(guān)系這三類信息至關(guān)重要,一般需要利用正則表達式設(shè)置復雜的檢索條件才能加以提取。 以下是兩款軟件從語料中提取術(shù)語、搭配和概念關(guān)系等信息類型所使用的檢索語法:
TermoStat 的術(shù)語檢索語法: (A| N)? (A | N)? (A | N)? (A | N)? (A | N)? N [23] Sketch Engine 的“動詞+名詞”搭配檢索語法: 1: "V" "(DET|NUM|ADJ|ADV|N)"∗ 2: "N" Sketch Engine 的種屬關(guān)系檢索語法: HYPONYM, | ( | : | is| belongs ( to) ( a | the | …) type | category |…of HYPERNYM [24]
從以上檢索語法可知,增加詞性標注是提取以上信息類型的前提。 因此,對語料進行詞性賦碼是面向術(shù)語數(shù)據(jù)庫的語料加工處理的基本內(nèi)容。 術(shù)語提取軟件 TermoStat 默認對上傳的語料進行賦碼處理。 語料庫檢索軟件 Sketch Engine 為英語就提供了 11 種詞性賦碼集,語料庫建設(shè)者根據(jù)需要選擇其中一種賦碼后,軟件自動完成對語料的詞性賦碼。
5 結(jié)語
語料庫設(shè)計是從語料庫中提取可靠數(shù)據(jù)的關(guān)鍵。 為了建設(shè)面向術(shù)語知識庫編纂的語料庫,編者需要首先在語料庫分類體系中為專用語料庫定位以明確其類型特征,然后根據(jù)語料庫的建設(shè)目的和涉及的主題范圍確定語料的大致規(guī)模,并根據(jù)數(shù)據(jù)提取中出現(xiàn)的新情況向語料庫中添加新語料。 為了保證語料庫的代表性,編者還需要根據(jù)專業(yè)交際的特點和學科的內(nèi)部構(gòu)成確定語料選擇的標準。最后在使用語料之前,還應該對收集的文本進行必要的格式轉(zhuǎn)換、內(nèi)容清理、信息標注等處理。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >