日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

SCI期刊 | 網(wǎng)站地圖 周一至周日 8:00-22:30
你的位置:首頁 >  生物醫(yī)學論文 ? 正文

生物醫(yī)學多元化命名分辨分析

2021-4-9 | 生物醫(yī)學論文

本文作者:馬瑞民 馬民艷 單位:東北石油大學數(shù)據(jù)庫理論與技術科研室

生物醫(yī)學的快速發(fā)展,產(chǎn)生了大量的生物醫(yī)學數(shù)據(jù)。這些生物醫(yī)學數(shù)據(jù)有的是以結構化的形式存在于數(shù)據(jù)庫中,例如基因序列、基因微陣列實驗數(shù)據(jù)和分子三維結構數(shù)據(jù)等;有的生物醫(yī)學數(shù)據(jù)以非結構
化的形式被記載在各種生物醫(yī)學文獻中。從生物醫(yī)學文獻中發(fā)掘出隱含的生物醫(yī)學知識,是生物醫(yī)學信息抽取的重要意義所在。生物醫(yī)學命名實體識別是生物醫(yī)學信息抽取的一項重要基本任務之一,它
主要是從醫(yī)學文獻中發(fā)現(xiàn)基因、蛋白質(zhì)、DNA、RNA等生物實體。生物醫(yī)學命名實體識別的研究具有一定的艱巨性,主要是因為生物文獻中實體命名不規(guī)范、相同的詞或者短語表示不同類別命名實體等,
給研究帶來了一定的困難。

目前,生物醫(yī)學實體識別的方法主要有基于字典、基于規(guī)則和基于機器學習的方法。生物醫(yī)學命名實體識別研究初期,最常使用的是基于字典的方法。如Krauthammer等[1]利用DNA和蛋白質(zhì)序列比較工具
BLAST識別生物醫(yī)學命名實體。上述方法的優(yōu)點是簡單實用,但由于新的生物醫(yī)學命名實體不斷出現(xiàn),所以基于字典的方法對于自由文本的生物醫(yī)學命名實體識別效果不佳。Olsson等[2]提出了基于規(guī)則
的方法識別生物醫(yī)學命名實體,F(xiàn)值達到了67%。與基于詞典的方法比較,基于規(guī)則方法的識別性能有所增強,但它需花費大量人工勞動、且可移植性差。基于機器學習的方法可以判別生物醫(yī)學命名實體
數(shù)據(jù)庫中未包含的實體,方法較為靈活。該方法對訓練數(shù)據(jù)規(guī)模、質(zhì)量以及特征選取等方面的因素具有很強依賴性,所以,此方法對于生物醫(yī)學命名實體識別性能提高的研究具有很強挑戰(zhàn)性。本文將采
取有效的機器學習算法,結合多種策略,以期提高生物醫(yī)學命名實體識別的識別性能。

1算法

目前主要應用在生物醫(yī)學命名實體的機器學習方法有多種。文獻[3~6]中分別提出基于隱馬爾可夫模型、決策樹、支持向量機、最大熵等方法,這些方法把詞性、詞形等特征融入到機器學習模型中,利
用訓練得到的學習模型從生物醫(yī)學文本集合中識別出指定類型的名稱。雖然取得了一定成果,卻也具有一定的不足,如識別性能不高、多種條件約束、識別策略單一化等。條件隨機域機器學習算法在自
然語言處理領域中有著非常顯著的優(yōu)勢,目前已成功應用到詞性標注、語塊識別和新聞領域的命名實體識別中,且表現(xiàn)出了非常好的效果。該模型的特性表明它非常適用于生物醫(yī)學領域的命名實體識別
研究。鑒于此,本文采用條件隨機域算法對生物醫(yī)學命名實體識別進行研究。條件隨機域(ConditionalRandomFields,CRFs)是Lafferty等人于2001年提出來的[7]。它是計算具有無向圖G結構的隨機變
量集合在給定隨機變量集合o下的條件概率P(s|o)。將CRFs應用于生物醫(yī)學命名實體識別中,則o表示一個句子的單詞序列,s表示相應的狀態(tài)序列,標注的過程就是根據(jù)已知的單詞序列推斷出最有可能
的狀態(tài)序列,即P(s|o)的最大值。本文實驗使用了一階線性CRF,如下式:(公式略)。條件隨機域模型允許在觀察序列上的任意依賴關系,并且特征不需要一定是一個完整的狀態(tài)或觀察值,可以用較
少的訓練數(shù)據(jù)訓練出模型,所以說,CRFs擁有了一般的最大熵模型的所有優(yōu)點。

2實驗

2.1特征選擇

生物醫(yī)學命名實體識別中常用的特征有以下幾種,一是局部特征,包括文本符號本身的特征和文本符號局部的上下文特征及其周圍的詞或符號的特征;二是全文特征,即文本符號在整個篇章中的上下文
特征;三是外部資源特征,比如說使用一些外部資源詞典等。本文研究中,使用了如下特征:(1)單詞本身:把單詞本身作為一個識別特征。(2)詞形特征:由于生物醫(yī)學命名實體一般含有數(shù)字、大
寫字母和特殊符號等,將這些簡單的表面特征定義為詞形特征。本實驗將大寫字母都用‘A’替換,數(shù)字用‘0’替換,非英語字符用‘-’替換,小寫字母用‘a’替換。(3)標準化拼寫特征:某些同一
類的生物醫(yī)學命名實體,它們拼寫方式很類似,如:IL-2andIL-4。用簡單的方法標準化所有類似的詞。如Kappa-B規(guī)范化為‘Aaaaa_A’,再將連續(xù)的相同的字符縮短為一個字符,即為‘Aa_A’。這樣做
能夠?qū)⑵磳懴嗨频纳镝t(yī)學命名實體提取的特征保持一致。(4)詞性特征:生物醫(yī)學命名實體的大寫字母特征對其識別性能貢獻不大,并且生物醫(yī)學命名實體多是描述性的名稱而且名稱很長,所以,詞
性特征對識別生物醫(yī)學命名實體邊界很有幫助。本系統(tǒng)使用了GENIAtagger2.0.2[8]詞性標注器,GENIAtagger使用了WallStreetJournal語料和PennBioIE語料訓練,因此GENIAtagger在生物醫(yī)學領域文本
中詞性標注具有較高性能。(5)語塊特征:系統(tǒng)使用GENIAtagger2.0.2進行語塊標注作為特征。(6)關鍵詞特征:利用統(tǒng)計方法在訓練集中統(tǒng)計出高頻的生物醫(yī)學命名實體關鍵詞,將這些詞是否出現(xiàn)
作為特征。(7)別名特征:將已識別出的生物醫(yī)學命名實體存放在一個列表中,當系統(tǒng)遇到一個候選詞時,生物醫(yī)學命名實體識別算法就被激活,動態(tài)決定該候選詞是否是前面已經(jīng)識別出來的生物醫(yī)學
命名實體列表中詞的別名。別名特征屬于全文特征。(8)特征聯(lián)合:將相鄰位置的特征進行聯(lián)合,得出新的特征,有助于識別長距離詞。本實驗選擇窗口的大小為(-1,+1)。(9)字典特征:使用了
一些字典資源作為特征加入特征向量空間,有CommonWord詞典、Species詞典、Tissue詞典和EndingsofChemicals詞典[9]等。

2.2縮寫詞識別

現(xiàn)在最常用的生物醫(yī)學文獻庫是MEDLINE(MEDLARSONLINE),它是由美國國家醫(yī)學圖書館于1966年開始建立的,收錄的文獻總量超過1500萬條。據(jù)了解,MEDLINE上42.8%以上的摘要有縮寫詞,平均5~10篇
摘要有一個新出現(xiàn)的縮寫詞,并且縮寫詞出現(xiàn)的增長率逐漸升高。很多縮寫詞具有高度歧義性,它的形成沒有任何規(guī)律,所以,提高縮寫詞的識別率對生物醫(yī)學命名實體的識別研究至關重要。通常,縮
寫形式經(jīng)常和它的擴展形式一起出現(xiàn),并通過括號連接,通常有兩種形式:(1)longform(shortform),(2)shortform(longform)。實際當中大部分是第1種形式,當括號中的詞超過兩個時,就認

Top
主站蜘蛛池模板: 污污又黄又爽免费的网站 | 国产av免费观看日本 | 久久秋霞理伦片 | 性与肉体电影免费观看 | 古代荡乳尤物H妓女调教 | 51精品国产AV无码久久久 | 日美欧韩一区二去三区 | 欧美又粗又大AAAA片 | 精子pk美女 | 成人在免费视频手机观看网站 | 成人国内精品久久久久影院 | 久久精品国产亚洲AV热无遮挡 | 亚洲妈妈精品一区二区三区 | 国产免费网站看v片在线 | 5g在线视讯年龄确认海外禁止进入 | 日本特殊精油按摩 | 色久天| 又黄又爽又无遮挡在线观看免费 | 99久久人妻无码精品系列性欧美 | 亚洲 在线 日韩 欧美 | 久久中文字幕免费高清 | 无套内射在线观看THEPORN | 久久国产综合精品欧美 | CHINSEFUCKGAY无套| 红尘影院手机在线观看 | 国产成人免费观看 | 99久久夜色精品国产亚洲AV卜 | 在线播放av欧美无码碰 | 欧美乱妇日本无乱码特黄大片 | 亚洲欧美日韩精品久久奇米色影视 | 亚洲欧美高清在线精品一区 | 午夜精品久久久久久久99蜜桃 | 女性BBWBBWBBWBBW | 国产伦精品一区二区免费 | 女人高潮了拔出来了她什么感觉 | 全黄H全肉禁乱公 | 亚洲人视频在线观看 | 亚洲国产AV无码综合在线 | 伊人网青青草 | 伊人久久伊人 | 中文字AV字幕在线观看 |