日韩欧美视频一区-日韩欧美三区-日韩欧美群交P内射捆绑-日韩欧美精品有码在线播放免费-成人免费一区二区无码视频-成人免费一级毛片在线播放视频

樹(shù)人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹(shù)人論文網(wǎng)

CERNET分布式中英文WWW信息發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)刊發(fā)論文

來(lái)源: 樹(shù)人論文網(wǎng)發(fā)表時(shí)間:2014-12-13
簡(jiǎn)要:摘要:本文首先介紹了Internet及WWW的迅速發(fā)展?fàn)顩r,隨后分析了Internet信息資源的特點(diǎn),并說(shuō)明了Internet不但是信息的源泉同時(shí)也是信息的迷宮,必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信

  摘要:本文首先介紹了Internet及WWW的迅速發(fā)展?fàn)顩r,隨后分析了Internet信息資源的特點(diǎn),并說(shuō)明了Internet不但是信息的源泉同時(shí)也是信息的迷宮,必須有信息發(fā)現(xiàn)工具協(xié)助用戶定位所需信息,為了適應(yīng)Internet的規(guī)模,變化性以及自治性等特點(diǎn),文中介紹了在廣域網(wǎng)絡(luò)環(huán)境下設(shè)計(jì)分布式應(yīng)用的若干技術(shù)和應(yīng)引起重視的問(wèn)題。例如:增加應(yīng)用的容錯(cuò)性,適應(yīng)Internet自治性,控制分布操作以及廣域環(huán)境下數(shù)據(jù)一致性問(wèn)題等。接著分析了Internet IRTF信息發(fā)現(xiàn)研究課題組研制的分布式信息發(fā)現(xiàn)系統(tǒng)Harvest,說(shuō)明了Harvest中許多值得利用和借鑒的技術(shù)以及幾個(gè)影響推廣使用的問(wèn)題。

  關(guān)鍵詞: 資源信息發(fā)現(xiàn)、 WWW、 搜索引擎

  一、Internet 的發(fā)展

  Internet是一個(gè)由各種不同類型和規(guī)模的獨(dú)立運(yùn)行和管理的計(jì)算機(jī)網(wǎng)絡(luò)組成的全球范圍的計(jì)算機(jī)網(wǎng)絡(luò)。它的前身是60年代末,70年代初美國(guó)國(guó)防部高級(jí)研究計(jì)劃署的實(shí)驗(yàn)性網(wǎng)絡(luò)ARPANET。1983年后,ARPANET中有關(guān)軍事的部分被隔離為MILNET。其后,1986年誕生的美國(guó)國(guó)家科學(xué)基金會(huì)NSFNET對(duì)Internet的發(fā)展起了劃時(shí)代的作用。

  90年代初到現(xiàn)在,是Internet增長(zhǎng)最迅速的時(shí)期,加入Internet的人員、計(jì)算機(jī)和網(wǎng)絡(luò)的數(shù)量以指數(shù)方式增長(zhǎng),Internet上的網(wǎng)絡(luò)從1985年的100個(gè)左右,迅速發(fā)展到1992年的5000多個(gè)。截止1996年7月,Internet已連接了134346個(gè)網(wǎng)絡(luò),入網(wǎng)主機(jī)1228萬(wàn)臺(tái),以及數(shù)以億計(jì)的用戶。

  二、Internet信息資源的特點(diǎn)

  隨著各個(gè)國(guó)家和組織的網(wǎng)絡(luò)不斷加入,Internet成為一個(gè)規(guī)模巨大、自治性強(qiáng)、發(fā)展變化快,用戶訪問(wèn)頻繁的國(guó)際互聯(lián)網(wǎng)絡(luò)。Internet上的信息資源隨著Internet的發(fā)展也呈現(xiàn)了以下特點(diǎn):

  ·信息量大而且分散:目前,網(wǎng)上有幾千個(gè)匿名FTP服務(wù)器分布在網(wǎng)上的不同區(qū)域,為用戶提供了數(shù)以百萬(wàn)計(jì)的文件資料。我們將在后面提到的WWW技術(shù)給每個(gè)用戶展現(xiàn)自己的機(jī)會(huì),這又構(gòu)成了另一個(gè)廣闊的信息空間。可以說(shuō),Internet是世界范圍內(nèi)的信息量最大的圖書(shū)館,為人們提供了豐富的信息資源。

  ·自治性強(qiáng):作為廣域互連的Internet不是也不可能是由一個(gè)國(guó)家或組織單獨(dú)管理的。提供何種服務(wù),如何提供,使用何種技術(shù)都是由每個(gè)接入Internet的組織自己作主。在這種廣域網(wǎng)的環(huán)境下,要達(dá)成廣泛的一致意見(jiàn)往往比較困難。

  ·信息資源多種多樣: 用戶可以通過(guò)Internet上的多種服務(wù)獲得信息,如FTP,Gopher,Archie,WAIS等等,這些信息資源無(wú)論從內(nèi)容還是形式都呈現(xiàn)出多樣異構(gòu)的特點(diǎn)。

  ·信息變化快:首先,隨著Internet的增加,新的信息不斷涌現(xiàn),其次,現(xiàn)有的信息也在不斷變化。最典型的當(dāng)屬“News”服務(wù),其以GB為單位的信息隔幾天就要更新一次。

  ·不一致性和不完整性。例如,一個(gè)人的信息可以在個(gè)人WWW主頁(yè),X.500目錄服務(wù)等多個(gè)信息源中出現(xiàn),當(dāng)信息發(fā)生改變時(shí),在這些信息源中改動(dòng)的次序和改動(dòng)是否完整都會(huì)影響信息的一致性和完整性。

  信息發(fā)現(xiàn)系統(tǒng)的一個(gè)重要目標(biāo)就是提供給用戶一個(gè)有組織的一致的信息視圖,在設(shè)計(jì)系統(tǒng)時(shí),我們應(yīng)當(dāng)考慮到Internet上信息的特點(diǎn)。

  三、WWW的特點(diǎn)及其迅速發(fā)展

  WWW(World Wide Web)是九十年代初Internet上的全球性的網(wǎng)絡(luò)信息系統(tǒng)。超文本和超媒體是WWW使用的關(guān)鍵技術(shù)。它使文本、圖象、音頻和視頻等信息有機(jī)地結(jié)合起來(lái),提供了豐富的信息表示能力。用戶可以用友好、方便多樣的界面存取信息,成為人們發(fā)布和共享信息的重要工具。越來(lái)越多的公司通過(guò)自己的主頁(yè)展示推銷自己;越來(lái)越多的大學(xué)、科研機(jī)構(gòu)也通過(guò)網(wǎng)頁(yè)來(lái)交流研究成果;越來(lái)越多的個(gè)人也擁有了自己的主頁(yè),所有這些都導(dǎo)致WWW信息迅速膨脹。在1993年下半年,WWW在不到三個(gè)月的時(shí)間里翻了一翻,即使現(xiàn)在WWW也以每六個(gè)月一翻的速度增長(zhǎng)。1995年4月,WWW在網(wǎng)上的流量超過(guò)了Internet上其它服務(wù)的流量,并一直穩(wěn)居首位。據(jù)不完全統(tǒng)計(jì),1996年初,網(wǎng)上大約有1900萬(wàn)網(wǎng)頁(yè),到現(xiàn)在WWW上的網(wǎng)頁(yè)數(shù)決不會(huì)低于2億。

  四、信息發(fā)現(xiàn)服務(wù)的迫切性

  作為一個(gè)無(wú)窮無(wú)盡的信息源泉,Internet為人們提供了巨大的并且還在不斷增長(zhǎng)的信息資源和服務(wù),Internet上各種各樣的信息源源不斷地流向人們。然而在你尋找所需的信息時(shí),Internet又象是一個(gè)信息的迷宮,讓人感覺(jué)無(wú)所適從,不知如何迅速定位自己真正需要的信息,僅依靠超文本鏈在迷宮中漫游,多半會(huì)徒勞無(wú)功。所以,人們迫切希望有信息發(fā)現(xiàn)工具為他們?cè)赪WW上搜尋信息提供導(dǎo)航。

  五、Internet信息發(fā)現(xiàn)技術(shù)的發(fā)展?fàn)顩r

  (一)已有信息發(fā)現(xiàn)系統(tǒng)的回顧

  隨著Internet發(fā)展,Internet上的信息發(fā)現(xiàn)服務(wù)和工具也逐漸發(fā)展起來(lái)。比較典型的有Archie,WAIS, Gopher,X.500等,另外,還有眾多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫(kù),和與這個(gè)數(shù)據(jù)庫(kù)相關(guān)的一套檢索方法。Archie數(shù)據(jù)庫(kù)存有通過(guò)FTP獲取的資源信息,包括這些資源的文件名、文件長(zhǎng)度、存放該文件的主機(jī)名及目錄。目前,Archie數(shù)據(jù)庫(kù)已存入了大約1200個(gè) FTP服務(wù)器、250萬(wàn)個(gè)文件的資料。Internet上有三十幾個(gè)Archie服務(wù)器,查詢 FTP的任務(wù)分布在各個(gè)服務(wù)器,它們之間通過(guò)執(zhí)行基于擴(kuò)散(flooding_based)的一致性保持協(xié)議,來(lái)保證信息的一致性。Archie的開(kāi)發(fā)者把它描述為資源發(fā)現(xiàn)和信息獲取的低端技術(shù)(low_tech)方案。Archie的成功要?dú)w結(jié)于它的簡(jiǎn)單性和對(duì)已有機(jī)制的利用。Archie有點(diǎn)類似于圖書(shū)館中的檢索卡片。當(dāng)你去圖書(shū)館查閱書(shū)籍時(shí),如果你不知道你要尋找的書(shū)放于哪一個(gè)館區(qū)的哪一個(gè)書(shū)架,那么,你通常不會(huì)挨個(gè)書(shū)架去找,而是會(huì)先查閱圖書(shū)檢索卡片。Archie也一樣,如果你不知道您要拷貝的文件放在哪一臺(tái)FTP 服務(wù)器中,你根本不可能挨個(gè)FTP服務(wù)器去查找,通過(guò)Archie,你可以根據(jù)文件名比較方便地找到文件存貯的位置。不過(guò),Archie沒(méi)有針對(duì)文件的簡(jiǎn)要說(shuō)明,僅通過(guò)文件名進(jìn)行索引,利用Archie檢索時(shí),你必須事先知道文件名或文件名的某些部份。Archie 還有另外一個(gè)不足的地方,就是它收集的資料還不全面。由于是否把 FTP服務(wù)器的資料放入Archie完全取決于自愿原則,錯(cuò)漏或更新不及時(shí)的情況就難以避免。

  2、Gopher 與Archie一樣,在最初的時(shí)候也是為解決查找FTP文件的難題而被研制和開(kāi)發(fā)的。Archie提供了一種根據(jù)文件名查找FTP文件的方法,Gopher則提供一種通過(guò)文件類別去查找文件的途徑。

  Gopher系統(tǒng)最早由Minnesota大學(xué)的一群計(jì)算機(jī)人員開(kāi)發(fā),按他們的構(gòu)想,每個(gè)信息源的擁有者應(yīng)為自己的資源建立一個(gè)分類目錄。 分類目錄按一定的層次結(jié)構(gòu)進(jìn)行組織,并被放入Gopher 服務(wù)器中供用戶檢索。用戶是通過(guò)一個(gè)稱為Gopher 客戶軟件的程序以菜單的方式查閱該目錄,直到找到所需要的信息為止。Gopher服務(wù)器的另一個(gè)功能是服務(wù)器之間的互聯(lián)性,通過(guò)一個(gè)Gopher 服務(wù)器,你可進(jìn)入另一個(gè)Gopher服務(wù)器,直接獲得該服務(wù)器中列出的資源。這樣,只要進(jìn)入任何一個(gè)Gopher服務(wù)器,您就可以在不同的Gopher 服務(wù)器之間漫游,方便地檢索和拷貝已建立Gopher目錄的任何一臺(tái)計(jì)算機(jī)中的信息。

  不過(guò),隨著 Gopher 服務(wù)器的增多,其目錄系統(tǒng)變得越來(lái)越復(fù)雜,以每個(gè)Gopher 服務(wù)器有一百條子目錄計(jì),1000個(gè)服務(wù)器就有十萬(wàn)條目錄,這樣,光是察看目錄系統(tǒng)就會(huì)占用大量的時(shí)間,而且難以找到你所需要的目錄,于是,一些幫助用戶更好地在Gopher 空間中漫游的工具不斷地被開(kāi)發(fā)出來(lái),例如,通過(guò)一種稱為Veronica 服務(wù),你可以通過(guò)輸入目錄的名稱直接進(jìn)入某個(gè)目錄,省去了逐級(jí)調(diào)用目錄菜單以及查找所需目錄的麻煩。

  3、WAIS 是“Wide area information servers” (廣域信息服務(wù)) 的縮寫(xiě)。WAIS與Archie,Gopher類似,提供了一種檢索Internet資源的方法。Archie通過(guò)文件名進(jìn)行檢索,Gopher通過(guò)文件類別進(jìn)行檢索,WAIS則按關(guān)鍵字對(duì)文件進(jìn)行全文檢索。WAIS是一種基于客戶/服務(wù)器結(jié)構(gòu)的軟件系統(tǒng)。在服務(wù)器端,管理員建立一個(gè)文件索引數(shù)據(jù)庫(kù)。與Archie數(shù)據(jù)庫(kù)一樣,該數(shù)據(jù)庫(kù)包括文件的名稱及查找路徑,比Archie數(shù)據(jù)庫(kù)更進(jìn)一步的是,該數(shù)據(jù)庫(kù)還包括文件內(nèi)容的全文索引。這樣,用戶不但可以通過(guò)文件名,而且可以通過(guò)關(guān)鍵字去檢索文件內(nèi)容。在用戶端,用戶只需要輸入某些關(guān)鍵字,WAIS服務(wù)器就會(huì)自動(dòng)查找出現(xiàn)該關(guān)鍵字頻率最高的文件,并根據(jù)這個(gè)頻率按一定的加權(quán)方法計(jì)算文件與關(guān)鍵字的“關(guān)聯(lián)值” ,選中的文件將依據(jù)“關(guān)聯(lián)值”進(jìn)行排列,“關(guān)聯(lián)值”最大的文件目錄排在最前面。

  WAIS系統(tǒng)雖面世不久,但已在Internet上得到廣泛應(yīng)用。由于WAIS服務(wù)器已相當(dāng)多,人們建立了一個(gè)稱為“Directory of servers”的專門收集 WAIS服務(wù)器資料的數(shù)據(jù)庫(kù),這個(gè)數(shù)據(jù)庫(kù)本身也采用了WAIS系統(tǒng)。當(dāng)用戶需要查找某一文件,而又不清楚該文件會(huì)放在哪一個(gè)WAIS 服務(wù)器時(shí), 就可以采用二級(jí)查找方法: 先通過(guò)“Directory of servers”確定哪些WAIS服務(wù)器可能包含要查找的文件,然后在選中的WAIS服務(wù)器中進(jìn)行二級(jí)查找。

  4、 X.500是CCITT和ISO在目錄服務(wù)領(lǐng)域標(biāo)準(zhǔn)化努力的結(jié)果。與DNS不同的是X.500的條目由一組屬性與值的對(duì)構(gòu)成,它可以接受基于屬性的查詢。X.500的名字空間被組織成層次結(jié)構(gòu)分布于多個(gè)服務(wù)器上。這個(gè)全球名字空間的各部分的管理權(quán)被委派給了不同的自治的組織,這些組織又可以將此子樹(shù)進(jìn)一步分派管理權(quán)。部分X.500的名字空間通過(guò)指定主從服務(wù)器的簡(jiǎn)單復(fù)制機(jī)制復(fù)制到不同的服務(wù)器。

  5、隨著WWW的迅速發(fā)展,Internet上出現(xiàn)了WWW信息查詢服務(wù),它們通常被稱作搜索引擎。目前網(wǎng)上比較有名的搜索引擎有Yahoo!,Alta Vista,Excite,Infoseek,Lycos等。這些搜索引擎一般是預(yù)先由程序自動(dòng)地在網(wǎng)上遞歸地訪問(wèn)WWW頁(yè)面,將訪問(wèn)的信息存入數(shù)據(jù)庫(kù)。然后將數(shù)據(jù)庫(kù)中的信息建立索引,并提供給用戶WWW的查詢界面。搜索引擎根據(jù)用戶的請(qǐng)求查詢數(shù)據(jù)庫(kù),并將結(jié)果按相關(guān)程度排序后輸出給用戶。這樣用戶可以很方便地定位所需資源。值得一提的是Yahoo!,它更應(yīng)被稱之為WWW的主題分類目錄。它在人工的參與下將WWW信息作了較好的分類,用戶可以直接沿著分類目錄找到網(wǎng)頁(yè)。搜索引擎的出現(xiàn)給用戶帶來(lái)了極大方便,吸引了大批用戶。下圖顯示了1998年3月訪問(wèn)各個(gè)搜索引擎用戶數(shù)目的估計(jì)。

  近來(lái)隨著搜索引擎的不斷增多,網(wǎng)上又出現(xiàn)了“Meta-search Engine”[14]或者“Search Broker”。它本身并不收集和存儲(chǔ)任何數(shù)據(jù),只是代理用戶同時(shí)向多個(gè)搜索引擎提交查詢,將各個(gè)搜索引擎的查詢結(jié)果通過(guò)一定的策略規(guī)整后返回給用戶。目前,這個(gè)領(lǐng)域也在不斷發(fā)展之中。

  (二)信息發(fā)現(xiàn)服務(wù)的分類及技術(shù)

  Internet上的信息發(fā)現(xiàn)模式可以分為兩類:一類是基于數(shù)據(jù)組織提供用戶瀏覽。數(shù)據(jù)組織是指人工參與下的如何使信息相關(guān)聯(lián)的過(guò)程,通常是將數(shù)據(jù)排序和組織成有向圖。如FTP文件系統(tǒng)中的層次目錄,Gopher中的菜單條目等。用戶可以使用相應(yīng)的瀏覽工具來(lái)瀏覽和搜索資源空間。這種方法的有效性依賴于如何有效地組織數(shù)據(jù)空間,Internet上數(shù)據(jù)量如此之大,保持一個(gè)良好的數(shù)據(jù)組織是非常困難的。另外,由于不同的用戶有不同的需求,何種數(shù)據(jù)有用,如何有效地組織等,都是很難確定的。

  另一類信息發(fā)現(xiàn)系統(tǒng)是基于搜索的。一般是用戶提供有關(guān)資源的描述,由信息發(fā)現(xiàn)系統(tǒng)自動(dòng)定位。這種方法能較好的適應(yīng)數(shù)據(jù)的增長(zhǎng),應(yīng)用也越來(lái)越普遍。

  從系統(tǒng)實(shí)現(xiàn)來(lái)看,基于搜索的信息發(fā)現(xiàn)又可以分為兩類:一類是基于服務(wù)器的搜索工具,另一類是基于客戶機(jī)的搜索工具。

  基于服務(wù)器的搜索工具由軟件自動(dòng)地在網(wǎng)上發(fā)現(xiàn)資源,把搜索的結(jié)果保存必要的信息,并建立索引供用戶查詢。一般,這類系統(tǒng)可以分為收集和檢索兩個(gè)子系統(tǒng)。收集子系統(tǒng)以一定的策略引導(dǎo)信息的發(fā)現(xiàn)并處理信息的更新,檢索子系統(tǒng)則負(fù)責(zé)使用戶能快速有效地利用收集到的信息,其特點(diǎn)是提供服務(wù),被動(dòng)地接受用戶查詢。

  基于客戶機(jī)的搜索工具是由客戶方按照用戶事先定義的信息檢索要求,在發(fā)現(xiàn)滿足要求的信息或指定的信息發(fā)生改變時(shí)主動(dòng)通知用戶。用戶無(wú)需反復(fù)搜索所需信息,減少了用戶檢索信息的時(shí)間。但往往由于客戶機(jī)能力的限制,對(duì)于龐大的Internet只能搜尋極少的部分,而且速度較慢,如果許多用戶使用,則對(duì)網(wǎng)絡(luò)資源消耗比較大。

  隨著Internet網(wǎng)上的數(shù)據(jù)量呈指數(shù)增長(zhǎng),為了達(dá)到適當(dāng)?shù)男阅芤螅畔l(fā)現(xiàn)服務(wù)以及它們的數(shù)據(jù)必須在成百上千個(gè)網(wǎng)絡(luò)上加以復(fù)制。以Internet的News系統(tǒng)為例,News管理的是高度動(dòng)態(tài)(用戶可以隨時(shí)向News發(fā)消息),弱一致性,(一個(gè)用戶的文章在一段時(shí)間后才能被其它用戶響應(yīng)),數(shù)據(jù)量大(可以達(dá)到千兆字節(jié))的數(shù)據(jù),然而由于News有數(shù)千個(gè)副本服務(wù)器,對(duì)用戶查詢的響應(yīng)時(shí)間卻在幾秒之內(nèi)。與此形成對(duì)比的是Archie服務(wù),Archie管理的數(shù)據(jù)要少得多(150MB),響應(yīng)時(shí)間卻可能會(huì)長(zhǎng)達(dá)15分鐘。這是因?yàn)锳rchie在Internet上只有30多個(gè)副本。所以采用分布式系統(tǒng)中的多副本技術(shù)、分布協(xié)同技術(shù)[1]是建立一個(gè)擴(kuò)展性強(qiáng)、可用性高、響應(yīng)時(shí)間合理并具有良好的信息定位能力的信息發(fā)現(xiàn)系統(tǒng)的重要技術(shù)傾向。

  小編推薦優(yōu)秀電子期刊 《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》網(wǎng)絡(luò)技術(shù)期刊征稿

  期刊信息:《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》雜志成立于2003年,先由中華人民共和國(guó)公安部主管、中國(guó)人民公安大學(xué)出版社主辦。從2009年起,本刊改由中華人民教育部主管,北京大學(xué)出版社主辦,是國(guó)內(nèi)網(wǎng)絡(luò)安全技術(shù)與應(yīng)用領(lǐng)域行業(yè)指導(dǎo)性科技月刊,國(guó)內(nèi)外公開(kāi)發(fā)行。本刊系“三高兩強(qiáng)”刊物,即信息量高、學(xué)術(shù)水平高、技術(shù)含量高;專業(yè)性強(qiáng)、應(yīng)用性強(qiáng)。

主站蜘蛛池模板: 日本不卡三卡四卡 | 精品免费视在线视频观看 | 欧美牲交视频免费观看K8经典 | 2021全国精品卡一卡二 | 99re5久久热在线 | 麻豆成人啪啪色婷婷久久 | 十分钟在线观看免费视频高清WWW | 不卡人妻无码AV中文系列APP | 视频一区精品自拍亚洲 | 免费可以看黄的视频s色 | 亚洲日韩有码无线免费 | 国产色婷亚洲99精品AV在线 | 狠狠色色综合网站 | 一区二一二| 成年视频国产免费观看 | 四虎永久精品视频在线 | 日本伦理电影聚 | 52av我爱| 国产偷国产偷亚洲高清人乐享 | 免费看欧美xxx片 | 海角国精产品一区一区三区糖心 | 亚洲国产成人爱AV在线播放丿 | 同桌上课把奶露出来给我玩 | 国产精品久久人妻无码蜜 | 成年人视频免费在线播放 | sao虎影院桃红视频在线观看 | 性色爽爱性色爽爱网站 | 高h 大尺度纯肉 np快穿 | 午夜不卡久久精品无码免费 | 91次元黄色观看 | 日日噜噜夜夜爽爽 | 麻婆豆腐传媒视频免费 | 亚洲 欧美 中文字幕 在线 | 中文字幕亚洲欧美日韩2019 | 最新无码专区在线视频 | 放射源分类办法 | 亚洲免费在线 | 国产亚洲欧美在线中文BT天堂网 | 精品成人在线视频 | 超级碰碰青草久热国产 | 妺妺窝人体色WWW偷窥女厕 |