一、數(shù)據挖掘的過程
數(shù)據挖掘技術不僅要在資金和技術上大量投入,同時需要多種專家共同合作。要趨近事物的本質必須長期反復的進行研究實踐,在反復的過程中,使問題的解決方案最優(yōu)化,數(shù)據挖掘過程主要有以下過程:
1.業(yè)務對象的確定。對業(yè)務進行清晰的定義是明確挖掘目的的首要步驟,挖掘要探索的問題必須明確在無法預知最后結構的情況下,預見探索問題能夠有效避免數(shù)據挖掘的盲目性,大大提高成功率。
2.數(shù)據準備。2.1數(shù)據的選擇:查找全部與業(yè)務目標相關的內部和外部數(shù)據信息,然后從其中選出可以用于數(shù)據挖掘的信息。2.2數(shù)據的預處理:仔細分析數(shù)據的內容,便于進一步的對其進行處理,并確定需要進行挖掘操作的類型。2.3數(shù)據的轉換:針對挖掘算法將數(shù)據轉換成一個分析模型,數(shù)據挖掘成功的關鍵就是建立一個合理的挖掘算法的分析模型。
3.數(shù)據挖掘。對所得到的經過轉換的數(shù)據進行分析。除了合理選擇適合的挖掘算法外,其他的所有工作都能自動地完成。
4.結果分析。解析并評析結果。所使用的分析方法一般應該根據數(shù)據挖掘操作來確定,一般情況下會用到可視化技術。
5.知識的同化。把分析得到的信息全部收集到業(yè)務信息系統(tǒng)的組織結構中去。上述步驟不一定能夠一次完成的,或許其中有些步驟或者全部都要重復進行??傊煌沫h(huán)境下要采用不同的方法,最合適的方法才是數(shù)據挖掘過程成功的關鍵,挖掘過程中遇到的問題得到解決是選取不同方法的最終目的。
二、數(shù)據挖掘技術在水利工程管理中的應用
目前,與國民經濟和社會發(fā)展直接相關的基礎設施建設就是水利,越來越多的水利科學數(shù)據隨著水利基礎設施的不斷改善和水利工程的大規(guī)模建設應運而生。這些科學數(shù)據不管是在國民經濟建設,還是在科研活動都是非常重要的數(shù)據資源。洪澇災害、干旱、生態(tài)與環(huán)境的破壞等諸多世界共同的熱點問題,這些與可持續(xù)發(fā)展直接相關的問題都是以獲取完整可用的水利科學數(shù)據作為主要任務。所以,水利科學數(shù)據在科技進步與創(chuàng)新的發(fā)展過程中所發(fā)揮的作用不言而喻,在許多行業(yè)都被需求。水利科學數(shù)據量非常之大,因此,從大量繁雜的數(shù)據庫中挖掘潛在,有用信息是挖掘知識、預測未來、為決策提供支持的首要任務。
水利工程信息化是現(xiàn)在水利工程的發(fā)展趨勢,水利工程管理系統(tǒng)逐漸增多,我國加強了這方面的建設,水利工程建設和運行管理都得益于水利工程信息化。但是水利工程信息系統(tǒng)并不完善,其提供的功能多為業(yè)務性,涉及管理決策的很少。這種水利工程管理已經無法滿足人們的需求,尤其是在水利工程數(shù)據化管理已經向現(xiàn)代化發(fā)展的非常迅速的時期。由于長期的數(shù)據積累,而且這些數(shù)據還在不斷地增多,還包括空間類型的數(shù)據,人們往往對這些數(shù)據處理不到位或者不及時。尤其是對于空間類型的數(shù)據。明知這些數(shù)據中隱藏了大量的有價值的知識,卻無法將它們充分合理的利用它們是目前面臨的急需解決的問題。如果還是依靠原來的信息系統(tǒng)想解決這些問題簡直是天方夜譚。數(shù)據挖掘技術便應運而生,使這些問題的解決有了可能性。數(shù)據挖掘的本質是從海量數(shù)據中挖掘出有價值的、潛在的知識。各類數(shù)據得到科學合理的收集與整理就必須依賴于建立完善的數(shù)據庫。對于水利工程專業(yè)可以建立水文、河道河情、河道險工、水土保持、水量調度、防洪、實時雨水情、防洪工程等數(shù)據庫,選擇合適方法挖掘有用數(shù)據。
1.關聯(lián)規(guī)則挖掘算法。在1993年首次提出關聯(lián)規(guī)則挖掘問題,然而,現(xiàn)在關聯(lián)規(guī)則已經發(fā)展成為數(shù)據挖掘領域中一個非常重要的研究方向。關聯(lián)規(guī)則挖掘的目的是為了挖掘出潛伏在數(shù)據間的相互關系,即通過量化的數(shù)字,描述事務A的出現(xiàn)對事務B的出現(xiàn)有多人影響。關聯(lián)規(guī)則挖掘就是給定一組Item和一個記錄集合,通過分析記錄集合,推導出Item間的相關性。
2.自頂向下瀕繁項挖掘算法。自頂向下頻繁項挖掘算法是指從上而下的挖掘手段。但是這種方法也有其弊端,因其會在計算問題上浪費大量時間??偟膩碚f自頂向下挖掘算法是較為優(yōu)秀的長頻繁項挖掘算法。它可以有效利用事務項目關聯(lián)信息表、關鍵項目、項目簡約、投影數(shù)據庫等新概念和方法,是算法實際運行效率得到提高,有效解決長頻繁項挖掘問題。這種方法的有效性與完備性可通過計算計算法和實驗進行分析。
3.頻繁項雙向挖掘算法。頻繁項雙向挖掘算法是同時進行自頂向下和自底向上的算法,能夠有效的解決長頻繁項和短頻繁項的挖掘問題。最主要還是采用自頂向下的挖掘方法,通過此種策略生成非頻繁項,要及時的修剪,然后進行合理選集,使候選集生成的規(guī)模和數(shù)量盡可能減少,算法實際效率得到有效提高。
三、結語
伴隨著社會經濟的發(fā)展,社會科技化進程也在不斷加快,信息時代中數(shù)據量也在快速的增加,水利工程中存在大量的數(shù)據信息,數(shù)據挖掘技術的引進為水利工程管理工作提供了有效的管理基礎,優(yōu)化了水利工程管理工作。數(shù)據挖掘能夠在大量的數(shù)據中發(fā)現(xiàn)新趨勢,管理人員可以利用數(shù)據挖掘發(fā)現(xiàn)的信息進行決策,使水利工程能夠發(fā)揮其應有的作用,防洪防澇,保證國家和人民的人身和財產安全,加快國民經濟發(fā)展,提高國民的經濟效益,更好地為人們服務。
作者:戴元將 祁智 陳愛鑫 單位:江蘇鹽城水利建設有限公司
请填写信息,出书/专利/国内外/中英文/全学科期刊推荐与发表指导