1數(shù)據挖掘
1.1 數(shù)據挖掘技術的產生
隨著數(shù)據庫技術的迅速發(fā)展以及數(shù)據庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據越來越多。激增的數(shù)據背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數(shù)據。目前的數(shù)據庫系統(tǒng)可以高效地實現(xiàn)數(shù)據的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據中存在的關系和規(guī)則,無法根據現(xiàn)有的數(shù)據預測未來的發(fā)展趨勢。
用數(shù)據庫來存儲數(shù)據,用機器學習的方法來分析數(shù)據,挖掘大量數(shù)據背后的知識,這兩者的結合促成了數(shù)據挖掘的產生[1]。數(shù)據挖掘是一門交叉性學科,涉及到人工智能、機器學習、數(shù)理統(tǒng)計、神經網絡、數(shù)據庫、模式識別、粗糙集、模糊數(shù)學等等多個領域。數(shù)據挖掘技術包括算法和技術,數(shù)據、建模能力3個主要部分[2]。
1.2 數(shù)據挖掘的演進過程
數(shù)據挖掘其實是一個逐漸演變的過程。電子數(shù)據處理的初期,人們就試圖通過某些方法來實現(xiàn)自動決策支持,當時機器學習成為人們關心的焦點。爾后,隨著神經網絡技術的形成和發(fā)展,人們的注意力轉向知識工程,專家系統(tǒng)就是這種方法所得到的成果。
20世紀80年代,人們在新的神經網絡理論的指導下,重新回到機器學習的方法上,并將其成果應用于處理大型商業(yè)數(shù)據庫,而且出現(xiàn)了一個新的術語——KDD(Knowledge discovery in database,泛指從源數(shù)據中發(fā)掘模式或聯(lián)系的方法)。人們用KDD來描述整個數(shù)據發(fā)掘的過程,包括最開始的制定業(yè)務目標到最終的結果分析,而用數(shù)據挖掘(Data mining,簡稱DM)來描述使用挖掘算法進行數(shù)據挖掘的子過程。DM側重數(shù)據庫角度,KDD側重人工智能角度[1]。
數(shù)據挖掘的核心模塊技術歷經了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機器學習。數(shù)據挖掘技術在當前的數(shù)據倉庫環(huán)境中進入了實用階段。
1.3數(shù)據挖掘的定義
數(shù)據挖掘的定義為“從數(shù)據庫中發(fā)現(xiàn)隱含的、先前不知道的、潛在有用的信息”,是在數(shù)據庫技術、機器學習、人工智能、統(tǒng)計分析、模糊邏輯、人工神經網絡和專家系統(tǒng)的基礎上發(fā)展起來的新概念和新技術,是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中提取隱含的、未知的、潛在的、有用的信息和知識的過程。更廣義的說法是[2]:數(shù)據挖掘意味著在一些事實或觀察數(shù)據的集合中尋找模式的決策支持過程。
數(shù)據挖掘與傳統(tǒng)分析(如查詢、報表、聯(lián)機應用分析)的本質區(qū)別是,數(shù)據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據挖掘所得到的信息應具有先未知、有效和可實用3個特征。先前未知的信息是指該信息是預先未曾預料到的,即數(shù)據挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值[1]。
 
2 馬克威分析系統(tǒng)簡介
馬克威分析系統(tǒng)是中國第一套完全自主知識產權,集統(tǒng)計分析、數(shù)據挖掘和網絡挖掘于一體的數(shù)據分析系統(tǒng)。它可以與現(xiàn)有的信息管理系統(tǒng)(MIS)進行集成,在保護現(xiàn)有設備的情況下,節(jié)約數(shù)據挖掘項目的開支。該系統(tǒng)由數(shù)據輸入、數(shù)據處理、統(tǒng)計分析、數(shù)據挖掘、統(tǒng)計制圖和電子報表等六大功能模塊組成,各模塊特點為:
(1)靈活多變的數(shù)據輸入方式。輸入方式包括從界面直接輸入、直接打開數(shù)據文件、使用數(shù)據向導將數(shù)據庫中的數(shù)據導入到分析平臺上等,并且與所有主流數(shù)據庫實現(xiàn)了無縫連接,例如Oracle、DB2、Sybase、SQLServer、Mysql、Informix、Access等。
(2)豐富的數(shù)據處理功能。包括數(shù)據合并、數(shù)據拆分、插入或刪除記錄、記錄處理、權重設置、多維查詢、分類匯總、數(shù)據抽樣、變量計算、缺失值填充、異常值刪除、記錄排序、變量類型轉換、行列轉換、隨機數(shù)生成等。
(3)統(tǒng)計分析是該系統(tǒng)的核心模塊之一,有基礎統(tǒng)計和高級統(tǒng)計可選;A統(tǒng)計包括均值分析、交叉表、頻率分析、描述分析、一元方差分析、參數(shù)T檢驗、單樣本T檢驗、獨立樣本T檢驗、配對樣本T檢驗、相關分析、非參數(shù)檢驗等;高級統(tǒng)計包括回歸分析、聚類分析、判別分析、因子分析、時間序列分析、多因素方差分析等。
(4)數(shù)據挖掘模塊提供了目前市場上較為完備的挖掘方法。包括神經網絡、決策樹、關聯(lián)規(guī)則、模糊聚類、粗糙集、支持向量機、孤立點分析等。
(5)數(shù)據信息的可視化是信息應用的發(fā)展趨勢。統(tǒng)計制圖模塊包括直線圖、條狀圖、柱狀圖、圓餅圖、面積圖、排列圖、誤差圖、序列圖、散點圖、自相關圖、互相關圖、控制圖等。
(6)統(tǒng)計報表模塊主要針對中國用戶。它將主要和常用的報表按照國家統(tǒng)計局的常規(guī)模式設定成格式,為用戶自動生成表格,包含內設的系統(tǒng)模板以及用戶自設的用戶模塊兩類。
3 水文現(xiàn)代化與數(shù)據挖掘
針對我國存在的洪澇災害、水資源短缺、水環(huán)境惡化、水土流失等有關水的問題,水利部提出了從傳統(tǒng)水利向現(xiàn)代水利、可持續(xù)發(fā)展水利轉變,以水資源的可持續(xù)利用支撐經濟社會可持續(xù)發(fā)展的治水新思路,并對水利現(xiàn)代化提出了基本要求[5]。
3.1 水文現(xiàn)代化
水文現(xiàn)代化是水利信息化的基礎。數(shù)字水文系統(tǒng)就是利用數(shù)據庫技術建立完善的信息處理和存儲體系;利用海量數(shù)據庫和數(shù)據挖掘技術建立信息提取和分析體系;利用地理信息系統(tǒng)等工具建立氣象、水文、地形地貌、植被、土壤水分、人類活動影響措施等信息的空間分布數(shù)字體系;利用中尺度數(shù)值預報模式和分布式水文模型建立數(shù)字化的空間和時間分布預報體系;依托網絡、地理信息系統(tǒng)和數(shù)據庫等技術,建立為防汛決策、專業(yè)應用、電子政務等提供決策支持的信息應用與服務體系。其核心在于如何形成數(shù)字化的、覆蓋整個指定地域空間的、多重時空尺度的、多種要素的、對水文分析有用的數(shù)據產品。
對于水文現(xiàn)代化而言,要形成與水利信息化相適應的信息服務能力,必須大力建設水文信息數(shù)據庫,使之成為水利信息資源的重要組成部分,包括兩層含義:一是要豐富數(shù)據庫的內容;二是要對水文部門內部的各類信息資源進行集成,形成有一定聚合度和服務目標的水文信息資源。分散在一個個單獨部門的水文數(shù)據很難形成可以被開發(fā)利用的資源。
3.2 實施數(shù)據挖掘
實施數(shù)據挖掘一般的步驟是:提出和理解問題→數(shù)據準備→數(shù)據整理→建立模型→評價和解釋[2]。
實施數(shù)據挖掘應從以下3個方面加以考慮:一是用數(shù)據挖掘解決什么樣的行業(yè)問題;二是為進行數(shù)據挖掘所做的數(shù)據準備;三是數(shù)據挖掘的各種分析算法。
數(shù)據挖掘的分析算法主要來自于統(tǒng)計分析和人工智能(機器學習、模式識別等)兩個方面。數(shù)據挖掘研究人員和數(shù)據挖掘軟件供應商在這一方面所做的主要工作是優(yōu)化現(xiàn)有的一些算法,以適應大數(shù)據量的要求[4]。
數(shù)據挖掘最后是否成功,是否有經濟效益,數(shù)據準備至關重要。數(shù)據準備主要包含兩個方面:一是從多種數(shù)據源去綜合數(shù)據挖掘所需要的數(shù)據,保證數(shù)據的綜合性、易用性、數(shù)據的質量和數(shù)據的時效性,這有可能要用到數(shù)據倉庫的思想和技術;另一方面就是如何從現(xiàn)有數(shù)據中衍生出所需要的指標,這主要取決于數(shù)據挖掘者的分析經驗和工具的方便性。
3.3 數(shù)據挖掘中存在的問題
(1)數(shù)據挖掘的基本問題在于數(shù)據的數(shù)量及維數(shù),數(shù)據結構也因此顯得非常復雜,如何選擇分析變量,是首先要解決的問題。
(2)面對積累起來的大量數(shù)據,現(xiàn)有的統(tǒng)計方法等都遇到了問題,人們直接的想法就是對數(shù)據進行抽樣。怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,都是需要研究的問題。
(3)既然數(shù)據是海量的,那么數(shù)據中就會隱含一定的變化趨勢,在數(shù)據挖掘中也要對這個趨勢作出應有的考慮和評價。
(4)各種不同的模型如何應用,其效果如何評價。不同的人對同樣的數(shù)據進行挖掘,可能產生差異很大的結果,這就存在可靠性的問題。
(5)數(shù)據挖掘涉及到數(shù)據,也就涉及了數(shù)據的安全性問題。
(6)數(shù)據挖掘的結果是不確定的,要和專業(yè)知識相結合才能對其做出判斷[1]。
3.4 水文數(shù)據挖掘
水文綜合數(shù)據庫系統(tǒng)與服務平臺(水文數(shù)據中心)是以現(xiàn)代技術手段向用戶提供優(yōu)質、高效水文信息共享服務的基本保障[5]。信息獲取與分析技術的快速發(fā)展,特別是遙測、遙感、網絡、數(shù)據庫等技術的應用,有力地促進了水文數(shù)據的采集和處理技術的發(fā)展,使之在時間和空間的尺度及要素類型上有了不同程度的擴展。由于水在人類生存發(fā)展中的特殊作用,因此應用各種新技術獲取水文數(shù)據,挖掘蘊藏于水文數(shù)據中的知識,已成為水文科學發(fā)展的新熱點。
水文數(shù)據挖掘可以應用決策樹、神經網絡、覆蓋正例排斥反例、概念樹、遺傳算法、公式發(fā)現(xiàn)、統(tǒng)計分析、模糊論等理論與技術,并在可視化技術的支持下,構造滿足不同目的的水文數(shù)據挖掘應用系統(tǒng)。
據統(tǒng)計,我國水文整編資料數(shù)據累計量已超過7 GB,加上進行水文預報所需的天氣、地理等數(shù)據,進行水文分析所需要處理的數(shù)據量很大。沿用傳統(tǒng)的技術工具和方法,從這些數(shù)量巨大、類型復雜的數(shù)據中及時準確地挖掘出所需要的知識,必然會因為計算能力、存儲能力、算法的不足而無能為力,因此需要高效的水文數(shù)據挖掘技術。
4 結 語
數(shù)據倉庫能把整個部門的數(shù)據,無論其地理位置、格式和通信要求,統(tǒng)統(tǒng)集成在一起,便于最終用戶訪問并能從歷史的角度進行分析,最后做出戰(zhàn)略決策。數(shù)據挖掘技術可從大量數(shù)據中發(fā)現(xiàn)潛在的、有價值的及未知的關系、模式和趨勢,并以易被理解的方式表示出來[3]。
需要強調的是,要想真正做好數(shù)據挖掘,數(shù)據挖掘工具只是其中的一個方面,數(shù)據挖掘的成功要求對期望解決問題的領域(如水文領域)有深刻的了解,理解該領域要素數(shù)據的屬性,了解其采集的過程,同時還需要對該領域的業(yè)務有足夠的數(shù)據分析經驗。
水文現(xiàn)代化建設的主要任務體現(xiàn)在建設較高標準的水文水資源信息管理系統(tǒng)上,包括水文氣象信息采集、預報及監(jiān)測系統(tǒng)、信息傳輸系統(tǒng)、信息處理系統(tǒng)、決策支持系統(tǒng)等。目前水文工作中諸如泥沙預報等方面基本處于空白狀態(tài)。水文數(shù)據挖掘是精確水文預報和水文數(shù)據分析的重要基礎,應當足夠重視,并積極開展工作。
致謝:本文承蒙黃委水文局寇懷忠博士后指導,在此謹致謝意。
 
參考文獻:
[1] 張云濤,龔玲. 數(shù)據挖掘原理與技術[M].北京:電子工業(yè)出版社,2004.
[2] Jiawei Han,Micheline Kamber. Data Mining:Concepts and Techniques[M].北京:機械工業(yè)出版社,2001.
[3] 趙旭升,楊天行,王珊琳.數(shù)據挖掘技術在防洪決策支持系統(tǒng)中的應用[J].人民黃河,2003,(5).
[4] Olivia Parr Rud. 數(shù)據挖掘實踐[M].北京:機械工業(yè)出版社,2003.
[5]水利部.水文現(xiàn)代化建設指導意見[R].北京:水文〔2005〕70號,2005.