摘要:數(shù)據(jù)整合已經成為未來水利設計單位進一步發(fā)展的必經之路,水利設計單位需要進一步的發(fā)展和提高,就需要進行數(shù)據(jù)整合。文章采用數(shù)據(jù)整合技術,充分整合綜合辦公管理、計劃經營管理、項目設計流程管理、圖檔管理數(shù)據(jù)資源,并建設成統(tǒng)一的數(shù)據(jù)集成平臺。利用這一數(shù)據(jù)集成平臺將四大數(shù)據(jù)資源,經過抽取、規(guī)則轉換、清洗、加載,形成整合資源庫,為經營和戰(zhàn)略決策提供數(shù)據(jù)支持。

關鍵詞:數(shù)據(jù)整合;信息系統(tǒng)

Abstract: data integration has become the only way which must be passed in further development of water conservancy development units, design units of water resources need to be further developed and improved, on the need for data integration. This paper uses the data integration technology, fully integrated office management, project management, project design process management, document management data resources, and construction of a unified data integration platform. Using this data integration platform will be four large data resources, after extraction, transformation rules, cleaning, loading, the formation of integration of resources, to provide data support for the operational and strategic decision making.

Keywords: data integration; information system

中圖分類號:F407.9文獻標識碼:A 文章編號:2095-2104(2013)

決策分析需要的數(shù)據(jù)通常都是統(tǒng)計數(shù)據(jù),但在現(xiàn)有信息系統(tǒng)下進行會比較復雜。原因有:①做出一個決策分析往往需要查詢多個基于各種異構數(shù)據(jù)源的信息系統(tǒng)和外部系統(tǒng),并進行大量數(shù)據(jù)分析,工作量大,數(shù)據(jù)利用率不高,且容易出現(xiàn)人為差錯。②現(xiàn)有信息系統(tǒng)平臺及開發(fā)工具互不兼容,直接提取這些數(shù)據(jù)比較麻煩。③各個信息系統(tǒng)沒有統(tǒng)一的數(shù)據(jù)接口,也沒有通用的數(shù)據(jù)標準和規(guī)范,各個數(shù)據(jù)庫無法直接集成。④統(tǒng)計分析需要大量的歷史數(shù)據(jù),但是歷史數(shù)據(jù)并不完整。

因此,為了適應決策信息系統(tǒng)建設的需要,我們采用數(shù)據(jù)整合技術,充分整合綜合辦公管理、計劃經營管理、項目設計流程管理、圖檔管理數(shù)據(jù)資源,并建設成統(tǒng)一的數(shù)據(jù)集成平臺。

1、數(shù)據(jù)資源分析

數(shù)據(jù)整合資源庫的數(shù)據(jù)都是一些統(tǒng)計和分析數(shù)據(jù),如項目進度跟蹤管理統(tǒng)計、產值管理統(tǒng)計等,它們來源于生產數(shù)據(jù),所以在數(shù)據(jù)整合之前,需對現(xiàn)有生產數(shù)據(jù)資源進行歸類,F(xiàn)階段生產數(shù)據(jù)資源主要分為綜合辦公管鉀數(shù)據(jù)集、計劃經營管理數(shù)據(jù)集、項目設計流程管理數(shù)據(jù)集和圖檔管理數(shù)據(jù)集等。

1)綜合辦公管理數(shù)據(jù)集是實現(xiàn)人員基礎信息統(tǒng)一管理的基礎數(shù)據(jù)集。主要包括:①個人基本信息:包括個人信息庫等。②單位基本信息:包括單位基本信息庫、單位所屬分支機構信息庫等。③參數(shù)信息庫:包括代碼庫、圖表分析生成庫等。

2)計劃經營管理數(shù)據(jù)集主要包括:①市場信息:包括顧客信息資源庫、市場動態(tài)信息庫、競爭對手信息庫等。②招投標管理信息:包括招標信息庫、投標信息庫、專家信息庫等。③合同信息:包括合同信息庫、收付款項信息庫、產品交付管理庫等。④資質管理信息:包括資質信息庫、資質審核庫、資質借用管理庫等。

3)項目設計流程管理數(shù)據(jù)集主要包括:①項目信息:包括項目立項信息庫、任務下達信息庫、項目組人員任命庫等。②項目任務分解:包括項目任務分解資源信息庫、關鍵路徑控制等。③網絡虛擬辦公室:包括項目動態(tài)信息庫、中間成果管理庫、動態(tài)分析庫等。④產品管理信息:包括產品校審信息庫、成果交付信息庫等。

4)圖檔管理數(shù)據(jù)集主要包括:①歸檔管理信息:包括資料預歸檔管理庫、資料歸檔管理庫等。②整編信息:包括檔案整編信息庫等。③借閱信息:包括人員信息庫、檔案借閱信息庫等。④電子檔案信息:包括電子檔案授權庫、電子檔案借閱管理庫等。⑤銷檔信息:包括銷毀檔案信息庫、銷毀人員信息庫等。

2、數(shù)據(jù)整合的實現(xiàn)方式

水利設計單位集成信息系統(tǒng)數(shù)據(jù)庫大多為SQLServer數(shù)據(jù)庫,數(shù)據(jù)整合實現(xiàn)方式通常可以采用數(shù)據(jù)庫開發(fā)技術和ETL技術實現(xiàn),以下分別介紹這兩種實現(xiàn)方式。

1)數(shù)據(jù)庫開發(fā)技術。利用數(shù)據(jù)庫開發(fā)技術的數(shù)據(jù)整合主要指利用數(shù)據(jù)庫本身的功能,如觸發(fā)器、PL/SQL存儲過程、DBLINK等功能完成,完成對各個信息系統(tǒng)所需要數(shù)據(jù)的抽取、查詢和關聯(lián)等。

這種數(shù)據(jù)整合技術有如下優(yōu)勢:①適合于同種數(shù)據(jù)庫之間的數(shù)據(jù)集成。②投資少,基本都是靠開發(fā)人員手工編程為主,只需要一些開發(fā)費用。但是該數(shù)據(jù)整合實現(xiàn)技術也存在一些局限性。③擴展性較差。由于都是開發(fā)人員手工編程,后期的維護成本較高,特別是在決策需求發(fā)生變化時,需要開發(fā)人員修改程序源代碼。④數(shù)據(jù)整合效率問題。由于數(shù)據(jù)庫都靠開發(fā)商編寫,在系統(tǒng)日趨龐大的情況下,在面對復雜的數(shù)據(jù)整合問題上,效率難以得到保證。

2)ETL技術。通過ETL技術及專業(yè)ETL軟件,即數(shù)據(jù)抽。‥xtract)、轉換(Transform)、裝載(Load)能將數(shù)據(jù)從原系統(tǒng)數(shù)據(jù)庫經過抽取,進行轉換,最后加載到目標數(shù)據(jù)庫,實現(xiàn)系統(tǒng)數(shù)據(jù)之間的整合。

該數(shù)據(jù)整合實現(xiàn)技術運用在水利設計單位集成信息系統(tǒng)有如下優(yōu)勢:①高效率。ETL軟件的數(shù)據(jù)抽取、轉換、加載的效率非常高,特別對于大數(shù)據(jù)量的抽取。并且支持對ORACLE9i增量數(shù)據(jù)抽取。②改進數(shù)據(jù)質量。能夠根據(jù)各種條件校驗源數(shù)據(jù)和目標數(shù)據(jù)質量,對垃圾數(shù)據(jù)進行清洗。③強大管理功能。能夠通過WEB管理界面對數(shù)據(jù)抽取策略執(zhí)行制定時間觸發(fā)方式,對抽取結果進行分析等。④多平臺、多數(shù)據(jù)源支持。支持各種平臺、各種數(shù)據(jù)庫系統(tǒng)(如ORACLE、SQLServer等)以及不同版本數(shù)據(jù)庫之間的數(shù)據(jù)抽取。⑤具備多種數(shù)據(jù)轉換控件,能夠完成各種非常復雜的數(shù)據(jù)轉換工作。但是該數(shù)據(jù)整合實現(xiàn)技術也存在一些局限性:投資費用較為昂貴,實施周期通常較長。

3、數(shù)據(jù)整合的實施

數(shù)據(jù)整合實施工作分為4個階段。

1)第一階段為對信息系統(tǒng)原始數(shù)據(jù)分析階段。為了更加全面理解各種數(shù)據(jù)格式的含義,獲得各種相關文檔資源,因此首先要對信息系統(tǒng)原始數(shù)據(jù)進行分析。該階段主要包括了解需要采集的數(shù)據(jù)結構定義和數(shù)據(jù)表之間的設計聯(lián)系。例如:我們對包括非電子數(shù)據(jù)、excel格式數(shù)據(jù)及其各種不同數(shù)據(jù)庫格式數(shù)據(jù)進行分析。

2)第二階段為設計實施階段。為了不影響原始數(shù)據(jù)格式的改變及其調用,并保證它們的安全性,第二階段主要是定義數(shù)據(jù)整合規(guī)則及策略的設計實施階段。前者包括字段映射、合并、函數(shù)計算定義等。后者主要定義時間策略。

3)第三階段為數(shù)據(jù)校驗階段。為了不會產生各種不完整甚至錯誤信息,因此在系統(tǒng)正式運行之前,必須建立嚴格的數(shù)據(jù)校驗機制,以保證生產數(shù)據(jù)和整合平臺數(shù)據(jù)的一致性。例如:我們對導人的數(shù)據(jù)進行校驗,主要標準為水利設計單位設計規(guī)范標準,并對校驗出來的問題進行處理,主要是人工處理確認。

4)第四階段為系統(tǒng)上線階段。將設計好的數(shù)據(jù)整合流程正式,并可設定計劃定時執(zhí)行,系統(tǒng)管理人員可以通過監(jiān)控界面,進行任務監(jiān)控和跟蹤。根據(jù)需求,管理人員還可修改計劃,合理安排數(shù)據(jù)轉換任務,以在規(guī)定的時間內完成所有的數(shù)據(jù)轉換和加載任務。

4、結語

數(shù)據(jù)整合將改變原有的以部門和項目為中心的信息孤島局面,從而能夠實現(xiàn)整個水利設計單位的數(shù)據(jù)整合。原有的部門級、以項目為中心的運作方式,將可能使得各個項目的使用技術不盡相同,也使得項目的進度依賴于開發(fā)人員的編碼效率,從而使得整個水利設計單位的效率低下。

進行整個單位的數(shù)據(jù)整合之后,就能夠在水利設計單位內部統(tǒng)一技術架構和標準,充分發(fā)揮團隊協(xié)作的效率。通過由數(shù)據(jù)整合進行的數(shù)據(jù)移植、數(shù)據(jù)倉庫等,將能夠使得水利設計單位的數(shù)據(jù)整合成本大大下降。

5、參考文獻

[1]蔣東興,劉啟新.數(shù)字校園信息整合之我見[M].北京:清華大學計算機與信息管理中心,2003.

[2]周志達,徐先傳.數(shù)據(jù)倉庫中數(shù)據(jù)抽取、轉換及加載工具研究[J].北京理工大學學報,2003,23(6):720-723.