1本體相關理論和方法
1.1概念的描述
對地理對象的概念性描述一般都是基于自然語言文字的,與描述者的知識、經(jīng)驗和背景有很大的關系,導致在概念描述時存在著很大的歧義性。如“高層建筑”在維基百科中被描述為:“具有較多層數(shù)高度較高的建筑”,其中“較多”和“較高”兩個術語帶有很強的主觀性,其判別閾值取決于領域背景:中國《民用建筑設計通則》將10層及以上的住宅建筑和高度超過24m是公共建筑稱為高層建筑;而《日本建筑大辭典》將5層~6層至14層~15層的建筑定為高層建筑。
1.2語義表達的方法
對地理概念的語義描述就是表達從一個地理概念空間到另一個地理概念空間的映射關系。地理概念空間之間的映射關系的研究也是當前認識語言學領域對語義理論研究的一個熱點[21]。地理概念空間的轉換或對應主要有比喻法、代數(shù)法、概念集成/綁定法和屬性枚舉法,其中屬性枚舉法是最容易理解的方法,即將概念的屬性一一列舉出來。每個概念都與一定的屬性或性質關聯(lián),這些定義的屬性足已確定對象的相關外延[22]。屬性枚舉法就是基于這點,用地理概念擁有的屬性來描述概念。如“高層建筑”可以用“占地面積”,“建筑面積”、“層數(shù)”、“高度”等描述其特征。即如何找到概念(“高層建筑”)的本質屬性(本體性質)是枚舉法的關鍵。
1.3形式本體和概念化
為減少對地理國情描述的歧義和澄清自然文字描述的語義,需要對地理國情所表達的對象的本質進行分析,明確地理對象的本體語義。為達此目標,形式本體的方法為地理國情的概念化提供了有力理論基礎。形式本體指用系統(tǒng)的、形式的和公理的方法對事物存在的形式和方式進行的邏輯開發(fā)的方式。本體被描述為用于描述形式詞匯意圖含義的邏輯理論,即對世界特殊概念化的本體承諾。根據(jù)概念化理論,概念化被定義為三元組:C=<D,W,>,其中為定義在域空間(D,W)上的概念關系的集合,域空間(D,W)是一種世界結構,D為域,W為D的最大狀態(tài)集。概念關系ρ定義為從W到D上所有外延關系的映射(或函數(shù)):ρ:W→2D。給定一個語言L和它的詞匯V,對概念化C=<D,W,>的本體承諾O為:O=(C,)。其中為映射:V→D∪將D中的元素賦給V中的常量,中的元素賦給V中的謂詞符號。
2地理國情本體構建方法
根據(jù)創(chuàng)建本體的5個基本準則(清晰性、一致性、可擴展性、最小編碼偏差及最小本體承諾),本文基于本體開發(fā)工程理論和已有的本體創(chuàng)建方法,結合天津市地理國情監(jiān)測內(nèi)容的特征,提出了一種構建天津市地理國情本體的方法。主要包括5個步驟,如圖1所示。(1)明確本體的范圍和目的:本文所要構建的地理國情本體庫包含概念的范圍為天津市地理國情中所有的地理概念;本體建立的目的是為天津市地理國情概念建立一套語義描述體系,從而為地理國情信息的共享和語義互操作服務。(2)列舉概念:盡可能列舉出領域內(nèi)的所有概念,對每個概念在不同領域中的定義進行資料分析和總結,得到每個概念的定義并集。(3)概念化:采用屬性枚舉法對每個概念進行語義表達,形成知識框架。(4)形式化表達:用形式化語言將先前得到的天津市地理國情概念模型進行外在表達,本文采用OWLDL語言進行本體的表達和建庫。(5)評價驗證:根據(jù)相應的評價標準對所建立的本體進行驗證。本文所述的方法是一個迭代的過程,所創(chuàng)建的地理國情本體在特定階段是一個相對完善的本體,隨著客觀世界的變化和地理國情內(nèi)涵的豐富,還需要反復的評價與修改。
2.1天津市地理國情本體構建的范圍和目的天津市地理國情監(jiān)測項目從城市建設、生態(tài)環(huán)境、地表變化、土地利用和地質變化5個方面就城鎮(zhèn)化進程等45個專題展開了監(jiān)測工作。本文所構建的本體庫的所涉及的地理概念范圍與之相對應,詳情如表1所示。
2.2天津市地理國情的概念化
天津市地理國情的概念化是指以天津市地理國情所涉及的地理概念為研究對象,分析其所要服務的知識領域,根據(jù)相關標準建立概念的語義描述集,確定每個概念語義的描述集和屬性集,從中提取出本體屬性集,從而實現(xiàn)地理信息的概念化,具體過程如圖2所示。
2.3天津市地理國情形式化表達
本體描述語言從自然語言到描述邏輯形式多種多樣,語言的形式化和規(guī)則性越高就越利于機器理解。對于地理國情本體,支持推理的能力是很重要的,它可以檢測概念間是否互相矛盾,以保證本體的質量。網(wǎng)絡本體語言OWL(WebOntologyLanguage)是由W3C(國際萬維網(wǎng)聯(lián)盟)發(fā)布的共享本體的標記語言,用來描述萬維網(wǎng)文檔和應用中的類和類之間的關系,并可以通過形式化語義實現(xiàn)邏輯推理。綜合考慮地理國情本體所需要的表達力和推理能力后,本文使用OWLDL作為地理國情本體的描述語言。它主要針對概念、性質、個體之間關系的描述,以保證強大的語義表達能力。由OWL描述的一個本體主要包括三種組成元素:類(class),實例(individual)和屬性(property)。類代表一些實例的集合,OWL還支持對簡單類進行并、交、補運算等集合操作得到的復雜類;實例作為類的成員出現(xiàn),是領域中實際感興趣的對象;屬性是實例之間的二元關系。在OWL中有兩種屬性:對象屬性和數(shù)據(jù)屬性。
2.4地理國情本體屬性庫的構建
選擇合適的建庫工具是快速、成功地構建本體的關鍵。好的本體編輯軟件應該具備本體錄入、一致性檢查、可視化、查詢、推理等功能。protégé軟件是目前使用最廣泛的本體編輯器之一,它提供了圖形化和交互式的本體設計環(huán)境,其OWLPlug-in支持OWL描述語言,滿足地理國情本體屬性庫的構建需求。在OWL語言語法中,一個本體屬性由類(A)、實例(B)、屬性(C)三部分組成,并采用三元組(A→CB)描述三者的關系。使用protégé軟件構建地理國情本體屬性庫的過程也就是對地理國情本體屬性的每個組成部分進行構建的過程:類的構建:建立基本本體屬性(如“對象”、“成因”、“時間性”、“物質性”、“空間性”、“量度”等)的所有子類及實例,如圖3所示。“天然”,而“天然”的實例有“冰川作用”、“風蝕作用”等),如圖4所示。屬性的構建:對于“功能”、“目的”之類的動詞,在protégé中采用屬性進行表達,如圖5所示。
3結語
地理國情監(jiān)測工作將是我國測繪地理信息發(fā)展的新方向,本文就如何提供地理國情信息服務展開思考和研究,通過分析發(fā)現(xiàn),要實現(xiàn)地理國情信息語義共享的關鍵是使其語義描述明確且形式化,而本體屬性枚舉法是一種有效的方法。在此基礎上,本文以天津市2011年監(jiān)測成果及其服務行業(yè)為研究對象,提出了一種地理國情本體的建庫方法,這種方法可以應用其他地理概念的形式語義分析,得出明確的形式語義,為解決地理信息的語義共享提供有效的理論基礎和技術方法。然而,地理國情涉及地理概念極其復雜,如何在地理國情本體屬性庫的基礎上,真正實現(xiàn)所有行業(yè)之間的語義關系的推理和定制化地理國情信息的提取,還有待于進一步研究。