1本體相關(guān)理論和方法

1.1概念的描述

對(duì)地理對(duì)象的概念性描述一般都是基于自然語(yǔ)言文字的,與描述者的知識(shí)、經(jīng)驗(yàn)和背景有很大的關(guān)系,導(dǎo)致在概念描述時(shí)存在著很大的歧義性。如“高層建筑”在維基百科中被描述為:“具有較多層數(shù)高度較高的建筑”,其中“較多”和“較高”兩個(gè)術(shù)語(yǔ)帶有很強(qiáng)的主觀性,其判別閾值取決于領(lǐng)域背景:中國(guó)《民用建筑設(shè)計(jì)通則》將10層及以上的住宅建筑和高度超過(guò)24m是公共建筑稱為高層建筑;而《日本建筑大辭典》將5層~6層至14層~15層的建筑定為高層建筑。

1.2語(yǔ)義表達(dá)的方法

對(duì)地理概念的語(yǔ)義描述就是表達(dá)從一個(gè)地理概念空間到另一個(gè)地理概念空間的映射關(guān)系。地理概念空間之間的映射關(guān)系的研究也是當(dāng)前認(rèn)識(shí)語(yǔ)言學(xué)領(lǐng)域?qū)φZ(yǔ)義理論研究的一個(gè)熱點(diǎn)[21]。地理概念空間的轉(zhuǎn)換或?qū)?yīng)主要有比喻法、代數(shù)法、概念集成/綁定法和屬性枚舉法,其中屬性枚舉法是最容易理解的方法,即將概念的屬性一一列舉出來(lái)。每個(gè)概念都與一定的屬性或性質(zhì)關(guān)聯(lián),這些定義的屬性足已確定對(duì)象的相關(guān)外延[22]。屬性枚舉法就是基于這點(diǎn),用地理概念擁有的屬性來(lái)描述概念。如“高層建筑”可以用“占地面積”,“建筑面積”、“層數(shù)”、“高度”等描述其特征。即如何找到概念(“高層建筑”)的本質(zhì)屬性(本體性質(zhì))是枚舉法的關(guān)鍵。

1.3形式本體和概念化

為減少對(duì)地理國(guó)情描述的歧義和澄清自然文字描述的語(yǔ)義,需要對(duì)地理國(guó)情所表達(dá)的對(duì)象的本質(zhì)進(jìn)行分析,明確地理對(duì)象的本體語(yǔ)義。為達(dá)此目標(biāo),形式本體的方法為地理國(guó)情的概念化提供了有力理論基礎(chǔ)。形式本體指用系統(tǒng)的、形式的和公理的方法對(duì)事物存在的形式和方式進(jìn)行的邏輯開(kāi)發(fā)的方式。本體被描述為用于描述形式詞匯意圖含義的邏輯理論,即對(duì)世界特殊概念化的本體承諾。根據(jù)概念化理論,概念化被定義為三元組:C=<D,W,>,其中為定義在域空間(D,W)上的概念關(guān)系的集合,域空間(D,W)是一種世界結(jié)構(gòu),D為域,W為D的最大狀態(tài)集。概念關(guān)系ρ定義為從W到D上所有外延關(guān)系的映射(或函數(shù)):ρ:W→2D。給定一個(gè)語(yǔ)言L和它的詞匯V,對(duì)概念化C=<D,W,>的本體承諾O為:O=(C,)。其中為映射:V→D∪將D中的元素賦給V中的常量,中的元素賦給V中的謂詞符號(hào)。

2地理國(guó)情本體構(gòu)建方法

根據(jù)創(chuàng)建本體的5個(gè)基本準(zhǔn)則(清晰性、一致性、可擴(kuò)展性、最小編碼偏差及最小本體承諾),本文基于本體開(kāi)發(fā)工程理論和已有的本體創(chuàng)建方法,結(jié)合天津市地理國(guó)情監(jiān)測(cè)內(nèi)容的特征,提出了一種構(gòu)建天津市地理國(guó)情本體的方法。主要包括5個(gè)步驟,如圖1所示。(1)明確本體的范圍和目的:本文所要構(gòu)建的地理國(guó)情本體庫(kù)包含概念的范圍為天津市地理國(guó)情中所有的地理概念;本體建立的目的是為天津市地理國(guó)情概念建立一套語(yǔ)義描述體系,從而為地理國(guó)情信息的共享和語(yǔ)義互操作服務(wù)。(2)列舉概念:盡可能列舉出領(lǐng)域內(nèi)的所有概念,對(duì)每個(gè)概念在不同領(lǐng)域中的定義進(jìn)行資料分析和總結(jié),得到每個(gè)概念的定義并集。(3)概念化:采用屬性枚舉法對(duì)每個(gè)概念進(jìn)行語(yǔ)義表達(dá),形成知識(shí)框架。(4)形式化表達(dá):用形式化語(yǔ)言將先前得到的天津市地理國(guó)情概念模型進(jìn)行外在表達(dá),本文采用OWLDL語(yǔ)言進(jìn)行本體的表達(dá)和建庫(kù)。(5)評(píng)價(jià)驗(yàn)證:根據(jù)相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)所建立的本體進(jìn)行驗(yàn)證。本文所述的方法是一個(gè)迭代的過(guò)程,所創(chuàng)建的地理國(guó)情本體在特定階段是一個(gè)相對(duì)完善的本體,隨著客觀世界的變化和地理國(guó)情內(nèi)涵的豐富,還需要反復(fù)的評(píng)價(jià)與修改。

2.1天津市地理國(guó)情本體構(gòu)建的范圍和目的天津市地理國(guó)情監(jiān)測(cè)項(xiàng)目從城市建設(shè)、生態(tài)環(huán)境、地表變化、土地利用和地質(zhì)變化5個(gè)方面就城鎮(zhèn)化進(jìn)程等45個(gè)專題展開(kāi)了監(jiān)測(cè)工作。本文所構(gòu)建的本體庫(kù)的所涉及的地理概念范圍與之相對(duì)應(yīng),詳情如表1所示。

2.2天津市地理國(guó)情的概念化

天津市地理國(guó)情的概念化是指以天津市地理國(guó)情所涉及的地理概念為研究對(duì)象,分析其所要服務(wù)的知識(shí)領(lǐng)域,根據(jù)相關(guān)標(biāo)準(zhǔn)建立概念的語(yǔ)義描述集,確定每個(gè)概念語(yǔ)義的描述集和屬性集,從中提取出本體屬性集,從而實(shí)現(xiàn)地理信息的概念化,具體過(guò)程如圖2所示。

2.3天津市地理國(guó)情形式化表達(dá)

本體描述語(yǔ)言從自然語(yǔ)言到描述邏輯形式多種多樣,語(yǔ)言的形式化和規(guī)則性越高就越利于機(jī)器理解。對(duì)于地理國(guó)情本體,支持推理的能力是很重要的,它可以檢測(cè)概念間是否互相矛盾,以保證本體的質(zhì)量。網(wǎng)絡(luò)本體語(yǔ)言O(shè)WL(WebOntologyLanguage)是由W3C(國(guó)際萬(wàn)維網(wǎng)聯(lián)盟)發(fā)布的共享本體的標(biāo)記語(yǔ)言,用來(lái)描述萬(wàn)維網(wǎng)文檔和應(yīng)用中的類和類之間的關(guān)系,并可以通過(guò)形式化語(yǔ)義實(shí)現(xiàn)邏輯推理。綜合考慮地理國(guó)情本體所需要的表達(dá)力和推理能力后,本文使用OWLDL作為地理國(guó)情本體的描述語(yǔ)言。它主要針對(duì)概念、性質(zhì)、個(gè)體之間關(guān)系的描述,以保證強(qiáng)大的語(yǔ)義表達(dá)能力。由OWL描述的一個(gè)本體主要包括三種組成元素:類(class),實(shí)例(individual)和屬性(property)。類代表一些實(shí)例的集合,OWL還支持對(duì)簡(jiǎn)單類進(jìn)行并、交、補(bǔ)運(yùn)算等集合操作得到的復(fù)雜類;實(shí)例作為類的成員出現(xiàn),是領(lǐng)域中實(shí)際感興趣的對(duì)象;屬性是實(shí)例之間的二元關(guān)系。在OWL中有兩種屬性:對(duì)象屬性和數(shù)據(jù)屬性。

2.4地理國(guó)情本體屬性庫(kù)的構(gòu)建

選擇合適的建庫(kù)工具是快速、成功地構(gòu)建本體的關(guān)鍵。好的本體編輯軟件應(yīng)該具備本體錄入、一致性檢查、可視化、查詢、推理等功能。protégé軟件是目前使用最廣泛的本體編輯器之一,它提供了圖形化和交互式的本體設(shè)計(jì)環(huán)境,其OWLPlug-in支持OWL描述語(yǔ)言,滿足地理國(guó)情本體屬性庫(kù)的構(gòu)建需求。在OWL語(yǔ)言語(yǔ)法中,一個(gè)本體屬性由類(A)、實(shí)例(B)、屬性(C)三部分組成,并采用三元組(A→CB)描述三者的關(guān)系。使用protégé軟件構(gòu)建地理國(guó)情本體屬性庫(kù)的過(guò)程也就是對(duì)地理國(guó)情本體屬性的每個(gè)組成部分進(jìn)行構(gòu)建的過(guò)程:類的構(gòu)建:建立基本本體屬性(如“對(duì)象”、“成因”、“時(shí)間性”、“物質(zhì)性”、“空間性”、“量度”等)的所有子類及實(shí)例,如圖3所示。“天然”,而“天然”的實(shí)例有“冰川作用”、“風(fēng)蝕作用”等),如圖4所示。屬性的構(gòu)建:對(duì)于“功能”、“目的”之類的動(dòng)詞,在protégé中采用屬性進(jìn)行表達(dá),如圖5所示。

3結(jié)語(yǔ)

地理國(guó)情監(jiān)測(cè)工作將是我國(guó)測(cè)繪地理信息發(fā)展的新方向,本文就如何提供地理國(guó)情信息服務(wù)展開(kāi)思考和研究,通過(guò)分析發(fā)現(xiàn),要實(shí)現(xiàn)地理國(guó)情信息語(yǔ)義共享的關(guān)鍵是使其語(yǔ)義描述明確且形式化,而本體屬性枚舉法是一種有效的方法。在此基礎(chǔ)上,本文以天津市2011年監(jiān)測(cè)成果及其服務(wù)行業(yè)為研究對(duì)象,提出了一種地理國(guó)情本體的建庫(kù)方法,這種方法可以應(yīng)用其他地理概念的形式語(yǔ)義分析,得出明確的形式語(yǔ)義,為解決地理信息的語(yǔ)義共享提供有效的理論基礎(chǔ)和技術(shù)方法。然而,地理國(guó)情涉及地理概念極其復(fù)雜,如何在地理國(guó)情本體屬性庫(kù)的基礎(chǔ)上,真正實(shí)現(xiàn)所有行業(yè)之間的語(yǔ)義關(guān)系的推理和定制化地理國(guó)情信息的提取,還有待于進(jìn)一步研究。