數(shù)據(jù)挖掘原理與算法課件

Click to edit Master,Click to edit Master text styles Click to edit Master Click to edit Master,Second level,Third level,Fourth level,Fifth level,*,*,第八章 空間挖掘,,,,,內(nèi)容提要,引言,,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,1,第八章 空間挖掘,空間挖掘技術(shù)概述,大量的空間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(,GIS,)、多媒體系統(tǒng)、醫(yī)學(xué)和衛(wèi)星圖像等多種應(yīng)用中收集而來(lái),收集到的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過(guò)了人腦分析的能力日益發(fā)展的空間數(shù)據(jù)基礎(chǔ)設(shè)施為空間數(shù)據(jù)的自動(dòng)化處理提出了新的課題空間數(shù)據(jù)的最常用的數(shù)據(jù)組織形式是空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)必須保存空間實(shí)體,這些空間實(shí)體是用空間數(shù)據(jù)類型和實(shí)體的空間關(guān)系來(lái)表示出來(lái)的空間數(shù)據(jù)庫(kù),不同于關(guān)系數(shù)據(jù)庫(kù),它一般具有空間拓?fù)浠蚓嚯x信息,通常需要以復(fù)雜的多維空間索引結(jié)構(gòu)組織。
空間挖掘(,Spatial Mining,)或被稱作空間數(shù)據(jù)挖掘,/,空間數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn),是數(shù)據(jù)挖掘技術(shù)在空間數(shù)據(jù)方面的應(yīng)用簡(jiǎn)言之,空間數(shù)據(jù)挖掘,就是從空間數(shù)據(jù)庫(kù)中抽取隱含的知識(shí)、空間關(guān)系或非顯式地存儲(chǔ)在空間數(shù)據(jù)庫(kù)中的其他模式,用于理解空間數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)間(空間或非空間)的關(guān)系由于空間數(shù)據(jù)的復(fù)雜性及其應(yīng)用的專業(yè)性,在一般的數(shù)據(jù)挖掘的基本概念的基礎(chǔ)上,需要研究空間數(shù)據(jù)挖掘特有的理論、方法和應(yīng)用2024/12/13,2,空間挖掘技術(shù)概述 大量的空間數(shù)據(jù)是從遙感、地理信息系統(tǒng)(GI,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,3,第八章 空間挖掘,空間數(shù)據(jù)的主要特點(diǎn),空間數(shù)據(jù)是指與二維、三維或更高維空間的空間坐標(biāo)及空間范圍相關(guān)的數(shù)據(jù),例如地圖上的經(jīng)緯度、湖泊、城市等訪問(wèn)空間數(shù)據(jù)要比訪問(wèn)非空間數(shù)據(jù)更復(fù)雜對(duì)空間數(shù)據(jù)的訪問(wèn)要使用專門的操作和數(shù)據(jù)結(jié)構(gòu)空間數(shù)據(jù)可以用包含著諸如“接近、南、北、包含于”等空間操作符的查詢來(lái)訪問(wèn)。
空間數(shù)據(jù)存放在記錄著實(shí)體的空間性數(shù)據(jù)和非空間性數(shù)據(jù)的空間數(shù)據(jù)庫(kù)里由于空間數(shù)據(jù)關(guān)聯(lián)著距離信息,所以空間數(shù)據(jù)庫(kù)通常用使用距離或拓?fù)湫畔⒌目臻g數(shù)據(jù)結(jié)構(gòu)或者索引來(lái)存儲(chǔ)就數(shù)據(jù)挖掘而論,這些距離信息提供了所需的相似性度量的基礎(chǔ)2024/12/13,4,空間數(shù)據(jù)的主要特點(diǎn)空間數(shù)據(jù)是指與二維、三維或更高維空間的空間,空間數(shù)據(jù)的復(fù)雜性特征,空間數(shù)據(jù)的復(fù)雜性特征主要表現(xiàn)在以下幾個(gè)方面:,空間屬性之間的非線性關(guān)系:,空間屬性之間的非線性關(guān)系是空間系統(tǒng)復(fù)雜性的重要標(biāo)志,被作為空間數(shù)據(jù)挖掘的主要任務(wù)之一空間數(shù)據(jù)的多尺度特征:,空間數(shù)據(jù)的多尺度性是指空間數(shù)據(jù)在不同觀察層次上所遵循的規(guī)律以及體現(xiàn)出的特征不盡相同多尺度特征是空間數(shù)據(jù)復(fù)雜性的又一表現(xiàn)形式空間信息的模糊性:,模糊性幾乎存在于各種類型的空間信息中,如空間位置的模糊性、空間相關(guān)性的模糊性以及模糊的屬性值等等空間維數(shù)的增高:,空間數(shù)據(jù)的屬性增加極為迅速,如在遙感領(lǐng)域,由于傳感器技術(shù)的飛速發(fā)展,波段的數(shù)目也由幾個(gè)增加到幾十甚至上百個(gè),如何從幾十甚至幾百維空間中提取信息、發(fā)現(xiàn)知識(shí)則成為研究中的又一難題空間數(shù)據(jù)的缺值:,數(shù)據(jù)的缺值現(xiàn)象源自由于某種不可抗拒的外力而使數(shù)據(jù)無(wú)法獲得或發(fā)生丟失。
如何對(duì)丟失數(shù)據(jù)進(jìn)行恢復(fù)并估計(jì)數(shù)據(jù)的固有分布參數(shù),成為解決數(shù)據(jù)復(fù)雜性的難點(diǎn)2024/12/13,5,空間數(shù)據(jù)的復(fù)雜性特征空間數(shù)據(jù)的復(fù)雜性特征主要表現(xiàn)在以下幾個(gè)方,空間查詢問(wèn)題,查詢是挖掘的技術(shù),空間查詢及其操作的主要特點(diǎn)有:,空間操作相對(duì)復(fù)雜和不精確:,傳統(tǒng)的訪問(wèn)非空間數(shù)據(jù)的選擇查詢使用的是標(biāo)準(zhǔn)的比較操作符:,>,,,<,,≤,≥,≠而空間選擇是一種在空間數(shù)據(jù)上的選擇查詢,要用到空間操作符,包括接近、東、西、南、北、包含、重疊或相交等下面是幾個(gè)空間選擇查詢的例子:,例如,“查找北海公園,附近,的房子”空間連接(,Spatial Join,)問(wèn)題:,在兩個(gè)空間關(guān)系上的一個(gè)空間性連接操作被稱為空間連接(,Spatial Join,)在空間連接中,關(guān)系都是空間性的,需要與空間連接對(duì)應(yīng)的條件描述例如, “相交”關(guān)系用于多邊形;“相鄰”關(guān)系用于點(diǎn)相同的地理區(qū)域經(jīng)常有不同的視圖:,一個(gè)區(qū)域不同的視圖(如基礎(chǔ)設(shè)施、城市規(guī)劃、綠化等)保存在單獨(dú)的,GIS,文件中,融合這些數(shù)據(jù),通常需要一個(gè)稱為“地圖覆蓋”(,Map Overlay,)的操作來(lái)實(shí)現(xiàn)一個(gè)空間實(shí)體可用空間和非空間的屬性來(lái)描述當(dāng)其空間屬性用一些空間數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)起來(lái)之后,非空間屬性就可以存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)里。
對(duì)空間數(shù)據(jù)庫(kù)來(lái)說(shuō),不同的空間實(shí)體經(jīng)常是和不同的位置相關(guān)聯(lián)的,而且在不同的實(shí)體之間進(jìn)行空間性操作的時(shí)候,經(jīng)常需要在屬性之間進(jìn)行一些轉(zhuǎn)換2024/12/13,6,空間查詢問(wèn)題查詢是挖掘的技術(shù),空間查詢及其操作的主要特點(diǎn)有:,空間數(shù)據(jù)結(jié)構(gòu),由于空間數(shù)據(jù)的獨(dú)特性質(zhì),有很多數(shù)據(jù)結(jié)構(gòu)專門被設(shè)計(jì)用來(lái)存儲(chǔ)或索引空間數(shù)據(jù)這些結(jié)構(gòu)有的考慮的是空間實(shí)體的輪廓表示,有的是空間數(shù)據(jù)的索引方法空間實(shí)體表示的最常用方法是“最小包圍矩形”空間索引技術(shù)大多是基于對(duì)空間目標(biāo)的近似技術(shù),例如,,空間映射法,(,1,)采用低維空間向高維空間映射的方式:,k維空間具有n個(gè)頂點(diǎn)的目標(biāo)可以映射成n*k維空間的點(diǎn)映射后,可以直接采用點(diǎn)索引技術(shù)2,)直接向一維空間映射:,通常數(shù)據(jù)空間被劃分成大小相同的網(wǎng)格單元,通過(guò)給這些網(wǎng)格單元編碼形成一維目標(biāo),用傳統(tǒng)的一維的索引結(jié)構(gòu)(如B,+,樹等)索引分割方法,(,1,)采用不允許空間重疊的索引方法:,將所在的數(shù)據(jù)空間按某種方法(如二叉樹劃分、四叉樹劃分、格網(wǎng)劃分等)劃分成彼此不相交的子空間2,)采用允許空間重疊的索引法:,將索引空間劃分為多級(jí)的子空間,這些子空間允許重疊,但是一個(gè)空間實(shí)體完全包含在某一子空間中。
2024/12/13,7,空間數(shù)據(jù)結(jié)構(gòu)由于空間數(shù)據(jù)的獨(dú)特性質(zhì),有很多數(shù)據(jù)結(jié)構(gòu)專門被設(shè)計(jì),最小包圍矩形,通過(guò)完整包含一個(gè)空間實(shí)體的最小包圍矩形(,MBR,:,Minimum Bounding Rectangle,)來(lái)表示該空間實(shí)體例如,下圖顯示一湖泊的,MBR,:,,,,,,,如果用傳統(tǒng)坐標(biāo)系統(tǒng)來(lái)對(duì)這個(gè)湖定向,水平軸表示東西方向,垂直軸表示南北方向,那么就可以把這個(gè)湖放在一個(gè)矩形里(中間圖所示),還可以通過(guò)一系列更小的矩形來(lái)表現(xiàn)這個(gè)湖(右圖所示),另一種更簡(jiǎn)單的方法是用一對(duì)不相鄰的頂點(diǎn)坐標(biāo)來(lái)表示一個(gè),MBR,,如用,{(x1,,,y1),,,(x2,,,y2)},來(lái)表示(中間圖所示)2024/12/13,8,最小包圍矩形通過(guò)完整包含一個(gè)空間實(shí)體的最小包圍矩形(MBR:,空間索引技術(shù),空間索引是指依據(jù)空間實(shí)體的位置和形狀或空間實(shí)體之間的某種空間關(guān)系,按一定順序排列的一種數(shù)據(jù)結(jié)構(gòu),其中包含空間實(shí)體的概要信息空間索引的性能優(yōu)劣直接影響空間數(shù)據(jù)庫(kù)和地理信息系統(tǒng)的整體性能,也對(duì)空間數(shù)據(jù)挖掘的效率有影響幾種比較有代表性的空間數(shù)據(jù)索引結(jié)構(gòu)技術(shù):,網(wǎng)格文件,四叉樹,R-,樹,k-D,樹,2024/12/13,9,空間索引技術(shù)空間索引是指依據(jù)空間實(shí)體的位置和形狀或空間實(shí)體之,網(wǎng)格文件,根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間。
k維數(shù)據(jù)空間的網(wǎng)格由k個(gè)一維數(shù)組表示,這些數(shù)組稱為刻度,將其保存在主存刻度的每一邊界構(gòu)成k,-1,維的超平面整個(gè)數(shù)據(jù)空間被所有的邊界劃分成許多k維的矩形子空間,這些矩形子空間稱為網(wǎng)格目錄,用k維的數(shù)組表示,將其保存在硬盤上網(wǎng)格目錄的每一網(wǎng)格單元包含一外存頁(yè)的地址,這一外存頁(yè)存儲(chǔ)了該網(wǎng)格單元內(nèi)的數(shù)據(jù)目標(biāo),稱為數(shù)據(jù)頁(yè)一數(shù)據(jù)頁(yè)允許存儲(chǔ)多個(gè)相鄰網(wǎng)格單元的目標(biāo)網(wǎng)格文件的查找簡(jiǎn)單,查找效率較高,適用于點(diǎn)目標(biāo)的索引2024/12/13,10,網(wǎng)格文件根據(jù)正交的網(wǎng)格劃分k維的數(shù)據(jù)空間k維數(shù)據(jù)空間的網(wǎng)格,四叉樹,四叉樹通過(guò)把空間按等級(jí)分解成為區(qū)域(單元)來(lái)表示空間實(shí)體四叉樹實(shí)際上每一節(jié)點(diǎn)有,4,個(gè)子樹,用于對(duì)空間點(diǎn)的表示與索引如二維空間的四叉樹,每個(gè)子節(jié)點(diǎn)對(duì)應(yīng)一個(gè)矩形,用四種方位西北(NW),東北(NE),西南(SW),東南(SE)表示,空間區(qū)域被分為,n,層,四叉樹中的每級(jí)對(duì)應(yīng)一個(gè)層次級(jí)別,層的數(shù)量,n,是依賴于所需要的精確度的例如,,,,,2024/12/13,11,四叉樹四叉樹通過(guò)把空間按等級(jí)分解成為區(qū)域(單元)來(lái)表示空間實(shí),R-樹,R,-,樹是B,-,樹在多維空間的擴(kuò)展,其葉子節(jié)點(diǎn)包含多個(gè)形式為(,OI,,,MBR,)的實(shí)體,,OI,為空間目標(biāo)標(biāo)志,,MBR,為該目標(biāo)在k維空間中的最小包圍矩形。
非葉子節(jié)點(diǎn)包含多個(gè)形式為(,CP,,,MBR,)的實(shí)體CP,為指向子樹根節(jié)點(diǎn)的指針,,MBR,為包圍其子節(jié)點(diǎn)中所有,MBR,的最小包圍矩形R,-,樹必須滿足如下特性:,若根節(jié)點(diǎn)不是葉子節(jié)點(diǎn),則至少有兩棵子樹;,除根之外的所有中間節(jié)點(diǎn)至多有M棵子樹,至少有m棵子樹;,每個(gè)葉子節(jié)點(diǎn)均包含m至M個(gè)數(shù)據(jù)項(xiàng);,所有的葉子節(jié)點(diǎn)都出現(xiàn)在同一層次;,所有節(jié)點(diǎn)都需要同樣的存儲(chǔ)空間(一個(gè)磁盤頁(yè))2024/12/13,12,R-樹R-樹是B-樹在多維空間的擴(kuò)展2023/9/2012,k-D樹,k-D,樹被設(shè)計(jì)用來(lái)對(duì)多屬性的數(shù)據(jù)進(jìn)行索引,而不是必要的空間數(shù)據(jù)k-D,樹是二叉樹的一個(gè)變種,樹中的每一層用來(lái)索引一個(gè)屬性樹中的每個(gè)結(jié)點(diǎn)表示這個(gè)空間基于一個(gè)分割點(diǎn)被分割成兩個(gè)子集和,R-,樹一樣,每個(gè)最低級(jí)別的區(qū)間只有一個(gè)實(shí)體但是,分割不是用,MBR,來(lái)進(jìn)行的它首先按照一個(gè)維分割,然后按照另一個(gè)維分割,直到每個(gè)區(qū)間只有一個(gè)實(shí)體2024/12/13,13,k-D樹k-D樹被設(shè)計(jì)用來(lái)對(duì)多屬性的數(shù)據(jù)進(jìn)行索引,而不是必要,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,14,第八章 空間挖掘,空間數(shù)據(jù)庫(kù)的操作是數(shù)據(jù)挖掘的基礎(chǔ),假定,A,和,B,是二維空間中的兩個(gè)空間實(shí)體。
每個(gè)實(shí)體由空間中的點(diǎn)的集合組成:,
基于足夠多的樣本,在統(tǒng)計(jì)空間實(shí)體的幾何特征量的最小值、最大值、均值、方差、眾數(shù)或直方圖的基礎(chǔ)上,可以得到空間實(shí)體特征的先驗(yàn)概率,進(jìn)而根據(jù)領(lǐng)域知識(shí)發(fā)現(xiàn)共性的幾何知識(shí)空間統(tǒng)計(jì)學(xué)具有較強(qiáng)的理論基礎(chǔ)和大量的成熟算法空間統(tǒng)計(jì)學(xué)是基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析(如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等)統(tǒng)計(jì)方法是分析空間數(shù)據(jù)的最常用的方法統(tǒng)計(jì)方法能夠有效處理數(shù)值型數(shù)據(jù),其主要方法是基于統(tǒng)計(jì)不相關(guān)假設(shè)的在空間數(shù)據(jù)庫(kù)中許多空間數(shù)據(jù)通常是相關(guān)的,即空間對(duì)象受其鄰近對(duì)象的影響,難以滿足這種假設(shè),這樣就會(huì)引起問(wèn)題它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的一個(gè)重要研究課題統(tǒng)計(jì)方法對(duì)非線性規(guī)劃不能很好建模,難以處理不完全或不確定性數(shù)據(jù),而且運(yùn)算的代價(jià)較高它是空間統(tǒng)計(jì)學(xué)向著實(shí)用的挖掘技術(shù)發(fā)展的另一個(gè)研究課題2024/12/13,17,空間統(tǒng)計(jì)學(xué)空間統(tǒng)計(jì)學(xué)(Spatial Statistics),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,18,第八章 空間挖掘,空間數(shù)據(jù)的蘊(yùn)含著豐富的概念,眾所周知,概念層次的使用顯示了數(shù)據(jù)間關(guān)系的層次。
應(yīng)用空間數(shù)據(jù)特性,概念層次承認(rèn)了層級(jí)中不同層次規(guī)則和關(guān)系的發(fā)展從空間數(shù)據(jù)中挖掘所蘊(yùn)含的概念是空間挖掘的重要任務(wù)之一泛化與特化是概念歸納的主要手段,它對(duì)空間數(shù)據(jù)挖掘也是如此2024/12/13,19,空間數(shù)據(jù)的蘊(yùn)含著豐富的概念眾所周知,概念層次的使用顯示了數(shù)據(jù),逐步求精的分層技術(shù),逐步求精(,Progressive Refinement,)的分層是基于空間關(guān)系的,因此空間關(guān)系可以應(yīng)用在一個(gè)更粗糙或者更精細(xì)的層次上由于空間應(yīng)用的數(shù)據(jù)量十分龐大,在尋求更多精確響應(yīng)之前要先做出一些近似響應(yīng)MBR,就是一個(gè)近似物體形狀的辦法四叉樹、,R-,樹和其他大多數(shù)空間索引技術(shù)都采用了一種逐步求精的方式逐步求精可以看作是對(duì)處理問(wèn)題無(wú)用的數(shù)據(jù)所做的過(guò)濾2024/12/13,20,逐步求精的分層技術(shù)逐步求精(Progressive Refi,泛化,數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象在原始的概念層次包含有詳細(xì)的信息,經(jīng)常需要將大量數(shù)據(jù)的集合進(jìn)行概括并以較高的概念層次展示,即對(duì)數(shù)據(jù)進(jìn)行泛化基于泛化的數(shù)據(jù)挖掘方法假定背景知識(shí)以概念層次的形式存在概念層次可由專家提供,或借助數(shù)據(jù)分析自動(dòng)生成空間數(shù)據(jù)庫(kù)中可以定義兩種類型的概念層次:,空間概念層:地理區(qū)域之間空間關(guān)系的概念層次。
非空間概念層:非空間屬性所聯(lián)系的非空間數(shù)據(jù)對(duì)應(yīng)的概念層次空間數(shù)據(jù)應(yīng)用的歸納可以被分為兩種子類:,空間數(shù)據(jù)支配泛化:空間數(shù)據(jù)支配泛化做的是基于空間位置的聚類(所有靠近的實(shí)體被分在一組中)非空間數(shù)據(jù)支配泛化:根據(jù)非空間屬性值的相似性做聚類2024/12/13,21,泛化數(shù)據(jù)庫(kù)中的數(shù)據(jù)和對(duì)象在原始的概念層次包含有詳細(xì)的信息,經(jīng),空間數(shù)據(jù)支配泛化算法,在空間數(shù)據(jù)支配泛化算法中,首先對(duì)空間數(shù)據(jù)進(jìn)行歸納:歸納進(jìn)行至區(qū)域的數(shù)量達(dá)到閾值為止然后對(duì)相關(guān)的非空間屬性做相應(yīng)地更改例如,要知道我國(guó)西北部地區(qū)的平均降雨量,可以在空間層次中尋找西北部所有省,再對(duì)非空間屬性(降雨量)進(jìn)行比較,或者歸納(平均降雨量多、中等、少量等)典型的空間數(shù)據(jù)支配泛化算法描述,:,算法,8-1,空間數(shù)據(jù)支配泛化算法,輸入:空間數(shù)據(jù)庫(kù),D,;空間層次,H,;概念層次,C,;查詢,Q,輸出:所需一般特征的規(guī)則,r,1,),D’←,從數(shù)據(jù)庫(kù),D,中按查詢,Q,獲得的數(shù)據(jù)集合;,(,2,)根據(jù),H,的結(jié)構(gòu),把數(shù)據(jù)合并到區(qū)域中,直到區(qū)域的數(shù)目達(dá)到所需的閾值,或者已經(jīng)到達(dá),H,中所要求的層次;,(,3,),FOR each,所找的區(qū)域,DO BEGIN,(,4,) 對(duì)非空間屬性執(zhí)行面向?qū)傩缘臍w納;,(,5,) 產(chǎn)生并輸出所找到的泛化規(guī)則;,(,6,),END.,2024/12/13,22,空間數(shù)據(jù)支配泛化算法在空間數(shù)據(jù)支配泛化算法中,首先對(duì)空間數(shù)據(jù),非空間數(shù)據(jù)支配泛化算法,算法首先對(duì)非空間屬性作面向?qū)傩缘臍w納,將其泛化至更高的概念層次。
然后,將具有相同的泛化屬性值的相鄰區(qū)域合并在一起,可用鄰近方法忽略具有不同非空間描述的小區(qū)域查詢的結(jié)果生成包含少量區(qū)域的地圖,這些區(qū)域共享同一層次的非空間描述2024/12/13,23,非空間數(shù)據(jù)支配泛化算法算法首先對(duì)非空間屬性作面向?qū)傩缘臍w納,,統(tǒng)計(jì)信息網(wǎng)格方法,STING,介紹,統(tǒng)計(jì)學(xué)信息網(wǎng)格方法(,STatistical INformation Grid-based method—STING,),使用了一種類似四叉樹的分層技術(shù),把空間區(qū)域分成矩形單元對(duì)空間數(shù)據(jù)庫(kù)掃描一次,可以找到每個(gè)單元的統(tǒng)計(jì)參數(shù)(平均數(shù),變化性,分布類型)網(wǎng)格結(jié)構(gòu)中的每個(gè)結(jié)點(diǎn)概括了該網(wǎng)格中所含內(nèi)部屬性的信息通過(guò)獲取這些信息,很多數(shù)據(jù)挖掘請(qǐng)求(包括聚類)都可以通過(guò)檢驗(yàn)單元統(tǒng)計(jì)得到響應(yīng)STING,方法可以看作是一種層次聚類技術(shù)層級(jí)的頂層的組成就是整體空間最低層是代表每個(gè)最小單元的葉子結(jié)點(diǎn)如果使用一個(gè)單元在下一層中擁有四個(gè)子單元(網(wǎng)格)的話,單元的分割與四叉樹中是一樣的2024/12/13,24,統(tǒng)計(jì)信息網(wǎng)格方法STING介紹統(tǒng)計(jì)學(xué)信息網(wǎng)格方法(STati,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,25,第八章 空間挖掘,空間規(guī)則的主要類型,空間規(guī)則可以概括對(duì)空間實(shí)體的結(jié)構(gòu)及其之間關(guān)系的描述。
在空間數(shù)據(jù)挖掘中有三種類型的規(guī)則:,空間特性規(guī)則:描述數(shù)據(jù),如北京市家庭平均年收入為,30000,元空間判別規(guī)則:描述不同種類數(shù)據(jù)間的差異,依靠它們能夠區(qū)分不同種類的特點(diǎn)如北京市家庭平均年收入為,30000,元,而上海的家庭平均年收入為,35000,元空間關(guān)聯(lián)規(guī)則:是兩個(gè)數(shù)據(jù)集合之間的關(guān)聯(lián)如在北京市、住在國(guó)貿(mào)附近的家庭的平均收入為,50000,元所有這些規(guī)則都可以被看作是對(duì)空間類型的描述,而描述是一種為數(shù)據(jù)庫(kù)或者其中一些子集找到一個(gè)表示的方法特性規(guī)則是一種最簡(jiǎn)化的形式2024/12/13,26,空間規(guī)則的主要類型空間規(guī)則可以概括對(duì)空間實(shí)體的結(jié)構(gòu)及其之間關(guān),空間關(guān)聯(lián)規(guī)則,空間關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)實(shí)體之間的關(guān)聯(lián),有:,非空間的先決條件和空間性的結(jié)果:如在北京、所有的重點(diǎn)學(xué)校都是位于老住宅區(qū),附近,空間性先決條件和非空間的結(jié)果:如在北京、房子在國(guó)貿(mào),附近,,就比較貴空間性先決條件和空間性結(jié)果:如在北京、所有,市區(qū),的房子都在三環(huán),以內(nèi),空間關(guān)聯(lián)規(guī)則挖掘是傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘的延伸,常用最小支持度和最小可信度來(lái)作為基本的統(tǒng)計(jì)參數(shù),由于空間數(shù)據(jù)的特點(diǎn),往往是在多層概念上進(jìn)行歸納挖掘空間關(guān)聯(lián)規(guī)則的有效方法是自上而下、逐步加深的搜索技術(shù)。
首先在高的概念層次進(jìn)行搜索,在較粗的精度級(jí)別查找頻繁發(fā)生的模式和在這些模式中較強(qiáng)的隱含關(guān)系;然后,對(duì)頻繁發(fā)生的模式加深搜索至較低的概念層次,這種處理持續(xù)到找不到頻繁發(fā)生的模式為止2024/12/13,27,空間關(guān)聯(lián)規(guī)則空間關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)實(shí)體之間的關(guān)聯(lián),有:202,空間關(guān)聯(lián)規(guī)則基本步驟,典型的五步算法:,步驟,1,:通過(guò)給定的查詢抽取出相關(guān)的數(shù)據(jù)步驟,2,:應(yīng)用一個(gè)粗的空間運(yùn)算方法,計(jì)算整個(gè)相關(guān)數(shù)據(jù)的集合步驟,3,:過(guò)濾出那些支持度小于最小支持度閾值的,1,階謂詞步驟,4,:應(yīng)用一個(gè)細(xì)化的空間計(jì)算方法,從所導(dǎo)出的粗的謂詞集合中計(jì)算謂詞步驟,5,:向低層深入,在多個(gè)概念層次上找到關(guān)聯(lián)規(guī)則的完整集合算法,8-4,,空間關(guān)聯(lián)規(guī)則算法,輸入:空間數(shù)據(jù)庫(kù),D,;概念層次,C,;層次的最小支持度和可信度,s,和,α,;尋找感興趣實(shí)體的查詢,q,;感興趣的拓?fù)潢P(guān)系,p,輸出:空間關(guān)聯(lián)規(guī)則,R,1,),D’=q(D),;,(,2,)在,D’,中應(yīng)用粗糙謂詞,建造,CP,;,// CP,是由滿足,D’,中實(shí)體對(duì)的粗糙謂詞組成的,(,3,)通過(guò)尋找滿足,s,的粗糙謂詞來(lái)找到頻繁粗糙謂詞,FCP,;,(,4,)從,FCP,中找到頻繁精確謂詞,FFP,;,(,5),尋找所有的頻繁精確謂詞得到,R,,然后歸納準(zhǔn)則,.,2024/12/13,28,空間關(guān)聯(lián)規(guī)則基本步驟典型的五步算法:算法8-4 空間關(guān)聯(lián)規(guī),第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,29,第八章 空間挖掘,空間分類方法,空間分類方法用來(lái)對(duì)空間實(shí)體的集合進(jìn)行分類。
給空間實(shí)體分類,可以通過(guò)非空間屬性或空間屬性或二者結(jié)合,并可利用概念層次來(lái)進(jìn)行取樣對(duì)于樣本數(shù)據(jù)的訓(xùn)練可以通過(guò)改造傳統(tǒng)的分類算法來(lái)完成,例如,對(duì)ID3算法擴(kuò)展2024/12/13,30,空間分類方法空間分類方法用來(lái)對(duì)空間實(shí)體的集合進(jìn)行分類給空間,空間決策樹,建造一個(gè)決策樹,有五個(gè)主要步驟:,根據(jù)已知的分類,從數(shù)據(jù),D,中找到例子,S,確定最佳謂詞,p,用來(lái)分類一般首先在較粗的層次中尋找相關(guān)謂詞,然后再在較為細(xì)化的層次找到最佳的緩沖區(qū)大小和形狀對(duì)于取樣中的每個(gè)實(shí)體,它周圍的區(qū)域被稱為緩沖區(qū)目標(biāo)是選擇一個(gè)能產(chǎn)生對(duì)測(cè)試集中的類型進(jìn)行最不同的緩沖區(qū)使用,p,和,C,,對(duì)每個(gè)緩沖區(qū)歸納謂詞使用泛化的謂詞和,ID3,建造二叉樹,T,算法,8-5,,空間決策樹算法,輸入:空間數(shù)據(jù)庫(kù),D,;概念層次,C,;預(yù)定的類別輸出:二叉決策樹,T,1,)根據(jù)預(yù)定的類別,從數(shù)據(jù),D,中找到例子,S,;,(,2,)確定最佳謂詞,p,用來(lái)分類;,(,3,)找到最佳的緩沖區(qū)大小和形狀;,(,4,)使用,p,和,C,,對(duì)每個(gè)緩沖區(qū)歸納謂詞;,(,5,)使用泛化的謂詞和,ID3,建造二叉樹,T.,2024/12/13,31,空間決策樹建造一個(gè)決策樹,有五個(gè)主要步驟:算法8-5 空間,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,32,第八章 空間挖掘,空間聚類,空間聚類算法必須在大型多維數(shù)據(jù)庫(kù)上有效工作,而且應(yīng)該能夠探測(cè)到不同形狀的聚類。
因此,難度和挑戰(zhàn)性要比傳統(tǒng)數(shù)據(jù)要大空間聚類找到的聚類不應(yīng)該依賴于檢驗(yàn)空間中的點(diǎn)的順序,而且聚類也不應(yīng)該受不相干的點(diǎn)影響傳統(tǒng)的聚類算法可以通過(guò)改造來(lái)實(shí)現(xiàn)空間數(shù)據(jù)聚類2024/12/13,33,空間聚類空間聚類算法必須在大型多維數(shù)據(jù)庫(kù)上有效工作,而且應(yīng)該,基于隨機(jī)搜索的聚類方法CLARANS擴(kuò)展,CLARANS,算法可以表示為查找一個(gè)圖,圖中的每個(gè)節(jié)點(diǎn)都是潛在的解決方案在替換一個(gè)中心點(diǎn)后獲得的聚類稱為當(dāng)前聚類的鄰居隨意測(cè)試的鄰居的數(shù)目由參數(shù),maxneighbor,限制如果找到一個(gè)更好的鄰居,將中心點(diǎn)移至鄰居節(jié)點(diǎn),重新開始上述過(guò)程,否則在當(dāng)前的聚類中生成一個(gè)局部最優(yōu)找到一個(gè)局部最優(yōu)后,再任意選擇一個(gè)新的節(jié)點(diǎn)重新尋找新的局部最優(yōu)局部最優(yōu)的數(shù)目被參數(shù),numlocal,限制CLARANS,并不搜索遍所有的求解空間,也不限制在任何具體的采樣中CLARANS,每次迭代的計(jì)算復(fù)雜度與對(duì)象的數(shù)量基本呈線性關(guān)系基于,CLARANS,的空間數(shù)據(jù)聚類算法有兩種:空間支配算法,SD,(,CLARANS,)和非空間支配算法,NSD,(,CLARANS,)2024/12/13,34,基于隨機(jī)搜索的聚類方法CLARANS擴(kuò)展 CLARANS算法,DBCLASD算法,一種大型空間數(shù)據(jù)庫(kù)基于距離分布的聚類算法,叫做,DBCLASD,(,Distribution Based Clustering of Large Spatial Databases,),它是,DBSCAN,的擴(kuò)展。
假定聚類中的項(xiàng)目是均勻分布的,算法嘗試確定滿足最近鄰居距離的分布只要最近的鄰居距離滿足均一分布的假設(shè),那么這個(gè)元素就被加入聚類算法,8-7,DBCLASD,算法,輸入:要被聚類的空間實(shí)體,D,;輸出:聚類集合,K,1,),K←0,;,//,初始化,沒有聚類,(,2,),c←Ф,;,//,初始化候選集合為空,(,3,),FOR each point p in D DO BEGIN,(,4,),IF p is not in a cluster THEN BEGIN,(,5,),,創(chuàng)建一個(gè)新的聚類,C,,并把,p,加入,C,;,(,6,),,把,p,臨近的點(diǎn)加入,C,;,(,7,),END,(,8,),FOR each point q in C DO BEGIN,(,9,),,把,C,中沒有處理過(guò)的點(diǎn),q,的鄰居點(diǎn)加入,C,;,(,10,),K←K∪{C},(,11,),END.,2024/12/13,35,DBCLASD算法一種大型空間數(shù)據(jù)庫(kù)基于距離分布的聚類算法,,BANG,算法,BANG,方法使用了一種類似,k-D,樹的網(wǎng)格結(jié)構(gòu)這個(gè)結(jié)構(gòu)為適應(yīng)屬性的分布而做了一定調(diào)整,使密集的區(qū)域具有大量的更小的網(wǎng)格,而不夠密集的區(qū)域只有少量的更大的網(wǎng)格。
接著按照網(wǎng)格(塊)的密度排序,也就是按照區(qū)域分割的網(wǎng)格里的項(xiàng)目數(shù)量根據(jù)期望的聚類數(shù)量,那些密度最大的網(wǎng)格被選為聚類的中心對(duì)于每個(gè)選定的網(wǎng)格,只要它們的密度小于或者等于當(dāng)前這個(gè)聚類的中心,就把這個(gè)臨近的網(wǎng)格加入2024/12/13,36,BANG算法BANG方法使用了一種類似k-D樹的網(wǎng)格結(jié)構(gòu)這,小波聚類,用小波聚類歸納空間聚類的方法是把數(shù)據(jù)看作像,STING,那樣的信號(hào),小波聚類使用的是網(wǎng)格歸納聚類的時(shí)間復(fù)雜度是,O(n),,并且不受外界影響與一些方法不同,小波聚類可以找到任意形狀的聚類,而且不需要知道期望的聚類個(gè)數(shù)n,維空間的空間實(shí)體集合可看作是一個(gè)信號(hào)聚類的邊界與高頻相應(yīng)聚類本身是低頻率高振幅的可以使用信號(hào)處理技術(shù)尋找空間中低頻的部分可以使用小波變換來(lái)尋找聚類小波變換是用來(lái)找出信號(hào)中的頻譜的一個(gè)空間實(shí)體的小波變換分解維空間圖像的層次它們可以用來(lái)把一個(gè)圖像縮放為不同的大小2024/12/13,37,小波聚類用小波聚類歸納空間聚類的方法是把數(shù)據(jù)看作像STING,使用近似值來(lái)確定聚類的特性,一旦找到了空間聚類,可以使用近似值來(lái)確定這些聚類的特性:通過(guò)確定聚類附近的特征實(shí)現(xiàn)的例如,一個(gè)聚類“靠近學(xué)?!?。
通常更多地用復(fù)雜的近似多邊形表示,而非指用簡(jiǎn)單的,MBR,聚合鄰近,定義為衡量一個(gè)聚類(或者元素群)與一個(gè)特征(或者空間中某個(gè)實(shí)體)接近的程度聚合鄰近距離可以由聚類中所有點(diǎn)的距離總和來(lái)度量CRH,算法是典型的確定聚合鄰近關(guān)系方法它使用三種幾何形狀來(lái)界定一個(gè)聚類:,內(nèi)接矩形,R,:包含了一系列點(diǎn)的,MBR,矩形邊緣與坐標(biāo)軸平行外接圓,C,:包圍一系列點(diǎn)的圓周;以內(nèi)接矩形的對(duì)角線為直徑凸多邊形,H,:包含點(diǎn)的集合的最小邊界CRH,首先使用一個(gè)外接圓來(lái)接近給定的類;,其次使用內(nèi)接矩形來(lái)表示特征,并根據(jù)特征與聚類的接近程度來(lái)進(jìn)行排序;,最后使用凸多邊形來(lái)評(píng)估前面所有最接近的特征2024/12/13,38,使用近似值來(lái)確定聚類的特性一旦找到了空間聚類,可以使用近似值,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,39,第八章 空間挖掘,空間挖掘的其他問(wèn)題,1,.,空間在線分析挖掘,空間在線分析挖掘(,SOLAM,:,Spatial Online Analytical Mining,)建立在多維視圖基礎(chǔ)之上,是基于網(wǎng)絡(luò)的驗(yàn)證型空間數(shù)據(jù)挖掘和分析工具。
空間在線分析挖掘通過(guò)數(shù)據(jù)分析與報(bào)表模塊的查詢和分析工具(,OLAP,、決策分析、數(shù)據(jù)挖掘)完成對(duì)信息和知識(shí)的提取,以滿足決策的需要它建立在客戶,/,服務(wù)器的結(jié)構(gòu)之上,由用戶驅(qū)動(dòng),支持多維數(shù)據(jù)分析,在用戶的指導(dǎo)下驗(yàn)證設(shè)定的假設(shè)美國(guó),BusinessObjects,公司的,BusinessObjects,(,BO,)就是采用,Data,W,arehouse+OLAP+DataMining,方案推出的第一個(gè)集多數(shù)據(jù)源查詢、任意報(bào)表生成和,OLAP,及數(shù)據(jù)挖掘技術(shù)為一體的決策支持工具軟件包2024/12/13,40,空間挖掘的其他問(wèn)題1.空間在線分析挖掘2023/9/2040,空間挖掘的其他問(wèn)題,2,.挖掘圖像數(shù)據(jù)庫(kù)的方法,,圖像數(shù)據(jù)庫(kù)是一類特殊的空間數(shù)據(jù)庫(kù),其數(shù)據(jù)幾乎全部是圖像或圖片圖像數(shù)據(jù)庫(kù)用于遙感、醫(yī)學(xué)圖像等應(yīng)用,通常以柵格形式表示,柵格代表一個(gè)或多個(gè)光譜范圍的圖像密度圖像數(shù)據(jù)庫(kù)的挖掘可以看成是空間數(shù)據(jù)挖掘的一部分,其主要問(wèn)題在于如何區(qū)分圖像以下列出對(duì)這方面問(wèn)題的一些研究Magellan,研究,恒星分類,POSS-II,(,Second Palomar Observatory Sky Survey,),基于內(nèi)容的時(shí)空查詢,CONQUEST,,,2024/12/13,41,空間挖掘的其他問(wèn)題2.挖掘圖像數(shù)據(jù)庫(kù)的方法2023/9/20,空間挖掘的其他問(wèn)題,3,.基于,Rough,集方法,Rough,集理論被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識(shí)獲取中。
Rough,集理論為空間數(shù)據(jù)的屬性分析和知識(shí)發(fā)現(xiàn)開辟了一條新途徑,可用于空間數(shù)據(jù)庫(kù)屬性表的一致性分析、屬性的重要性、屬性依賴、屬性表簡(jiǎn)化、最小決策和分類算法生成等Rough,集方法與其他知識(shí)發(fā)現(xiàn)方法相結(jié)合,可以在數(shù)據(jù)庫(kù)中數(shù)據(jù)不確定情況下獲取多種知識(shí)4,.基于云理論挖掘方法,云理論是由李德毅等提出的一種用于處理不確定性的新理論,由云模型、不確定性推理和云變換三大支柱構(gòu)成云理論將模糊性和隨機(jī)性結(jié)合起來(lái),解決了作為模糊集理論基石的隸屬函數(shù)概念的固有缺陷,為,KDD,中定量與定性相結(jié)合的處理方法奠定了基礎(chǔ),可以用于處理,GIS,中融隨機(jī)性和模糊性為一體的屬性不確定性2024/12/13,42,空間挖掘的其他問(wèn)題3.基于Rough集方法2023/9/20,空間挖掘的其他問(wèn)題,5,.探測(cè)性的數(shù)據(jù)分析(,EDA,),探測(cè)性的數(shù)據(jù)分析,簡(jiǎn)稱,EDA,,采用動(dòng)態(tài)統(tǒng)計(jì)圖形和動(dòng)態(tài)鏈接窗口技術(shù)將數(shù)據(jù)及其統(tǒng)計(jì)特征顯示出來(lái),可發(fā)現(xiàn)數(shù)據(jù)中非直觀的數(shù)據(jù)特征及異常數(shù)據(jù)EDA,技術(shù)在知識(shí)發(fā)現(xiàn)中用于選取感興趣的數(shù)據(jù)子集,即數(shù)據(jù)聚焦,并可初步發(fā)現(xiàn)隱含在數(shù)據(jù)中的某些特征和規(guī)律6,.可視化,現(xiàn)代的數(shù)據(jù)可視化(,Data Visualization,)技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。
它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互技術(shù)等多個(gè)領(lǐng)域數(shù)據(jù)可視化概念首先來(lái)自科學(xué)計(jì)算可視化2024/12/13,43,空間挖掘的其他問(wèn)題5.探測(cè)性的數(shù)據(jù)分析(EDA)2023/9,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,44,第八章 空間挖掘,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,加拿大,Simon Fraser,大學(xué)開發(fā)的空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,很有代表性該系統(tǒng)包含有三大模塊:空間數(shù)據(jù)立方體構(gòu)建模塊,空間聯(lián)機(jī)分析處理(,OLAP,)模塊和空間數(shù)據(jù)挖掘模塊,采用的空間數(shù)據(jù)挖掘語(yǔ)言是,GMQL,目前已能挖掘三種類型的規(guī)則:特征規(guī)則、判別規(guī)則和關(guān)聯(lián)規(guī)則GeoMiner,的體系結(jié)構(gòu)如圖,8-12,所示,包含四個(gè)部分:,圖形用戶界面,用于進(jìn)行交互式地挖掘并顯示挖掘結(jié)果;,發(fā)現(xiàn)模塊集合,含有上述三個(gè)已實(shí)現(xiàn)的知識(shí)發(fā)現(xiàn)模塊以及四個(gè)計(jì)劃實(shí)現(xiàn)的模塊(分別用實(shí)線框和虛線框表示);,空間數(shù)據(jù)庫(kù)服務(wù)器,包括,MapInfo,、,ESRI/Oracle SDE,、,Informix-Illustra,以及其他空間數(shù)據(jù)庫(kù)引擎;,存儲(chǔ)非空間數(shù)據(jù)、空間數(shù)據(jù)和概念層次的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)。
2024/12/13,45,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 加拿大Simon Frase,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,,空間數(shù)據(jù),,圖形用戶界面,GeoMiner,:知識(shí)發(fā)現(xiàn)模塊,空間數(shù)據(jù)庫(kù)服務(wù)器和數(shù)據(jù)立方體,非空間數(shù)據(jù),概念層次,,空間特征規(guī)則發(fā)現(xiàn)模塊,空間關(guān)聯(lián)規(guī)則發(fā)現(xiàn)模塊,空間預(yù)測(cè)模塊,空間模式分析模塊,空間比較規(guī)則發(fā)現(xiàn)模塊,空間分類規(guī)則發(fā)現(xiàn)模塊,空間聚類分析模塊,未來(lái)的空間發(fā)現(xiàn)模塊,2024/12/13,46,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹 空間數(shù)據(jù)圖形用戶界面GeoM,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,到目前為止,尚沒有對(duì)空間數(shù)據(jù)挖掘查詢語(yǔ)言,SDMQL,(,Spatial Data Mining Query Language,)的定義Han,等人為了挖掘地理空間數(shù)據(jù)庫(kù)設(shè)計(jì)了一種地理數(shù)據(jù)挖掘查詢語(yǔ)言,GMQL,(,Geo-Mining Query Language,),它是對(duì)空間,SQL,的擴(kuò)展,并成功地應(yīng)用于空間數(shù)據(jù)挖掘系統(tǒng)原型,GeoMiner,中GMQL,可作為制定,SDMQL,的基礎(chǔ),以進(jìn)一步界定,SDMQL,語(yǔ)言的基本原語(yǔ)SDMQL,的設(shè)計(jì)指導(dǎo)原則主要有:,在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說(shuō)明用于挖掘的相關(guān)數(shù)據(jù)集。
在空間數(shù)據(jù)挖掘請(qǐng)求中應(yīng)說(shuō)明想要挖掘的知識(shí)的種類挖掘過(guò)程中應(yīng)該可能運(yùn)用相關(guān)的背景知識(shí)挖掘結(jié)果應(yīng)該能用較概括的或多層次概念的術(shù)語(yǔ)來(lái)表述應(yīng)能夠說(shuō)明各種各樣的閾值,使得可以靈活地過(guò)濾掉那些不是很令人感興趣的知識(shí)應(yīng)采用類似,SQL,的語(yǔ)法以適應(yīng)在高級(jí)語(yǔ)言的水平上進(jìn)行數(shù)據(jù)挖掘并與關(guān)系查詢語(yǔ)言,SQL,保持自然的融合2024/12/13,47,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹到目前為止,尚沒有對(duì)空間數(shù)據(jù)挖掘查詢,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,48,第八章 空間挖掘,空間數(shù)據(jù)挖掘的研究現(xiàn)狀,空間數(shù)據(jù)挖掘的研究比一般的關(guān)系型數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)的研究要晚,但近幾年己經(jīng)引起廣泛的興趣目前國(guó)內(nèi)外都己經(jīng)開展了地球空間數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)方面的研究加拿大西蒙弗雷澤大學(xué)、德國(guó)慕尼黑大學(xué)、芬蘭赫爾辛基大學(xué)以及美國(guó)、澳大利亞等國(guó)家的許多大學(xué)和研究所,都有空間數(shù)據(jù)挖掘的成果報(bào)道目前,在空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)方面,國(guó)際上有代表性的通用,SDM,系統(tǒng)有:,GeoMiner,,,Descartes,和,ArcView GIS,的,S-PLUS,接口。
在國(guó)內(nèi),目前已經(jīng)開展空間數(shù)據(jù)挖掘的單位主要有:北京大學(xué)、武漢大學(xué)、中科院軟件所、中科院地理所資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室、中科院遙感所、中國(guó)測(cè)繪科學(xué)研究院等2024/12/13,49,空間數(shù)據(jù)挖掘的研究現(xiàn)狀 空間數(shù)據(jù)挖掘的研究比一般的關(guān)系型數(shù)據(jù),空間數(shù)據(jù)挖掘的研究與發(fā)展方向,空間數(shù)據(jù)挖掘是一個(gè)非常年輕而富有前景的領(lǐng)域,有很多研究問(wèn)題需要深入探討,這也是該領(lǐng)域的研究與發(fā)展方向1,.在面向?qū)ο蟮目臻g數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘,2,.進(jìn)行不確定性挖掘,3,.多邊形聚類技術(shù),4,.模糊空間關(guān)聯(lián)規(guī)則的挖掘,5,.挖掘空間數(shù)據(jù)的偏離和演變規(guī)則,6,.多維規(guī)則可視化,7,.多技術(shù)結(jié)合,8,.高效的分類算法,9,.空間數(shù)據(jù)挖掘查詢語(yǔ)言,10,.帶空間誤差的數(shù)據(jù)挖掘,11,.遙感影像的挖掘,12,.智能,GIS,方法,13,.并行數(shù)據(jù)挖掘,14,.其他,,2024/12/13,50,空間數(shù)據(jù)挖掘的研究與發(fā)展方向 空間數(shù)據(jù)挖掘是一個(gè)非常年輕而富,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,51,第八章 空間挖掘,空間數(shù)據(jù)挖掘與相關(guān)學(xué)科的關(guān)系,空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù)存儲(chǔ)了大量與空間有關(guān)的數(shù)據(jù),例如數(shù)字地圖、預(yù)處理后的遙感或醫(yī)學(xué)圖像數(shù)據(jù)等等,空間數(shù)據(jù)庫(kù)有許多與關(guān)系型數(shù)據(jù)庫(kù)所不同的顯著特征。
空間數(shù)據(jù)挖掘與空間數(shù)據(jù)倉(cāng)庫(kù),空間數(shù)據(jù)倉(cāng)庫(kù)(,Spatial Data Warehouse,,,SDW,)是近幾年在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上提出的一個(gè)新的概念和新的技術(shù),空間數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、隨時(shí)間變化的并且非易失性的空間和非空間數(shù)據(jù)的集合,用于支持空間數(shù)據(jù)挖掘和與空間數(shù)據(jù)有關(guān)的決策過(guò)程空間數(shù)據(jù)挖掘與空間聯(lián)機(jī)分析處理,空間聯(lián)機(jī)分析處理(,Spatial Online Analytical Processing,,,SOLAP,)是針對(duì)特定問(wèn)題的聯(lián)機(jī)空間數(shù)據(jù)訪問(wèn)和分析,適合以空間數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的數(shù)據(jù)分析處理空間數(shù)據(jù)挖掘與地理信息系統(tǒng),數(shù)字地球,,,2024/12/13,52,空間數(shù)據(jù)挖掘與相關(guān)學(xué)科的關(guān)系 空間數(shù)據(jù)挖掘與空間數(shù)據(jù)庫(kù)202,第八章 空間挖掘,,,,,內(nèi)容提要,引言,空間數(shù)據(jù)概要,空間數(shù)據(jù)挖掘基礎(chǔ),空間統(tǒng)計(jì)學(xué),泛化與特化,空間規(guī)則,空間分類算法,空間聚類算法,空間挖掘的其他問(wèn)題,空間數(shù)據(jù)挖掘原型系統(tǒng)介紹,空間數(shù)據(jù)挖掘的研究現(xiàn)狀與發(fā)展方向,其他,2024/12/13,53,第八章 空間挖掘,http://www.cs.sfu.ca/~han,Thank you !!!,2024/12/13,54,http://www.cs.sfu.ca/~hanThank,。