秋霞电影网午夜鲁丝片无码,真人h视频免费观看视频,囯产av无码片毛片一级,免费夜色私人影院在线观看,亚洲美女综合香蕉片,亚洲aⅴ天堂av在线电影猫咪,日韩三级片网址入口

當(dāng)前位置首頁 > 計算機 > 數(shù)據(jù)挖掘與模式識別
搜柄,搜必應(yīng)! 快速導(dǎo)航 | 使用教程  [會員中心]

廈門大學(xué)數(shù)據(jù)挖掘數(shù)據(jù)的排序即有向聚類分析課件

文檔格式:PPT| 68 頁|大小 2.96MB|積分 10|2024-11-28 發(fā)布|文檔ID:253071451
第1頁
下載文檔到電腦,查找使用更方便 還剩頁未讀,繼續(xù)閱讀>>
1 / 68
此文檔下載收益歸作者所有 下載文檔
  • 版權(quán)提示
  • 文本預(yù)覽
  • 常見問題
  • 單擊此處編輯母版標(biāo)題樣式,,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,*,*,第五章,數(shù)據(jù)的排序及有向聚類分析,,§5.1,引言,,,§5.2,事務(wù)項的排序標(biāo)準(zhǔn),,,§5.3,屬相項的排序標(biāo)準(zhǔn),,,§5.4,數(shù)據(jù)的衍生,,,§5.5,有序近鄰聚類分析,,,§5.6,有序平均秩效應(yīng)聚類分析,11/28/2024,§5.1,引 言,,數(shù)據(jù)排序在數(shù)據(jù)挖掘中顯得尤為重要,但往往被人們所忽視,.,因為在數(shù)據(jù)量較少時,對于排序看起來不是什么問題,也無需專門去研究和討論,.,然而,對于海量數(shù)據(jù)的分析,排序問題就不是那么簡單了,.,可以想象利用,Web,的有關(guān)資料,我們?nèi)绾螌⒕W(wǎng)絡(luò)廣告、街頭廣告、報刊廣告等對電視廣告的影響程度排序呢?又如,在大學(xué)生成長和發(fā)展過程,因素,q,1,,q,2,,...,q,25,所起的作用大小又是如何呢?,這些問題的解決不僅為進一步的數(shù)據(jù)挖掘提供適合的數(shù)據(jù)形式,而且為數(shù)據(jù)分析過程中的算法改進、提高精度、增強有效性奠定了理論基礎(chǔ),.,11/28/2024,,數(shù)據(jù)排序必須要有,研究對象,,即我們是對屬性項,(,變量,),進行排序,還是對事務(wù)項,(,樣本,),進行排序,這一點必須要明確,.,研究對象要根據(jù)問題的研究目的和內(nèi)容來確定,.,,,,在明確了排序的對象后,進行排序前還要確定一個,排序標(biāo)準(zhǔn),,標(biāo)準(zhǔn)不一樣,排序的結(jié)果不一樣,.,排序標(biāo)準(zhǔn)的確定不是那么輕而易舉的,如果標(biāo)準(zhǔn)確定不好,不僅反映不出實際問題,而且還有可能誤導(dǎo)人們對問題的認(rèn)識,.,因此,排序標(biāo)準(zhǔn)的確定既要建立在一定的理論基礎(chǔ)上,而且又要有一定的實際背景,.,這方面的內(nèi)容我們將在后面詳細(xì)探討,.,11/28/2024,,隨著對數(shù)據(jù)的進一步考慮,我們將會發(fā)現(xiàn),,排序后數(shù)據(jù)之間的“距離”,(包括相似的概念,以后不再強調(diào)),并不相等,,也就是排序后數(shù)據(jù)的稀疏程度不均勻.由于數(shù)據(jù)量過大,我們自然要關(guān)心的是對一個數(shù)據(jù)集合進行分析,,這樣就提出了如何對排序資料進行聚類分析.,11/28/2024,,我們知道聚類分析源于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、統(tǒng)計學(xué)、生物學(xué)以及機器學(xué)習(xí),,但對有序樣品的聚類分析的理論內(nèi)容并不多,,(,胡國定,張潤楚,(1989), 286-319),,而且所研究的內(nèi)容立足點是,已知變量,(,或樣品,),具有一定的順序,其順序在聚類中是不能打亂的,即只能按其順序分成若干類,.,例如,欲了解兒童的生長發(fā)育規(guī)律,對所獲得的兒童的體重按發(fā)育階段進行分類,這里很清楚,只能按年齡由小到大分成若干個發(fā)育階段,如果按不同的年齡,(,非順序性,),將兒童的體重進行聚類分析,這樣的結(jié)果不適合生長發(fā)育規(guī)律的要求,.,這類有序變量,(,或樣品,),是客觀現(xiàn)實中存在的,這種有序我們稱為,客觀有序,.,,11/28/2024,,對于非有序數(shù)據(jù)進行聚類分析,這在數(shù)據(jù)挖掘中已經(jīng)成為一個非?;钴S的研究課題 (Trespv,V. (2001),Van,,Hulle,M.M.(2000),Gardner,M.,,,,Lalmas,M.and Ruthven,I.(2001),Friedman,J.H.,,(1997)).但是根據(jù)我們研究的內(nèi)容和聚類的目的,將數(shù)據(jù)排序后,再進行聚類分析,這樣不僅會對聚類的結(jié)果有更細(xì)致深刻的認(rèn)識,還會大大提高聚類的運算速度.,在這里我們所涉及到的有序數(shù)據(jù)是根據(jù)某一研究的目的排列而成的,這種有序我們稱為目的有序.,11/28/2024,§5.2.1,以信息源為標(biāo)準(zhǔn)的排序,§5.2,事務(wù)項(樣品)的排序標(biāo)準(zhǔn),11/28/2024,11/28/2024,§5.2.2,以綜合屬性項為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.2.3,移動通訊用戶綜合費用排序,,我們已經(jīng)對某地區(qū)中國移動通訊用戶數(shù)據(jù)庫進行了壓縮分析,得到了關(guān)于屬性子集,A={,本地話費、長途話費、漫游費,},的壓縮信息系統(tǒng),.,現(xiàn)在將利用上面的方法對移動通訊用戶的消費情況進行綜合評價,以,2001,年,10,月的壓縮信息系統(tǒng)為例分析,.,計算出綜合評價指標(biāo),Z,,將其可視化得到,2001,年,10,月移動通訊用戶消費屬性綜合評價分布,(,圖,1-b),,比較接近用戶消費概率分布,,(,圖,1-a),,綜合排序以后的分布見圖,2,,由于圖,2,反映出排序以后前,20,位的綜合指標(biāo)較大,將其事務(wù)項列出見下表,.,11/28/2024,圖,1-a,圖,1-b,移動通訊用戶消費概率分布與綜合屬性評價分布比較,11/28/2024,圖,2,移動通訊用戶消費綜合屬性評價排序,11/28/2024,11/28/2024,,通過分析我們可以挖掘出以下知識:,,,,,i).,以此排序結(jié)果看,該地區(qū)移動手機用戶平均消費最大的綜合評價指標(biāo)值是,0.9865,,即本地話費在,3,檔上,(100-300,元,),,長途話費和漫游費的消費在,2,檔上,(0-100,元,).,從總體上,該地區(qū)的移動手機用戶的本地話費消費群體集中在,3,檔,長途話費和漫游費的消費群體集中在,2,檔上,處于中低檔消費水平,.,,ii).,這里需要特別說明的是,所有的,1,檔消費群體綜合評價指標(biāo)值為,0.0513,,排在第,13,位,這些消費者雖然擁有手機但沒有消費,它直接影響著該地區(qū)移動通訊的業(yè)務(wù)總收入量,這部分消費者具有潛在流失傾向,公司應(yīng)該針對此情況采取措施,.,我們對以后的幾個月進行分析,發(fā)現(xiàn)這種情形越發(fā)嚴(yán)重,.,這種異?,F(xiàn)象的發(fā)現(xiàn),充分體現(xiàn)了數(shù)據(jù)挖掘的特點,.,11/28/2024,§5.3,屬性項,(,變量,),的排序標(biāo)準(zhǔn),11/28/2024,§5.3.1,以平均水平為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,§5.3.2,以秩效應(yīng)為標(biāo)準(zhǔn)的排序,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.4,數(shù)據(jù)的衍生,§5.4.1,數(shù)據(jù)矩陣,,,聚類分析是一種重要的人類行為,通過聚類人們能夠識別密集和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間有趣的相互關(guān)系,.,聚類分析作為數(shù)據(jù)挖掘的一種功能,不僅能獨立地來獲得數(shù)據(jù)分布情況,觀察每個族的特點,集中對待定的某些族作出進一步的分析,而且還是進行其它數(shù)據(jù)分析,(,如回歸、分類、網(wǎng)絡(luò)分析等,),的預(yù)處理過程,(Owen, A. B. (1999)).,可以說,聚類分析不論在理論上,還是在應(yīng)用上正在蓬勃發(fā)展,有貢獻的研究領(lǐng)域包括數(shù)據(jù)挖掘,(,Trespv,, V. (2001)),、統(tǒng)計學(xué),(Van,Der,Ark, L. A., Van,Der,,Heijden,, P. G. M. and,Sikkel,, D. (1999)),、機器學(xué)習(xí),(Krieger, A. M. and Green, P. E. (1999)),、空間數(shù)據(jù)庫技術(shù),(Nelson, D. E. (2001)),、生物學(xué),(Segal, E. and,Koller,, D.),以及市場營銷,(,Yun,, C. H.,,Chuang,, K. T. and Chen, M. S.),等,.,由于數(shù)據(jù)庫中收集了大量的數(shù)據(jù),聚類分析的研究工作已經(jīng)涉及到大型數(shù)據(jù)庫的有效和實際的聚類分析尋找適當(dāng)?shù)姆椒ㄉ?.,那么,聚類分析所針對的數(shù)據(jù)類型如何呢?這一問題的明確,將會為聚類分析的方法研究澄清思路,.,11/28/2024,11/28/2024,§5.4.2,相異度矩陣,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5,有序近鄰聚類分析,§5.5.1,相似指標(biāo)的確定及聚類分析,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.5.2 Fisher,最優(yōu)求解法與有序近鄰方法的比較,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,§5.6,有序平均秩效應(yīng)聚類分析,§5.6.1,平均秩效應(yīng)原則及聚類方法,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,11/28/2024,,11/28/2024,11/28/2024,11/28/2024,,通過上面的計算結(jié)果我們可以挖掘出一下知識:,,,,i).,第一類與第二類所包含水平的影響程度明顯地高于平均影響程度,而且第一類遠(yuǎn)遠(yuǎn)高于其他類對大學(xué)生成長與發(fā)展的影響,,說明個人對未來的發(fā)展動機與家庭狀況對自己的成長與發(fā)展影響最大,.,第二類僅次于平均影響程度,說明大學(xué)生對專業(yè)知識的加強在自己的成長與發(fā)展中起著相當(dāng)重要的作用,.,,ii).,第三類包括社會政治環(huán)境、報刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況,.,由于報刊雜志的內(nèi)容、兄弟姐妹言行、校風(fēng)學(xué)風(fēng)狀況均與社會環(huán)境的好壞有著密切的關(guān)系,,我們可以將這一類概括為在現(xiàn)社會大環(huán)境因素,它對大學(xué)生成長和發(fā)展的影響與平均影響程度沒有顯著性的差異,.,,iii).,第四類、第五類與第六類所包含水平的影響程度均低于平均影響程度,.,11/28/2024,,第四類所包括的內(nèi)容從兩個方面影響大學(xué)生的成長與發(fā)展,即一是對物質(zhì)方面的追求,二是老師言行及典型人物的影響,例如科學(xué)家和英雄人物,.,,,第五類包括校園文化活動、學(xué)校管理制度和學(xué)校周圍環(huán)境,.,說明學(xué)校的各種狀況對大學(xué)生成長與發(fā)展有一定的影響,.,,,第六類所包括的水平有一般性的學(xué)術(shù)講座、學(xué)校政治思想工作、同班同學(xué)言行舉止、錄像或電影內(nèi)容、老鄉(xiāng)的各種行為,這一類涉及的內(nèi)容比較廣,稱其為綜合水平,.,其中老鄉(xiāng)的各種行為影響程度最小,而且它與其它水平影響程度的差異比較大,說明老鄉(xiāng)的各種行為在大學(xué)生成長與發(fā)展中作用極小,.,在這里需要強調(diào)的是,一般性的學(xué)術(shù)講座和學(xué)校政治思想工作的影響程度略低于第五類,表明它們對大學(xué)生成長與發(fā)展有影響,但這種影響遠(yuǎn)遠(yuǎn)低于平均影響程度,.,這就要求學(xué)校有針對性的開展一般性的學(xué)術(shù)活動和政治思想工作,.,11/28/2024,,最后需要說明的是,平均秩效應(yīng)聚類分析是建立在秩分析基礎(chǔ)之上的,類與類之間可以比較影響程度的大小,從中可以尋找出主要因素類和次要因素類,為解決實際問題提供較為可靠的依據(jù),.,為了特別地突出主次之分,在平均秩效應(yīng)聚類過程中,以,1/2,的平均影響程度或以,3/2,的平均影響程度為標(biāo)準(zhǔn)進行聚類分析,.,為了分析的更加細(xì)膩,可以將這些標(biāo)準(zhǔn)聯(lián)合運用進行平均秩效應(yīng)聚類分析,.,11/28/2024,聚類分析的效應(yīng)檢驗,11/28/2024,,11/28/2024,,11/28/2024,,11/28/2024,參考文獻,11/28/2024,11/28/2024,本章結(jié)束,11/28/2024,。

    點擊閱讀更多內(nèi)容
    賣家[上傳人]:仙人指路
    資質(zhì):實名認(rèn)證