1樓:匿名使用者
區分和來
分類:資料區分是將目源標類資料物件的一般特性與一個或多個對比類物件的一般特性進行比較;而分類則是找出描述和區分資料類或概念的模型,以便能夠使用模型對未知類標號的樣例進行**。
特徵化和聚類:資料特徵化是目標類資料的一般特性或特徵的彙總,即在進行資料特徵化時很清楚特徵化的這些資料的特點是什麼;而聚類則只是分析資料物件,按照「最大化類內相似度、最小化類間相似度」的原則進行聚類或分組。
分類在第一點時已經說過;迴歸主要是建立連續值的函式模型,迴歸主要用來**缺失的或難以獲得的數值資料值,而不是離散的類標號,同時迴歸也包含基於可用資料的分佈趨勢識別。
分類和聚類的區別及各自的常見演算法
2樓:安徽新華電腦專修學院
classification (分類),對於一
個classifier,通常需要你告訴它「這個東西被分為某某類」這樣一些例子,理想情況下,一個 classifier 會從它得到的訓練集中進行「學習」,從而具備對未知資料進行分類的能力,這種提供訓練資料的過程通常叫做supervised learning (監督學習),
clustering (聚類),簡單地說就是把相似的東西分到一組,聚類的時候,我們並不關心某一類是什麼,我們需要實現的目標只是把相似的東西聚到一起。因此,一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了,因此 clustering 通常並不需要使用訓練資料進行學習,這在machine learning中被稱作unsupervised learning (無監督學習).
3樓:西線大資料培訓
學習資料探勘的朋友,對分類演算法和聚類演算法都很熟悉。無論是分類演算法還是聚類演算法,都有許多具體的演算法來實現具體的資料分析需求。很多時候,我們難以判斷選擇分類或者聚類的場合是什麼。
我們最直觀的概念是,分類和聚類都是把某個被分析的物件劃分到某個類裡面,所以覺得這兩種方法實際上是差不多一回事。然而當我們學習了許多具體演算法之後再回來看,分類和聚類所實現的資料分析功能實際上是大相徑庭的,他們之間不僅僅有演算法上的具體差異,更重要的是,甚至他們的應用領域和所解決的具體問題都不一樣。
1.類別是否預先定義是最直觀區別
演算法書上往往這樣解釋二者的區別:分類是把某個物件劃分到某個具體的已經定義的類別當中,而聚類是把一些物件按照具體特徵組織到若干個類別裡。雖然都是把某個物件劃分到某個類別中,但是分類的類別是已經預定義的,而聚類操作時,某個物件所屬的類別卻不是預定義的。
所以,物件所屬類別是否為事先,是二者的最基本區別。而這個區別,僅僅是從演算法實現流程來看的。
2.二者解決的具體問題不一樣
分類演算法的基本功能是做**。我們已知某個實體的具體特徵,然後想判斷這個實體具體屬於哪一類,或者根據一些已知條件來估計感興趣的引數。比如:
我們已知某個人存款金額是10000元,這個人沒有結婚,並且有一輛車,沒有固定住房,然後我們估計判斷這個人是否會涉嫌信用欺詐問題。這就是最典型的分類問題,**的結果為離散值,當**結果為連續值時,分類演算法可以退化為計量經濟學中常見的迴歸模型。分類演算法的根本目標是發現新的模式、新的知識,與資料探勘資料分析的根本目標是一致的。
聚類演算法的功能是降維。假如待分析的物件很多,我們需要歸歸類,劃劃簡,從而提高資料分析的效率,這就用到了聚類的演算法。很多智慧的搜尋引擎,會將返回的結果,根據文字的相似程度進行聚類,相似的結果聚在一起,使用者就很容易找到他們需要的內容。
聚類方法只能起到降低被分析問題的複雜程度的作用,即降維,一百個物件的分析問題可以轉化為十個物件類的分析問題。聚類的目標不是發現知識,而是化簡問題,聚類演算法並不直接解決資料分析的問題,而最多算是資料預處理的過程。
3.有監督和無監督
分類是有監督的演算法,而聚類是無監督的演算法。有監督的演算法並不是實時的,需要給定一些資料對模型進行訓練,有了模型就能**。新的待估計的物件來了的時候,套進模型,就得到了分類結果。
而聚類演算法是實時的,換句話說是一次性的,給定統計指標,根據物件與物件之間的相關性,把物件分為若干類。分類演算法中,物件所屬的類別取決於訓練出來的模型,間接地取決於訓練集中的資料。而聚類演算法中,物件所屬的類別,則取決於待分析的其他資料物件。
4.資料處理的順序不同
分類演算法中,待分析的資料是一個一個處理的,分類的過程,就像給資料貼標籤的過程,來一個資料,我放到模型裡,然後貼個標籤。
聚類演算法中,待分析的資料同時處理,來一堆資料過來,同時給分成幾小堆。
因此,資料分類演算法和資料聚類演算法的最大區別是時效性問題。在已有資料模型的條件下,資料分類的效率往往比資料聚類的效率要高很多,因為一次只是一個物件被處理,而對於聚類結果來說,每當加入一個新的分析物件,類別結果都有可能發生改變,因此很有必要重新對所有的待分析物件進行計算處理。
5.典型的分類演算法與聚類演算法
典型的分類演算法有:決策樹,神經網路,支援向量機模型,logistic迴歸分析,以及核估計等等。
聚類的方法有,基於連結關係的聚類演算法,基於中心度的聚類演算法,基於統計分佈的聚類演算法以及基於密度的聚類演算法等等。
4樓:匿名使用者
分類:確定物件屬於哪一個預定義的目標類。通過學習得到一個目標函式,把每個屬性集x對映到預先定義的類標號y。
方法:決策樹(演算法:hunt、cart、treegrowth)、神經網路(演算法:
感知學習演算法)、基於規則的方法(演算法:c4.5、ripper、順序覆蓋演算法【learn-one-rule】、k最近鄰)、支援向量機、樸素貝葉斯分類方法和組合方法等。
聚類:將資料劃分成有意義的或有用的組。方法:
k均值(k中心 演算法:基本k均值演算法、二分k均值演算法)、凝聚層次聚類(單鏈、全鏈、組平均、ward)、基於密度(演算法:基於中心的、dbscan)
資料探勘中分類、**、聚類的定義和區別。
5樓:南霽月
sc-cpda 資料分析師公眾交流平臺 詳細看我資料
區分是將目標類資料物件的一般特性與一個或多個對比類物件的一般特性進行比較。例如,具有高gpa 的學生的一般特性可被用來與具有低gpa 的一般特性比較。最終的描述可能是學生的一個一般可比較的輪廓,就像具有高gpa 的學生的75%是四年級電腦科學專業的學生,而具有低
gpa 的學生的65%不是。
關聯是指發現關聯規則,這些規則表示一起頻繁發生在給定資料集的特徵值的條件。例如,一個資料探勘系統可能發現的關聯規則為:major(x, 「computing science」) ⇒ owns(x, 「personal computer」) [support=12%, confidence=98%] 其中,x 是一個表示學生的變數。
這個規則指出正在學習的學生,12% (支援度)主修電腦科學並且擁有一臺個人計算機。這個組一個學生擁有一臺個人電腦的概率是98%(置信度,或確定度)。
分類與**
不同,因為前者的作用是構造一系列能描述和區分資料型別或概念的模型(或功能),而後者是建立一個模型去**缺失的或無效的、並且通常是數字的資料值。它們的相似性是他們都是**的工具:
分類被用作**目標資料的類的標籤,而**典型的應用是**缺失的數字型資料的值。
聚類分析的資料物件不考慮已知的類標號。物件根據最大花蕾內部的相似性、最小化類之間的相似性的原則進行聚類或分組。形成的每一簇可以被看作一個物件類。
聚類也便於分類法組織形式,將觀測組織成類分層結構,把類似的事件組織在一起。
資料演變分析描述和模型化隨時間變化的物件的規律或趨勢,儘管這可能包括時間相關資料的特徵化、區分、關聯和相關分析、分類、或**,這種分析的明確特徵包括時間序列資料分析、序列或週期模式匹配、和基於相似性的資料分析
6樓:匿名使用者
資料分析挖掘這塊,建議樓主看看帆軟公司的finebi,挺不錯的,強烈推薦一個!
7樓:宛賢惠貫潔
你好,簡單地說,分類(categorization
orclassification)就是按照某種標準給物件貼標籤(label),再根據標籤來區分歸類。
簡單地說,聚類是指事先沒有「標籤」而通過某種成團分析找出事物之間存在聚集性原因的過程。
區別是,分類是事先定義好類別
,類別數不變
。分類器需要由人工標註的分類訓練語料訓練得到,屬於有指導學習範疇。聚類則沒有事先預定的類別,類別數不確定。
聚類不需要人工標註和預先訓練分類器,類別在聚類過程中自動生成
。分類適合類別或分類體系已經確定的場合,比如按照國圖分類法分類圖書;聚類則適合不存在分類體系、類別數不確定的場合,一般作為某些應用的前端,比如多文件文摘、搜尋引擎結果後聚類(元搜尋)等。
分類的目的是學會一個分類函式或分類模型(也常常稱作分類器
),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。
要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:
(v1,v2,...,vn;
c);其中vi表示欄位值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網路方法等等。
聚類(clustering)是指根據「物以類聚」原理,將本身沒有類別的樣本聚整合不同的組,這樣的一組資料物件的集合叫做簇,並且對每一個這樣的簇進行描述的過程。它的目的是使得屬於同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前並不知道將要劃分成幾個組和什麼樣的組,也不知道根據哪些空間區分規則來定義組。
其目的旨在發現空間實體的屬性間的函式關係,挖掘的知識用以屬性名為變數的數學方程來表示。聚類技術正在蓬勃發展,涉及範圍包括資料探勘、統計學、機器學習、空間資料庫技術、生物學以及市場營銷等領域,聚類分析已經成為資料探勘研究領域中一個非常活躍的研究課題。常見的聚類演算法包括:
k-均值聚類演算法、k-中心點聚類演算法、clarans、
birch、clique、dbscan等。
希望回答對您有幫助.
有關紅茶分類外型特徵和香氣特徵的介紹
我國紅茶品種主要有 祁紅 產於安徽祁門 至德及江西浮樑等地 滇紅 產於雲南佛海 順寧等地 霍紅 產於安徽六安 霍山等地 蘇紅 產於江蘇宜興 越紅 產於湖南安化 新化 桃源等地 川紅 產於四川宜賓 高縣等地 吳紅 產於廣東英德等地。其中尤以祁門紅茶最為著名。世界上紅茶的品種很多,產地也很廣,除我國以外...
板材的種類和特徵,板材的分類特性及用途
常見的板材種類和特徵介紹,希望可以幫助到大家。1,生態板。生態板是一種不易變色的板材,使用時不易剝落,也是一種無漆複合材料,使度用時綠色環保,甲醛釋放量很低。特點 有很強的耐高溫性 優異拿蠢瞎的防火防潮性。外觀美觀光滑 色澤淡雅 無漆 無毒 不揮發氣味 表面硬度好 耐衝擊 隔音 抗震 耐久性好。2,...
航線分類和舉例,國內航線分為三大類,分別是什麼
海運航線是指船舶在兩個或多個港口之間,從事海上旅客和貨物運輸的線路。海運航線是連線各要素的紐帶,是船舶在系統中執行或行進所循的軌跡,在海運空間系統中起著承上啟下作用。海上運輸的航線分佈於各大洋之間,這也是海運較其他運輸方式的優勢所在。如何才能最有效地利用這一優勢,是系統組織中重要的問題。航線在系統中...