一般來說無論是數(shù)據(jù)分析還是數(shù)據(jù)挖掘,可用的方法有很多,而數(shù)據(jù)分析師常用的數(shù)據(jù)挖掘方法包括:預(yù)測模型方法、數(shù)據(jù)分割方法、關(guān)聯(lián)分析法和偏離分析法。接下來小編帶你深入了解下這些數(shù)據(jù)挖掘方法:
預(yù)測模型方法預(yù)測模型方法是數(shù)據(jù)挖掘主要方法中分支較為復(fù)雜的一類,包括神經(jīng)網(wǎng)絡(luò)與決策樹等相關(guān)人工智能算法、進(jìn)化算法及支持向量機(jī)等算法。 數(shù)據(jù)分割方法數(shù)據(jù)分割是將數(shù)據(jù)依據(jù)某些屬性將其聚類,使之具有一定的意義。由于數(shù)據(jù)的類型、數(shù)據(jù)的復(fù)雜度和聚類的數(shù)目等特點(diǎn),聚類算法有很多,如劃分方法、基于網(wǎng)絡(luò)的方法、基于密度的方法、層次方法等。
關(guān)聯(lián)分析法關(guān)聯(lián)分析法是尋找數(shù)據(jù)間的關(guān)聯(lián),但從大數(shù)據(jù)集中尋找關(guān)聯(lián)可能會(huì)導(dǎo)致效率降低,找到的關(guān)聯(lián)也可能毫無意義。在研究過程中存在“支持度”和“置信度”,“支持度”可以有根據(jù)地將那些毫無意義的數(shù)據(jù)刪除,而“置信度”可以衡量設(shè)置規(guī)則的可能性。關(guān)聯(lián)分析法的主要算法有Apriori算法、DHP算法和DIC算法等。 偏離分析法偏差包括潛在的信息量,例如設(shè)定模式中的特例、分類中的異樣實(shí)例以及分析實(shí)驗(yàn)得到的最終結(jié)果與實(shí)驗(yàn)前設(shè)定的期望之間的偏差等。觀察比較最終的結(jié)果與參照量之間的偏差是偏離分析法的核心所在。 在企業(yè)的預(yù)警或是危機(jī)解決的過程中,專業(yè)的管理者對突發(fā)的意外規(guī)則更感興趣,在異常信息的發(fā)現(xiàn)、識(shí)別、觀察、分析、挖掘、評價(jià)和預(yù)警等方面,挖掘意外規(guī)則的應(yīng)用價(jià)值備受關(guān)注。 |
|