小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)挖掘淺談

 灰太狼5gbpnaav 2022-02-14


作者介紹

@貓耳朵

專注于數(shù)據(jù)分析;

“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。

豆豆和花花開了一家鮮花店。豆豆跟花花說:“情人節(jié)快到了,咱店都需要準(zhǔn)備哪類情人節(jié)花束?每類花束需要準(zhǔn)備多少?……” 花花回答道,“根據(jù)顧客分類,大致分為自信示愛、甜蜜上心、星河摯愛等共8類。前三類去年賣地特別好,今年需要提供比上年多30%的花束,……”。

豆豆說:“鮮花的保質(zhì)期特別短,所以,多購買的鮮花只能從30%降至10%,既可以控制成本,又可以積攢口碑?!?/p>

在上面案例中,花花制定采購方案首先進(jìn)行顧客分類,在數(shù)據(jù)挖掘領(lǐng)域,可以使用無監(jiān)督模型(例如k-means),也可以使用分類模型(例如KNN、決策樹、邏輯回歸等)將用戶分群。花花預(yù)估“今年需要提供比上一年高30%的花束”,在數(shù)據(jù)挖掘領(lǐng)域,可以使用回歸模型進(jìn)行預(yù)測。

接下來,筆者就跟你淺談一下數(shù)據(jù)挖掘。

01

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系

1.1

概念

首先,我們對機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的定義做一下總結(jié):

數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。換句話說,數(shù)據(jù)挖掘試圖從海量數(shù)據(jù)中找到有用的信息。

機(jī)器學(xué)習(xí)是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。也就是說,機(jī)器學(xué)習(xí)就是將現(xiàn)實生活中的問題抽象成數(shù)學(xué)模型,利用數(shù)學(xué)方法對這個數(shù)學(xué)模型進(jìn)行求解,從而解決現(xiàn)實生活中的問題。

1.2

聯(lián)系與區(qū)別

1.2.1 聯(lián)系

數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中包括數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、領(lǐng)域知識及模式識別等領(lǐng)域。簡而言之,對于數(shù)據(jù)挖掘,數(shù)據(jù)庫提供數(shù)據(jù)存儲技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計學(xué)提供數(shù)據(jù)分析技術(shù)。

圖片

統(tǒng)計學(xué)經(jīng)常忽視實際的效用醉心于理論的優(yōu)美,因此,統(tǒng)計學(xué)提供的大部分技術(shù)都要在機(jī)器學(xué)習(xí)領(lǐng)域進(jìn)一步研究,變成機(jī)器學(xué)習(xí)算法后才能進(jìn)入數(shù)據(jù)挖掘領(lǐng)域。從這方面來講,統(tǒng)計學(xué)主要是通過機(jī)器學(xué)習(xí)來對數(shù)據(jù)挖掘發(fā)揮影響,而機(jī)器學(xué)習(xí)和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐。

簡言之,機(jī)器學(xué)習(xí)為數(shù)據(jù)挖掘提供解決實際問題的方法,數(shù)據(jù)挖掘中算法的成功應(yīng)用,說明了機(jī)器學(xué)習(xí)對算法的研究具有實際運用價值。

1.2.2 區(qū)別

從數(shù)據(jù)分析來講,大多數(shù)數(shù)據(jù)挖掘技術(shù)都是來自于機(jī)器學(xué)習(xí),但是機(jī)器學(xué)習(xí)研究不把海量數(shù)據(jù)作為處理對象,因此,數(shù)據(jù)挖掘需要對算法進(jìn)行改造,使得算法性能和空間占用達(dá)到實用的地步。同時,數(shù)據(jù)挖掘還有自身獨特的內(nèi)容——關(guān)聯(lián)分析。

至于,數(shù)據(jù)挖掘和模式識別,從概念上區(qū)分,數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識,模式識別重在認(rèn)識事物。

簡言之,機(jī)器學(xué)習(xí)注重相關(guān)機(jī)器學(xué)習(xí)算法的理論研究和算法提升,更偏向理論和學(xué)術(shù);數(shù)據(jù)挖掘注重運用算法或者其他某種模式解決實際問題,更偏向?qū)嵺`和運用。

02

機(jī)器學(xué)習(xí)的分類

機(jī)器學(xué)習(xí)的方法是基于數(shù)據(jù)產(chǎn)生的“模型”的算法,也稱為“學(xué)習(xí)算法”。機(jī)器學(xué)習(xí)方法包括有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

圖片

2.1

有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)指對數(shù)據(jù)的若干特征與標(biāo)簽之間的關(guān)聯(lián)性進(jìn)行建模的過程。它的主要目標(biāo)是從有標(biāo)簽的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型,以便對未知或未來的數(shù)據(jù)做出預(yù)測。

以用戶是否會復(fù)購鮮花為例,可以采用監(jiān)督學(xué)習(xí)算法在打過標(biāo)簽的(正確標(biāo)識是與否)數(shù)據(jù)上訓(xùn)練模型,然后用該模型來預(yù)測新用戶是否屬于粘性用戶。

標(biāo)簽為離散值的監(jiān)督學(xué)習(xí)任務(wù)稱為「分類任務(wù)」,例如上述的用戶是否會復(fù)購鮮花示例。常用的分類模型包括KNN、決策樹、邏輯回歸等。

標(biāo)簽為連續(xù)值的監(jiān)督學(xué)習(xí)任務(wù)稱為「回歸任務(wù)」,例如根據(jù)歷史數(shù)據(jù)預(yù)測未來的銷售額。常用的回歸模型為線性回歸、非線性回歸和嶺回歸等。

注意:機(jī)器學(xué)習(xí)領(lǐng)域的預(yù)測變量通常稱為特征,而響應(yīng)變量通常稱為目標(biāo)變量或標(biāo)簽。

2.1

無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)指對不帶任何標(biāo)簽的數(shù)據(jù)特征進(jìn)行建模,通常被看成是一種“讓數(shù)據(jù)自己介紹自己”的過程。也就是說,用無監(jiān)督學(xué)習(xí),可以在沒有目標(biāo)變量或獎勵函數(shù)的指導(dǎo)下,探索數(shù)據(jù)結(jié)構(gòu)來提取有意義的信息。

這類模型包括「聚類任務(wù)」和「降維任務(wù)」。其中,聚類算法可以將數(shù)據(jù)分成不同的組別,而降維算法追求用更簡潔的方式表現(xiàn)數(shù)據(jù)。

1.3

半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)方法介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間,通常在數(shù)據(jù)不完整時使用。

1.4

強化學(xué)習(xí)

強化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評價過程,以“試錯”的方式進(jìn)行學(xué)習(xí),并與環(huán)境交互已獲得獎懲指導(dǎo)行為,以其作為評價。也就是說,強調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。

此時,系統(tǒng)靠自身的狀態(tài)和動作進(jìn)行學(xué)習(xí),從而改進(jìn)行動方案以適應(yīng)環(huán)境。

03

數(shù)據(jù)挖掘建模過程

從數(shù)據(jù)本身來考慮,數(shù)據(jù)挖掘建模過程通常需要有理解商業(yè)、理解數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建模型、評估模型和部署模型6個步驟。

圖片

3.1

理解商業(yè)

理解商業(yè)算是數(shù)據(jù)挖掘中最重要的一部分,在這個階段我們需要明確商業(yè)目標(biāo)、評估商業(yè)環(huán)境、確定挖掘目標(biāo)以及產(chǎn)生一個項目計劃。

簡單地說,就是針對不同的業(yè)務(wù)場景,需要明白挖掘的目標(biāo)是什么,需要達(dá)到什么樣的效果。用大白話講,就是你到底想干啥。

仍以鮮花店為例,為了提高銷售額,店員可以幫助客戶快速找到他感興趣的花束,同時在保證用戶體驗的情況下,為其附加一個可接受的小飾品,比如花瓶、零食、香水等。

3.2

理解數(shù)據(jù)

數(shù)據(jù)是挖掘過程的“原材料”,在數(shù)據(jù)理解過程中我們需要了解都有哪些數(shù)據(jù),這些數(shù)據(jù)的特征是什么,可以通過對數(shù)據(jù)進(jìn)行描述分析得到數(shù)據(jù)的特點。其中,了解有哪些數(shù)據(jù)尤為重要,其決定了后期工作進(jìn)展的順利程度。

比如和花店有關(guān)的數(shù)據(jù):

1)鮮花數(shù)據(jù):鮮花名稱、鮮花品類、采購時間、采購數(shù)量、采購金額等。

2)經(jīng)營數(shù)據(jù):經(jīng)營時間、預(yù)定時間、預(yù)定品類、預(yù)定人數(shù)等。

3)其他數(shù)據(jù):是否為節(jié)假日、用戶口碑、競爭對手動向、天氣情況等。

3.3

準(zhǔn)備數(shù)據(jù)

在數(shù)據(jù)準(zhǔn)備階段我們需要對數(shù)據(jù)作出清洗、重建、合并等操作。選出要進(jìn)行分析的數(shù)據(jù),并對不符合模型輸入要求的數(shù)據(jù)進(jìn)行規(guī)范化操作。主要是為建模準(zhǔn)備數(shù)據(jù),可以從數(shù)據(jù)預(yù)處理、特征提取、特征選擇等幾方面出發(fā),整理如下:

1)缺失值:由于個人隱私或設(shè)備故障導(dǎo)致某些觀測值在某些緯度上的漏缺,通常稱為缺失值。缺失值存在可能會導(dǎo)致模型結(jié)果的錯誤,所以針對缺失值可以考慮刪除、眾數(shù)或均值填充等解決。

2)異常值:由于遠(yuǎn)離正常樣本的觀測點,它們的存在同樣會對模型的準(zhǔn)確型造成影響。可以通過象限圖或3sigma(正態(tài)分布)進(jìn)行判斷,如果是,可以考慮刪除或單獨處理。

3)量綱不一致:模型容易受到不同量綱的影響,因此需要通過標(biāo)準(zhǔn)化方法(通常采用歸一化、Normalization之類的方法)將數(shù)據(jù)進(jìn)行轉(zhuǎn)換。

4)維度災(zāi)難:當(dāng)數(shù)據(jù)集中包含上百乃至上千萬的變量時,往往會提高模型的復(fù)雜度,從而影響模型的運行效率,所以需要采用方差分析、相關(guān)分析、主成分分析等手段實現(xiàn)降維。

3.4

建模型

一般情況下,預(yù)處理將占整個數(shù)據(jù)挖掘流程80%左右的時間。在保證數(shù)據(jù)“干凈”的前提下,需要選出合適的模型。以下是常用的機(jī)器算法。

1)分類模型:KNN、決策樹、邏輯回歸等。

2)回歸模型:線性回歸、嶺回歸、支持向量回歸等。

3)無監(jiān)督模型:k-means等。

數(shù)據(jù)挖掘中大部分模型都不是專為解決某個問題而特制的,模型之間相互不排斥。不能說一個問題只能采用某個模型,其他的都不能用。通常來說,針對某個數(shù)據(jù)分析項目,并不存在所謂的最好的模型,在最終決定選擇哪種模型之前,各種模型都嘗試一下,然后再選取一個較好的。各種模型在不同的環(huán)境中,優(yōu)劣會有所不同。

3.5

評估模型

評估階段主要是對建模結(jié)果進(jìn)行評估,目的是選出最佳的模型,讓這個模型能夠更好地反映數(shù)據(jù)的真實性。并不是每一次建模都能符合我們的目標(biāo),對效果較差的結(jié)果分析原因,偶爾也會返回前面的步驟對挖掘過程重新定義。

比如,對于決策樹或者邏輯回歸,即使在訓(xùn)練集中表現(xiàn)良好,但在測試集中結(jié)果較差,說明該模型存在過擬合。

3.6

模型部署

建立的模型需要解決實際的問題,它還包括了監(jiān)督、產(chǎn)生報表和重新評估模型等過程。很多時候建模一般使用spss、python、r等,在建模的過程中只考慮模型的可用性,在生產(chǎn)環(huán)境中通常會利用Java或C++等語言將模型改寫,從而提高運行性能。

預(yù)祝大家情人節(jié)快樂!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多