(1) 無監(jiān)督和有監(jiān)督算法的區(qū)別? 有監(jiān)督學(xué)習(xí):對具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測。這里,所有的標(biāo)記(分類)是已知的。因此,訓(xùn)練樣本的岐義性低。 無監(jiān)督學(xué)習(xí):對沒有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無監(jiān)督學(xué)習(xí)。 (2) SVM 的推導(dǎo),特性?多分類怎么處理? SVM是最大間隔分類器,幾何間隔和樣本的誤分次數(shù)之間存在關(guān)系, ,其中 從線性可分情況下,原問題,特征轉(zhuǎn)換后的dual問題,引入kernel(線性kernel,多項(xiàng)式,高斯),最后是soft margin。 線性:簡單,速度快,但是需要線性可分。 多項(xiàng)式:比線性核擬合程度更強(qiáng),知道具體的維度,但是高次容易出現(xiàn)數(shù)值不穩(wěn)定,參數(shù)選擇比較多。 高斯:擬合能力最強(qiáng),但是要注意過擬合問題。不過只有一個(gè)參數(shù)需要調(diào)整。 多分類問題,一般將二分類推廣到多分類的方式有三種,一對一,一對多,多對多。 一對一:將N個(gè)類別兩兩配對,產(chǎn)生N(N-1)/2個(gè)二分類任務(wù),測試階段新樣本同時(shí)交給所有的分類器,最終結(jié)果通過投票產(chǎn)生。 一對多:每一次將一個(gè)例作為正例,其他的作為反例,訓(xùn)練N個(gè)分類器,測試時(shí)如果只有一個(gè)分類器預(yù)測為正類,則對應(yīng)類別為最終結(jié)果,如果有多個(gè),則一般選擇置信度最大的。從分類器角度一對一更多,但是每一次都只用了2個(gè)類別,因此當(dāng)類別數(shù)很多的時(shí)候一對一開銷通常更小(只要訓(xùn)練復(fù)雜度高于O(N)即可得到此結(jié)果)。 多對多:若干各類作為正類,若干個(gè)類作為反類。注意正反類必須特殊的設(shè)計(jì)。 (3) LR 的推導(dǎo),特性? LR的優(yōu)點(diǎn)在于實(shí)現(xiàn)簡單,并且計(jì)算量非常小,速度很快,存儲(chǔ)資源低,缺點(diǎn)就是因?yàn)槟P秃唵?,對于?fù)雜的情況下會(huì)出現(xiàn)欠擬合,并且只能處理2分類問題(可以通過一般的二元轉(zhuǎn)換為多元或者用softmax回歸)。 (4) 決策樹的特性? 決策樹基于樹結(jié)構(gòu)進(jìn)行決策,與人類在面臨問題的時(shí)候處理機(jī)制十分類似。其特點(diǎn)在于需要選擇一個(gè)屬性進(jìn)行分支,在分支的過程中選擇信息增益最大的屬性,定義如下 在劃分中我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本屬于同一類別,即節(jié)點(diǎn)的純度越來越高。決策樹計(jì)算量簡單,可解釋性強(qiáng),比較適合處理有缺失屬性值的樣本,能夠處理不相關(guān)的特征,但是容易過擬合,需要使用剪枝或者隨機(jī)森林。信息增益是熵減去條件熵,代表信息不確定性較少的程度,信息增益越大,說明不確定性降低的越大,因此說明該特征對分類來說很重要。由于信息增益準(zhǔn)則會(huì)對數(shù)目較多的屬性有所偏好,因此一般用信息增益率(c4.5) 其中分母可以看作為屬性自身的熵。取值可能性越多,屬性的熵越大。 Cart決策樹使用基尼指數(shù)來選擇劃分屬性,直觀的來說,Gini(D)反映了從數(shù)據(jù)集D中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率,因此基尼指數(shù)越小數(shù)據(jù)集D的純度越高,一般為了防止過擬合要進(jìn)行剪枝,有預(yù)剪枝和后剪枝,一般用cross validation集進(jìn)行剪枝。 連續(xù)值和缺失值的處理,對于連續(xù)屬性a,將a在D上出現(xiàn)的不同的取值進(jìn)行排序,基于劃分點(diǎn)t將D分為兩個(gè)子集。一般對每一個(gè)連續(xù)的兩個(gè)取值的中點(diǎn)作為劃分點(diǎn),然后根據(jù)信息增益選擇最大的。與離散屬性不同,若當(dāng)前節(jié)點(diǎn)劃分屬性為連續(xù)屬性,該屬性還可以作為其后代的劃分屬性。 (5) SVM、LR、決策樹的對比? SVM既可以用于分類問題,也可以用于回歸問題,并且可以通過核函數(shù)快速的計(jì)算,LR實(shí)現(xiàn)簡單,訓(xùn)練速度非常快,但是模型較為簡單,決策樹容易過擬合,需要進(jìn)行剪枝等。從優(yōu)化函數(shù)上看,soft margin的SVM用的是hinge loss,而帶L2正則化的LR對應(yīng)的是cross entropy loss,另外adaboost對應(yīng)的是exponential loss。所以LR對遠(yuǎn)點(diǎn)敏感,但是SVM對outlier不太敏感,因?yàn)橹魂P(guān)心support vector,SVM可以將特征映射到無窮維空間,但是LR不可以,一般小數(shù)據(jù)中SVM比LR更優(yōu)一點(diǎn),但是LR可以預(yù)測概率,而SVM不可以,SVM依賴于數(shù)據(jù)測度,需要先做歸一化,LR一般不需要,對于大量的數(shù)據(jù)LR使用更加廣泛,LR向多分類的擴(kuò)展更加直接,對于類別不平衡SVM一般用權(quán)重解決,即目標(biāo)函數(shù)中對正負(fù)樣本代價(jià)函數(shù)不同,LR可以用一般的方法,也可以直接對最后結(jié)果調(diào)整(通過閾值),一般小數(shù)據(jù)下樣本維度比較高的時(shí)候SVM效果要更優(yōu)一些。 (6) GBDT 和隨機(jī)森林的區(qū)別? 隨機(jī)森林采用的是bagging的思想,bagging又稱為bootstrap aggreagation,通過在訓(xùn)練樣本集中進(jìn)行有放回的采樣得到多個(gè)采樣集,基于每個(gè)采樣集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再將基學(xué)習(xí)器結(jié)合。隨機(jī)森林在對決策樹進(jìn)行bagging的基礎(chǔ)上,在決策樹的訓(xùn)練過程中引入了隨機(jī)屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時(shí)候是在當(dāng)前節(jié)點(diǎn)屬性集合中選擇最優(yōu)屬性,而隨機(jī)森林則是對結(jié)點(diǎn)先隨機(jī)選擇包含k個(gè)屬性的子集,再選擇最有屬性,k作為一個(gè)參數(shù)控制了隨機(jī)性的引入程度。 另外,GBDT訓(xùn)練是基于Boosting思想,每一迭代中根據(jù)錯(cuò)誤更新樣本權(quán)重,因此是串行生成的序列化方法,而隨機(jī)森林是bagging的思想,因此是并行化方法。 (7) 如何判斷函數(shù)凸或非凸?什么是凸優(yōu)化? 首先定義凸集,如果x,y屬于某個(gè)集合C,并且所有的 也屬于c,那么c為一個(gè)凸集,進(jìn)一步,如果一個(gè)函數(shù)其定義域是凸集,并且 則該函數(shù)為凸函數(shù)。上述條件還能推出更一般的結(jié)果, 如果函數(shù)有二階導(dǎo)數(shù),那么如果函數(shù)二階導(dǎo)數(shù)為正,或者對于多元函數(shù),Hessian矩陣半正定則為凸函數(shù)。 (也可能引到SVM,或者凸函數(shù)局部最優(yōu)也是全局最優(yōu)的證明,或者上述公式期望情況下的Jessen不等式) (8) 如何解決類別不平衡問題? 有些情況下訓(xùn)練集中的樣本分布很不平衡,例如在腫瘤檢測等問題中,正樣本的個(gè)數(shù)往往非常的少。從線性分類器的角度,在用 對新樣本進(jìn)行分類的時(shí)候,事實(shí)上在用預(yù)測出的y值和一個(gè)y值進(jìn)行比較,例如常常在y>0.5的時(shí)候判為正例,否則判為反例。幾率 反映了正例可能性和反例可能性的比值,閾值0.5恰好表明分類器認(rèn)為正反的可能性相同。在樣本不均衡的情況下,應(yīng)該是分類器的預(yù)測幾率高于觀測幾率就判斷為正例,因此應(yīng)該是 時(shí)預(yù)測為正例,這種策略稱為rebalancing。但是訓(xùn)練集并不一定是真實(shí)樣本總體的無偏采樣,通常有三種做法,一種是對訓(xùn)練集的負(fù)樣本進(jìn)行欠采樣,第二種是對正例進(jìn)行升采樣,第三種是直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),在預(yù)測的時(shí)候再改變閾值,稱為閾值移動(dòng)。注意過采樣一般通過對訓(xùn)練集的正例進(jìn)行插值產(chǎn)生額外的正例,而欠采樣將反例劃分為不同的集合供不同的學(xué)習(xí)器使用。 (9) 解釋對偶的概念。 一個(gè)優(yōu)化問題可以從兩個(gè)角度進(jìn)行考察,一個(gè)是primal 問題,一個(gè)是dual 問題,就是對偶問題,一般情況下對偶問題給出主問題最優(yōu)值的下界,在強(qiáng)對偶性成立的情況下由對偶問題可以得到主問題的最優(yōu)下界,對偶問題是凸優(yōu)化問題,可以進(jìn)行較好的求解,SVM中就是將primal問題轉(zhuǎn)換為dual問題進(jìn)行求解,從而進(jìn)一步引入核函數(shù)的思想。 (10) 如何進(jìn)行特征選擇? 特征選擇是一個(gè)重要的數(shù)據(jù)預(yù)處理過程,主要有兩個(gè)原因,首先在現(xiàn)實(shí)任務(wù)中我們會(huì)遇到維數(shù)災(zāi)難的問題(樣本密度非常稀疏),若能從中選擇一部分特征,那么這個(gè)問題能大大緩解,另外就是去除不相關(guān)特征會(huì)降低學(xué)習(xí)任務(wù)的難度,增加模型的泛化能力。冗余特征指該特征包含的信息可以從其他特征中推演出來,但是這并不代表該冗余特征一定沒有作用,例如在欠擬合的情況下也可以用過加入冗余特征,增加簡單模型的復(fù)雜度。 在理論上如果沒有任何領(lǐng)域知識作為先驗(yàn)假設(shè)那么只能遍歷所有可能的子集。但是這顯然是不可能的,因?yàn)樾枰闅v的數(shù)量是組合爆炸的。一般我們分為子集搜索和子集評價(jià)兩個(gè)過程,子集搜索一般采用貪心算法,每一輪從候選特征中添加或者刪除,分別成為前向和后先搜索?;蛘邇烧呓Y(jié)合的雙向搜索。子集評價(jià)一般采用信息增益,對于連續(xù)數(shù)據(jù)往往排序之后選擇中點(diǎn)作為分割點(diǎn)。 常見的特征選擇方式有過濾式,包裹式和嵌入式,filter,wrapper和embedding。Filter類型先對數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器。Wrapper直接把最終學(xué)習(xí)器的性能作為特征子集的評價(jià)準(zhǔn)則,一般通過不斷候選子集,然后利用cross-validation過程更新候選特征,通常計(jì)算量比較大。嵌入式特征選擇將特征選擇過程和訓(xùn)練過程融為了一體,在訓(xùn)練過程中自動(dòng)進(jìn)行了特征選擇,例如L1正則化更易于獲得稀疏解,而L2正則化更不容易過擬合。L1正則化可以通過PGD,近端梯度下降進(jìn)行求解。 (11) 為什么會(huì)產(chǎn)生過擬合,有哪些方法可以預(yù)防或克服過擬合? 一般在機(jī)器學(xué)習(xí)中,將學(xué)習(xí)器在訓(xùn)練集上的誤差稱為訓(xùn)練誤差或者經(jīng)驗(yàn)誤差,在新樣本上的誤差稱為泛化誤差。顯然我們希望得到泛化誤差小的學(xué)習(xí)器,但是我們事先并不知道新樣本,因此實(shí)際上往往努力使經(jīng)驗(yàn)誤差最小化。然而,當(dāng)學(xué)習(xí)器將訓(xùn)練樣本學(xué)的太好的時(shí)候,往往可能把訓(xùn)練樣本自身的特點(diǎn)當(dāng)做了潛在樣本具有的一般性質(zhì)。這樣就會(huì)導(dǎo)致泛化性能下降,稱之為過擬合,相反,欠擬合一般指對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)習(xí)好,在訓(xùn)練集上仍然有較大的誤差。 欠擬合:一般來說欠擬合更容易解決一些,例如增加模型的復(fù)雜度,增加決策樹中的分支,增加神經(jīng)網(wǎng)絡(luò)中的訓(xùn)練次數(shù)等等。 過擬合:一般認(rèn)為過擬合是無法徹底避免的,因?yàn)闄C(jī)器學(xué)習(xí)面臨的問題一般是np-hard,但是一個(gè)有效的解一定要在多項(xiàng)式內(nèi)可以工作,所以會(huì)犧牲一些泛化能力。過擬合的解決方案一般有增加樣本數(shù)量,對樣本進(jìn)行降維,降低模型復(fù)雜度,利用先驗(yàn)知識(L1,L2正則化),利用cross-validation,early stopping等等。 (12) 什么是偏差與方差? 泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學(xué)習(xí)算法的期望預(yù)測和真實(shí)結(jié)果的偏離程度,刻畫了學(xué)習(xí)算法本身的擬合能力,方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,刻畫了數(shù)據(jù)擾動(dòng)所造成的影響,噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias和variance,一般訓(xùn)練程度越強(qiáng),偏差越小,方差越大,泛化誤差一般在中間有一個(gè)最小值,如果偏差較大,方差較小,此時(shí)一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。 偏差: 方差: (13) 神經(jīng)網(wǎng)絡(luò)的原理,如何進(jìn)行訓(xùn)練? 神經(jīng)網(wǎng)絡(luò)自發(fā)展以來已經(jīng)是一個(gè)非常龐大的學(xué)科,一般而言認(rèn)為神經(jīng)網(wǎng)絡(luò)是由單個(gè)的神經(jīng)元和不同神經(jīng)元之間的連接構(gòu)成,不夠的結(jié)構(gòu)構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)。最常見的神經(jīng)網(wǎng)絡(luò)一般稱為多層前饋神經(jīng)網(wǎng)絡(luò),除了輸入和輸出層,中間隱藏層的個(gè)數(shù)被稱為神經(jīng)網(wǎng)絡(luò)的層數(shù)。BP算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)中最著名的算法,其本質(zhì)是梯度下降和鏈?zhǔn)椒▌t。 (14) 介紹卷積神經(jīng)網(wǎng)絡(luò),和 DBN 有什么區(qū)別? 卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)是卷積核,CNN中使用了權(quán)共享,通過不斷的上采用和卷積得到不同的特征表示,采樣層又稱為pooling層,基于局部相關(guān)性原理進(jìn)行亞采樣,在減少數(shù)據(jù)量的同時(shí)保持有用的信息。DBN是深度信念網(wǎng)絡(luò),每一層是一個(gè)RBM,整個(gè)網(wǎng)絡(luò)可以視為RBM堆疊得到,通常使用無監(jiān)督逐層訓(xùn)練,從第一層開始,每一層利用上一層的輸入進(jìn)行訓(xùn)練,等各層訓(xùn)練結(jié)束之后再利用BP算法對整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。 (15) 采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法? 用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實(shí)也屬于EM。EM算法一定會(huì)收斂,但是可能收斂到局部最優(yōu)。由于求和的項(xiàng)數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會(huì)給梯度計(jì)算帶來麻煩。 (16) 用 EM 算法推導(dǎo)解釋 Kmeans。 k-means算法是高斯混合聚類在混合成分方差相等,且每個(gè)樣本僅指派一個(gè)混合成分時(shí)候的特例。注意k-means在運(yùn)行之前需要進(jìn)行歸一化處理,不然可能會(huì)因?yàn)闃颖驹谀承┚S度上過大導(dǎo)致距離計(jì)算失效。k-means中每個(gè)樣本所屬的類就可以看成是一個(gè)隱變量,在E步中,我們固定每個(gè)類的中心,通過對每一個(gè)樣本選擇最近的類優(yōu)化目標(biāo)函數(shù),在M步,重新更新每個(gè)類的中心點(diǎn),該步驟可以通過對目標(biāo)函數(shù)求導(dǎo)實(shí)現(xiàn),最終可得新的類中心就是類中樣本的均值。 (17) 用過哪些聚類算法,解釋密度聚類算法。 k-means算法,聚類性能的度量一般分為兩類,一類是聚類結(jié)果與某個(gè)參考模型比較(外部指標(biāo)),另外是直接考察聚類結(jié)果(內(nèi)部指標(biāo))。后者通常有DB指數(shù)和DI,DB指數(shù)是對每個(gè)類,找出類內(nèi)平均距離/類間中心距離最大的類,然后計(jì)算上述值,并對所有的類求和,越小越好。類似k-means的算法僅在類中數(shù)據(jù)構(gòu)成簇的情況下表現(xiàn)較好,密度聚類算法從樣本密度的角度考察樣本之間的可連接性,并基于可連接樣本不斷擴(kuò)展聚類蔟得到最終結(jié)果。DBSCAN(density-based spatial clustering of applications with noise)是一種著名的密度聚類算法,基于一組鄰域參數(shù) 進(jìn)行刻畫,包括鄰域,核心對象(鄰域內(nèi)至少包含 個(gè)對象),密度直達(dá)(j由i密度直達(dá),表示j在i的鄰域內(nèi),且i是一個(gè)核心對象),密度可達(dá)(j由i密度可達(dá),存在樣本序列使得每一對都密度直達(dá)),密度相連(xi,xj存在k,i,j均有k可達(dá)),先找出樣本中所有的核心對象,然后以任一核心對象作為出發(fā)點(diǎn),找出由其密度可達(dá)的樣本生成聚類蔟,直到所有核心對象被訪問過為止。 (18) 聚類算法中的距離度量有哪些? 聚類算法中的距離度量一般用閩科夫斯基距離,在p取不同的值下對應(yīng)不同的距離,例如p=1的時(shí)候?qū)?yīng)曼哈頓距離,p=2的情況下對應(yīng)歐式距離,p=inf的情況下變?yōu)榍斜妊┓蚓嚯x,還有jaccard距離,冪距離(閩科夫斯基的更一般形式),余弦相似度,加權(quán)的距離,馬氏距離(類似加權(quán))作為距離度量需要滿足非負(fù)性,同一性,對稱性和直遞性,閩科夫斯基在p>=1的時(shí)候滿足讀來那個(gè)性質(zhì),對于一些離散屬性例如{飛機(jī),火車,輪船}則不能直接在屬性值上計(jì)算距離,這些稱為無序?qū)傩?,可以用VDM(Value Diffrence Metrix),屬性u上兩個(gè)離散值a,b之間的VDM距離定義為 其中 表示在第i個(gè)簇中屬性u上a的樣本數(shù),樣本空間中不同屬性的重要性不同的時(shí)候可以采用加權(quán)距離,一般如果認(rèn)為所有屬性重要性相同則要對特征進(jìn)行歸一化。一般來說距離需要的是相似性度量,距離越大,相似度越小,用于相似性度量的距離未必一定要滿足距離度量的所有性質(zhì),例如直遞性。比如人馬和人,人馬和馬的距離較近,然后人和馬的距離可能就很遠(yuǎn)。 (19) 解釋貝葉斯公式和樸素貝葉斯分類。 貝葉斯公式: 最小化分類錯(cuò)誤的貝葉斯最優(yōu)分類器等價(jià)于最大化后驗(yàn)概率。 基于貝葉斯公式來估計(jì)后驗(yàn)概率的主要困難在于,條件概率 是所有屬性上的聯(lián)合概率,難以從有限的訓(xùn)練樣本直接估計(jì)得到。樸素貝葉斯分類器采用了屬性條件獨(dú)立性假設(shè),對于已知的類別,假設(shè)所有屬性相互獨(dú)立。這樣,樸素貝葉斯分類則定義為 如果有足夠多的獨(dú)立同分布樣本,那么 可以根據(jù)每個(gè)類中的樣本數(shù)量直接估計(jì)出來。在離散情況下先驗(yàn)概率可以利用樣本數(shù)量估計(jì)或者離散情況下根據(jù)假設(shè)的概率密度函數(shù)進(jìn)行最大似然估計(jì)。樸素貝葉斯可以用于同時(shí)包含連續(xù)變量和離散變量的情況。如果直接基于出現(xiàn)的次數(shù)進(jìn)行估計(jì),會(huì)出現(xiàn)一項(xiàng)為0而乘積為0的情況,所以一般會(huì)用一些平滑的方法,例如拉普拉斯修正, 這樣既可以保證概率的歸一化,同時(shí)還能避免上述出現(xiàn)的現(xiàn)象。 (20) 解釋L1和L2正則化的作用。 L1正則化是在代價(jià)函數(shù)后面加上 ,L2正則化是在代價(jià)函數(shù)后面增加了 ,兩者都起到一定的過擬合作用,兩者都對應(yīng)一定的先驗(yàn)知識,L1對應(yīng)拉普拉斯分布,L2對應(yīng)高斯分布,L1偏向于參數(shù)稀疏性,L2偏向于參數(shù)分布較為稠 (21) TF-IDF是什么? TF指Term frequecy,代表詞頻,IDF代表inverse document frequency,叫做逆文檔頻率,這個(gè)算法可以用來提取文檔的關(guān)鍵詞,首先一般認(rèn)為在文章中出現(xiàn)次數(shù)較多的詞是關(guān)鍵詞,詞頻就代表了這一項(xiàng),然而有些詞是停用詞,例如的,是,有這種大量出現(xiàn)的詞,首先需要進(jìn)行過濾,比如過濾之后再統(tǒng)計(jì)詞頻出現(xiàn)了中國,蜜蜂,養(yǎng)殖且三個(gè)詞的詞頻幾乎一致,但是中國這個(gè)詞出現(xiàn)在其他文章的概率比其他兩個(gè)詞要高不少,因此我們應(yīng)該認(rèn)為后兩個(gè)詞更能表現(xiàn)文章的主題,IDF就代表了這樣的信息,計(jì)算該值需要一個(gè)語料庫,如果一個(gè)詞在語料庫中出現(xiàn)的概率越小,那么該詞的IDF應(yīng)該越大,一般來說TF計(jì)算公式為(某個(gè)詞在文章中出現(xiàn)次數(shù)/文章的總詞數(shù)),這樣消除長文章中詞出現(xiàn)次數(shù)多的影響,IDF計(jì)算公式為log(語料庫文章總數(shù)/(包含該詞的文章數(shù))+1)。將兩者乘乘起來就得到了詞的TF-IDF。傳統(tǒng)的TF-IDF對詞出現(xiàn)的位置沒有進(jìn)行考慮,可以針對不同位置賦予不同的權(quán)重進(jìn)行修正,注意這些修正之所以是有效的,正是因?yàn)槿擞^測過了大量的信息,因此建議了一個(gè)先驗(yàn)估計(jì),人將這個(gè)先驗(yàn)估計(jì)融合到了算法里面,所以使算法更加的有效 (22) 文本中的余弦距離是什么,有哪些作用? 余弦距離是兩個(gè)向量的距離的一種度量方式,其值在-1~1之間,如果為1表示兩個(gè)向量同相,0表示兩個(gè)向量正交,-1表示兩個(gè)向量反向。使用TF-IDF和余弦距離可以尋找內(nèi)容相似的文章,例如首先用TF-IDF找出兩篇文章的關(guān)鍵詞,然后每個(gè)文章分別取出k個(gè)關(guān)鍵詞(10-20個(gè)),統(tǒng)計(jì)這些關(guān)鍵詞的詞頻,生成兩篇文章的詞頻向量,然后用余弦距離計(jì)算其相似度。 |
|