全文鏈接:https:///?p=34772隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)挖掘和機器學習在諸多領域中的應用價值日益凸顯。手機評論數(shù)據(jù)作為消費者對產(chǎn)品和服務的主觀反饋,具有巨大的商業(yè)價值(點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。 相關視頻 本文旨在幫助客戶通過R語言實現(xiàn)支持向量機(SVM)模型在文本挖掘分類方面的研究,并對手機評論數(shù)據(jù)進行詞云可視化分析,以深入挖掘消費者意見,為企業(yè)決策提供有力支持。 支持向量機(SVM)感知機學習算法會因采用的初值不同而得到不同的超平面。而SVM試圖尋找一個最佳的超平面來劃分數(shù)據(jù),怎么算最佳呢?我們自然會想到用最中間的超平面就是最好的。如下圖 : 感知機與支持向量機的區(qū)別 感知機是支持向量機的基礎,由感知機誤分類最小策略可以得到分離超平面(無窮多個),支持向量機利用間隔最大化求得最優(yōu)分離超平面(1個)。間隔最大化就是在分類正確的前提下提高確信度。比如,A離超平面遠,若預測點就是正類,就比較確信是正確的。點C離超平面近,就不那么確信正確。 同時SVM具有核函數(shù),線性支持向量機解決線性分類問題。對于非線性分類問題,可以采用非線性支持向量機解決。具體為: 采取一個非線性變換,將非線性問題轉(zhuǎn)變?yōu)榫€性問題。再通過線性支持向量機解決,這就是核技巧。 設T是輸入空間(歐式空間或離散集合),H為特征空間(希爾伯特空間)。如果存在一個映射 使得對于所有的 在學習與預測中只定義核函數(shù),而不顯式地定義映射函數(shù). 基于距離的聚類算法層次分析(Clustering Analysis):根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關系的信息,將數(shù)據(jù)對象分組。其目標是,組內(nèi)的對象互相之間是相似的(相關的),不同組中的對象是不同的(不相關的)。組內(nèi)的余弦距離越小,相似性越大,組間差別越大,聚類就越好。就理解數(shù)據(jù)而言,簇是潛在的類,而聚類分析就是研究自動發(fā)現(xiàn)這些類的技術。 文本挖掘中的分類模型支持向量機方法能在訓練樣本數(shù)很小的情況下達到很好分類推廣能力的學習算法,它能做到與數(shù)據(jù)的維數(shù)無關。以線性可分的問題為例,從圖<可直觀地理解 算法。算法所得到的決策面為:將兩類分開最大縫隙的超平面。對決策面設計起作用的點(圖中圈中的點)稱為支持向量 。分類線方程 可以對它進行歸一化 使得對線性可分的樣本集。它被成功的應用于手寫數(shù)字識別和文本自動分類等很多領域。 數(shù)據(jù)預處理用SVM實現(xiàn)文本分類,先要從原始空間中抽取特征,將原始空間中的樣本映射為高維特征空間中的一個向量,以解決原始空間中線性不可分的問題. 文本分類(Text Categorization 或Text Classification)是在已給定的分類體系下(文本集),依據(jù)文本的內(nèi)容或?qū)ξ谋镜臉俗R信息等,通過分類程序的學習和運算等處理方式,自動地確定文本所關聯(lián)的類別。從數(shù)學角度來看,文本分類是一個映射的過程,即系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律從而建立并關聯(lián)判別公式和判別規(guī)則;當分類器遇到輸入的未標明類屬的新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定該文本相關聯(lián)的類別。 手機評論數(shù)據(jù):
首先需要一個訓練樣本集作為輸入,以便分類器能夠?qū)W習模式并找到分類函數(shù)。訓練集(Training set) 由一組數(shù)據(jù)庫紀錄或元組構(gòu)成,每個記錄是一個由有關字段值組成的特征向量,這些字段稱做屬性(Feature),用于分類的屬性叫做標簽(Label)。訓練集中標簽屬性的類型必須是離散的。為降低分類器錯誤率,提高分類效率,標簽屬性的可能值越少越好。對于經(jīng)典支持向量分類機來說,正負二類分類值{+1,-1}(binary classification)是最理想的分類值狀態(tài)。 從訓練集中自動地構(gòu)造出分類器的算法叫做訓練。得到的分類器常要進行分類測試以確定其分類準確性。測試集使用的數(shù)據(jù)和訓練集通常具有相同的數(shù)據(jù)格式。在實際應用中常用一個數(shù)據(jù)集的2/3作為訓練集,1/3作為測試集。 特征選取將文本轉(zhuǎn)換成為適合分類任務后,本文對各個關鍵詞的詞頻進行統(tǒng)計。而詞頻較小的特征詞匯對許多任務影響相對較小。因此本文篩選出詞頻最高的20個特征詞匯,并使用這些詞頻來建模,從而提高準確度。
高頻特征詞匯詞云圖如下:
|
|
來自: 拓端數(shù)據(jù) > 《待分類》