小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

R語言SVM模型文本挖掘分類研究手機評論數(shù)據(jù)詞云可視化

 拓端數(shù)據(jù) 2024-01-04 發(fā)布于浙江

全文鏈接:https:///?p=34772

隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)挖掘和機器學習在諸多領域中的應用價值日益凸顯。手機評論數(shù)據(jù)作為消費者對產(chǎn)品和服務的主觀反饋,具有巨大的商業(yè)價值點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)。

相關視頻

本文旨在幫助客戶通過R語言實現(xiàn)支持向量機(SVM)模型在文本挖掘分類方面的研究,并對手機評論數(shù)據(jù)進行詞云可視化分析,以深入挖掘消費者意見,為企業(yè)決策提供有力支持。

支持向量機(SVM)

感知機學習算法會因采用的初值不同而得到不同的超平面。而SVM試圖尋找一個最佳的超平面來劃分數(shù)據(jù),怎么算最佳呢?我們自然會想到用最中間的超平面就是最好的。如下圖 :

感知機與支持向量機的區(qū)別

感知機是支持向量機的基礎,由感知機誤分類最小策略可以得到分離超平面(無窮多個),支持向量機利用間隔最大化求得最優(yōu)分離超平面(1個)。間隔最大化就是在分類正確的前提下提高確信度。比如,A離超平面遠,若預測點就是正類,就比較確信是正確的。點C離超平面近,就不那么確信正確。

同時SVM具有核函數(shù),線性支持向量機解決線性分類問題。對于非線性分類問題,可以采用非線性支持向量機解決。具體為:

采取一個非線性變換,將非線性問題轉(zhuǎn)變?yōu)榫€性問題。再通過線性支持向量機解決,這就是核技巧。

設T是輸入空間(歐式空間或離散集合),H為特征空間(希爾伯特空間)。如果存在一個映射

使得對于所有的

在學習與預測中只定義核函數(shù),而不顯式地定義映射函數(shù).

基于距離的聚類算法

層次分析(Clustering Analysis):根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關系的信息,將數(shù)據(jù)對象分組。其目標是,組內(nèi)的對象互相之間是相似的(相關的),不同組中的對象是不同的(不相關的)。組內(nèi)的余弦距離越小,相似性越大,組間差別越大,聚類就越好。就理解數(shù)據(jù)而言,簇是潛在的類,而聚類分析就是研究自動發(fā)現(xiàn)這些類的技術。

文本挖掘中的分類模型

 支持向量機方法能在訓練樣本數(shù)很小的情況下達到很好分類推廣能力的學習算法,它能做到與數(shù)據(jù)的維數(shù)無關。以線性可分的問題為例,從圖<可直觀地理解 算法。算法所得到的決策面為:將兩類分開最大縫隙的超平面。對決策面設計起作用的點(圖中圈中的點)稱為支持向量 。分類線方程 可以對它進行歸一化 使得對線性可分的樣本集。它被成功的應用于手寫數(shù)字識別和文本自動分類等很多領域。

數(shù)據(jù)預處理

用SVM實現(xiàn)文本分類,先要從原始空間中抽取特征,將原始空間中的樣本映射為高維特征空間中的一個向量,以解決原始空間中線性不可分的問題.

文本分類(Text Categorization 或Text Classification)是在已給定的分類體系下(文本集),依據(jù)文本的內(nèi)容或?qū)ξ谋镜臉俗R信息等,通過分類程序的學習和運算等處理方式,自動地確定文本所關聯(lián)的類別。從數(shù)學角度來看,文本分類是一個映射的過程,即系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律從而建立并關聯(lián)判別公式和判別規(guī)則;當分類器遇到輸入的未標明類屬的新文本時,根據(jù)總結(jié)出的判別規(guī)則,確定該文本相關聯(lián)的類別。

手機評論數(shù)據(jù):


#剔除特殊詞和回車等特殊符號
res=gsub(pattern="[我|你|的|了|是]"," ",res);
res=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",res);


首先需要一個訓練樣本集作為輸入,以便分類器能夠?qū)W習模式并找到分類函數(shù)。訓練集(Training set) 由一組數(shù)據(jù)庫紀錄或元組構(gòu)成,每個記錄是一個由有關字段值組成的特征向量,這些字段稱做屬性(Feature),用于分類的屬性叫做標簽(Label)。訓練集中標簽屬性的類型必須是離散的。為降低分類器錯誤率,提高分類效率,標簽屬性的可能值越少越好。對于經(jīng)典支持向量分類機來說,正負二類分類值{+1,-1}(binary classification)是最理想的分類值狀態(tài)。 

  從訓練集中自動地構(gòu)造出分類器的算法叫做訓練。得到的分類器常要進行分類測試以確定其分類準確性。測試集使用的數(shù)據(jù)和訓練集通常具有相同的數(shù)據(jù)格式。在實際應用中常用一個數(shù)據(jù)集的2/3作為訓練集,1/3作為測試集。

特征選取

將文本轉(zhuǎn)換成為適合分類任務后,本文對各個關鍵詞的詞頻進行統(tǒng)計。而詞頻較小的特征詞匯對許多任務影響相對較小。因此本文篩選出詞頻最高的20個特征詞匯,并使用這些詞頻來建模,從而提高準確度。

# 降序排序  
v=rev(sort(v));
d=data.frame(word=names(v), freq=v);

高頻特征詞匯詞云圖如下:


wordcloud(d$word,d$freq.Freq,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont3")


    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多