【原】R語言SVM模型文本挖掘分類研究手機評論數(shù)據(jù)詞云可視化

拓端數(shù)據(jù) 2024-01-04 發(fā)布于浙江

展開全文

全文鏈接：https:///?p=34772

隨著大數(shù)據(jù)時代的來臨，數(shù)據(jù)挖掘和機器學習在諸多領域中的應用價值日益凸顯。手機評論數(shù)據(jù)作為消費者對產(chǎn)品和服務的主觀反饋，具有巨大的商業(yè)價值（點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù)）。

相關視頻

本文旨在幫助客戶通過R語言實現(xiàn)支持向量機（SVM）模型在文本挖掘分類方面的研究，并對手機評論數(shù)據(jù)進行詞云可視化分析，以深入挖掘消費者意見，為企業(yè)決策提供有力支持。

支持向量機(SVM)

感知機學習算法會因采用的初值不同而得到不同的超平面。而SVM試圖尋找一個最佳的超平面來劃分數(shù)據(jù)，怎么算最佳呢？我們自然會想到用最中間的超平面就是最好的。如下圖 :

感知機與支持向量機的區(qū)別

感知機是支持向量機的基礎，由感知機誤分類最小策略可以得到分離超平面（無窮多個），支持向量機利用間隔最大化求得最優(yōu)分離超平面（1個）。間隔最大化就是在分類正確的前提下提高確信度。比如，A離超平面遠，若預測點就是正類，就比較確信是正確的。點C離超平面近，就不那么確信正確。

同時SVM具有核函數(shù)，線性支持向量機解決線性分類問題。對于非線性分類問題，可以采用非線性支持向量機解決。具體為：

采取一個非線性變換，將非線性問題轉(zhuǎn)變?yōu)榫€性問題。再通過線性支持向量機解決，這就是核技巧。

設T是輸入空間（歐式空間或離散集合），H為特征空間（希爾伯特空間）。如果存在一個映射

使得對于所有的

在學習與預測中只定義核函數(shù)，而不顯式地定義映射函數(shù).

基于距離的聚類算法

層次分析（Clustering Analysis）：根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關系的信息，將數(shù)據(jù)對象分組。其目標是，組內(nèi)的對象互相之間是相似的（相關的），不同組中的對象是不同的（不相關的）。組內(nèi)的余弦距離越小，相似性越大，組間差別越大，聚類就越好。就理解數(shù)據(jù)而言，簇是潛在的類，而聚類分析就是研究自動發(fā)現(xiàn)這些類的技術。

文本挖掘中的分類模型

支持向量機方法能在訓練樣本數(shù)很小的情況下達到很好分類推廣能力的學習算法，它能做到與數(shù)據(jù)的維數(shù)無關。以線性可分的問題為例，從圖<可直觀地理解算法。算法所得到的決策面為：將兩類分開最大縫隙的超平面。對決策面設計起作用的點（圖中圈中的點）稱為支持向量。分類線方程可以對它進行歸一化使得對線性可分的樣本集。它被成功的應用于手寫數(shù)字識別和文本自動分類等很多領域。

數(shù)據(jù)預處理

用SVM實現(xiàn)文本分類,先要從原始空間中抽取特征,將原始空間中的樣本映射為高維特征空間中的一個向量,以解決原始空間中線性不可分的問題.

文本分類（Text Categorization 或Text Classification）是在已給定的分類體系下（文本集），依據(jù)文本的內(nèi)容或?qū)ξ谋镜臉俗R信息等，通過分類程序的學習和運算等處理方式，自動地確定文本所關聯(lián)的類別。從數(shù)學角度來看，文本分類是一個映射的過程，即系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息，總結(jié)出分類的規(guī)律從而建立并關聯(lián)判別公式和判別規(guī)則；當分類器遇到輸入的未標明類屬的新文本時，根據(jù)總結(jié)出的判別規(guī)則，確定該文本相關聯(lián)的類別。

手機評論數(shù)據(jù)：


#剔除特殊詞和回車等特殊符號  
res=gsub(pattern="[我|你|的|了|是]"," ",res);  
res=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",res);

首先需要一個訓練樣本集作為輸入，以便分類器能夠?qū)W習模式并找到分類函數(shù)。訓練集(Training set) 由一組數(shù)據(jù)庫紀錄或元組構(gòu)成，每個記錄是一個由有關字段值組成的特征向量，這些字段稱做屬性(Feature)，用于分類的屬性叫做標簽(Label)。訓練集中標簽屬性的類型必須是離散的。為降低分類器錯誤率，提高分類效率，標簽屬性的可能值越少越好。對于經(jīng)典支持向量分類機來說，正負二類分類值{+1，-1}(binary classification)是最理想的分類值狀態(tài)。

從訓練集中自動地構(gòu)造出分類器的算法叫做訓練。得到的分類器常要進行分類測試以確定其分類準確性。測試集使用的數(shù)據(jù)和訓練集通常具有相同的數(shù)據(jù)格式。在實際應用中常用一個數(shù)據(jù)集的2/3作為訓練集，1/3作為測試集。

特征選取

將文本轉(zhuǎn)換成為適合分類任務后，本文對各個關鍵詞的詞頻進行統(tǒng)計。而詞頻較小的特征詞匯對許多任務影響相對較小。因此本文篩選出詞頻最高的20個特征詞匯，并使用這些詞頻來建模，從而提高準確度。

# 降序排序  
v=rev(sort(v));   
d=data.frame(word=names(v), freq=v);

高頻特征詞匯詞云圖如下：


wordcloud(d$word,d$freq.Freq,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont3")

贊賞

共11人贊賞

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：拓端數(shù)據(jù) > 《待分類》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

拓端數(shù)據(jù)

關注對話

TA的最新館藏

衛(wèi)龍 IPO 多維度分析及運營創(chuàng)新解析報告
Python金融應用編程:衍生品定價和套期保值的隨機過程
【專題】2024年直播、短視頻：抖音、小紅書、快手行業(yè)報告匯總PDF合集分享（附原數(shù)據(jù)表）
2024抖音電商母嬰行業(yè)分析報告匯總PDF洞察（附原數(shù)據(jù)表）
PYTHON用時變馬爾可夫區(qū)制轉(zhuǎn)換（MARKOV REGIME SWITCHING）自回歸模型分析經(jīng)濟時間序列
【視頻】文本挖掘：主題模型（LDA）及R語言實現(xiàn)分析游記數(shù)據(jù)

喜歡該文的人也喜歡更多

熱門閱讀換一換

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看