小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【算法新聞】文本特征體系的建立和使用

 地球知識(shí)年鑒 2024-11-15

1.什么是文本特征體系

(1)語(yǔ)義標(biāo)簽類特征

所謂“語(yǔ)義”,是指語(yǔ)言所蘊(yùn)含的意義。語(yǔ)義可以理解為數(shù)據(jù)對(duì)應(yīng)的現(xiàn)實(shí)世界中的對(duì)象所代表概念的含義,以及這些含義之間的關(guān)系。也就是說(shuō),語(yǔ)義是數(shù)據(jù)在某個(gè)領(lǐng)域上的解釋和邏輯表示。語(yǔ)義標(biāo)簽類特征與文本的內(nèi)容密切相關(guān),一個(gè)語(yǔ)義標(biāo)簽往往對(duì)應(yīng)人類認(rèn)知世界的某個(gè)概念。

通常可以使用樹(shù)形或網(wǎng)狀結(jié)構(gòu)按照語(yǔ)義標(biāo)簽的邏輯抽象級(jí)別對(duì)其進(jìn)行組織。例如,新聞?lì)愇谋具M(jìn)行語(yǔ)義標(biāo)簽設(shè)計(jì)時(shí),最頂層的語(yǔ)義標(biāo)簽是“新聞”,對(duì)應(yīng)現(xiàn)實(shí)世界中的所有新聞實(shí)例;對(duì)“新聞”進(jìn)行細(xì)分,可以分為“時(shí)政新聞”、“體育新聞”、“財(cái)經(jīng)新聞”等等,對(duì)應(yīng)相應(yīng)類別,如“體育新聞”進(jìn)行細(xì)分,可分為“足球新聞”、“籃球新聞”、“田徑新聞”等等。從上層語(yǔ)義標(biāo)簽到下層語(yǔ)義標(biāo)簽,其抽象程度逐漸減弱,范疇和含義逐漸明確,這與人腦認(rèn)識(shí)客觀世界所構(gòu)建的知識(shí)體系也是相配的。

語(yǔ)義標(biāo)簽體系的構(gòu)建需要領(lǐng)域知識(shí)。使用語(yǔ)義類標(biāo)簽對(duì)文章進(jìn)行特征性描述的可解釋性很強(qiáng)。具體的使用方式為,算法推薦平臺(tái)根據(jù)預(yù)定義好的語(yǔ)義標(biāo)簽系統(tǒng),識(shí)別出與文章相關(guān)性大于某個(gè)閾值的顯示語(yǔ)義標(biāo)簽,通過(guò)每個(gè)標(biāo)簽的明確含義體現(xiàn)文章的具體特點(diǎn)。

(2)隱式語(yǔ)義特征

隱式語(yǔ)義特征的概念,主要包括話題特征和關(guān)鍵詞特征。這里“話題”的概念與一般意義上的話題有區(qū)別,是指使用數(shù)據(jù)挖掘算法對(duì)文本內(nèi)容進(jìn)行聚類而聚合出的類別。通常,這些類別內(nèi)部的文本都具有某種相關(guān)性或相似性,但由于是算法自動(dòng)聚類生成的類別,因此,每一個(gè)話題為何包含特定內(nèi)容、話題之間的異同等,其可解釋性較語(yǔ)義特征則顯得不夠明確。

(3)文本相似度特征

文本相似度特征要衡量哪些文章說(shuō)的是同一件事情,那些文章內(nèi)容基本一樣??梢詮年P(guān)鍵詞的相似度、主題相似度等角度進(jìn)行衡量。從算法的角度來(lái)看,可以把文章建模為多個(gè)詞向量,上下文越相似的詞,其詞向量的相似程度越高,因此,基于詞向量相似度可以考察文本型內(nèi)容的相似度。

(4)時(shí)空特征

時(shí)空特征是指可以從文章中提取出來(lái)的實(shí)踐、空間信息。通常,新聞?lì)悆?nèi)容的時(shí)間、空間特征比較明顯。與其余或未知相關(guān)的內(nèi)容。

(5)質(zhì)量相關(guān)特征

從前文介紹的內(nèi)容風(fēng)險(xiǎn)識(shí)別模型可以了解到,算法推薦平臺(tái)的內(nèi)容質(zhì)量并不均衡,某些內(nèi)容可能涉及暴力、恐怖、低俗指向甚至違法違規(guī),此外也可能存在嵌入廣告、雞湯文、惡意競(jìng)爭(zhēng)等文章,這些都需要使用質(zhì)量相關(guān)的特征進(jìn)行表述。算法推薦系統(tǒng)通過(guò)風(fēng)險(xiǎn)識(shí)別,審核相關(guān)文章并對(duì)其進(jìn)行質(zhì)量特征標(biāo)記,攔截低質(zhì)文章,從源頭上保障推薦內(nèi)容的質(zhì)量。

2.為何需要使用文本特征體系

語(yǔ)義標(biāo)簽類的特征是給每個(gè)文章打上顯示語(yǔ)義標(biāo)簽,每個(gè)標(biāo)簽都來(lái)自系統(tǒng)預(yù)先構(gòu)建好的語(yǔ)義標(biāo)簽系統(tǒng),具有明確的意義。相當(dāng)于在算法推薦系統(tǒng)里面模擬人對(duì)客觀世界的認(rèn)知,進(jìn)行建模。對(duì)于讀者來(lái)說(shuō),面對(duì)一篇文章時(shí)往往會(huì)在潛意識(shí)里對(duì)其領(lǐng)域、主題等進(jìn)行歸類,例如文章介紹藝術(shù)范疇的音樂(lè),以及音樂(lè)范疇內(nèi)的古典音樂(lè)等。在算法的世界,從邏輯層面構(gòu)建與用戶認(rèn)知客觀世界接近的語(yǔ)義標(biāo)簽體系,這些標(biāo)簽對(duì)用戶而言都有意義、說(shuō)得通的,因此,基于語(yǔ)義標(biāo)簽,依據(jù)算法推薦系統(tǒng)掌握的用戶興趣對(duì)用戶進(jìn)行內(nèi)容推薦,是符合認(rèn)知規(guī)律的操作,推薦結(jié)果的可解釋性更強(qiáng)。

3.語(yǔ)義標(biāo)簽體系的建設(shè)和使用

(1)語(yǔ)義標(biāo)簽體系建設(shè)

在算法推薦系統(tǒng)里面可以采用逐級(jí)細(xì)化的方式構(gòu)建語(yǔ)義標(biāo)簽體系。語(yǔ)義標(biāo)簽可以分為三個(gè)層級(jí),第一層是用于分類的特征,第二層是概念類特征,第三層是實(shí)體類特征。

用于分類的特征主要用于:第一,用戶畫(huà)像構(gòu)建;第二,“頻道”內(nèi)容的構(gòu)建和過(guò)濾。

概念類特征可以用于過(guò)濾頻道內(nèi)容以及支持標(biāo)簽搜索。其中,頻道內(nèi)容的過(guò)濾與分類特征的使用類似。標(biāo)簽搜索是指,依據(jù)某個(gè)語(yǔ)義標(biāo)簽,從內(nèi)容庫(kù)中查找包含這個(gè)語(yǔ)義特征的內(nèi)容。

實(shí)體類特征則是具體到實(shí)體級(jí)別的語(yǔ)義標(biāo)簽,相對(duì)概念類特征而言,更加具象。


對(duì)于分類標(biāo)簽這個(gè)層級(jí),需要所有的類別覆蓋比較全面。希望為算法推薦平臺(tái)中的每一篇文章找到推薦系統(tǒng)里一個(gè)合適的分類,以便進(jìn)行內(nèi)容的推薦。因此,對(duì)于語(yǔ)義特征的分類體系而言,要求覆蓋的類別盡量全,相應(yīng)地對(duì)精準(zhǔn)性的要求則可以適當(dāng)放寬。

對(duì)于概念體系,各類概念標(biāo)簽主要是負(fù)責(zé)表達(dá)精準(zhǔn)但又比較抽象的語(yǔ)義。對(duì)于概念標(biāo)簽而言,要求其內(nèi)涵準(zhǔn)確,但是受制于領(lǐng)域知識(shí)和可用人力資源,其覆蓋的全面性隨著系統(tǒng)的演進(jìn)而完善即可。

在實(shí)體體系這一層,每個(gè)語(yǔ)義標(biāo)簽對(duì)應(yīng)的時(shí)具體的實(shí)體,通常能夠覆蓋各個(gè)領(lǐng)域熱門(mén)的人物、機(jī)構(gòu)、作品、產(chǎn)品即可,而并不一定要做到全面覆蓋客觀世界的全部實(shí)體。


(2)語(yǔ)義標(biāo)簽的使用

實(shí)體詞識(shí)別算法

實(shí)體類語(yǔ)義標(biāo)簽頁(yè)稱為“實(shí)體詞”。在準(zhǔn)確分類的基礎(chǔ)上,對(duì)每篇文章中具體的實(shí)體詞進(jìn)行精準(zhǔn)識(shí)別是用以支撐算法推薦流程的基本要求。

其次是從語(yǔ)義特征體系中抽取可能的候選體詞,也就是實(shí)體這一層的語(yǔ)義標(biāo)簽。

接下來(lái),針對(duì)文章中詞對(duì)應(yīng)的多個(gè)候選實(shí)體詞進(jìn)行歧義消除,即選擇一個(gè)最適合的實(shí)體詞,去掉其他候選實(shí)體詞。

最后,針對(duì)文章中識(shí)別出的全部語(yǔ)義標(biāo)簽,計(jì)算其與文章的相關(guān)性,即權(quán)重值。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多