備注:最近發(fā)表的文章聚焦在基于模型的需求建模,這些文章是匯總了國(guó)內(nèi)近些年的研究成果,通過(guò)梳理概念、語(yǔ)言、工具和應(yīng)用等展開(kāi)詳細(xì)介紹。 本期內(nèi)容主要摘錄自論文,在此向論文作者致以敬意。 1. 《智能需求獲取與建模研究綜述》(作者:汪燁 陳駿武 夏鑫 姜波) 2. https://www.jianshu.com/p/167283ab011f,《文本特征提取方案匯總》 采用機(jī)器學(xué)習(xí)方法提取需求知識(shí)過(guò)程與普通機(jī)器學(xué)習(xí)任務(wù)類(lèi)似,通常包含4個(gè)步驟如圖所示,分為四個(gè)主要步驟。 1)文本的自然語(yǔ)言處理。對(duì)包含需求知識(shí)的文本進(jìn)行自然語(yǔ)言處理,包括分詞、詞性標(biāo)注、關(guān)鍵詞提取等,必要時(shí)進(jìn)行進(jìn)一步的缺失值處理、離散化等數(shù)據(jù)處理,使得算法的效果和性能得到顯著提高。 2)文本特征提取。利用熵、Word2Vec,TF-IDF等相關(guān)技術(shù),篩選出數(shù)據(jù)中不同需求知識(shí)元素的顯著特征,也可手動(dòng)添加新數(shù)據(jù)特征。 文本模型通常認(rèn)為是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,為適應(yīng)計(jì)算機(jī)處理,必須轉(zhuǎn)換為機(jī)器可以識(shí)別的格式,同時(shí)盡可能保留文本的原有語(yǔ)義信息。目前代表性的文本表示模型包括布爾模型(boolean model)、向量空間模型(vector space model)、概率模型(probabilistic model)和圖空間模型(graph space model)等。 布爾模型布爾模型是一種基于二元評(píng)價(jià)體系的嚴(yán)格匹配模型,基于集合論和布爾代數(shù)對(duì)信息進(jìn)行檢索。通過(guò)邏輯運(yùn)算判斷某文本是否與檢索條件一致,滿足為真,否則為假。該模型概念簡(jiǎn)單,易于實(shí)現(xiàn)。但該模型基于嚴(yán)格邏輯匹配,無(wú)法區(qū)分檢索詞的重要程度;部分用戶信息不能通過(guò)布爾代表式秒殺;另外,對(duì)于語(yǔ)義等情況無(wú)法滿足。 向量空間模型(VSM)該模型由哈佛大學(xué)的Salton等人在1975年提出,作為一種索引方式得到應(yīng)用。該模型,通過(guò)為語(yǔ)義單元賦予不同的權(quán)重以反映它們?cè)谡Z(yǔ)義表達(dá)能力上的差異,將文本看作有一組正交詞條構(gòu)成的矢量空間,將文本的語(yǔ)義單元看作是高維空間的維度。文本對(duì)于與特征空間中的向量,稱(chēng)為文本的特征向量。對(duì)于包含了N個(gè)文本,共有M個(gè)特征的集合,采用向量空間模型表示,文本作為M維的向量。VSM是當(dāng)前文斌表示最有效方式之一,在大規(guī)模文本集的處理中得到廣泛應(yīng)用。VSM相關(guān)研究集中在語(yǔ)義單元的構(gòu)造(特征)和權(quán)重的計(jì)算兩個(gè)方面。語(yǔ)義單元主要包括以詞、短語(yǔ)、詞簇、n-gram單元作為特征。 對(duì)于權(quán)重,根據(jù)語(yǔ)義單元在文本中出現(xiàn)頻率計(jì)算特征權(quán)重。假設(shè)特征Fi在文本中出現(xiàn)的次數(shù)是,那么可通過(guò)詞頻TF(term freqent)度量特征與文本間的相關(guān)性。若特征同時(shí)出現(xiàn)在多個(gè)文本中,其實(shí)際區(qū)分能力較差,因此可將詞頻與逆文檔頻率IDF(inverse docment freqency)綜合考慮。IDF本質(zhì)上是一種抑制噪聲的加權(quán)方法,認(rèn)為頻率越低的詞語(yǔ)越有區(qū)分度。 概率模型 概率模型基于特征的概率分布表示文本數(shù)據(jù),同時(shí)可以考慮特征之間的他概率關(guān)系度量方法,如果應(yīng)用于信息檢索領(lǐng)域還可以根據(jù)相關(guān)度對(duì)文本排序。不同的應(yīng)用可以基于特定假設(shè)得到不同的概率模型,例如二元獨(dú)立概率模型、二元一階相關(guān)概率模型、雙柏松分布概率模型以及概率網(wǎng)絡(luò)信息模型等。 概率模型通過(guò)統(tǒng)計(jì)的方法考慮特征間、特征與文本間的依賴(lài)關(guān)系,在一定程度上加強(qiáng)了對(duì)語(yǔ)義的處理,然而對(duì)相關(guān)參數(shù)的學(xué)習(xí)需要大量的標(biāo)注樣本。 圖空間模型基于圖的文本表示模型,進(jìn)一步減少語(yǔ)義信息的損失,包括后綴樹(shù)模型、頻繁詞集超圖模型、圖控件模型等,用圖的形式反映特征間的次序掛你和相鄰關(guān)系;還包括使用二維視圖方法,將特征的信息用二維平面的局部能量和全局能量表示。該模型一般需要進(jìn)行復(fù)雜的圖處理,影響了后續(xù)機(jī)器學(xué)習(xí)的速度。 綜上,VSM是目前應(yīng)用最廣泛的文本表示方法之一,已成為文本分類(lèi)的標(biāo)準(zhǔn)模式,而其他的表示方法僅對(duì)某些應(yīng)用有效,且大都需要優(yōu)化模型參數(shù),其合理性和實(shí)用性有待進(jìn)一步驗(yàn)證。一般使用VSM模型,采用詞袋(Bag of Words,簡(jiǎn)稱(chēng)BOW)形式表示文本數(shù)據(jù)。 3)提取模型的構(gòu)建和訓(xùn)練。選擇合適的機(jī)器學(xué)習(xí)模型,采用訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,不斷調(diào)優(yōu),使得模型達(dá)到最優(yōu)。 4)需求知識(shí)提取。將測(cè)試集數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)模型,完成相關(guān)需求知識(shí)的提取。在功能性需求知識(shí)的提取方面,主題建模、SVM和主動(dòng)學(xué)習(xí)是比較常用的智能技術(shù)。Bhowmik等人、Chen等人和Li等人基于主題建模技術(shù)分別從需求文本和用戶反饋意見(jiàn)中提取創(chuàng)新性需求。但如果需求文本或e-mail信息的描述多樣化,例如包含一些程序方法或類(lèi)名,則會(huì)阻礙主題的構(gòu)建。LDA是廣泛應(yīng)用的主題建模技術(shù),但其對(duì)過(guò)短的需求文本進(jìn)行主題提取時(shí)效果不佳,通常需將多個(gè)短文本組合成一個(gè)長(zhǎng)文本進(jìn)行主題建模。Rodeghero等人分別采用了邏輯回歸和SVM,從用戶與開(kāi)發(fā)人員之間的對(duì)話記錄中智能提取與用戶故事相關(guān)的信息,并發(fā)現(xiàn)邏輯回歸在所評(píng)價(jià)的各類(lèi)指標(biāo)(如準(zhǔn)確率、召回率)下的綜合效果最好。Arora等人為了提取并過(guò)濾冗余的需求,采用主動(dòng)學(xué)習(xí)方法對(duì)已提取領(lǐng)域模型元素的相關(guān)性和冗余性進(jìn)行迭代學(xué)習(xí)得到反饋信息,最后過(guò)濾掉冗余的需求。主動(dòng)學(xué)習(xí)是一個(gè)循環(huán)的過(guò)程,通過(guò)查詢(xún)最有用的未標(biāo)記樣本,交由專(zhuān)家進(jìn)行標(biāo)記,再用查詢(xún)到的樣本訓(xùn)練模型提高模型的精確度。主動(dòng)學(xué)習(xí)通常依賴(lài)于專(zhuān)家經(jīng)驗(yàn)或領(lǐng)域經(jīng)驗(yàn),并且需要構(gòu)建合適的標(biāo)注候選集。Sardinha等人基于貝葉斯學(xué)習(xí)方法分別提取出不同方面需求間的沖突,并開(kāi)發(fā)了EA-Analyzer作為支持工具。在非功能需求知識(shí)的提取方面,貝葉斯學(xué)習(xí)方法被證明是效果較好的技術(shù)。 然而,上述機(jī)器學(xué)習(xí)方法需要依賴(lài)大量的特征工程和領(lǐng)域?qū)I(yè)知識(shí),且對(duì)于不同領(lǐng)域的適應(yīng)性較差,在數(shù)據(jù)集異常的情況下提取精度會(huì)受較大影響,需要進(jìn)行異常值處理,同時(shí)容易產(chǎn)生過(guò)擬合或者欠擬合現(xiàn)象。 近幾年,為了降低特征工程對(duì)提取精確度上的影響,深度學(xué)習(xí)技術(shù)被嘗試應(yīng)用于需求知識(shí)提取中。人們采用深度學(xué)習(xí)提取需求知識(shí),通常流程如下圖所示: 該過(guò)程與機(jī)器學(xué)習(xí)過(guò)程類(lèi)似,不同地方在于神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建與訓(xùn)練。 目前對(duì)于基于深度學(xué)習(xí)的需求知識(shí)提取方法研究,學(xué)術(shù)界尚處于初探階段。BiLSTM和CNN是應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò)模型。CNN運(yùn)行速度很快,可以在較簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)下快速、準(zhǔn)確地實(shí)現(xiàn)任務(wù),BiLSTM可以通過(guò)時(shí)間序列的方式更好地捕捉需求文本的雙向語(yǔ)義依賴(lài)。 在智能需求知識(shí)提取中,PudLitz等人使用自訓(xùn)練的基于BiLSTM和CNN的命名實(shí)體識(shí)別模型從需求規(guī)格說(shuō)明書(shū)中提取對(duì)象的狀態(tài)。Saraiva等人基于BiLSTM從文本和多媒體數(shù)據(jù)中自動(dòng)識(shí)別、提取涉眾關(guān)于功能需求的意見(jiàn)和情感。Qian等人提出了一種層次神經(jīng)網(wǎng)絡(luò)方法,將提取任務(wù)形式化為多粒度文本問(wèn)題,對(duì)多粒度的過(guò)程模型信息進(jìn)行提取。 然而,由于其卷積核大小的限制,CNN目前只能提取局部特征,而B(niǎo)iLSTM由于時(shí)間序列性導(dǎo)致其結(jié)構(gòu)較為復(fù)雜,效率低,網(wǎng)絡(luò)性能因此大受影響,并且在長(zhǎng)距離依賴(lài)問(wèn)題上表現(xiàn)較差。下表列舉了目前基于人工智能的需求知識(shí)提取方法、分類(lèi)和工具等。 表 智能需求知識(shí)提取方法 國(guó)產(chǎn)MBSE軟件供應(yīng)商推薦
|
|
來(lái)自: 伊伊爸 > 《待分類(lèi)》