基于模型的需求建模(5)

伊伊爸 2022-08-08 發(fā)布于上海

展開(kāi)全文

備注：最近發(fā)表的文章聚焦在基于模型的需求建模，這些文章是匯總了國(guó)內(nèi)近些年的研究成果，通過(guò)梳理概念、語(yǔ)言、工具和應(yīng)用等展開(kāi)詳細(xì)介紹。

本期內(nèi)容主要摘錄自論文，在此向論文作者致以敬意。

1. 《智能需求獲取與建模研究綜述》（作者：汪燁陳駿武夏鑫姜波）

2. https://www.jianshu.com/p/167283ab011f，《文本特征提取方案匯總》

基于機(jī)器學(xué)習(xí)的需求知識(shí)提取方法

采用機(jī)器學(xué)習(xí)方法提取需求知識(shí)過(guò)程與普通機(jī)器學(xué)習(xí)任務(wù)類(lèi)似，通常包含４個(gè)步驟如圖所示，分為四個(gè)主要步驟。

１）文本的自然語(yǔ)言處理。對(duì)包含需求知識(shí)的文本進(jìn)行自然語(yǔ)言處理，包括分詞、詞性標(biāo)注、關(guān)鍵詞提取等，必要時(shí)進(jìn)行進(jìn)一步的缺失值處理、離散化等數(shù)據(jù)處理，使得算法的效果和性能得到顯著提高。

２）文本特征提取。利用熵、Word2Vec，TF-IDF等相關(guān)技術(shù)，篩選出數(shù)據(jù)中不同需求知識(shí)元素的顯著特征，也可手動(dòng)添加新數(shù)據(jù)特征。

文本模型通常認(rèn)為是半結(jié)構(gòu)化或非結(jié)構(gòu)化的，為適應(yīng)計(jì)算機(jī)處理，必須轉(zhuǎn)換為機(jī)器可以識(shí)別的格式，同時(shí)盡可能保留文本的原有語(yǔ)義信息。目前代表性的文本表示模型包括布爾模型（boolean model）、向量空間模型(vector space model)、概率模型（probabilistic model）和圖空間模型（graph space model）等。

布爾模型

布爾模型是一種基于二元評(píng)價(jià)體系的嚴(yán)格匹配模型，基于集合論和布爾代數(shù)對(duì)信息進(jìn)行檢索。通過(guò)邏輯運(yùn)算判斷某文本是否與檢索條件一致，滿足為真，否則為假。該模型概念簡(jiǎn)單，易于實(shí)現(xiàn)。但該模型基于嚴(yán)格邏輯匹配，無(wú)法區(qū)分檢索詞的重要程度；部分用戶信息不能通過(guò)布爾代表式秒殺；另外，對(duì)于語(yǔ)義等情況無(wú)法滿足。

向量空間模型（VSM）

該模型由哈佛大學(xué)的Salton等人在1975年提出，作為一種索引方式得到應(yīng)用。該模型，通過(guò)為語(yǔ)義單元賦予不同的權(quán)重以反映它們?cè)谡Z(yǔ)義表達(dá)能力上的差異，將文本看作有一組正交詞條構(gòu)成的矢量空間，將文本的語(yǔ)義單元看作是高維空間的維度。文本對(duì)于與特征空間中的向量，稱(chēng)為文本的特征向量。對(duì)于包含了N個(gè)文本，共有M個(gè)特征的集合，采用向量空間模型表示，文本作為M維的向量。VSM是當(dāng)前文斌表示最有效方式之一，在大規(guī)模文本集的處理中得到廣泛應(yīng)用。VSM相關(guān)研究集中在語(yǔ)義單元的構(gòu)造（特征）和權(quán)重的計(jì)算兩個(gè)方面。語(yǔ)義單元主要包括以詞、短語(yǔ)、詞簇、n-gram單元作為特征。

對(duì)于權(quán)重，根據(jù)語(yǔ)義單元在文本中出現(xiàn)頻率計(jì)算特征權(quán)重。假設(shè)特征Fi在文本中出現(xiàn)的次數(shù)是,那么可通過(guò)詞頻TF(term freqent)度量特征與文本間的相關(guān)性。若特征同時(shí)出現(xiàn)在多個(gè)文本中，其實(shí)際區(qū)分能力較差，因此可將詞頻與逆文檔頻率IDF（inverse docment freqency）綜合考慮。IDF本質(zhì)上是一種抑制噪聲的加權(quán)方法，認(rèn)為頻率越低的詞語(yǔ)越有區(qū)分度。

概率模型

概率模型基于特征的概率分布表示文本數(shù)據(jù)，同時(shí)可以考慮特征之間的他概率關(guān)系度量方法，如果應(yīng)用于信息檢索領(lǐng)域還可以根據(jù)相關(guān)度對(duì)文本排序。不同的應(yīng)用可以基于特定假設(shè)得到不同的概率模型，例如二元獨(dú)立概率模型、二元一階相關(guān)概率模型、雙柏松分布概率模型以及概率網(wǎng)絡(luò)信息模型等。

概率模型通過(guò)統(tǒng)計(jì)的方法考慮特征間、特征與文本間的依賴(lài)關(guān)系，在一定程度上加強(qiáng)了對(duì)語(yǔ)義的處理，然而對(duì)相關(guān)參數(shù)的學(xué)習(xí)需要大量的標(biāo)注樣本。

圖空間模型

基于圖的文本表示模型，進(jìn)一步減少語(yǔ)義信息的損失，包括后綴樹(shù)模型、頻繁詞集超圖模型、圖控件模型等，用圖的形式反映特征間的次序掛你和相鄰關(guān)系；還包括使用二維視圖方法，將特征的信息用二維平面的局部能量和全局能量表示。該模型一般需要進(jìn)行復(fù)雜的圖處理，影響了后續(xù)機(jī)器學(xué)習(xí)的速度。

綜上，VSM是目前應(yīng)用最廣泛的文本表示方法之一，已成為文本分類(lèi)的標(biāo)準(zhǔn)模式，而其他的表示方法僅對(duì)某些應(yīng)用有效，且大都需要優(yōu)化模型參數(shù)，其合理性和實(shí)用性有待進(jìn)一步驗(yàn)證。一般使用VSM模型，采用詞袋（Bag of Words，簡(jiǎn)稱(chēng)BOW）形式表示文本數(shù)據(jù)。

３）提取模型的構(gòu)建和訓(xùn)練。選擇合適的機(jī)器學(xué)習(xí)模型，采用訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，不斷調(diào)優(yōu)，使得模型達(dá)到最優(yōu)。

４）需求知識(shí)提取。將測(cè)試集數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)模型，完成相關(guān)需求知識(shí)的提取。在功能性需求知識(shí)的提取方面，主題建模、SVM和主動(dòng)學(xué)習(xí)是比較常用的智能技術(shù)。Bhowmik等人、Chen等人和Li等人基于主題建模技術(shù)分別從需求文本和用戶反饋意見(jiàn)中提取創(chuàng)新性需求。但如果需求文本或e-mail信息的描述多樣化，例如包含一些程序方法或類(lèi)名，則會(huì)阻礙主題的構(gòu)建。LDA是廣泛應(yīng)用的主題建模技術(shù)，但其對(duì)過(guò)短的需求文本進(jìn)行主題提取時(shí)效果不佳，通常需將多個(gè)短文本組合成一個(gè)長(zhǎng)文本進(jìn)行主題建模。Rodeghero等人分別采用了邏輯回歸和SVM，從用戶與開(kāi)發(fā)人員之間的對(duì)話記錄中智能提取與用戶故事相關(guān)的信息，并發(fā)現(xiàn)邏輯回歸在所評(píng)價(jià)的各類(lèi)指標(biāo)（如準(zhǔn)確率、召回率）下的綜合效果最好。Arora等人為了提取并過(guò)濾冗余的需求，采用主動(dòng)學(xué)習(xí)方法對(duì)已提取領(lǐng)域模型元素的相關(guān)性和冗余性進(jìn)行迭代學(xué)習(xí)得到反饋信息，最后過(guò)濾掉冗余的需求。主動(dòng)學(xué)習(xí)是一個(gè)循環(huán)的過(guò)程，通過(guò)查詢(xún)最有用的未標(biāo)記樣本，交由專(zhuān)家進(jìn)行標(biāo)記，再用查詢(xún)到的樣本訓(xùn)練模型提高模型的精確度。主動(dòng)學(xué)習(xí)通常依賴(lài)于專(zhuān)家經(jīng)驗(yàn)或領(lǐng)域經(jīng)驗(yàn)，并且需要構(gòu)建合適的標(biāo)注候選集。Sardinha等人基于貝葉斯學(xué)習(xí)方法分別提取出不同方面需求間的沖突，并開(kāi)發(fā)了EA-Analyzer作為支持工具。在非功能需求知識(shí)的提取方面，貝葉斯學(xué)習(xí)方法被證明是效果較好的技術(shù)。

然而，上述機(jī)器學(xué)習(xí)方法需要依賴(lài)大量的特征工程和領(lǐng)域?qū)I(yè)知識(shí)，且對(duì)于不同領(lǐng)域的適應(yīng)性較差，在數(shù)據(jù)集異常的情況下提取精度會(huì)受較大影響，需要進(jìn)行異常值處理，同時(shí)容易產(chǎn)生過(guò)擬合或者欠擬合現(xiàn)象。

基于深度學(xué)習(xí)的需求知識(shí)提取方法

近幾年，為了降低特征工程對(duì)提取精確度上的影響，深度學(xué)習(xí)技術(shù)被嘗試應(yīng)用于需求知識(shí)提取中。人們采用深度學(xué)習(xí)提取需求知識(shí)，通常流程如下圖所示：

該過(guò)程與機(jī)器學(xué)習(xí)過(guò)程類(lèi)似，不同地方在于神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建與訓(xùn)練。

目前對(duì)于基于深度學(xué)習(xí)的需求知識(shí)提取方法研究，學(xué)術(shù)界尚處于初探階段。BiLSTM和CNN是應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò)模型。CNN運(yùn)行速度很快，可以在較簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)下快速、準(zhǔn)確地實(shí)現(xiàn)任務(wù)，BiLSTM可以通過(guò)時(shí)間序列的方式更好地捕捉需求文本的雙向語(yǔ)義依賴(lài)。

在智能需求知識(shí)提取中，PudLitz等人使用自訓(xùn)練的基于BiLSTM和CNN的命名實(shí)體識(shí)別模型從需求規(guī)格說(shuō)明書(shū)中提取對(duì)象的狀態(tài)。Saraiva等人基于BiLSTM從文本和多媒體數(shù)據(jù)中自動(dòng)識(shí)別、提取涉眾關(guān)于功能需求的意見(jiàn)和情感。Qian等人提出了一種層次神經(jīng)網(wǎng)絡(luò)方法，將提取任務(wù)形式化為多粒度文本問(wèn)題，對(duì)多粒度的過(guò)程模型信息進(jìn)行提取。

然而，由于其卷積核大小的限制，CNN目前只能提取局部特征，而B(niǎo)iLSTM由于時(shí)間序列性導(dǎo)致其結(jié)構(gòu)較為復(fù)雜，效率低，網(wǎng)絡(luò)性能因此大受影響，并且在長(zhǎng)距離依賴(lài)問(wèn)題上表現(xiàn)較差。下表列舉了目前基于人工智能的需求知識(shí)提取方法、分類(lèi)和工具等。

表智能需求知識(shí)提取方法

國(guó)產(chǎn)MBSE軟件供應(yīng)商推薦

（1）北京凌瑞智同科技有限公司

公司網(wǎng)址：http://www./

公司簡(jiǎn)介：公司2004年成立于北京，專(zhuān)注于體系架構(gòu)理論及方法研究和工程實(shí)踐應(yīng)用。公司業(yè)務(wù)主要面向軍事需求、規(guī)劃計(jì)劃預(yù)算執(zhí)行、國(guó)防采辦、國(guó)防系統(tǒng)工程等業(yè)務(wù)領(lǐng)域；采用模型驅(qū)動(dòng)、知識(shí)圖譜、大數(shù)據(jù)分析等先進(jìn)技術(shù)，自主研發(fā)了一系列國(guó)內(nèi)領(lǐng)先的基于國(guó)產(chǎn)自主可控軟、硬件平臺(tái)的軟件產(chǎn)品和工程應(yīng)用解決方案。

（2）杭州華望系統(tǒng)科技有限公司

公司網(wǎng)址：http:///

公司簡(jiǎn)介：公司2015年成立于杭州。構(gòu)建MBSE完整工具鏈：SysML建模與仿真工具、UAF體系建模與仿真工具、基于模型的需求管理工具、基于模型的可靠性分析工具、全生命周期數(shù)字化集成平臺(tái)、數(shù)字化模型協(xié)同平臺(tái)。

（3）廣州智睿思維科技有限公司

公司網(wǎng)址：http://www./html/main.html

公司簡(jiǎn)介：公司2017年成立于廣州。專(zhuān)心致力于MBSE技術(shù)，以長(zhǎng)期服務(wù)型號(hào)工程的實(shí)踐經(jīng)驗(yàn)為基礎(chǔ)，吸收和借鑒國(guó)外先進(jìn)的系統(tǒng)設(shè)計(jì)思想和技術(shù)，自主開(kāi)發(fā)了'智睿思維基于模型的系統(tǒng)工程軟件”（MBSES）。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：伊伊爸 > 《待分類(lèi)》

舉報(bào)/認(rèn)領(lǐng)