小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

基于模型的需求建模(5)

 伊伊爸 2022-08-08 發(fā)布于上海

圖片

備注:最近發(fā)表的文章聚焦在基于模型的需求建模,這些文章是匯總了國(guó)內(nèi)近些年的研究成果,通過(guò)梳理概念、語(yǔ)言、工具和應(yīng)用等展開(kāi)詳細(xì)介紹。

本期內(nèi)容主要摘錄自論文,在此向論文作者致以敬意。

1. 《智能需求獲取與建模研究綜述》(作者:汪燁 陳駿武 夏鑫 姜波

2. https://www.jianshu.com/p/167283ab011f,《文本特征提取方案匯總

1
基于機(jī)器學(xué)習(xí)的需求知識(shí)提取方法

采用機(jī)器學(xué)習(xí)方法提取需求知識(shí)過(guò)程與普通機(jī)器學(xué)習(xí)任務(wù)類(lèi)似,通常包含4個(gè)步驟如圖所示,分為四個(gè)主要步驟。

圖片

1)文本的自然語(yǔ)言處理。對(duì)包含需求知識(shí)的文本進(jìn)行自然語(yǔ)言處理,包括分詞、詞性標(biāo)注、關(guān)鍵詞提取等,必要時(shí)進(jìn)行進(jìn)一步的缺失值處理、離散化等數(shù)據(jù)處理,使得算法的效果和性能得到顯著提高。

2)文本特征提取。利用熵、Word2Vec,TF-IDF等相關(guān)技術(shù),篩選出數(shù)據(jù)中不同需求知識(shí)元素的顯著特征,也可手動(dòng)添加新數(shù)據(jù)特征。

文本模型通常認(rèn)為是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,為適應(yīng)計(jì)算機(jī)處理,必須轉(zhuǎn)換為機(jī)器可以識(shí)別的格式,同時(shí)盡可能保留文本的原有語(yǔ)義信息。目前代表性的文本表示模型包括布爾模型(boolean model)、向量空間模型(vector space model)、概率模型(probabilistic model)和圖空間模型(graph space model)等。

圖片

布爾模型

布爾模型是一種基于二元評(píng)價(jià)體系的嚴(yán)格匹配模型,基于集合論和布爾代數(shù)對(duì)信息進(jìn)行檢索。通過(guò)邏輯運(yùn)算判斷某文本是否與檢索條件一致,滿足為真,否則為假。該模型概念簡(jiǎn)單,易于實(shí)現(xiàn)。但該模型基于嚴(yán)格邏輯匹配,無(wú)法區(qū)分檢索詞的重要程度;部分用戶信息不能通過(guò)布爾代表式秒殺;另外,對(duì)于語(yǔ)義等情況無(wú)法滿足。

向量空間模型(VSM)

該模型由哈佛大學(xué)的Salton等人在1975年提出,作為一種索引方式得到應(yīng)用。該模型,通過(guò)為語(yǔ)義單元賦予不同的權(quán)重以反映它們?cè)谡Z(yǔ)義表達(dá)能力上的差異,將文本看作有一組正交詞條構(gòu)成的矢量空間,將文本的語(yǔ)義單元看作是高維空間的維度。文本對(duì)于與特征空間中的向量,稱(chēng)為文本的特征向量。對(duì)于包含了N個(gè)文本,共有M個(gè)特征的集合,采用向量空間模型表示,文本作為M維的向量。VSM是當(dāng)前文斌表示最有效方式之一,在大規(guī)模文本集的處理中得到廣泛應(yīng)用。VSM相關(guān)研究集中在語(yǔ)義單元的構(gòu)造(特征)和權(quán)重的計(jì)算兩個(gè)方面。語(yǔ)義單元主要包括以詞、短語(yǔ)、詞簇、n-gram單元作為特征。

對(duì)于權(quán)重,根據(jù)語(yǔ)義單元在文本中出現(xiàn)頻率計(jì)算特征權(quán)重。假設(shè)特征Fi在文本中出現(xiàn)的次數(shù)是,那么可通過(guò)詞頻TF(term freqent)度量特征與文本間的相關(guān)性。若特征同時(shí)出現(xiàn)在多個(gè)文本中,其實(shí)際區(qū)分能力較差,因此可將詞頻與逆文檔頻率IDF(inverse docment freqency)綜合考慮。IDF本質(zhì)上是一種抑制噪聲的加權(quán)方法,認(rèn)為頻率越低的詞語(yǔ)越有區(qū)分度。

概率模型

概率模型基于特征的概率分布表示文本數(shù)據(jù),同時(shí)可以考慮特征之間的他概率關(guān)系度量方法,如果應(yīng)用于信息檢索領(lǐng)域還可以根據(jù)相關(guān)度對(duì)文本排序。不同的應(yīng)用可以基于特定假設(shè)得到不同的概率模型,例如二元獨(dú)立概率模型、二元一階相關(guān)概率模型、雙柏松分布概率模型以及概率網(wǎng)絡(luò)信息模型等。

概率模型通過(guò)統(tǒng)計(jì)的方法考慮特征間、特征與文本間的依賴(lài)關(guān)系,在一定程度上加強(qiáng)了對(duì)語(yǔ)義的處理,然而對(duì)相關(guān)參數(shù)的學(xué)習(xí)需要大量的標(biāo)注樣本。

圖空間模型

基于圖的文本表示模型,進(jìn)一步減少語(yǔ)義信息的損失,包括后綴樹(shù)模型、頻繁詞集超圖模型、圖控件模型等,用圖的形式反映特征間的次序掛你和相鄰關(guān)系;還包括使用二維視圖方法,將特征的信息用二維平面的局部能量和全局能量表示。該模型一般需要進(jìn)行復(fù)雜的圖處理,影響了后續(xù)機(jī)器學(xué)習(xí)的速度。

綜上,VSM是目前應(yīng)用最廣泛的文本表示方法之一,已成為文本分類(lèi)的標(biāo)準(zhǔn)模式,而其他的表示方法僅對(duì)某些應(yīng)用有效,且大都需要優(yōu)化模型參數(shù),其合理性和實(shí)用性有待進(jìn)一步驗(yàn)證。一般使用VSM模型,采用詞袋(Bag of Words,簡(jiǎn)稱(chēng)BOW)形式表示文本數(shù)據(jù)。

3)提取模型的構(gòu)建和訓(xùn)練。選擇合適的機(jī)器學(xué)習(xí)模型,采用訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,不斷調(diào)優(yōu),使得模型達(dá)到最優(yōu)。

4)需求知識(shí)提取。將測(cè)試集數(shù)據(jù)輸入到機(jī)器學(xué)習(xí)模型,完成相關(guān)需求知識(shí)的提取。在功能性需求知識(shí)的提取方面,主題建模、SVM和主動(dòng)學(xué)習(xí)是比較常用的智能技術(shù)。Bhowmik等人、Chen等人和Li等人基于主題建模技術(shù)分別從需求文本和用戶反饋意見(jiàn)中提取創(chuàng)新性需求。但如果需求文本或e-mail信息的描述多樣化,例如包含一些程序方法或類(lèi)名,則會(huì)阻礙主題的構(gòu)建。LDA是廣泛應(yīng)用的主題建模技術(shù),但其對(duì)過(guò)短的需求文本進(jìn)行主題提取時(shí)效果不佳,通常需將多個(gè)短文本組合成一個(gè)長(zhǎng)文本進(jìn)行主題建模。Rodeghero等人分別采用了邏輯回歸和SVM,從用戶與開(kāi)發(fā)人員之間的對(duì)話記錄中智能提取與用戶故事相關(guān)的信息,并發(fā)現(xiàn)邏輯回歸在所評(píng)價(jià)的各類(lèi)指標(biāo)(如準(zhǔn)確率、召回率)下的綜合效果最好。Arora等人為了提取并過(guò)濾冗余的需求,采用主動(dòng)學(xué)習(xí)方法對(duì)已提取領(lǐng)域模型元素的相關(guān)性和冗余性進(jìn)行迭代學(xué)習(xí)得到反饋信息,最后過(guò)濾掉冗余的需求。主動(dòng)學(xué)習(xí)是一個(gè)循環(huán)的過(guò)程,通過(guò)查詢(xún)最有用的未標(biāo)記樣本,交由專(zhuān)家進(jìn)行標(biāo)記,再用查詢(xún)到的樣本訓(xùn)練模型提高模型的精確度。主動(dòng)學(xué)習(xí)通常依賴(lài)于專(zhuān)家經(jīng)驗(yàn)或領(lǐng)域經(jīng)驗(yàn),并且需要構(gòu)建合適的標(biāo)注候選集。Sardinha等人基于貝葉斯學(xué)習(xí)方法分別提取出不同方面需求間的沖突,并開(kāi)發(fā)了EA-Analyzer作為支持工具。在非功能需求知識(shí)的提取方面,貝葉斯學(xué)習(xí)方法被證明是效果較好的技術(shù)。

然而,上述機(jī)器學(xué)習(xí)方法需要依賴(lài)大量的特征工程和領(lǐng)域?qū)I(yè)知識(shí),且對(duì)于不同領(lǐng)域的適應(yīng)性較差,在數(shù)據(jù)集異常的情況下提取精度會(huì)受較大影響,需要進(jìn)行異常值處理,同時(shí)容易產(chǎn)生過(guò)擬合或者欠擬合現(xiàn)象。

2
基于深度學(xué)習(xí)的需求知識(shí)提取方法

近幾年,為了降低特征工程對(duì)提取精確度上的影響,深度學(xué)習(xí)技術(shù)被嘗試應(yīng)用于需求知識(shí)提取中。人們采用深度學(xué)習(xí)提取需求知識(shí),通常流程如下圖所示:

圖片

該過(guò)程與機(jī)器學(xué)習(xí)過(guò)程類(lèi)似,不同地方在于神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建與訓(xùn)練。

目前對(duì)于基于深度學(xué)習(xí)的需求知識(shí)提取方法研究,學(xué)術(shù)界尚處于初探階段。BiLSTM和CNN是應(yīng)用較為廣泛的神經(jīng)網(wǎng)絡(luò)模型。CNN運(yùn)行速度很快,可以在較簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)下快速、準(zhǔn)確地實(shí)現(xiàn)任務(wù),BiLSTM可以通過(guò)時(shí)間序列的方式更好地捕捉需求文本的雙向語(yǔ)義依賴(lài)。

在智能需求知識(shí)提取中,PudLitz等人使用自訓(xùn)練的基于BiLSTM和CNN的命名實(shí)體識(shí)別模型從需求規(guī)格說(shuō)明書(shū)中提取對(duì)象的狀態(tài)。Saraiva等人基于BiLSTM從文本和多媒體數(shù)據(jù)中自動(dòng)識(shí)別、提取涉眾關(guān)于功能需求的意見(jiàn)和情感。Qian等人提出了一種層次神經(jīng)網(wǎng)絡(luò)方法,將提取任務(wù)形式化為多粒度文本問(wèn)題,對(duì)多粒度的過(guò)程模型信息進(jìn)行提取。

然而,由于其卷積核大小的限制,CNN目前只能提取局部特征,而B(niǎo)iLSTM由于時(shí)間序列性導(dǎo)致其結(jié)構(gòu)較為復(fù)雜,效率低,網(wǎng)絡(luò)性能因此大受影響,并且在長(zhǎng)距離依賴(lài)問(wèn)題上表現(xiàn)較差。下表列舉了目前基于人工智能的需求知識(shí)提取方法、分類(lèi)和工具等。

表 智能需求知識(shí)提取方法

圖片




國(guó)產(chǎn)MBSE軟件供應(yīng)商推薦

(1)北京凌瑞智同科技有限公司

圖片

公司網(wǎng)址:http://www./

公司簡(jiǎn)介:公司2004年成立于北京,專(zhuān)注于體系架構(gòu)理論及方法研究和工程實(shí)踐應(yīng)用。公司業(yè)務(wù)主要面向軍事需求、規(guī)劃計(jì)劃預(yù)算執(zhí)行、國(guó)防采辦、國(guó)防系統(tǒng)工程等業(yè)務(wù)領(lǐng)域;采用模型驅(qū)動(dòng)、知識(shí)圖譜、大數(shù)據(jù)分析等先進(jìn)技術(shù),自主研發(fā)了一系列國(guó)內(nèi)領(lǐng)先的基于國(guó)產(chǎn)自主可控軟、硬件平臺(tái)的軟件產(chǎn)品和工程應(yīng)用解決方案。

2)杭州華望系統(tǒng)科技有限公司

圖片

公司網(wǎng)址:http:///

公司簡(jiǎn)介:公司2015年成立于杭州。構(gòu)建MBSE完整工具鏈:SysML建模與仿真工具、UAF體系建模與仿真工具、基于模型的需求管理工具、基于模型的可靠性分析工具、全生命周期數(shù)字化集成平臺(tái)、數(shù)字化模型協(xié)同平臺(tái)。

(3)廣州智睿思維科技有限公司

圖片

公司網(wǎng)址:http://www./html/main.html

公司簡(jiǎn)介:公司2017年成立于廣州。專(zhuān)心致力于MBSE技術(shù),以長(zhǎng)期服務(wù)型號(hào)工程的實(shí)踐經(jīng)驗(yàn)為基礎(chǔ),吸收和借鑒國(guó)外先進(jìn)的系統(tǒng)設(shè)計(jì)思想和技術(shù),自主開(kāi)發(fā)了'智睿思維基于模型的系統(tǒng)工程軟件”(MBSES)。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多