解決哈希（HASH）沖突的主要方法

碧海山城 2012-08-29

展開全文

雖然我們不希望發(fā)生沖突，但實(shí)際上發(fā)生沖突的可能性仍是存在的。當(dāng)關(guān)鍵字值域遠(yuǎn)大于哈希表的長度，而且事先并不知道關(guān)鍵字的具體取值時(shí)。沖突就難免會(huì)發(fā) 生。另外，當(dāng)關(guān)鍵字的實(shí)際取值大于哈希表的長度時(shí)，而且表中已裝滿了記錄，如果插入一個(gè)新記錄，不僅發(fā)生沖突，而且還會(huì)發(fā)生溢出。因此，處理沖突和溢出是哈希技術(shù)中的兩個(gè)重要問題。
1、開放定址法
    　用開放定址法解決沖突的做法是：當(dāng)沖突發(fā)生時(shí)，使用某種探查(亦稱探測(cè))技術(shù)在散列表中形成一個(gè)探查(測(cè))序列。沿此序列逐個(gè)單元地查找，直到找到給定的關(guān)鍵字，或者碰到一個(gè)開放的地址(即該地址單元為空)為止（若要插入，在探查到開放的地址，則可將待插入的新結(jié)點(diǎn)存人該地址單元）。查找時(shí)探查到開放的地址則表明表中無待查的關(guān)鍵字，即查找失敗。
注意：
①用開放定址法建立散列表時(shí)，建表前須將表中所有單元(更嚴(yán)格地說，是指單元中存儲(chǔ)的關(guān)鍵字)置空。
②空單元的表示與具體的應(yīng)用相關(guān)。
    　按照形成探查序列的方法不同，可將開放定址法區(qū)分為線性探查法、線性補(bǔ)償探測(cè)法、隨機(jī)探測(cè)等。
（1）線性探查法(Linear Probing)
該方法的基本思想是：
    將散列表T[0..m-1]看成是一個(gè)循環(huán)向量，若初始探查的地址為d(即h(key)=d)，則最長的探查序列為：
        d，d+l，d+2，…，m-1，0，1，…，d-1
    　即:探查時(shí)從地址d開始，首先探查T[d]，然后依次探查T[d+1]，…，直到T[m-1]，此后又循環(huán)到T[0]，T[1]，…，直到探查到T[d-1]為止。
探查過程終止于三種情況：
    　(1)若當(dāng)前探查的單元為空，則表示查找失?。ㄈ羰遣迦雱t將key寫入其中）；
    (2)若當(dāng)前探查的單元中含有key，則查找成功，但對(duì)于插入意味著失敗；
    　(3)若探查到T[d-1]時(shí)仍未發(fā)現(xiàn)空單元也未找到key，則無論是查找還是插入均意味著失敗(此時(shí)表滿)。
利用開放地址法的一般形式，線性探查法的探查序列為：
        h_i=(h(key)+i)％m 0≤i≤m-1 //即d_i=i
用線性探測(cè)法處理沖突，思路清晰，算法簡單，但存在下列缺點(diǎn)：
① 處理溢出需另編程序。一般可另外設(shè)立一個(gè)溢出表，專門用來存放上述哈希表中放不下的記錄。此溢出表最簡單的結(jié)構(gòu)是順序表，查找方法可用順序查找。
② 按上述算法建立起來的哈希表，刪除工作非常困難。假如要從哈希表 HT 中刪除一個(gè)記錄，按理應(yīng)將這個(gè)記錄所在位置置為空，但我們不能這樣做，而只能標(biāo)上已被刪除的標(biāo)記，否則，將會(huì)影響以后的查找。
③ 線性探測(cè)法很容易產(chǎn)生堆聚現(xiàn)象。所謂堆聚現(xiàn)象，就是存入哈希表的記錄在表中連成一片。按照線性探測(cè)法處理沖突，如果生成哈希地址的連續(xù)序列愈長 ( 即不同關(guān)鍵字值的哈希地址相鄰在一起愈長 ) ，則當(dāng)新的記錄加入該表時(shí)，與這個(gè)序列發(fā)生沖突的可能性愈大。因此，哈希地址的較長連續(xù)序列比較短連續(xù)序列生長得快，這就意味著，一旦出現(xiàn)堆聚 ( 伴隨著沖突 ) ，就將引起進(jìn)一步的堆聚。
（2）線性補(bǔ)償探測(cè)法
線性補(bǔ)償探測(cè)法的基本思想是：
將線性探測(cè)的步長從 1 改為 Q ，即將上述算法中的 j ＝ (j ＋ 1) % m 改為： j ＝ (j ＋ Q) % m ，而且要求 Q 與 m 是互質(zhì)的，以便能探測(cè)到哈希表中的所有單元。
【例】 PDP-11 小型計(jì)算機(jī)中的匯編程序所用的符合表，就采用此方法來解決沖突，所用表長 m ＝ 1321 ，選用 Q ＝ 25 。

（3）隨機(jī)探測(cè)
隨機(jī)探測(cè)的基本思想是：
將線性探測(cè)的步長從常數(shù)改為隨機(jī)數(shù)，即令： j ＝ (j ＋ RN) % m ，其中 RN 是一個(gè)隨機(jī)數(shù)。在實(shí)際程序中應(yīng)預(yù)先用隨機(jī)數(shù)發(fā)生器產(chǎn)生一個(gè)隨機(jī)序列，將此序列作為依次探測(cè)的步長。這樣就能使不同的關(guān)鍵字具有不同的探測(cè)次序，從而可以避免或減少堆聚。基于與線性探測(cè)法相同的理由，在線性補(bǔ)償探測(cè)法和隨機(jī)探測(cè)法中，刪除一個(gè)記錄后也要打上刪除標(biāo)記。

2、拉鏈法
（1）拉鏈法解決沖突的方法
    　拉鏈法解決沖突的做法是：將所有關(guān)鍵字為同義詞的結(jié)點(diǎn)鏈接在同一個(gè)單鏈表中。若選定的散列表長度為m，則可將散列表定義為一個(gè)由m個(gè)頭指針組成的指針數(shù) 組T[0..m-1]。凡是散列地址為i的結(jié)點(diǎn)，均插入到以T[i]為頭指針的單鏈表中。T中各分量的初值均應(yīng)為空指針。在拉鏈法中，裝填因子α可以大于 1，但一般均取α≤1。
【例】設(shè)有 m ＝ 5 ， H(K) ＝ K mod 5 ，關(guān)鍵字值序例 5 ， 21 ， 17 ， 9 ， 15 ， 36 ， 41 ， 24 ，按外鏈地址法所建立的哈希表如下圖所示：

（2）拉鏈法的優(yōu)點(diǎn)
與開放定址法相比，拉鏈法有如下幾個(gè)優(yōu)點(diǎn)：
①拉鏈法處理沖突簡單，且無堆積現(xiàn)象，即非同義詞決不會(huì)發(fā)生沖突，因此平均查找長度較短；
②由于拉鏈法中各鏈表上的結(jié)點(diǎn)空間是動(dòng)態(tài)申請(qǐng)的，故它更適合于造表前無法確定表長的情況；
③開放定址法為減少?zèng)_突，要求裝填因子α較小，故當(dāng)結(jié)點(diǎn)規(guī)模較大時(shí)會(huì)浪費(fèi)很多空間。而拉鏈法中可取α≥1，且結(jié)點(diǎn)較大時(shí)，拉鏈法中增加的指針域可忽略不計(jì)，因此節(jié)省空間；
④在用拉鏈法構(gòu)造的散列表中，刪除結(jié)點(diǎn)的操作易于實(shí)現(xiàn)。只要簡單地刪去鏈表上相應(yīng)的結(jié)點(diǎn)即可。而對(duì)開放地址法構(gòu)造的散列表，刪除結(jié)點(diǎn)不能簡單地將被刪結(jié) 點(diǎn)的空間置為空，否則將截?cái)嘣谒筇钊松⒘斜淼耐x詞結(jié)點(diǎn)的查找路徑。這是因?yàn)楦鞣N開放地址法中，空地址單元(即開放地址)都是查找失敗的條件。因此在用開放地址法處理沖突的散列表上執(zhí)行刪除操作，只能在被刪結(jié)點(diǎn)上做刪除標(biāo)記，而不能真正刪除結(jié)點(diǎn)。

（3）拉鏈法的缺點(diǎn)
　拉鏈法的缺點(diǎn)是：指針需要額外的空間，故當(dāng)結(jié)點(diǎn)規(guī)模較小時(shí)，開放定址法較為節(jié)省空間，而若將節(jié)省的指針空間用來擴(kuò)大散列表的規(guī)模，可使裝填因子變小，這又減少了開放定址法中的沖突，從而提高平均查找速度。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：碧海山城 > 《哈?！?/a>

舉報(bào)/認(rèn)領(lǐng)