早在好幾年前,我就在天翼云服務(wù)器上部署了Zabbix,用于監(jiān)測客戶的服務(wù)器,以及關(guān)鍵的網(wǎng)絡(luò)設(shè)備,比如防火墻、路由器、核心交換機等等。 并且也部署了堡壘機,以便于安全地遠(yuǎn)程管理客戶的服務(wù)器和網(wǎng)絡(luò)設(shè)備。 應(yīng)該說,還是相當(dāng)有用的,很多次都提前發(fā)現(xiàn)了問題,并妥善處理了。 這不,前天它又給我來活了——突然收到好幾封郵件警告,仔細(xì)一看,每封郵件就是一條內(nèi)存壞,一共三條內(nèi)存,都壞了! 其實這臺服務(wù)器上,原來有4條16G內(nèi)存,去年已經(jīng)壞了一條,因為不影響使用,我跟客戶講了一聲,也就沒采購,估計這回是真不行了。 趕緊遠(yuǎn)程登錄iDRAC看一下,果然是“嚴(yán)重”警告。 點開“內(nèi)存”查看詳細(xì)信息; 好家伙,三條內(nèi)存都是一樣的“檢測到存在嚴(yán)重錯誤”,直接在控制臺重啟服務(wù)器,并沒有用,再看日志,還是報錯 而且,服務(wù)器也是無法啟動的,說明內(nèi)存故障嚴(yán)重。 我前幾年也遇到過,同樣是戴爾服務(wù)器,其中一條16G的內(nèi)存變成4G了,服務(wù)器還在跑呢,重啟也能起來,只是反復(fù)提示要更換內(nèi)存條,想來,不是嚴(yán)重問題,系統(tǒng)還是能啟動的。 但,這次顯然不行了,只能換內(nèi)存了。 iDRAC控制臺關(guān)閉服務(wù)器,開著也沒用了,就省一晚上的電吧。 給客戶發(fā)截圖,報價,由于是金蝶服務(wù)器,停一天都不行,客戶很快確認(rèn)了,第二天早上,一路趕去更換內(nèi)存。 因為原來就是64G內(nèi)存,所以這次直接換了兩條32G的,算是恢復(fù)到原來的內(nèi)存容量了。 更換完成后,再次登錄 iDRAC,查看系統(tǒng)狀態(tài),內(nèi)存告警沒了,一切都正常了,另外兩個報錯,重啟后也就消失了,可能不是什么實質(zhì)性的問題,也可能就是由內(nèi)存引起的,總之,現(xiàn)在恢復(fù)正常就行了。 趕緊提醒客戶,測試金蝶。 任務(wù)完成,趕往下一站,20多年IT運維外包,不就是這么過來的,嘿嘿。 |
|