引言 近紅外是指波長(zhǎng)在780nm~2526nm范圍內(nèi)的光線,是人們認(rèn)識(shí)最早的非可見光區(qū)域。習(xí)慣上又將近紅外光劃分為近紅外短波(780nm~1100nm)和長(zhǎng)波(1100 nm~2526 nm)兩個(gè)區(qū)域.近紅外光譜(NearInfrared Reflectance Spectroscopy,簡(jiǎn)稱NIRS)分析技術(shù)是一項(xiàng)新的無損檢測(cè)技術(shù),能夠高效、快速、準(zhǔn)確地對(duì)固體、液體、粉末狀等有機(jī)物樣品的物理、力學(xué)和化學(xué)性質(zhì)等進(jìn)行無損檢測(cè)。它綜合運(yùn)用了現(xiàn)代計(jì)算機(jī)技術(shù)、光譜分析技術(shù)、數(shù)理統(tǒng)計(jì)以及化學(xué)計(jì)量學(xué)等多個(gè)學(xué)科的最新研究果,并使之融為一體,以其獨(dú)有的特點(diǎn)在很多領(lǐng)域如農(nóng)業(yè)、石油、食品、生物化工、制藥及臨床醫(yī)學(xué)等得到了廣泛應(yīng)用,在產(chǎn)品質(zhì)量分析、在線檢測(cè)、工藝控制等方面也獲得了較大成功。近紅外光譜分析技術(shù)的數(shù)據(jù)處理主要涉及兩個(gè)方面的內(nèi)容:一是光譜預(yù)處理方法的研究,目的是針對(duì)特定的樣品體系,通過對(duì)光譜的適當(dāng)處理,減弱和消除各種非目標(biāo)因素對(duì)光譜的影響,凈化譜圖信息,為校正模型的建立和未知樣品組成或性質(zhì)的預(yù)測(cè)奠定基礎(chǔ);二是近紅外光譜定性和定量方法的研究,目的在于建立穩(wěn)定、可靠的定性或定量分析模型,并最終確定未知樣品和對(duì)其定量。 1工作原理 近紅外光譜區(qū)主要為含氫基團(tuán)X-H(X=O,N,S,單健C,雙健C,三健C等)的倍頻和合頻吸收區(qū),物質(zhì)的近紅外光譜是其各基團(tuán)振動(dòng)的倍頻和合頻的綜合吸收表現(xiàn),包含了大多數(shù)類型有機(jī)化合物的組成和分子結(jié)構(gòu)的信息。因?yàn)椴煌挠袡C(jī)物含有不同的基團(tuán),而不同的基團(tuán)在不同化學(xué)環(huán)境中對(duì)近紅外光的吸收波長(zhǎng)不同,因此近紅外光譜可以作為獲取信息的一種有效載體。近紅外光譜分析技術(shù)是利用被測(cè)物質(zhì)在其近紅外光譜區(qū)內(nèi)的光學(xué)特性快速估測(cè)一項(xiàng)或多項(xiàng)化學(xué)成分含量。被測(cè)樣品的光譜特征是多種組分的反射光譜的綜合表現(xiàn),各組分含量的測(cè)定基于各組分最佳波長(zhǎng)的選擇,按照式(1)回歸方程自動(dòng)測(cè)定結(jié)果:組分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k為多元線性回歸系數(shù);(Dp)1~k為各組分最佳波長(zhǎng)的反射光密度值(D=-lgp,p為反射比)。該方程準(zhǔn)確的反映了定標(biāo)范圍內(nèi)一系列樣品的測(cè)定結(jié)果,與實(shí)驗(yàn)室常規(guī)測(cè)定法之間的標(biāo)準(zhǔn)偏差SE為:SE=[Σ(y-x)2/(n-1)]1/2(2)式中:x表示實(shí)驗(yàn)室常規(guī)法測(cè)定值,y表示近紅外光 譜法測(cè)值,n為樣品數(shù)。 2光譜數(shù)據(jù)的預(yù)處理 儀器采集的原始光譜中除包含與樣品組成有關(guān)的信息外,同時(shí)也包含來自各方面因素所產(chǎn)生的噪音信號(hào)。這些噪音信號(hào)會(huì)對(duì)譜圖信息產(chǎn)生干擾,有些情況下還非常嚴(yán)重,從而影響校正模型的建立和對(duì)未知樣品組成或性質(zhì)的預(yù)測(cè)。因此,光譜數(shù)據(jù)預(yù)處理主要解決光譜噪音的濾除、數(shù)據(jù)的篩選、光譜范圍的優(yōu)化及消除其他因素對(duì)數(shù)據(jù)信息的影響,為下步校正模型的建立和未知樣品的準(zhǔn)確預(yù)測(cè)打下基礎(chǔ)。常用的數(shù)據(jù)預(yù)處理方法有光譜數(shù)據(jù)的平滑、基線校正、求導(dǎo)、歸一化處理等。 2.1數(shù)據(jù)平滑處理 信號(hào)平滑是消除噪聲最常用的一種方法,其基本假設(shè)是光譜含有的噪聲為零均隨機(jī)白噪聲,若多次測(cè)量取平均值可降低噪聲提高信噪比。平滑處理常用方法有鄰近點(diǎn)比較法、移動(dòng)平均法、指數(shù)平均法等。 2.1.1鄰近點(diǎn)比較法 對(duì)于許多干擾性的脈沖信號(hào),將每一個(gè)數(shù)據(jù)點(diǎn)和它旁邊鄰近的數(shù)據(jù)點(diǎn)的值進(jìn)行比較可以測(cè)得其存在。如果與鄰近點(diǎn)的數(shù)值相差太大,超過給定的閾值,便可認(rèn)為該數(shù)據(jù)是一個(gè)脈沖干擾,并通過鄰近數(shù)據(jù)點(diǎn)的平均值來取代這一數(shù)據(jù)點(diǎn)值,就可以把這一干擾脈沖去掉,這樣不影響信號(hào)的其它部分。在這一數(shù)據(jù)點(diǎn)處理過程中,需注意選擇調(diào)節(jié)參數(shù),也就是考慮鄰近數(shù)據(jù)點(diǎn)值,以及判斷一個(gè)數(shù)據(jù)點(diǎn)和鄰近數(shù)據(jù)點(diǎn)之間不同的閾值。這個(gè)閾值一般定義為噪音測(cè)量偏差的倍數(shù),以免把必要的有用信號(hào)去掉。這一方法有時(shí)也稱為鄰近點(diǎn)平滑法,也叫做單點(diǎn)平滑法。 2.1.2移動(dòng)平均法 由于平滑是通過對(duì)信號(hào)進(jìn)行平均而減小噪音,因而多點(diǎn)平滑效果更好。移動(dòng)平均法是多點(diǎn)平滑中最簡(jiǎn)單的一種。先選擇在數(shù)據(jù)序列中相鄰的奇數(shù)個(gè)數(shù)據(jù)點(diǎn),這奇數(shù)個(gè)數(shù)據(jù)點(diǎn)即構(gòu)成一個(gè)窗口。計(jì)算在窗口內(nèi)奇數(shù)個(gè)數(shù)據(jù)點(diǎn)的平均值,然后用求得的平均值代替奇數(shù)個(gè)數(shù)據(jù)點(diǎn)中的中心數(shù)據(jù)點(diǎn)的數(shù)據(jù)值,這樣我們就得到了數(shù)據(jù)平滑后的一個(gè)新的數(shù)據(jù)點(diǎn)。接著去掉窗口內(nèi)的第一個(gè)數(shù)據(jù)點(diǎn),并添加上緊接著窗口的下一個(gè)數(shù)據(jù)點(diǎn),形成移動(dòng)后的一個(gè)新窗口,其中的總數(shù)據(jù)個(gè)數(shù)不變。同樣地,用窗口內(nèi)的奇數(shù)個(gè)數(shù)據(jù)點(diǎn)求平均值,并用它來代替窗口中心的一個(gè)數(shù)據(jù)點(diǎn).如此移動(dòng)并平均直到最后。 2.1.3指數(shù)平均法 指數(shù)平均法是計(jì)算在一個(gè)具有m個(gè)數(shù)據(jù)點(diǎn)的移動(dòng)窗口中的各數(shù)據(jù)點(diǎn)的加權(quán)平均.在窗口的最后一個(gè)點(diǎn)p1即為要平滑的點(diǎn),它的權(quán)重最大,而前面的每個(gè)點(diǎn)分配到的權(quán)重依次遞減。權(quán)重系數(shù)由平滑時(shí)間常數(shù)為T的指數(shù)函數(shù)e-ji(j標(biāo)志i前面第j個(gè)點(diǎn),即j=-(m-1),-(m-2),…,-1,0(要平滑的點(diǎn)i的j=0)的形狀來決定。p1后點(diǎn)的權(quán)重為0,這一過濾函數(shù)是用點(diǎn)i前面的點(diǎn)對(duì)第i個(gè)數(shù)據(jù)點(diǎn)進(jìn)行平滑。這一過程和用電子RC濾波器(阻容濾波器)的實(shí)時(shí)平滑類似。由于該平滑函數(shù)是不對(duì)稱的,故在平滑后的數(shù)據(jù)中引入了單向失真,這一點(diǎn)也和實(shí)時(shí)RC濾波器一樣。除了獲得期望的信噪比降低外,指數(shù)平均的結(jié)果是峰的最大值下降,同時(shí)發(fā)生移動(dòng)。由于用平滑常數(shù)T對(duì)峰值進(jìn)行指數(shù)平滑和具有時(shí)間常數(shù)Tx=T的儀器測(cè)量該峰的效果相同,因此T和峰寬比值函數(shù)的強(qiáng)度下降值從實(shí)驗(yàn)測(cè)量和理論計(jì)算都可得到。 2.2基線校正 由于儀器背景、樣品粒度和其它因素的影響,近紅外分析中常常出現(xiàn)基線漂移和傾斜現(xiàn)象。采用基線校正可有效地消除這些影響。操作時(shí)可選用峰谷點(diǎn)扯平、偏移扣減、微分處理和基線傾斜等方法,其中最常用的是一階微分和二階微分,但在微分處理時(shí),要注意微分級(jí)數(shù)和微分?jǐn)?shù)據(jù)點(diǎn)的選擇。 2.3數(shù)據(jù)求導(dǎo)處理 近紅外分析中,對(duì)于樣品不同組分之間的相互干擾導(dǎo)致吸收光譜譜線重疊的現(xiàn)象,可采用求導(dǎo)的方法進(jìn)行處理。其中常用的是一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。一階導(dǎo)數(shù)表示為:yi′=y(tǒng)i+g-yi-g二階導(dǎo)數(shù)表示為:yi″=y(tǒng)i+2g-2yi+yi-2g式中:g為光譜間隔,大小可視具體情況設(shè)定。對(duì)光譜求導(dǎo)一般有兩種方法:直接差分法和Savitzky Golay求導(dǎo)法。對(duì)于分辨率高、波長(zhǎng)采樣點(diǎn)多的光譜,直接差分法求取的導(dǎo)數(shù)光譜與實(shí)際相差不大,但對(duì)于稀疏波長(zhǎng)采樣點(diǎn)的光譜,該方法所求的導(dǎo)數(shù)則存有較大誤差,這時(shí)可采用Savitzky Golay卷積求導(dǎo)法計(jì)算。 2.4歸一化處理 用于消除光程變化或樣品稀釋等變化對(duì)光譜產(chǎn)生的影響。有三種光譜歸一化方法:最小/最大歸一化、矢量歸一化、回零校正。其中常用的是矢量歸一化,它是先計(jì)算出光譜的y平均值,再用光譜減去該平均值,這樣光譜的中值為零,計(jì)算所有的y值的平方和,然后用光譜除以該平方和的平方根,結(jié)果光譜的矢量歸一化是1?;亓阈U菍⒐庾V減去最小的y值,使得最小y值變?yōu)?。 3近紅外光譜分析常用的數(shù)據(jù)處理方法 樣品的近紅外光譜包含了物質(zhì)的組成和結(jié)構(gòu)信息。而物質(zhì)質(zhì)量參數(shù)(如成分含量)也與其組成結(jié)構(gòu)相關(guān)。應(yīng)用化學(xué)計(jì)量學(xué)方法對(duì)兩者進(jìn)行關(guān)聯(lián),就可確定這兩者間的定性或定量關(guān)系,即定標(biāo)模型。建立定標(biāo)模型后,只要測(cè)出未知樣品的近紅外譜,根據(jù)標(biāo)模型就可以預(yù)測(cè)樣品的質(zhì)量參數(shù)。近紅外光譜分析常用的計(jì)量方法有:主成分分(PrincipalComponentAnalysis,PCR),偏最小二乘法(PartialLeast Squares,PLS)和人工神經(jīng)網(wǎng)絡(luò)法(Artificial Neural Network,ANN)等。它們都是常用的化學(xué)計(jì)量學(xué)方法,有著各自的優(yōu)點(diǎn)和局限。 3.1主成分分析法(PCR) 主成分分析法是使用最為廣泛的線形降維方法之一,該方法概念簡(jiǎn)單易懂,實(shí)現(xiàn)算法高效,因而在許多降維處理中應(yīng)用都很廣泛。主成分分析法將方差的大小作為衡量信息量多少的標(biāo)準(zhǔn),認(rèn)為方差越大提供的信息越多,反之提供的信息就越少。其基本思想是通過線形變換保留方差大、含信息多的分量,丟掉信息量少的方向,從而降低數(shù)據(jù)的維數(shù)。降維后每個(gè)分量是原變量的線形組合,因此,主成分分析方法本質(zhì)上是一種線形降維的方法。其計(jì)算步驟一般分為以下四步: 1)對(duì)原始數(shù)據(jù)樣本集合進(jìn)行標(biāo)準(zhǔn)化處理。 2)計(jì)算標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣的協(xié)方差矩陣,并對(duì)其進(jìn)行正交分解,得出主成分分量。 3)計(jì)算各主成分的累計(jì)貢獻(xiàn)量,根據(jù)要求的貢獻(xiàn)率閾值選取主成分。 4)針對(duì)選取的主成分建立主成分方程,計(jì)算主成分值。 PCR把原自變量映射為含絕大部分信息的少數(shù)潛變量,再用線性的最小二乘確定這些潛變量系數(shù),建立潛變量和因變量的回歸方程后再轉(zhuǎn)換為原自變量和因變量的回歸方程。其壓縮自變量的效率極高,但其映射過程和因變量無關(guān),因而其預(yù)測(cè)精度也難達(dá) 到很高。 3.2偏最小二乘法(PLS) 偏最小二乘法(Partial least squares regression,簡(jiǎn)稱PLS)將因子分析和回歸分析結(jié)合的方法,很好地解決了許多以往用普通多元線性回歸難以解決的問題。用近紅外光譜數(shù)據(jù)來預(yù)測(cè)樣品的組成含量時(shí),作為解釋變量的近紅外反射光譜的波長(zhǎng)有幾百個(gè)甚至幾千個(gè),往往超過了樣本的個(gè)數(shù),造成多重相關(guān),難用普通的多元線性回歸方法來建立穩(wěn)健、精度較高的 數(shù)學(xué)模型。PLS通過因子分析將光譜(多維空間數(shù)據(jù),維數(shù)相當(dāng)于波長(zhǎng)數(shù)目)壓縮為較低維空間數(shù)據(jù),其方法是將光譜數(shù)據(jù)向協(xié)方差最大方向投影,將原近紅外光譜分解為多種主成分光譜,不同近紅外光譜的主成分分別代表不同組分和因素對(duì)光譜的貢獻(xiàn),通過對(duì)主成分的合理選取,去掉代表干擾組分和干擾因素主成分,選用有用的主成分參與回歸。為了建立由各因素構(gòu)成的數(shù)據(jù)矩陣X與由各目標(biāo)構(gòu)成的數(shù)據(jù)矩陣Y之間的關(guān)系,其中X包含p個(gè)變量,Y包含pi個(gè)變量,樣本數(shù)為m,用PLS方法處理時(shí),首先將X矩陣作為雙線性分解,即X=TPT+F,其中矩陣T含有兩兩正交的隱變量。PLS方法與主成分分析方法的不同之處在于,主 成分分析法要求分解后得到的隱變量t的方差為最大,而不考慮矩陣Y的關(guān)系,而用PLS方法時(shí),需要用到矩陣Y中的信息,矩陣Y也可作雙線性分解,即Y=UQT+E。其中U矩陣包含Y的隱變量u,即u為矩陣Y中變量的線性組合,E為殘差陣。PLS方法要求X分解得到的隱變量t與Y分解得到的隱變量u為最大重疊或相關(guān)性最大,因此有u=vt+e,式中e為殘差矢量,系數(shù)v根據(jù)最小二乘確定。所以PLS是一種具有較好發(fā)展前景的新型數(shù)據(jù)處理方法,是近年來因?qū)嶋H需要而產(chǎn)生和發(fā)展的一個(gè)廣泛使用的多元統(tǒng)計(jì)數(shù)據(jù)分析方法。例如:王宏等將遺傳算法應(yīng)用于無創(chuàng)傷人體血糖濃度光學(xué)檢測(cè)的基礎(chǔ)研究中,在偏最小二乘法校正模型的波長(zhǎng)優(yōu)化選擇中具有顯著的效果。將遺傳算法作為模塊循環(huán)運(yùn)行,能更快達(dá)到最優(yōu)解,有效提高測(cè)量精度。Bangalore等以LAIRS測(cè)量水中有機(jī)物含量為例,研究了遺傳算法用于優(yōu)化PLS建立多元校正模型的波長(zhǎng)和特征變量數(shù)。張大仁、趙立新將遺傳算法和偏最小二乘法結(jié)合應(yīng)用于定量結(jié)構(gòu)活性關(guān)系研究中,得到較好的QSAR模型。 3.3人工神經(jīng)網(wǎng)絡(luò)法(ANN) ANN始于20世紀(jì)40年代初。它的基本思想是模擬人腦細(xì)胞(神經(jīng)元)工作原理,以建立模型進(jìn)行分類和預(yù)測(cè)的。人工神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)是它的抗干擾、抗噪音能力和它的非線性轉(zhuǎn)換能力。ANN用于非線性模型(也可用于線性模型),其缺點(diǎn)是學(xué)習(xí)時(shí)間較長(zhǎng),但只要得到模型參數(shù),進(jìn)行預(yù)測(cè)時(shí)能立即得到結(jié)果。神經(jīng)網(wǎng)絡(luò)的連接方式有很多種,使用較多的是反向傳輸模型,即BP(back-propagation)模型,在1986年由Rumelhart,Hinton和Williams等人提出。該模型可以實(shí)現(xiàn)數(shù)據(jù)處理的定量預(yù)測(cè),也可以用于模式識(shí)別。在近紅外光譜的光譜數(shù)據(jù)處理中,無論是對(duì)樣品的組成、質(zhì)量指標(biāo)預(yù)測(cè),還是模式識(shí)別分類,都可以人工神經(jīng)網(wǎng)絡(luò)在近紅外光譜分析中有著不可替代的作用,特別是在解決非線性數(shù)據(jù)處理方面優(yōu)勢(shì)明顯。例如:Tanabe等利用神經(jīng)網(wǎng)絡(luò)系統(tǒng)對(duì)1129個(gè)紅外譜圖進(jìn)行識(shí)別,系統(tǒng)由兩部分組成,能在0.1s內(nèi)鑒別未知譜。王志有等采用BP人工神經(jīng)網(wǎng)絡(luò)光度法對(duì)復(fù)合維生素片中的VB1,VB2,VB6和VPP進(jìn)行了同時(shí)測(cè)定,得到了較為準(zhǔn)確的結(jié)果。張卓勇等論述了人工神經(jīng)網(wǎng)絡(luò)在光譜分析重疊信號(hào)解析中的應(yīng)用,將基于計(jì)算最大差異光譜的目標(biāo)轉(zhuǎn)換因子分析法,用于解析混合物的紅外光譜和從混合物的紅外光譜中解析出純組分光譜,得到了滿意的結(jié)果。 以上幾種紅外光譜的數(shù)據(jù)處理方法可根據(jù)建模模型以及實(shí)際情況靈活選擇。主成分回歸方法可有效解決譬如共線問題、變量數(shù)使用限制問題并在一定程度上解決了噪音濾除問題,缺點(diǎn)是不能保證參與回歸的主成分一定與被測(cè)組分的性質(zhì)有關(guān)。偏最小二乘法把數(shù)據(jù)分解和回歸融合在一起,得到的特征值向量直接與被測(cè)組分或性質(zhì)有關(guān),適于非線性數(shù)據(jù)的建模,缺點(diǎn)是建模過程復(fù)雜。對(duì)譜峰重疊嚴(yán)重、有用信號(hào)較弱、噪音較大的譜圖,可用人工神經(jīng)網(wǎng)絡(luò)法建模。4結(jié)語數(shù)據(jù)處理和分析方法是現(xiàn)場(chǎng)光譜技術(shù)三大技術(shù)主題之一。若沒有有效的數(shù)據(jù)處理和分析方法,即使儀器質(zhì)量再好,得出的譜圖再清晰、準(zhǔn)確,這些數(shù)據(jù)也不能直接給出任何面向最終應(yīng)用的有用信息.更何況,在現(xiàn)場(chǎng)的惡劣條件下,得到的譜圖必然包含各種噪音和干擾信號(hào),若不進(jìn)行適當(dāng)?shù)念A(yù)處理和分析,則良莠不齊的數(shù)據(jù)勢(shì)必使最終結(jié)論的可靠性和準(zhǔn)確性大打折扣。對(duì)于每一種化學(xué)計(jì)量學(xué)方法而言,它們都有各自的優(yōu)缺點(diǎn)。因此,將各種方法聯(lián)合使用,相互取長(zhǎng)補(bǔ)短,將是今后發(fā)展的方向。
|