正文 基於近紅外光譜主成分分析—馬氏距離法的發汗與未發汗續斷的快速鑒別(2 / 3)

2.2.2波段選擇優化光譜範圍,淨化譜圖信息,對反映樣品信息突出的光譜區域進行挑選,篩選出最有效的光譜區域,提高運算效率。以所建模型的性能指數(performance index,PI)為指標,不斷優化譜段範圍,最終選擇譜段為9881.46~4119.20cm-1。

2.2.3光譜預處理方法采用近紅外光譜儀自帶的TQ Analys軟件,選擇常用的主成分分析-馬氏距離法進行判別分析(discriminant analysis)。由於存在樣品不均勻、光散射等幹擾,以及近紅外儀器自身的隨機噪音,故應采用合理的光譜預處理方法以消除噪音、降低樣品表麵不均勻和色差等因素影響,提高模型的預測精準度和穩定性。本文比較了①光程類型(pathlength type):多元散射校正(MSC)、標準正則變換(SNV);②數據格式(data format):原始光譜(spectrum)、一階求導(first derivative,1stD)、二階求導(second derivative,2ndD),見圖3~5;③平滑(smoothiing)類型:不光滑(no smoothing,Ns)卷積平滑濾波(savitzky-golay filter,S-G),Norris導數平滑濾波(Norris derivative filter,Nd)等光譜預處理方法,以判別分析的準確度為判據,不同光譜預處理方法所建模型的性能指數,經過比較,選用“SNV+spectrum+S-G”組合對原始光譜進行預處理。

2.2.4主成分數選擇選取主成分(principal components,PCs)的個數取決於主成分的累計方差貢獻率(cumulative),它標誌著前幾個主成分概括信息之多寡;性能指數是評價模型優劣的指標。因此,以性能指數和累計貢獻率來篩選模型的最佳主成分數。可知,選擇主成分數為14時,模型的性能指數最大且累計貢獻率較大,建立的續斷未發汗和發汗樣品的識別模型效果最佳。

2.3鑒別模型的建立

采用主成分分析-馬氏距離法,選擇“SNV+spectrum+S-G”組合對原始光譜進行預處理,主成分數為14,建立續斷發汗和未發汗樣品的近紅外光譜鑒別模型。用本方法分析樣品時,軟件對標準光譜進行主成分分析,用其結果來確定未知樣品的得分值,得分圖用來計算樣品到每個類別的馬氏距離,距離哪一類的值越小,就歸屬為哪一類。建立的近紅外光譜鑒別模型。

2.4模型的預測能力

選取了續斷未發汗樣品22批和發汗樣品20批作為預測集,對優化後的校正集模型進行驗證,檢驗模型的預測能力,結果見表3。從表中可看出,模型的預測結果與實際結果一致,模型的預測準確率為100%,說明所建模型用於快速鑒別續斷發汗和未發汗樣品是可行的。

3 討論

近紅外光譜主要是反映C-H,O-H,N-H,S-H等化學鍵的信息,因此分析範圍幾乎可覆蓋所有的有機化合物和混合物。主要原理是將近紅外光譜所反映的樣品基團、組成信息與測得的數據采用化學計量學技術建立校正模型,然後通過對未知樣品光譜的測定和建立的校正模型來快速預測其組成。因此可以說它能應用於所有中藥材的真偽鑒別、產地鑒別、種類分析。但是建模需要大量有代表性的樣品,采用標準的方法采集近紅外光譜圖並獲得基礎數據,在進行光譜預處理和模式識別的基礎上建立模型並加以驗證,才能付諸實用。就定量分析而言,由於近紅外光譜采集的信號較弱,被測組分的質量分數一般要大於0.1%才能適用。

現代近紅外光譜分析技術是一種快速無損的檢測方法,樣品不需要進行前處理,使樣品之間的微小差異能夠最大限度地保留下來,不會人為幹擾、甚至破壞。續斷經產地加工“發汗”後,在化學成分上有一定的變化,使用一般的化學分析方法,對待測樣品需要一定的預處理,而且隻能測定部分成分含量,不能從整體對其進行表征,近紅外光譜技術彌補了這一不足,可以從整體表征續斷“發汗”前後的差異。

采用近紅外光譜漫反射分析技術,結合主成分分析-馬氏距離法進行判別分析,建立了續斷發汗和未發汗樣品的快速鑒別模型。結果表明,運用近紅外光譜法對續斷發汗和未發汗樣品能正確分類,結果判斷準確,此鑒別方法可行。