2.偏最小二乘法(PLS)
偏最小二乘法與主成分分析很相似,二者的差別在於,對變量Y中的因子進行描述的同時也對變量X所含的信息進行了描述。
通過PCA和PLS方法建立校正模型時,應防止擬合不足(主成分太少)和過擬合(主成分過多)。如果選擇主成分不足,由於模型未包含足夠的有效信息,則模型的預測結果不可靠;如果選擇了過多的主成分,則會將多餘的不確定信息引入校正模型,導致預測誤差增大。另外,在建立校正模型時,還應該充分檢查樣品的均勻性和類別,並用因子載荷說明變量在主成分空間的權重有著十分重要的意義。
(六)校正模型的校驗
對建立起來的校正模型必須進行校驗。常規的做法是將樣品集分成兩部分:一部分用來建立校正模型,另一部分則用來校驗模型。如果沒有足夠的樣品,“Leave-One-Out”(留一交互校驗法)則是一種較好的選擇。交互校驗法的優點在於校正樣品集中不包含用於校正模型的樣品,可以獨立地對校正模型進行校驗。一般模型質量的好壞常用以下幾個統計量來評定。
1.相關係數(R)
相關係數是描述兩個定量結果相關程度的一個統計量,但是當一種定量方法結果存在係統誤差時,則相關係數R不能完全用於評價模型預測結果的好壞。
2.校正集樣品的標準偏差(Standard Error of Calibration,SEC)
3.預測集樣品的標準偏差(Standard Error of Predication,SEP)
4.預測相對標準偏差(Ratio of the SEP to the Standard deviation,RPD)
RPD=SD/SEP
預測相對標準偏差(RPD)是預測樣本標準偏差與模型預測標準差之比,用其來評價所建模型的質量。通過RPD可以對預測集樣品的標準偏差(SEP)進行標準化處理,以增加評定模型的準確度。例如,如果所建模型的SEP=0.284,預測樣本標準差SD為1.38,則RPD=1.38/0.284=4.86。如果RPD>10,說明所建模型的準確性、穩定性非常好,可以準確的預測相關參數;如果RPD在5~10之間,說明模型可以用於質量控製;如果RPD在2.5~5之間,說明該模型隻能對樣品中所測成分的含量進行高、中、低的判定,不能用於定量分析;如果RPD接近1,說明SEP與SD基本相等,因此模型不能準確有效的預測成分含量。
(七)預測
建立校正模型的目的是對未知樣品的組成或性質進行預測。首先對未知樣品在相同的儀器條件下進行光譜掃描,然後對圖譜進行與以前相同的預處理,最後可以通過得到的校正模型進行預測。但是,應注意未知樣品與校正樣品集必須屬於同一類。
二、近紅外光譜的定性分析
在實際工作中,經常遇到一些隻需要知道樣品的類別或等級,並不需要知道樣品的組分及其含量。有時,即使使用定量分析的方法測出了樣品中某些組分的含量,也很難確定樣品屬於哪一類。而且定量分析模型的精度常常取決於標準方法的準確度,如果標準方法的準確度不高,定量分析將不可能得到準確而理想的結果。定性分析是依靠已知樣品及未知樣品譜圖的比較來完成的,已有一些方法可以應用於近紅外光譜的定性分析。
光譜的定性分析常利用模式識別方法,該方法又可分為有監督的方法、無監督的方法和圖形顯示識別三類。
有監督的方法需要有訓練集,通過訓練集建立數學模型,用經過訓練的數學模型來識別未知樣本,未知樣本的分類數由訓練集確定。具體方法包括線性學習機(Linear Learning Machine,LLM),判別分析,K最鄰近法(K-Nearest Neighbour,KKN),SIMCA(Soft Independent Modeling of Class Analogies),人工神經網絡(ANN)等。
無監督的方法不需要訓練集訓練模型,未知樣本的分類數可以預先給定,也可以根據實際分類結果確定。聚類分析是無監督方法的典型代表。該方法特別適用於樣本歸屬不清楚的情況。
圖形識別是一種直觀有效的方法。在實際中,可以利用人類在低維數空間對模式識別能力強的特點,將高維數據壓縮成低維數據,實現圖形識別。