近紅外光譜快速檢測澱粉品質3(2 / 3)

243近紅外光譜校正模型的建立方法

一、定量分析方法

近紅外光譜分析是通過對樣品光譜和其特征參數進行關聯,即在物質的物化性質與分析儀器響應值之間建立定量關聯關係,從而建立定標模型,然後定標模型對預測集樣品進行預測。當建立模型後,隻要掃描預測集樣品的近紅外光譜,根據校正模型和未知樣品的近紅外光譜就可以預測所需要的樣品的特征參數。多元校正仍然是目前最為實用的方法,近紅外光譜分析中常用的多元校正方法包括:多元線性回歸(Multiply Linear Regression, MLR)、主成分回歸(Principle Component Regression,PCR)和偏最小二乘法(Partial Leas Squire,PLS)等。

1多元線性回歸(Multiply Linear Regression,MLR)

多元線性回歸是一元線性回歸的擴展,又稱為逆最小二乘法,用於建立自變量和因變量之間的關係。MLR隻要求已知定標樣品待測特征成分的含量值,選擇若幹個光譜點的吸光度值與該特征成分含量進行線性回歸即可得到定標模型的回歸係數。要選擇好對應於被測特征成分的數據向量。

MLR的算法如下:

設βi1,βi2,…,βip分別為第i個樣品在第1,2,…,p個光譜點的吸光度,其待測組分含量為yi,則如式29所示。yi=β0+β1xi1+…+βpxip+εi,i=1,2,…n(29)其矩陣形式如式210所示。Y=Xβ+ε(210)其中X=1x11x12…x1p

1x21x22…x2p



1xn1xn2…xnp,Y=y1

y2

yn,β=β0

β1

βp,ε=ε1

ε2

εn,其中

Y——待測組分含量矩陣;

X——光譜矩陣;

β——回歸係數;

ε——回歸誤差;

n——定標樣品個數;

p——參與回歸的光譜點個數。

回歸係數β由最小二乘法確定,如式211所示。β=XTX-1XTY(211)對未知組分含量樣品的預測,如式212所示。Y未知=X未知β(212)MLR算法存在很多的局限性,如波長點數不應該超過校正集的樣本數目,這樣難免會損失一些有效的光譜信息;吸光度矩陣存在共線性問題,導致其成為病態矩陣;此外,運算過程中沒有考慮到存在的噪音,這樣同樣會導致過擬合情況,從而降低了模型的可靠性。因此,MLR在近紅外早期時應用較為廣泛,為了建立更為穩健的模型,人們逐漸在此基礎上發展出一係列更為有效的算法。

2主成分回歸(Principle Component Regression,PCR)

主成分回歸法是采用多元統計中的主成分分析方法,對混合物光譜測量矩陣X進行分解,然後選取其中的主成分來進行多元線性回歸分析。其核心是主成分分析,將原始數據降維,通過對原變量進行一係列的變換,使少數幾個新變量變成原變量的線性組合,於此同時,這些新變量最大限度地表征了被測樣品的組成和結構特性,並且最小限度地包含噪音等幹擾因素。經轉換得到的新變量是相互彼此正交的,即互不相關,以消除大量信息共存時相互重疊的而掩蓋的信息部分。

主成分回歸的主要算法如下:

主成分分析通過奇異值分解實現,即將X矩陣分解如式213所示。X=USVT(213)S——對角矩陣,包含X的奇異值;

U——標準列正交;

VT——標準正交矩陣。

實際上,矩陣U和矩陣S的乘積等於主成分分析中的得分矩陣T,矩陣V等於載荷矩陣P。主成分回歸的模型如式214所示。Y=TB+E(214)B的最小二乘解如式215所示。B=TTT-1TTY(215)主成分回歸克服了MLR所產生的嚴重共線性問題,即病態。在最大程度利用光譜信息的同時,通過忽略那些次要成分,起到了抑製噪聲對模型的影響,進一步提高了校正模型的穩定性和可靠性。該方法不需要了解幹擾組分的存在便可以較為準確地測出待測組分。但其運算速度比MLR慢,且不如MLR方法對模型那麼直觀。

在主成分回歸中,對於模型建立至關重要的便是最佳主成分數的選取。若主成分數過少,將會丟失一定量的有用信息,擬合不充分;若選取的主成分數過多,則會因為包含過多的噪音而出現過度擬合現象,使得模型的預測誤差增大。因此,要合理選取最佳主成分數,有效地提高模型的預測性和可靠性。

3最小二乘法(Partial Least Square,PLS)

偏最小二乘法也是一種多元回歸算法。類似PCR,對光譜矩陣X進行分解,去除其中無效的噪音幹擾。同時,分解濃度矩陣Y,消除其中的無用信息。並且,在分解光譜矩陣X的同時考慮了濃度矩陣Y的影響。其實質是將矩陣分解和回歸並為一步。在每計算一個新主成分之前,將X的得分矩陣T與矩陣Y的得分U矩陣進行交換,使得到X主成分直接與Y關聯。這樣就彌補了PCR方法隻針對X進行分解的缺點。

PLS算法如下所示:

PLS首先對光譜矩陣X和濃度矩陣Y進行分解,其模型如式216,217所示。X=TP+E(216)

Y=UQ+F(217)其中

T——X矩陣的得分矩陣;

U——Y矩陣的得分矩陣;

P——X矩陣的載荷矩陣;

Q——Y矩陣的載荷矩陣;

E——X矩陣的PLS擬合殘差矩陣;

F——Y矩陣的PLS擬合殘差矩陣。

PLS第二步是將T和U做線性回歸如式218,219所示。U=TB(218)

T=TTT-1TTY(219)在預測時,首先根據P求出未知樣品光譜矩陣X未知的得分T未知,然後求得濃度預測值如式220所示。Y未知=T未知BQ(220)PLS在應用中顯示出了其獨特的優越性:

(1)靈活的使用光譜數據,可以根據需要使用全部或者部分光譜數據而達到很好的建模效果。

(2)將特征向量與被測成分相關,即把數據分解與回歸同時進行,有效地融合在一起。

(3)適用於處理樣本數量少,但是變量相對較多的問題。

(4)PLS是多元線性回歸和主成分分析的完美結合,顯著提高了校正模型的預測能力。

正因為PLS的如上優點,在很多領域中,該方法得到了廣泛的應用。

二、定性分析方法

近紅外光譜的定性分析方法目前廣泛應用於質量控製中,如產品生產線上一係列的工序監控,化工生產等的工藝優化,農產品產地、優劣等的分析研究,在製藥業、石油化工、環保、輕工業和食品加工等領域也同樣日益受到重視。常用的定性分析方法有人工神經網絡法、聚類分析法和支持向量機(SVM)等方法。

1人工神經網絡

現代計算機有很強的計算和信息處理能力,但是它對於模式識別、感知和在複雜環境中作決策等問題的處理能力卻遠遠不如人,特別是它隻能按人事先編好的程序機械地執行,缺乏向環境學習、適應環境的能力。人們早已知道人腦的工作方式與現在的計算機是不同的,人腦是由極大量基本單元(神經元,見圖25)經過複雜的互相連接而成的一種高度複雜的、非線性的、並行處理的信息處理係統。單個神經元的反應速度比計算機的基本單元——邏輯門——低5~6個數量級。由於人腦的神經元數量巨大,每個神經元可與幾千個其他神經元連接,對許多問題的處理速度比計算機快得多。

圖25神經元構成示意圖

因此,人們利用大腦的組織結構和運行機製的特點,從模仿人腦智能的角度出發,來探尋新的信息表示、存儲和處理方式,設計全新的計算機處理結構模型,構造了一種更接近人類智能的信息處理係統,即人們目前正在研究的人工神經網絡(Artificial Neural Networks,簡稱NN)係統。簡而言之,所謂NN就是模仿人腦工作方式而設計的一種機器,它可用電子或光電元件實現,也可用軟件進行計算機仿真。自從上世紀40年代初,美國McCulloch和Pitts從信息處理的角度,研究神經細胞行為的數學模型表達,提出了二值神經元模型以來,人們對神經網絡進行了大量的研究。其中經曆了40年代末心理學家Hebb提出著名的Hebb學習規則,50年代Rosenblatt提出的感知機模型(Perceptron),60年代神經網絡研究的低潮,80年代提出的一種新的神經網絡HNN和Boltzmann機等一係列的過程。目前,神經網絡的發展非常迅速,從理論上對它的計算能力、對任意連續函數的逼近能力、學習理論以及動態網絡的穩定性分析上都取得了豐碩的成果,特別是在應用上已迅速擴展到許多重要領域。如模式識別與圖像處理中的手寫體字符識別、語音識別、人臉識別、基因序列分析、醫學疾病的識別、油氣藏檢測、加速器故障檢測、電機故障檢測、圖像壓縮和還原;控製及優化方麵的化工過程控製、機械手運動控製、運載體軌跡控製等;金融中的股票市場預測、有價證券管理、借貸風險管理、信用卡欺騙檢測;通信中的回聲抵消、路由選擇、自適應均衡、導航等方麵。

下麵的圖26表示了作為NN的基本單元的神經元模型,它有三個基本要素:

圖26基本神經元模型

(1)一組連接,連接強度由各連接上的權值表示,權值為正表示激活,為負表示抑製。

(2)一個求和單元,用於求取名輸入信號的加權和(線性組合)。

(3)一個非線性激活函數,起非線性映射作用並將神經元輸出幅度限製在一定的範圍之內。常見的激活函數φ(·)有閾值函數、分段線性函數和sigmoid函數等。此外還有一個閾值θ(或偏置-θ)。

人工神經網絡結構及工作方式如下:

除單元特性外,網絡的拓撲結構也是NN的一個重要特性。從連接方式看NN主要有兩種。

(1)前饋型網絡。各個神經元接受前一層的輸入,並輸出給下一層,沒有反饋。節點分為兩類,即輸入單元和計算單元,每一計算單元可有任意個輸入,但隻有一個輸出。通常前饋網絡可分為不同的層,第i層的輸入隻與第i-1層的輸出相連,輸入和輸出節點與外界相連,而其他中間層則稱為隱層。

(2)反饋型網絡。所有節點都是計算單元,同時也可接收輸入,並向外界輸出,其中每個連接弧都是雙向的。若總單元數為n,則每一個節點有n-1個輸入和一個輸出。

NN的工作過程主要分為兩個階段:第一個階段是學習期,此時各個計算單元狀態不變,各連線上的權值可通過學習來修改;第二個階段是工作期,此時各連接權固定,計算單元狀態變化,以達到某種穩定狀態。

從作用效果來看,前饋網絡主要是函數映射,可用於模式識別和函數逼近。反饋網絡按對能量函數的極小點的利用來分類有兩種:第一類是能量函數的所有極小點均起作用,這一類主要用作各種亮相存儲器;第二類隻利用全局極小點,它主要用於求解最優化問題。

通過向環境學習獲取知識並改進自身性能是NN的一個重要特點,在一般情況下,性能的改善是按某種預定的度量通過調節自身參數(如權值)隨時間逐步達到的。在本章中我們重點介紹神經網絡的學習規則。常見的學習規則算法有如下三種:

(1)誤差糾正學習(delta規則)

令yk(n)為輸入x(n)時神經元k在n時刻的實際輸出,dk(n)表示相應的應有輸出,則誤差信號可寫為:ek(n)=dk(n)-yk(n)(221)誤差糾正學習的最終目的是使某一基於ek(n)的目標函數達到最小,以使網絡中每一輸出單元的實際輸出在某種統計意義上最逼近於應有輸出。一旦選定了目標函數的形式,誤差糾正學習就成了一個典型的最優化問題,常用的目標函數是均方差判據,定義為:J=E12∑ke2k(n)(222)其中E為求期望算子。由於直接用J作為目標函數時,需要指導整個過程的統計特性,為解決這一困難通常用J在時刻n的瞬時值ε(n)代替J,即ε(n)=12∑ke2k(n)(223)利用最速梯度下降算法可得:Δwkj(n)=η(n)ek(n)xj(n)(224)其中η(n)>0為學習步長。

這種學習規則成功應用的神經網絡模型非常廣泛,如最簡單的感知器學習算法,這也是神經網絡的最原始的應用。而最經典的應用是反向傳播學習算法,也稱BP算法。

(2)Hebb學習

神經心理學家Hebb提出的學習規則可歸結為“當某以突觸(連接)兩端的神經元的激活同步(同為激活或同為抑製)時,該連接的強度應增強,反之應減弱”。用數學模型可描述為Δwkj(n)=Fyk(n),xj(n)(225)式中yk(n),xj(n)分別為wkj兩端神經元的狀態,其中最常用的一種情況為Δwkj(n)=ηyk(n)xj(n)(226)由於Δw與yk(n),xj(n)的相關成比例,有時稱之為相關學習規則。

(3)競爭(Competitive)學習

在競爭學習時網絡各輸出單元互相競爭,最後達到隻有一個最強者激活。最常見的一種情況是輸出神經元之間有側向抑製性連接,這樣眾多輸出單元中如有某一單元較強,則它將獲勝並抑製其他單元,最後隻有比較強者處於激活狀態。最常用的競爭學習規則可寫為Δwkj(n)=η(xj-wji),

0,若神經元j競爭獲勝

若神經元j競爭失敗(227)當學習係統所處環境平穩(統計特征不隨時間變化),從理論上說通過監督學習可以學到環境的統計特征,這些統計特征可被神經網絡作為經驗記住。如果環境是非平穩的,通常的監督學習沒有能力跟蹤這種變化,為解決此問題需要網絡有一定的自適應能力,對每一個不同的輸入都作為一個新的例子對待,此時NN被當作一個預測器,基於前一時刻輸出x(n-1)和模型在n-1時刻的參數,它估計出n時刻的輸出(n),(n)與實際值x(n)比較,其差值e(n)稱為“新息”,如新息e(n)為零則不修正模型參數,否則應修正模型參數以便跟蹤環境的變化。

雖然人工神經網絡在最近幾十年來已經取得了長足的發展,特別是它在一些具體問題的應用,如TSP問題等,解決了以往經典學科的許多NP-hard問題。但是,就目前而言,神經網絡這一學科的研究仍處在方興未艾的進程中,越來越多的專業人士正投入其中,許多新型的神經網絡模型正在建立,如Fir-NN等,而且這些模型的穩定性、抗擾性等也在進一步的討論之中。也有越來越多的各行各業的學者正在給神經網絡創造更多的應用方麵,例如盲信號分離技術等。可以斷言,幾年乃至幾十年後,神經網絡的理論和應用必然會上一個新的台階。

2聚類分析法

在樣本很多的情況下,對預測樣本進行模式識別時,人們通常事先並不知道樣品內在的分類。其中無監督模式識別方法在未知訓練集樣本的類別的情況下,同樣可以對樣本進行分類識別。聚類分析法便是無監督模式識別法的代表,其中的係統聚類法應用較為廣泛,係統聚類是聚類分析中應用最為廣泛的一種方法。

係統聚類分析又稱譜係聚類法,在聚類分析中應用最為廣泛。係統聚類法采用非迭代分級聚類策略,其基本思想是:先認為每個樣本都自成一類,然後規定類與類之間的距離。開始,因為每個樣本自成一類,類與類之間的距離是等價的,選擇距離最小的一對合並成一個新的類,計算新類與其他類的距離,再將距離最小的兩類合並成一類,這樣每次減少一類,直至所有的樣本都成為一類為止。根據樣本的合並過程,能夠得到係統聚類分析的譜係圖(見圖27),它能夠詳細展現從所有樣本點自成一類到總體歸為一類之間所有的中間情況,由粗到細地反映所有樣本的分類情況,再根據一定的原則,如領域專家憑借經驗或領域知識選取合適的分類閾值確定最終分類結果。