近紅外光譜快速檢測澱粉品質4(2 / 3)

(g)41號玉米澱粉預測結果(h)50號玉米澱粉預測結果

圖35澱粉樣品預測結果

研究采用近紅外光譜結合聚類分析法進行了土豆澱粉和玉米澱粉的鑒別,鑒別結果準確率達到100%,此方法比常規鑒別法簡便、準確,且更具有科學性,從而為澱粉種類的鑒定提供了一種新的方法和手段。由於本實驗研究的澱粉種類、品牌、批次以及產地有限,無法完全代表澱粉種類的多樣性,因此需要進一步收集擴充澱粉樣品的種類、品牌、批次以及產地,考察澱粉的多樣性和鑒別的準確率,使該方法成為一種澱粉種類鑒別的可靠手段。應用近紅外光譜技術快速鑒別澱粉種類,這是一項適合中國食品市場管理的極有應用前景的技術。

33基於支持向量機的澱粉定性分析研究

331SVM原理

針對傳統學習方法處理有限樣本數據,高維數,非線性等問題的困難,Vapnik等人建立在統計學習理論和結構風險最小化準則基礎上提出的一種新的機器學習方法——支持向量機(support vector machine, SVM)。其基本思想是在樣本空間或特征空間中,構造一個最優決策的超平麵,使得該超平麵到不同類樣本集之間的距離最大,從而使算法的泛化能力得到提高。該方法是一個凸二次優化問題,能夠得到全局最優解。此外,支持向量機較傳統的神經網絡具有收斂速度快,容易訓練,不需要預設網絡結構等優點。因此支持向量機在模式識別、數據挖掘、函數逼近和圖像處理方麵都得到了廣泛的應用。

一、線性支持向量機

1硬間隔支持向量分類機

假設m個樣本數據S=xi,yii=1,2,3,…,m,其中xi∈Rn,yi∈-1,1。如圖36所示。

圖36二維空間優化超平麵

圖36中,方形點和圓形點分別代表兩類樣本數據,H為分類線,H1,H2分別為過各類樣本點中距離分類線最近的樣本且平行於分類線的直線。直線H1和H2之間的距離叫做分類間隔(Margin)。分類的目的是尋找一個最優分類麵能夠正確分開兩類樣本,並且使得分類間隔最大[43]。如果存在分類麵H:ωTx+b=0使得ωTxi+b≥1,yi=1

ωTxi+b≤-1,yi=-1(39)則稱訓練集是線性可分的。式(39)可以統一表示為yiωTxi+b≥1,i=1,…,m(310)其中使等號成立的樣本點稱做支持向量。由於超平麵H1和H2之間的間隔為2ω,為了求取最優超平麵,我們需要最大化2ω,即最小化12ω2。最優分類麵的求解可以轉化為下麵二次規劃問題,如式311所示。minQω=12ω2

styiωTxi+b≥1,i=1,…,m(311)為了求解約束規劃問題(311),我們定義Lagrange函數,如式312所示。Lω,b,α=12ωTω-∑mi=1αiyiωTxi+b-1(312)其中αi≥0是Lagrange乘子。分別對ω和b求偏導等於0,二次規劃問題(311)可以轉化為其對偶問題。如式313所示。maxQa=∑mi=1αi-12∑mi,j=1αiαjyiyjxTixj

st∑mi=1yiαi=0

αi≥0,i=1,…,m(313)同時,其解還應滿足Kaush-Kuhn-Tucker(KKT)互補條件,如式314所示。αiyiωTxi+b-1=0,i=1,…,m(314)其中αi>0所對應的訓練數據即為支持向量。最優分類決策函數如式315所示。fx=∑i∈SαiyixTix+b(315)S為支持向量集合。偏置項b如式316所示。b=yi-ωTxi(316)式中xi為支持向量。為了提高b的精度,我們可以取其平均值,如式317所示。b=1S∑i∈Syi-ωTxi(317)2軟間隔支持向量分類機

當樣本數據不能被線性函數完全分開時,我們采用Vapnik提出的軟間隔分類的概念,在式(311)中引入非負鬆弛因子ξi,如圖37所示。

圖37二維空間的不可分情況

此時優化函數如式318所示。minQω=12ω2+C∑mi=1ξi

styiωTxi+b≥1-ξi,ξi≥0,i=1,…,m(318)其中C>0為懲罰因子,表示對錯分樣本的懲罰程度,它可以用來平衡最大間隔和最小分類誤差。C越大,表示越不能容忍對樣本的錯分。當C趨於無窮大時,軟間隔問題退化為硬間隔問題。采用類似硬間隔問題的方法,二次規劃問題(318)可以轉化為其對偶問題,如式319所示。maxQa=∑mi=1αi-12∑mi,j=1αiαjyiyjxTixj

st∑mi=1yiαi=0

0≤αi≤C,i=1,…,m(319)最優分類決策函數和硬間隔支持向量相同,如式320所示。fx=∑i∈SαiyixTix+b(320)為了提高計算精度,b取平均值,如式321所示。b=1U∑i∈Uyi-ωTxi(321)其中U為所有滿足0<αi

二、非線性支持向量機

對於實際中經常用到的非線性分類問題,前麵介紹的線性分類方法不再適用。在這種情況下,Vapnik等人通過引入核空間理論,把樣本數據通過非線性變換映射到一個高維的特征空間中,將非線性問題轉換為高維空間中的線性問題,然後在這個高維空間中構造最優分類麵。采用非線性變換,許多樣本空間中的線性不可分問題在高維特征空間變為線性可分問題。另外我們知道尋優函數和分類函數隻是涉及訓練樣本之間的內積運算,因此在高維的特征空間中,也隻需要進行內積運算,而且這種內積運算可以由核函數Kxi,xj在原空間中的運算來實現[47]。根據泛函理論,如果核函數Kxi,xj滿足Mercer條件,那麼它就可以對應某一變換空間中的內積。采用適當的核函數,原來的優化問題可以轉化,如式322所示。maxQa=∑mi=1αi-12∑mi,j=1αiαjyiyjKxi,xj

st∑mi=1yiαi=0

0≤αi≤C,i=1,…,m(322)根據KKT互補條件,可以得到最優的分類決策函數,如式323所示。fx=∑i∈SαiyiKxi,x+b(323)其中偏置項b。如式324所示。b=1U∑j∈Uyj-∑i∈SαiyiKxi,xj(324)其中S為支持向量集合,U為非邊界支持向量集合。

SVM分類函數在形式上類似於一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應一個支持向量,如圖38所示。

圖38支持向量機分類示意圖

目前常用的滿足Mercer條件的核函數主要有線性核函數、多項式函數、徑向基函數和Sigmoid函數等,通過選擇不同的核函數可以構造不同的支持向量機。

(1)線性核函數:Kxi,xj=xTixj

(2)多項式核函數:Kxi,xj=xTixj+1p

(3)徑向基函數:Kxi,xj=exp-xi-xj2σ2

(4)Sigmoid函數:Kxi,xj=tanhvxTixj+a

332基本思想和流程圖

不同種類的澱粉,其吸光度會出現較大的差異。可以根據樣本光譜特性的差別,探索支持向量機在澱粉種類檢測中的可行性,具體流程圖如圖39所示。

圖39判別澱粉種類流程圖

333光譜采集

一、采集光譜

在各大超市中購買不同批次不同廠家生產的土豆、玉米2種澱粉,按名稱各取20g,其中土豆澱粉28個、玉米澱粉各21個。將其編號,1~28號為土豆澱粉,29~49號為玉米澱粉。然後將樣本分為校正集和預測集樣品。1~14號、29~39號為校正集樣本,另外收集15~28號,40~49號作為各自的預測集樣品。