在係統聚類法中,類與類之間的距離定義有許多種,因此,也使係統聚類法按類間距離的定義分為多種不同類型的方法,有最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和方差平方和法8種,下麵簡單介紹最常用的5種距離方法。
圖27係統聚類分析最終得到的譜係圖
(1)最短距離法:類與類之間的距離等於兩類間最近兩個樣本之間的距離。
(2)最長距離法:類與類之間的距離等於兩類間最遠兩個樣本之間的距離。
(3)中間距離法:在中間距離法中,類與類之間的距離既不采用兩類之間最近的距離,也不采用兩類之間最遠的距離。
(4)重心法:重心法是從物理意義出發,以類的重心代表此類,使用兩類重心之間的距離來描述類間相似性。
(5)方差平方和法:有文獻也稱Ward方法,它采用不均勻的判斷規則,從方差分析的觀點出發,認為正確的分類應當使得類內方差盡量小,而類間方差盡量大。
采用不同的類間距離計算方法,其結果不完全一樣,有時會得到截然相反的聚類結果。距離的選擇是比較複雜的,盡管有一定的規律可循,一般來講,最短距離法適用於長條狀或S形的類,最長距離法、重心法和方差平方和法適用於橢球形的類。在初次進行聚類分析處理時,不妨多試探選擇幾個距離進行聚類,作對比分析,以確定合適的距離表達形式。
係統聚類分析的步驟可總結如下:
①聚類分析處理的開始是各樣品自成一類(n個樣品一共有n類),計算各樣品之間的距離,並將距離最近的兩個樣品並成一類。
②選擇並計算類與類之間的距離,然後將距離最近的兩類合並,如果類的個數大於1,則繼續並類,直到所有樣品歸為一類為止。
③最後繪製係統聚類譜係圖。
係統聚類法能夠得到完整的聚類譜係圖,可以詳細地說明從l類直到n類的所有聚類方案,是實踐中應用最廣的一種算法。但是係統聚類法的計算量大,而且共有8種類與類之間距離的選擇方案,對於一些分析對象往往得到截然不同的聚類結果,很難說能夠達到聚類分析試圖反映樣本點之間最本質的“抱團”性質的目標,並且讓使用者也很難取舍。
3支持向量機(SVM)法
支持向量機SVM(Support Vector Machines)是由Vanpik領導的AT&TBell實驗室研究小組在1963年提出的一種新的非常有潛力的分類技術,SVM是一種基於統計學習理論的模式識別方法,主要應用於模式識別領域。由於當時這些研究尚不十分完善,在解決模式識別問題中往往趨於保守,且數學上比較艱澀,因此這些研究一直沒有得到充分的重視。直到90年代,一個較完善的理論體係——統計學習理論(Statistical Learning Theory,簡稱SLT)的實現和由於神經網絡等較新興的機器學習方法的研究遇到一些重要的困難,比如如何確定網絡結構的問題、過學習與欠學習問題、局部極小點問題等,使得SVM迅速發展和完善,在解決小樣本、非線性及高維模式識別問題中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中,從此迅速地發展起來。
支撐向量機主要采用了分解算法思想,它將QP問題分解為一係列規模較小的子問題,希望通過對子問題的迭代求解,得到QP問題的全局最優解。這樣解決了存儲空間受限的問題,另一方麵,要使算法可行,還必須解決諸如分解策略,迭代算法的收斂性,收斂條件,優化時間,以及如何利用解的稀疏性來優化加快速度等問題。
SVM的關鍵在於核函數,這也是最喜人的地方。低維空間向量集通常難於劃分,解決的方法是將它們映射到高維空間。但這個辦法帶來的困難就是計算複雜度的增加,而核函數正好巧妙地解決了這個問題。也就是說,隻要選用適當的核函數,我們就可以得到高維空間的分類函數。在SVM理論中,采用不同的核函數將導致不同的SVM算法。
支持向量機是以統計學理論為基礎的,因而具有嚴格的理論和數學基礎,可以不像神經網絡的結構設計需要依賴於設計者的經驗知識和先驗知識。支持向量機與神經網絡的學習方法相比,支持向量機具有以下特點:
(1)支持向量機是基於結構風險最小化(SRM,structural risk minimization)原則,保證學習機器具有良好的泛化能力;
(2)解決了算法複雜度與輸入向量密切相關的問題;
(3)通過引用核函數,將輸入空間中的非線性問題映射到高維特征空間中,在高維空間中構造線性函數判別;
(4)支持向量機是以統計學理論為基礎的,與傳統統計學習理論不同。它主要是針對小樣本情況,且最優解是基於有限的樣本信息,而不是樣本數趨於無窮大時的最優解;
(5)算法可最終轉化為凸優化問題,因而可保證算法的全局最優性,避免了神經網絡無法解決的局部最小問題;
(6)支持向量機有嚴格的理論和數學基礎,避免了神經網絡實現中的經驗成分。
支持向量機現在已經在許多領域,如:生物信息學,文本和手寫識別等,都取得了成功的應用。
25近紅外光譜儀
251近紅外光譜的發展概述
20世紀50年代中期,近紅外光譜儀器向商品化儀器發展。但這些儀器因噪聲高,數據處理係統不完善,很難滿足近紅外分析的要求。到了60年代,為了克服上述缺點,Karl Norris研製開發了一種用近紅外透射法測定穀物中水分的儀器。在測試水分的過程中,他發現穀物中的其他成分如脂肪、蛋白質和澱粉等對測定結果幹擾嚴重,利用計算機相關技術,他選定了一套波長,通過樣品對這些波長的吸收和反射值來測定穀物中水分。這樣不僅能避免幹擾,而且還能測定這些幹擾成分的含量,從而真正開始了近紅外光譜分析的應用,他選定的這套波長直到今天仍被大家所采用。
1971年,帝強(Dickey-John)公司生產了第一台商用近紅外光譜儀器,並獲得美國專利。這台儀器光源用碘鎢燈,分光用6個窄帶幹涉濾光片,檢測器用硫化鉛。不久,另一個廠家Neotec公司也生產出3個濾光片的近紅外穀物分析儀。這些早期的近紅外儀器使用模擬電路計算成分的含量,每台儀器需現場校正,校準數據需通過選擇不同的電阻器來輸入,同今天的儀器相比,這些儀器在硬件上、可靠性上和可操作性上都很原始,且樣品必須先幹燥,並粉碎到一定的粒度。1975年,Dickey-John公司和Technicon公司合作生產了一台近紅外光譜分析儀Infra Analyzer25型,Neotec公司也開發了Neotec31EL型。這些儀器具有溫度補償功能,同時密封的光學部件增加儀器的穩定性,但仍存在測量費時和校準繁瑣的缺點。盡管如此,用這種儀器在幾分鍾內就可得到幾乎與實驗室化學分析相當的結果,因此近紅外光譜分析方法被確認為一種標準方法。
20世紀70年代末80年代初,由於微處理器的應用,近紅外光譜儀器在性能上有很大的提高,儀器的穩定性和測量的精確度大為改善,儀器有自診斷係統和偏差自動校正係統,並可用微處理器實現數據處理、存儲、打印,使用非常方便。當時的代表產品有Dickey-John公司的GACⅢ型,Technicon公司的Infra Analyzer400型和Neotec公司的Neotecl01型。
20世紀80年代中期,由於高強度光源、低散射光柵、固態高靈敏檢測器的研製成功,尤其是計算機硬件和軟件技術的發展及其廣泛應用,為近紅外光譜儀器的開發研製提供了良好的基礎。這些技術提高了儀器的各項性能指標和運行的可靠性,簡化了儀器的結構,增強了儀器的功能,達到數據的實時采集與處理,大大提高了儀器的自動化、數字化與智能化的程度,同時降低了儀器的成本。這一時期,各儀器廠家紛紛研製各種類型的近紅外光譜儀器,出現了高分辨率的傅立葉變換近紅外光譜儀器。同時,光柵型近紅外光譜儀器的性能也有了很大的提高。競爭使各種新技術不斷湧現,也使儀器的性能不斷完善,這時近紅外光譜儀器已經完全成熟,近紅外光譜分析技術迅速得到推廣應用。
進入20世紀90年代,聲光可調濾光型近紅外光譜儀器的出現、多通道檢測器性能的提高和價格的降低,使得多通道型近紅外光譜儀器大量研製開發,這為近紅外光譜儀器的家族增添了不少色彩。同時,隨著光纖技術的發展,光導探頭在近紅外測樣技術得到廣泛應用,它使近紅外光譜采集更加便利,光纖的遠距離傳輸使近紅外光譜儀器廣泛地用於在線過程分析中。現在,近紅外光譜儀器已具有較高的信噪比、波長精度和分辨率,儀器的信噪比已超過105,噪聲水平降至10-5A,波長精度達002nm,重現性達001nm,分辨率優於02nm,各種儀器附件可以很方便地對不同環境下不同物態的樣品進行分析。除此之外,隨著化學計量學技術的發展,功能強大的光譜數據處理軟件采用全譜校正可使用戶方便地進行定性和定量分析。
我國在20世紀80年代初進行近紅外光譜技術的應用研究,大約在90年代中後期開始對近紅外光譜儀器的研製。通過一些廠家和科研單位的積極努力,在近紅外光譜儀器的研製、軟件開發方麵取得了一定的成績,如北京第二光學儀器廠研製了傅立葉變換近紅外辛烷值分析儀,石油化工科學研究院研製了采用電荷耦合檢測器(CCD)的多通道近紅外光譜儀器,中國農業大學研製了濾光片型透射近紅外穀物品質分析儀,天大光譜公司研製了聲光可調濾光器(AOTF)型近紅外乳品成分快速分析儀MILK2001型。
近年來,近紅外光譜作為迅速崛起的光譜分析技術在分析測試領域中所起的作用越來越引起人們關注。由於樣品在分析時基本不需處理且不破壞和消耗樣品,自身又無環境汙染,近紅外光譜分析技術堪稱是綠色分析儀器的典型代表,近紅外光譜分析技術作為一種無損、快速檢測技術正越來越多地被大家認同和應用。
隨著光學技術、電子技術的迅速發展和應用,近紅外光譜儀也不斷革新和日臻完善,已成為鑒別物質和分析物質結構的有用手段,被廣泛用於各種物質的定性鑒別和定量分析,並用於研究分子間和分子內部的相互作用。今後近紅外光譜儀器的發展方向主要有以下幾個方麵:①繼續改善儀器的性能,提高儀器的穩定性和信噪比;②積極開發低價位的近紅外光譜專用儀器,普及近紅外光譜技術的應用;③開發近紅外光譜圖像處理方麵的儀器。
252近紅外儀器類型和特點
近紅外光譜儀器已由傳統的濾光片型、光柵色散型,發展到目前流行的主導產品傅立葉變換型。
濾光片型儀器主要用於專用分析儀器。該類儀器的波長準確性差,測量準確性也就差,建立的數學模型不能轉移。由於濾光片鍍膜分子經常變化,引起內部波長漂移,所建立的分析數學模型要經常校正誤差,使用很麻煩,應用局限性大,數學模型不能傳遞。該類儀器的價格也便宜。
光柵色散型儀器是70—80年代常用的儀器類型,其采用全息光柵分光、PbS或其他光敏元件作檢測器,有較高的信噪比,但波長準確度仍較低,數學模型仍不能傳遞。儀器中可動部分可能磨損,影響光譜采集的可靠性,不適合在線分析。該類儀器的價格較濾光片型儀器貴。
傅立葉變換近紅外光譜儀是90年代中期以後市場的主導產品,其較傳統的濾光片型和光柵色散型近紅外光譜儀有更為明顯的優點,表現為波長準確度和分辨率更高、掃描速度更快、不受自然散光影響、檢出限量高等;由於這些優點,用戶在使用時不需要對儀器進行外部校準,數學模型在同類型儀器間轉移和傳遞成為可能。另外,光導纖維探頭和積分球采樣係統等附件的應用,對不規則樣品的分析測定就更加方便。樣品的形態可以是固體、粉末狀、顆粒狀、液體,甚至氣體。可遠距離提取樣品光譜信息,從而實現在線分析。這些技術的發展,大大拓寬了近紅外光譜分析的應用範圍。該類儀器價格較貴。
253本研究所用近紅外光譜儀VERTEX 70介紹
VERTEX 70是世界上第一台全數字化的紅外光譜儀,VERTEX70近紅外光譜儀如圖28所示。主機內置HTML服務器通過網卡與計算機進行數據通訊。同時使光譜儀器“平台化”“積木化”的理想變為現實。具有如下優點:
(1)創新的全數字化設計
全新的數字化檢測器係統,將檢測元件、信號放大器與24位的模/數轉換器集成在一起,直接輸出數字信號(模擬信號在傳輸過程中衰減較大且易受到幹擾,而數字信號則可完全避免),進一步降低電子噪聲。24位模/數轉換器則將係統的弱信號檢測能力提高了一個數量級。
全新的快速傅立葉變換係統:BRUKER獨家技術——硬件全集成傅立葉變換(具有單獨的CPU、內存等)獨立地進行快速采樣及傅立葉變換,不占用任何係統資源。因此①運算速度快、實時響應好。幹涉儀每次掃描,均可實時得到一張光譜圖;②紅外主機與計算機間的數據通訊量大大減低,使采用更加靈活方便的通訊方式(如網絡連接)成為可能。
全雙工實時在線監控:主機所有硬件、工作狀態、性能指標,測量附件的識別、工作狀態、測量參數的設定。
(2)高靈敏度和信噪比
采用24位檢測器係統和幹涉儀是優異靈敏度的保證。VERTEX 70信噪比優於50000∶1,幾乎高出同類儀器一倍以上。
(3)高穩定性
VERTEX 70采用高抗震、高穩定的幹涉儀。該幹涉儀來源於布魯克公司獨家產品——高分辨(分辨率高達00035 cm-1)、車載型紅外光譜儀,具有極好的穩定性和抗幹擾性,即使在翻轉的情況下仍能正常工作,並且維護、維修十分容易。
(4)超強的儀器擴展能力
VERTEX 70共計有2個等效的入光口、5個等效的出光口。保證了儀器的聯機擴展可以隨意組合,互相不受影響,達到最佳的聯機效果。例如可在VERTEX 70儀器的右麵聯接FT-拉曼,左邊聯接紅外振動園二色(PMA37),前麵聯接顯微鏡或近紅外探針以及Bolometer檢測器等;而且這些聯接之間的轉換完全由計算機自動控製。測量譜區擴展:30000~10cm-1,真正覆蓋全部紅外譜區。
(5)獨具特色的網絡化設計
VERTEX 70內置網絡侍服板與計算機之間通過“網卡”連接,即插即用。紅外主機,每台紅外主機均具有IP地址,可以作為網絡工作站實現遠程操作、遠程控製、遠程診斷、資源共享。
(6)儀器密封、防潮性能好
采用上壓式頂蓋、凹槽、真空膠圈及卡口式螺絲密封,得到最好的密封效果(而采用海綿密封,會因長期使用導致海綿失效,造成密封效果降低,甚至沒有密封效果的可能)。光源腔、幹涉儀腔、檢測器腔互相獨立密封,故在更換光源、分束器、檢測器時不會破壞整體密封效果,能有效地保障分束器的幹燥環境。
電子式濕度指示使儀器的維護強度降到最低。
(7)高采樣速率
BRUKER獨家采用硬件技術,獨立地進行快速采樣及傅立葉變換,不占用任何係統資源。因此運算速度快、實時響應好。幹涉儀每次掃描,均可實時得到一張譜圖。連續掃描的采樣速率達到105張譜/s;步進掃描的時間分辨率可達5ns。
(8)步進掃描技術
布魯克公司1988發明的技術,目前已經日臻成熟。VERTEX 70無須對幹涉儀及光路做任何升級或調整即可實現步進掃描技術,完成5ns分辨率的時間分辨測試、多層複合材料的縱深掃描、逐層剖析、二維相關等研究工作。能否運用此項技術標誌著儀器檔次的高低。
(9)高度智能化程度
全部光學部件(如:激光器、光源、檢測器、分束器等)均采用智能化預準直模塊設計,自動識別、自動準直技術保證用戶可自行更換,且無需進行光路調整;紅外應用附件自動識別、自動診斷、測量參數自動設定;內置校準用標準物質,全自動工作,實時、在線監測、診斷光譜儀的每個部分,保證光譜儀的工作狀態及各項性能指標。監測數據及診斷結果實時記錄並可給出各種符合要求的報告。
圖28VERTEX70近紅外光譜儀
26小結
本章介紹了近紅外光譜檢測原理、近紅外光譜的分析流程以及近紅外光譜分析的化學計量學方法,最後介紹了近紅外光譜儀的發展及本研究所用近紅外儀的特點。本章知識內容為後麵章節打下紮實的理論基礎。