二、結果運算
生物芯片的應用過程產生了大量的關係複雜的數據,處理和分析這些數據並從中挖掘出有意義的生物信息,已成為限製該技術進一步發展的主要“瓶頸”,尋求有效的數據處理方法成為一重點研究對象。
(一)原始數據的獲取及處理
1.原始數據的獲取
用圖像掃描儀捕獲芯片上的熒光或同位素信號,由此獲得的圖像就是基因芯片的原始數據。此後還需用圖像分析軟件從中提取各點的吸光度值、麵積和吸光度比等數據並轉化成基因表達矩陣(Gene expression matrix),才能進行進一步的統計學和生物學分析。
2.原始數據的處理
當前已開發出許多相關圖像處理分析軟件。 它們能自動定位並識別芯片上每個雜交點,通過背景調整或分割技術除去圖像上各種形式的噪聲,再定量各點的信號強度比率,最後決定相應基因的表達變化情況。
(1)背景處理圖像上各點的吸光度值包含了樣品和背景信號,在提取數據前必須將背景扣除,一般解決辦法是以芯片圖像中每個方格(Grid)內除雜交點以外各像素的吸光度平均值作為背景,將各點的強度減去這個背景值即可。然而這種方法並不準確而且會使1%~5%的點產生無意義的負值。Brown等提出,利用整個芯片雜交點外的平均吸光度值作為背景的Best-fit方法,使該問題得到較好的解決,並有效地提高了處理數據的質量。
(2)雜交點質量由於點樣或膜變形等原因目前較多的軟件對雜交點的識別定位仍需要人為的幹預和調整。 以玻璃等硬質材料為片基的芯片,其雜交點邊緣一般比較清晰易於界定,但對於膜陣列芯片,通常雜交點邊緣比較模糊不易識別,且背景難以確定易造成誤差。 為此,Jain 等開發出一個完全自動化的圖像處理軟件,從斑點的劃格、定位到計算吸光度比值等,都不需人工參與,並且獲得的數據較可靠。
(3)數據的標準化其目的是避免基因芯片實驗中因係統差異(Systematic variation)造成芯片間數據比較的困難。 大部分標準化的方法采用調整標準化係數,使平均比值(Ratio)為1 或平均Ratio對數值為0。最常用的是“看家基因(House-keeping gene)”法,它預先選擇一組表達水平不變的看家基因,計算出這組基因平均Ratio值為1時的標準化係數,然後將其應用於全部的數據以達到標準化的目的。此外,整體平均值法(Global mean normalization)和密度依賴(Intensity-dependent)標準化法也很常用。
(二)標準化數據的統計學分析
原始數據標準化並轉化成基因表達矩陣後,通過統計學分析,可從中揭示出一些重要的生物學信息。目前大致有兩類分析方法即差異分析和聚類分析。
1.差異分析
主要目的在於篩選出不同條件下表達明顯差異的基因。當比較兩個不同生物樣本時,可根據Ratio值來篩選。然而由於不同實驗數據變化差別很大,因此根據實驗條件不同來調整域值更為合理。在分析兩種生物條件下多個重複樣本的數據時,可通過t檢驗來篩選差異基因。最近Jin等用無參數的Mann-Whitney方法鑒別差異表達的基因,觀察了卡托普利(Captopril)對心肌梗死大鼠心肌組織基因表達水平的影響,結果用定量PCR驗證,發現基本沒有假陽性,在比較多種生物條件下的芯片數據時,可用F檢驗篩選特異表達的基因。有時需要鑒別基因的某一特定行為,則可采用假表達譜(Pseudo profile)的方法。此外,聚類中的監督分析方法同樣也適於這種情況下的候選基因的鑒別。
2.聚類(Clusting)分析
根據統計分析原理,將具有相同統計行為的基因進行歸類,從而發現生物學行為相似或相關的一組基因,常采用監督(Supervised)分析和非監督(Unsupervised)分析的策略。監督分析是根據已知的參考向量(Vector)對基因進行分類,通過建立分類標準,將未知基因“安排”進已知基因的分類中,以此來預測新基因的功能。非監督分析沒有已知參考向量,隻是將相同表達行為的基因或樣品歸為一類,在此基礎上尋找相關基因,分析基因的功能。它們均可實現大量表達數據的簡化。