熱線電話:13121318867

登錄
首頁精彩閱讀差異表達與聚類分析
差異表達與聚類分析
2018-06-09
收藏

差異表達與聚類分析

在鑒定出ncRNA后,我們如何推斷其可能的生物學功能呢?首先對于miRNA等作用機制比較清楚的ncRNA,我們可以參考其作用機制,利用堿基互補等方式預測其靶標,并進而推斷其生物學功能。然而,對于longnon-coding RNA等具體作用機制尚待明確的非編碼RNA,這個方法就不適用了。這時,我們可以根據在表達調控網絡中,表達相關的基因往往具有功能相似性這一特征,利用表達相關來推斷其功能。具體來說,在實際研究中,我們主要關注兩類表達關聯,在不同條件下差異表達的基因,以及不同條件下共表達的基因。

在不需要考慮實驗誤差的理想世界里,差異表達基因檢測是很容易的。我們只需要直接比較不同條件下檢測出的表達量數值即可。然而,在現實世界中,情況要復雜的多。事實上,在真實的實驗過程中,由于隨機誤差(andomerror)的存在,我們得到的測量值永遠是一個分布而非一個定值。因此,不同條件下基因表達水平的比較實質上是對兩個分布的比較,換句話說,除了均值之外,我們還需要考慮方差的影響。我們需要利用統計學的方法,基于概率模型進行統計推斷。具體來說,我們需要構建一個考慮方差的統計量(tatistic),而后基于這個統計量的零分布(NULLdistribution)來計算每個基因的p-value,最后選擇小于給定cut-off p-value的基因作為有統計顯著性差異表達的基因。
針對RNA-Seq數據的特定,不同研究組基于Possion,二項分布等構造了不同的統計量和差異表達計算的方法。由于這些方法基于不同的假設,其零分布之間也存在顯著的差異,從而導致了最終的p-value乃至calling結果的差異。為了便于選擇合適的方法。OoronBetel等人基于多組數據集對常用的差異表達工具進行了系統評估。p-value本質上對統計錯誤可能性的一個概率表示。具體來說,我們在實際中可能會碰到兩類錯誤,一類錯誤又稱假陽性錯誤,指實際并沒有差異表達的基因錯當成了有差異表達的基因,二類錯誤又稱假陰性錯誤,值實際表達有差異的基因錯當成了沒有差異表達。

  一般來說,我們會用p-value表示一次檢驗中發生一類錯誤--也就是假陽性的錯誤--的概率。在實踐中,我們通常對多個基因重復進行統計檢驗。這時就碰到多重檢驗問題(multipletestinglssue).例如,我們對20個不同的基因一次進行統計檢驗,每次檢驗的p-value都為0.05,那么也就是說,我們每次犯錯誤的概率是0.05,我們不犯錯誤的概率是0.95,根據乘法原理,連續20次不犯錯誤的概率就是0.95的20次方,約0.358。我們至少犯一次錯誤的概率是1-0.358=0.642.也就是說,即使每次出錯的概率都是0.05,但20次最終任由超過一半的概率至少犯一次錯誤。這就是所謂的multipletesting issue.為了解決這個問題,最簡單的辦法就是將p-value的cut-off改的更嚴。例如,Bonferronicorrection中,會將檢驗得到的原始p-value乘以檢驗進行的次數。因此,假如,我們對人類基因組3萬個基因只在原始p-value小于0.05/30000=1.67*10^-6時才將之作為差異表達基因。就可以確保及時在最糟糕的情況下,也可以確保假陽性錯誤發生的概率小于0.05.然而,在實踐中Bonferronicorrection往往過于嚴格了。為了確保降低假陽性而抬高了假陰性錯誤發生的概率,從而降低了統計檢驗的效力(power).同時,相對于全體進行統計檢驗的基因,我們在實際研究中往往更關心在已經被標記為差異表達的記憶中,有多少假陽性的基因。換句話說,我們關心的是FDR而不是FWER.這時,可以將p-value轉變為q-value.類似于p-value,q-value也是對統計錯誤可能性的表示(measure).然而,于p-value不同的是,q-value衡量的是FalseDISCOVERYRate,對于給定的基因G,q-value給出的是在和基因g一樣或更顯著的差異基因群體中,假陽性發生的比率。
對于差異表達類似,在不同條件下共表達的關系也可以用來推斷基因的功能。對不同條件下多個基因的表達進行聚類分析(clustering)可以幫助快速的選擇共表達基因。正確的聚類分析,不但有助于推斷基因的功能,還可以有效的發現基因之間存在的調控關系。距離度量是聚類方法的核心。這里的距離度量,是指用來衡量兩個基因的表達模式之間的相似程度。常用的距離衡量有歐式距離,又稱絕對距離;和Peason距離,又稱關聯距離。其中歐式距離關心的是表達量,也就是兩個基因在表達水平之間的相似程度。而相關性距離則是關心的是表達模式,也就是兩個基因在表達變化上的一致性。不同的距離度量,可以得到迥然不同的結果。
由于共表達通常是指表達的變化趨勢,因此在實際分析中關聯距離使用的頻率更高一些。在應用Pearson距離時,也要注意utlier對它的影響。由于Pearson距離以來于群體水平的協方差,如果有一些特殊的outlier,會對最終的結果產生極大的影響。


數據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數據分析師資訊
更多

OK
客服在線
立即咨詢
日韩人妻系列无码专区视频,先锋高清无码,无码免费视欧非,国精产品一区一区三区无码
客服在線
立即咨詢