在有參項目中,一般默認fpkm>1時,基因表達。一般不推薦看readcount的值看判斷表達與否


差異基因列表中,readcount一個為0,另一個不為0,能否說明一個表達,一個不表達?
某基因在兩個樣本中表達量差別很大,卻不存在與顯著差異的基因列表中,這是為何?
差異基因的篩選是基于統(tǒng)計學意義的,不能直觀的通過兩個數值的大小判斷差異基因的,首先:受測序深度的影響,有些樣品的測序深度較深,可能導致該樣品的readcount數值較高,做差異分析的第一步就是要消除測序深度的影響,對原始數據進行標準化處理(我們在有重復項目中,使用DESeq自帶的標準化方法;無重復項目中,使用TMM標準化方法)。
其次:在差異分析過程中,需要對readcount的分布進行估計,經驗表明,readcount服從負二項分布。在有重復的項目中,重復的好壞也會對差異基因與否產生影響。如果重復較差,組內差異情況會屏蔽掉部分組間的差異。在估計完參數后,需要用特定檢驗方法來判斷差異基因與否。
再次:在計算完pvalue以后,需要對pvalue進行多重假設檢驗校正,來減少假陽性。這個過程會使得padj會大于原來的pvalue,使得部分通過pvalue閥值的基因,無法通過padj的閥值。
能否用FPKM/RPKM進行差異分析?
在做差異分析時,是采用readcount數據,通過DESeq或者TMM標準化后,進行差異分析。FPKM/RPKM實際上也是對readcount進行標準化處理的一種方法,在進行差異分析時,DESeq和TMM的標準化效果最好,FPKM/RPKM的標準化效果較差,不推薦使用FPKM/RPKM進行差異分析。
基因表達水平如何計算?
在RNA-seq技術中,FPKM(expected number of Fragments Per Kilobase of transcript sequence per Millions base pairs sequenced)是每百萬fragments中來自某一基因每千堿基長度的fragments數目,其同時考慮了測序深度和基因長度對fragments計數的影響,是目前最為常用的基因表達水平估算方法
什么是可變剪切?
大多數真核基因轉錄產生的mRNA前體是按一種方式剪切產生出一種mRNA,因而只產生一種蛋白質。但有些基因產生的mRNA前體可按不同的方式剪切,產生出兩種或更多種mRNA,即可變剪切。