數據分析
-
數據分析
1、測序堿基錯誤率評估
測序錯誤率決定堿基質量,受測序儀本身、測序試劑、樣品等多因素影響,原始測序序列raw reads含有帶接頭的reads及低質量的reads。為了保證信息分析準確,需對原始序列進行篩選,得到clean reads。
2、GCAT含量分布
GC含量分布檢查用于檢測有無AT、GC分離現象,該現象可能是測序或者建庫所引起。對于DGE測序來說,會導致reads前6-7個堿基有較大的波動,屬于正常情況。
3、序列基因組比對
統計比對到基因組各個染色體的reads密度,從密度分布圖中,可以更加直觀看出樣本中轉錄本在個染色體不同區域的基因的表達情況。
4、IGV可視化
采用IGV軟件對基因組上比對序列文件可視化,可直觀查看染色體、基因上具體序列細節。
5、相關性分析
樣品間基因表達水平相關性是檢驗實驗可靠性和樣本選擇是否合理的重要指標。相關系數越接近1,表明樣品之間表達模式的相似度越高
6、主成分分析
主成分分析用于評估生物重復及處理條件間的整體差異。將多個變量通過線性變換以選出較少個數重要變量,進而評估實驗設計的合理性。
7、火山圖
火山圖用于直觀展示兩組實驗中,基因表達量的上調、下調情況。
8、差異基因聚類熱圖
將表達模式相同或相近的基因進行聚類分析,進而識別未知基因的功能或已知基因的未知功能;這些同類的基因可能具有相似的功能,或是共同參與同一代謝過程或細胞通路。
9、趨勢分析
趨勢分析,將不同時間點或狀態點的基因表達值進行聚類,通過計算基因落入時間表達譜或狀態表達譜的顯著水平,識別顯著性的變化趨勢表達譜和與這些變化趨勢相關的基因。
10、差異基因GO富集
對差異基因進行GO富集,直觀的反映出在生物過程(Biological Process)、細胞組分(Cellular Component)和分子功能(Molecular Function)富集的GO term上差異基因的個數分布情況。
11、GO有向無環圖
DAG有向無環圖展現富集到的GO術語之間的關系。
12、差異基因PATHWAY富集
將差異基因進行PATHWAY富集,對得到通路注準差異基因信息,上調基因的KO節點標紅色,下調基因的KO節點標綠色。
13、蛋白互作網絡
在數據庫中獲得差異基因表達蛋白之間的關系,進行蛋白互作網絡的分析。
14、基因共表達網絡分析
基因共表達網絡分析(Gene Co-expression Network Analysis)是根據基因在不同樣本中的表達量的變化,將表達模式相似的基因進行聚類,從而得到不同的module(cluster)及其相互關系。
15、火山圖
此火山圖用于直觀展示兩組實驗中,lncRNA表達量的上調、下調情況。
16、差異lncRNA聚類熱圖
將表達模式相同或相近的lncRNA進行聚類分析,進而識別未知lncRNA的功能或已知lncRNA的未知功能;這些同類的lncRNA可能具有相似的功能,或是共同參與同一代謝過程或細胞通路。
17、趨勢分析
趨勢分析,將不同時間點或狀態點的lncRNA表達值進行聚類,通過計算lncRNA落入時間表達譜或狀態表達譜的顯著水平,識別顯著性的變化趨勢表達譜和與這些變化趨勢相關的lncRNA。
18、novel lncRNA鑒定
多種算法鑒定得到的lncRNA數量Venn圖。
19、序列保守性分析
對lncRNA的序列進行保守性分析。
20、位點保守性分析
對lncRNA的序列中的位點進行保守性分析。
21、SNP、InDel分析
SNP是基因組上由單個核苷酸變異形成的遺傳標記,InDel是樣本中發生的小片段的插入缺失,此圖展示的是SNP與InDel在基因組上分布密度。
22、可變剪切分析
mRNA前體經不同的剪接方式或選擇不同的剪接位點將產生多種mRNA剪切異構體,可變剪切是調節基因表達和蛋白質多樣性的重要機制。
23、融合基因分析
mRNA在轉錄后會發生基因融合現象,產生融合蛋白,對機體的正常代謝產生影響,許多疾病與基因融合有關。
以上分析皆為標準分析,生因生物可根據具體項目、具體需求提供個性化分析。