在"如何從GWAS數據進展到臨床應用? 分析流程大解密!" 這篇文章中,我們已經了解到如何從大數據中撈出有用的基因資訊。 但在篩選的過程中,我們需要留意哪些細節呢?

「gwas study」的圖片搜尋結果

廢話不多說,趕緊來看GWAS大數據篩選的三大步驟到底是如何進行的吧!

圖片源自: "What are genome wide association studies (GWAS)?"文章

  1. GWAS 資料庫找出疾病關聯性基因座
    首先最基本的就是先確認定序結果的正確性,是否位點有通過 QC閾值?而非定序錯誤的位點,這部分大多數定序內建軟體、或是提供定序服務的單位都可以提供定序資料篩選的報告或表格。
    接著可以從初步QC過濾後的GWAS數據及線上資料庫(ex. GWAS Catalog),比較不同樣本組別(實驗組與控制組)中,具有顯著差異的基因座位置(如下圖1)。GWAS所發現的變異必須具有顯著差異,通常篩選條件為p-value<5*10^-8
    ,才具有全基因組的顯著差異。
     

image

圖1、根據不同組的樣本資料,分析具顯著差異的基因座分布。每一個圓點代表GWAS分析的變異位點,根據其在染色體的不同位置及p-value而有不同的分布 (圖形來源: GWAS Catalog資料庫網站)

 

或是也可以進一步針對這些高度顯著差異的位點進行基因結構與功能性的分類,例如: 有多少比例是位在inron位置?哪些是missense突變? 哪些是splice region? (如下圖2)

 image圖2 (圖片源自:"The Post-GWAS Era: How to Validate the Contribution of Gene Variants in Lupus")

 

2) 位點篩選: 生物統計學filter篩選、計算生物學生資分析、資料庫比對、相關文獻搜尋、位點多樣性篩選

 

面對大規模的位點資料,到底要如何做更精細的篩選? 這是所有完成NGS較大資料量的上機實驗後(如: 全基因組定序、全外顯子定序…等),研究員感到頭痛的問題。

 

近期研究發現,如果利用計算生物學及現今最新的生資分析技術,將有助於我們了解更多疾病。

 

GWAS研究中,位點搜尋的主要分析方式是進行連鎖不平衡分析(linkage disequilibrium, LD),連鎖不平衡的意思是: 不同基因座的各等位基因,在人群中以一定的頻率出現。但在某一群體中,若不同基因座的某兩個等位基因,出現在同一條染色體上的頻率,高於預期的隨機頻率,這個現象我們稱為連鎖不平衡 (linkage disequilibrium)。藉由檢測遍佈基因組中的大量遺傳標記位點,或候選基因附近的遺傳標記,可以找到與疾病相關的位點。

 

此外,GWAS數據需要多種變因的交叉檢查,才能避免假的關聯性資料被篩選出來。最好考量到分組樣本的數量、性別、家族史、種族、疾病狀態…等,這些變因都會影響位點的篩選。

 

樣本數量過少很容易造成假陽性相關,不過可以透過比對公開的GWAS資料庫來改善這個問題,並進一步透過大數據驗證SNP篩選的正確性。

 

此外,也可以利用資料庫(如: ENCODE, Epigenome, RoadMap, Blueprint, rSNPBase, ReguomeDB, and GTEx) 來預測染色體表觀遺傳修飾、訊息傳遞資料…等,透過已知的功能性預測來篩選目標基因

 

(3)思考故事要怎麼說? 基因關聯性分析

 

eQTL(expression quantitative trait loci) 的研究資訊則可以彌補GWAS數據與疾病表型的差距,透過配對RNA定序的結果及GWAS數據,可以幫助我們更快速的分析GWAS位點與表型的關聯性。在這個階段大概就可以開始擬定假說,有一個初步的故事雛型。

 

看完上述介紹,是否比較有頭緒了呢?

豐技生技公司提供完美的基因實驗驗證及分析服務,如果有相關研究需求,歡迎來電洽詢: (02)23519800,或是在我們的FB粉絲專頁預約線上實驗討論與諮詢喔!

 

預約諮詢.jpg

 

參考資料:
1.   2019 Jan 23;21(1):3. doi: 10.1007/s11926-019-0801-5.

 

歡迎閱讀其他GWAS分析系列文章:
1. 如何從GWAS數據進展到臨床應用?
2. 生資小白也能看懂的GWAS數據篩選重點教學
3. GWAS分析的下一步:如何分組驗證疾病關聯性?

 

作者: 林宇馨 / 豐技生技產品專員

 

arrow
arrow

    豐技生技 發表在 痞客邦 留言(0) 人氣()