文章專區

2022-04-01學習生物資訊學 要具備哪些能力?李御賢教授專訪 628 期

Author 作者 採訪撰稿|林翰佐/銘傳大學生物科技學系副教授,本刊總編輯。

生物資訊學是一種利用資訊方法分析生物資料,藉以理解生命現象的學問。它的研究命題範圍相當廣泛,涵蓋了DNA、RNA、蛋白質等3個層次。DNA層級的研究包括DNA定序(sequencing)、序列組裝(assembly)、基因註解(gene annotation)等;RNA層次的研究有基因表現、基因間的交互作用等;而蛋白質層次則有結構預測、蛋白質表現等,但無論是在DNA、RNA、蛋白質層次,都有一個共同的精神,就是有大量的資料需要進行分析,因此要使用適合的資訊工具與方法來分析生物資料。

《科學月刊》本期邀請李御賢教授,談論生物資訊學的應用與未來,分享他多年來研究生物資訊學的歷程,以及給所有想踏入生物資訊學的莘莘學子們一些學習上的建議。

(林翰佐拍攝)

生物資訊學是什麼?

《科學月刊》(以下簡稱):網路上常看到「計算生物學」(computational biology)這個名詞,計算生物學是生物資訊學(bioinformatics)嗎?


李御賢(以下簡稱):其實兩者的定義不同。生物資訊學是分析生物資料的學問,而計算生物學則偏向開發生物資訊的工具或理論。以次世代定序(next generation sequencing, NGS)而言,生物資訊學是利用序列組裝的工具,分析生物序列;而計算生物學則是改進或發展序列組裝的工具。

生物資訊學的研究如何進行?
生物資訊學是將生命科學的特徵資訊數位化,再進行分析比較。實務上可分為3個步驟,分別是「收集資料」、「分析資料」、「預測資料」。我們以目前臺灣正在進行的「臺灣精準醫療計畫」(Taiwan Precision Medicine Initiative, TPMI) 為例說明流程。TPMI 的目標是建立臺灣人口基因資料庫的基礎,透過生物資訊學研究體系的建立,希望能在「用藥安全及效能」、「疾病早期診斷」、「預防醫療」等面相提升醫療品質。

首先是收集資料,由中央研究院與32家大型醫院合作,預計收集數百萬個病人與正常人的生物資料(例如DNA序列)。基因資料的收集有時會使用生物晶片(microarray),在TPMI 計畫中,使用單一核苷酸多型性(single nucleotide polymorphism,SNP)的基因型鑑定晶片。這種晶片可一次收集人類樣本中60多萬筆SNP 資訊,再加上每個人的臨床資料,使得每份樣本都會產生相當驚人的資料。以TPMI 預計收集每10 萬人的數據量來預估,共計約有60 Gigabyte(GB)的資料量需要進行儲存。分析資料是為了找出大量樣本中數據的特徵。在上述的例子中,我們可以利用孟德爾遺傳學的表達方式,將每份檢體中的某筆SNP 資訊簡單表示成AA、Aa、aa 的3 種可能基因型。透過簡單的二維矩陣方法,我們便可以分析兩筆資料之間的差異。但實務上,每份檢體透過基因晶片的檢測會出現60多萬筆的SNP資訊。光要分析人與人之間SNP的差異,就需要10萬×10萬的二維矩陣進行運算。除了數據的分析,如何將分析結果簡明而適切的表達出來也是一項重點,這部分也需要資訊學工具的幫忙。資料視覺化(data visualization)在生物資訊學領域中也是一門顯學。

預測資料則是利用這些疾病的特徵DNA 序列進行疾病預測。針對60 多萬筆SNP,在資訊工具的幫助下,可能會有數十到數百個特徵SNP 位點具有統計上的顯著意義。我們要利用找到的特徵SNP,看看是否能預測疾病的發生。一般而言,資訊科學家會以預測的成功率來確定特徵SNP 是否有效(猜對的機率高),但在臨床醫學的領域,針對疾病的確診,需要注意預測的專一度(猜錯的機率要低,不可以亂指患者有病),而初步篩選,則要注意靈敏度(要能將患者最大程度地從人群中檢出)。這邊就可以看出來,研究資訊與臨床醫學的科學家在想法上會有不同,需要誇領域的專家合作與充分的討論。

科:
看起來「生物資訊學」並不是一門難以理解的科學。不過,生物資訊學似乎是近20 年來才蓬勃發展的學門,這是為什麼呢?

基因學(genetics)與基因體學(genomics)有何不同?我的看法是,基因學是針對數個基因所做的研究,而基因體學則以透過基因「全體」的觀點做的研究。早期因為技術的限制,我們一次只能分析一個基因,但現今的分子生物學技術已有長足的發展,例如使用NGS,僅用數天的時間就可以分析人類樣本的全基因體序列。或是利用生物晶片技術,可以在一天內分析個人所有基因的表現。平行化基因測量技術的發展,帶來的大量資料促進了生物資訊學的蓬勃發展。


即使在短短的20年間,生物資訊學自身也有相當顯著的「演化」。20年前,也就是我剛進行生物資訊學研究時,常會遇到樣本數少的狀況,統計檢定要使用少樣本的檢定法。10年前則因為平行化的基因測量技術發展,需要計算的特徵資料太多,會遇到多重檢定問題(multiple testing problem)。……【更多內容請閱讀科學月刊第628期】