文章專區

2022-08-01人類基因體計畫的最後一塊拼圖 632 期

Author 作者 陳乃群/於約翰霍普金斯大學取得電腦科學博士學位,在「端粒到端粒聯盟」的計畫協助產生T2T-CHM13和舊版人類基因體的對映關係,讓新舊版的分析資料可以更好地整合。

Take Home Message

  • 1988 年發起的人類基因體計畫,目標為完成人類基因體序列的解碼。該計畫於2003 年宣告完成,當年研究團隊完成92%的人類基因體序列,也成為現今基因體研究的基石。

  • 人類基因體有8%的區域在當時仍無法完全解碼,包含端粒、中節、核糖體陣列。端粒到端粒聯盟利用CHM13 和新世代定序技術,於去(2021)年發表第一個完整人類基因體序列。

  • 儘管完整基因體將帶來生物醫學全新的可能性,但此序列仍不能代表全人類。人類泛基因體聯盟正開發自動化組裝基因體的技術,希望能夠正確解析雙套的基因體,並應用於各族裔的參與者。


基因體是生物中所有遺傳訊息的組合,以人類來說,基因體中的遺傳密碼以染色體(chromosome)中的去氧核糖核酸(DNA)序列儲存,這些DNA 序列可以轉錄(transcribe)成核糖核酸(RNA),再進一步轉譯(translate)成蛋白質,決定生物的各式樣貌。


人類基因體計畫

了解基因體對於認識一個物種至關重要,因此美國國會在1988年發起人類基因體計畫(Human Genome Project, HGP),目標是完成人類基因體的解碼。人類的基因體由23對染色體組成,總共有超過30億個DNA鹼基對(base pair)。但即使是當時最先進的DNA定序方法⸺獲得1980年諾貝爾化學獎殊榮的桑格定序法(Sanger sequencing),一次也只能解讀500~1000個鹼基對,因此科學家需要組裝(assemble)這些短的DNA序列,才能解碼人類基因體。這是一件極度複雜的任務,像是組裝一幅300萬片的拼圖,而且沒有人知道拼圖的全貌。科學家分析不同DNA碎片之間的相同區域做為組裝的證據,挑戰著這項艱鉅的任務,例如一塊碎片尾端的序列與另一塊碎片的首端序列相同時,就可以將兩個碎片結合起來,變成更長的碎片。

(123RF)

在全世界超過2000名科學家的努力之下,人類基因體計畫於2003年宣告完成,研究團隊發布的人類基因體序列相當精確,獨立驗證下的錯誤率約為十萬分之一,而且涵蓋超過92%的人類基因體區域,這份人類基因體序列從此成為基因體研究的基石。

當不知道拼圖的全貌時,組裝拼圖非常困難;但如果已經知道拼圖完成後的樣子,我們便可以讓電腦去比對小片的拼圖與完成圖,從中找到小碎片的正確位置,再加上科學家設計的演算法,可以相當快速而且精準地完成這項任務。雖然每個人的基因體序列存在些許差異,但大體上人與人之間的基因體相似程度高達99.9%,於是在完成第一個人類基因體之後,科學家便可以透過序列比對(sequence alignment)的處理方式分析基因檢體,大幅提高分析的效率。利用序列比對,我們可以分析其他不屬於「人類基因體計畫」的人類基因檢體,了解個體、族群之間的差異,更深入地分析基因變異和各種生物性狀的關連,也可以更詳細地探索疾病機制。


最後一塊拼圖

在第一個人類基因體發布之後的20年間,基因體學有了飛躍性的進步,DNA定序的價格大幅降低,許多大型的資料庫如「千人基因體計畫」(1000 Genomes Project)、「英國人體生物資料庫」(UK Biobank)更搜集超過數十萬人的基因資料。這些進步帶來大量基礎科學的突破,也幫助科學家開發先進的藥物與療法,更開啟了新興的產業,如基因檢測(genetic testing)和基因編輯(gene editing)。這些科學進展大多基於人類基因體計畫所組裝的基因體,然而這份基因體其實仍然有8%(大約兩億個鹼基對)的區域無法完全解碼,這些未完成的區域包含許多端粒(telomere)、中節(centromere)、核糖體陣列(ribosomal DNA array)的序列,由於這些區域具有大量的重複序列,利用桑格定序法難以分析。 這些區域就好像看不見的黑暗物質一樣,如今科學家們終於可以一探究竟,探索它們對人體是否具有重大的意義。

新世代的DNA定序方法在近年已逐漸成熟,例如Oxford Nanopore Technologies公司的技術可以解析長達百萬鹼基對的DNA序列,因此可具備良好的正確性;Pacific Biosciences公司的定序技術則達到更高的精準性,解析長達兩萬個鹼基對的序列,這些新的技術提供良好的材料——更長的基因片段,讓科學家有機會解碼人類基因體中最困難的區域;就像是拼拼圖時,如果使用比較大塊的拼圖碎片,完成拼圖的難度就降低許多。

真核生物的染色體由 DNA和組蛋白(histone)組成,DNA通常會纏繞在組蛋白上形成較緊密的結構。
端粒在染色體的兩端,已知與老化、疾病相關;中節是染色體中的特定區域,在細胞分裂時連結二分體。
端粒和中節的區域比一般的染色體區域有更緊密的纏繞結構,而且其中的DNA序列重複程度非常高。(123RF)

 

不過仍有另一個困難,由於健康人類的基因體是雙倍體(diploid),因此在組裝複雜區域的基因體時,兩套染色體(一套來自爸爸、一套來自媽媽)之間的細微差異,常常造成分析上的困難。科學家發現一組代碼為CHM13(Complete Hydatidiform Mole 13)的特別細胞株可以協助解決這個難題,這個細胞株在精卵結合時發生異常,最終的細胞只包含精子DNA。美國匹茲堡大學(University of Pittsburgh)的科學家蘇爾蒂(Urvashi Surti)在1981 ~ 2000 年間收集了一系列這類型的細胞株進行研究,發現他雖然無法發育成一個健康的個體,但從基因體學的角度來看CHM13 和一般健康人的基因體沒有明顯差異。

萬事具備,只欠東風。在2018 年,美國國家衛生院(National Institutes of Health, NIH)的生物資訊學家菲力佩(Adam Phillippy) 以及加州大學聖塔聖克魯茲分校(University of California, Santa Cruz)的遺傳學者米嘉(Karen Miga)成立「端粒到端粒聯盟」(T2T Consortium),他們利用CHM13細胞株和新世代的定序技術,挑戰組裝第一個真正完整的人體基因體。人類基因體計畫未完成的8%基因體位於最複雜、具有最多重複序列的區域,因此科學家需要設計新的組裝演算法,並利用多種定序技術來驗證結果,以達到最高的完成品質;研究團隊也使用新的基因體,進行廣泛而完整的分析,探索未知的人類基因體知識。在上百名科學家的努力之下,端粒到端粒聯盟於去年發表了史上第一個完整的人類基因體(T2T-CHM13),這項成果也於今(2022)年發表在《科學》(Science)期刊。這個新的人類基因體提供極高精確度的端粒、中節、核糖體的DNA 序列,也額外發現了超過1900 個基因,更修正了許多先前在人類基因體中的序列錯誤。端粒到端粒聯盟的科學家認為這個新的基因體能提供已知生物意義、但先前難以研究的複雜區域序列,可以改善現有的基因分析架構,並帶來生物醫學全新發現的可能性。


從一到一百 全人類的基因體定序

端粒到端粒聯盟開啟了完整人類基因序列分析的新時代,與此同時,科學家也在努力地解決下一個重大的難題:「我們要用誰的基因體來代表人類?」回到最早期的「人類基因體計畫」,當時使用的細胞樣本來自多名匿名的參與者,不同的參與者各自貢獻了最後成品的一小部分。為了簡化問題,聯盟使用CHM13 這個特殊的細胞株。這些選擇都是在技術、環境限制下的最佳決定,但不代表這些組裝出來的基因體能夠有效地代表全人類。目前也已經有多項研究指出,使用現有的基因體分析流程,對非洲族群的基因體進行分析時,正確性較差,原因是非洲族群一般來說基因體多樣性較高,因此分析上也較為困難。

CHM13 細胞株的染色體核型(karyotype)。(Credit: Tamara Potapova & Jennifer Gerton, Stowers Institute for Medical Research.)


關於「代表性」難題的終極解答,可能是讓每個人都有一份專屬於自己的完整基因體序列,或許才是達到個人化醫療、高度精確的臨床診斷的終極方式。為了達到這個目標,來自世界各地的科學家也組成人類泛基因體聯盟(Human Pangenome Reference Consortium),全速開發可以自動化組裝基因體的技術,希望能夠正確解析雙套的基因體,將結果應用於各個族裔的參與者,希望在近年能大幅增加我們對於人類基因體知識的了解。


本文感謝金振山博士協助校稿。金振山博士來自臺灣,在「端粒到端粒聯盟」的計畫中協助序列組裝、新世代長DNA 序列定序、分析完整基因體提供的變異分析優勢。


延伸閱讀

  1. Nurk, S., et al. (2022). The complete sequence of a human genome. Science, 376(6588), 44-53.

  2. Pennisi, E. (2022). Most complete human genome yet is revealed. Science (New York, NY), 376(6588), 15-16.

  3. Wenger, A. M., et al. (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome.Nature biotechnology, 37(10), 1155-1162.