1990年代,人類基因組計劃(Human Genome Project)開始致力於定序全基因體,想定出的範圍包含:
The complete human genome consists of 22 diploid chromosomes (1 − 22), two sex chromosomes (X and Y) and maternally inherited mitochondrial DNA (mtDNA).
初期定序方法是利用Sanger sequencing加genomic shotgun的方式,將序列打成短片段定序後、再組裝(assembly)成長片段序列,整個過程耗時且費力;計畫直到2003年才宣布完成第一條全基因體序列資料,這份資訊也成為人類參考序列的骨幹、並廣泛應用至研究中;不過隨定序技術的進步,如第二代及第三代定序技術的問世,參考序列的解析度逐漸增加,序列資訊不停地經歷修正與重新定序,進而生成不同版的參考序列,本篇文章將針對現今研究最常使用的兩種版本:GRCh37/hg19以及GRCh38/hg38進行討論,包含兩版本的組成結構、版本之間以及版本內部的差異、還有目前的使用心得。
- 發行時間:2009年
- 檔案名稱:GRCh37.p13.genome.fasta
- 版本說明:GRCh37 全名 Genome Reference Consortium Human Build 37,是由人類參考序列聯盟(GRC)整理定序的參考序列,定序資料一部分承襲Human Genome Project完成的,另一部分利用WGS shotgun定出unfilled gap 和 error sequence。 最終版本的組成(primary assembly)包含chr1-22,X,Y,MT(mitochondria DNA)以及下面幾種序列分類:
unlocalized sequences:知道来自哪條染色體但不知道具體位置的序列,常以_random命名表示
unplaced sequences:知道来自人類基因组序列,但不知道與染色體的關係,常以chrU_命名表示.
alternate loci:来自基因组特定區域,代表該區域序列的多樣性,常以_alt命名表示.
-
補充1: GRCh37還有版本更新,以下提供NCBI紀錄的出版及最新版的序列,其中GRCh37.p13的p代表補綴(patch)是指序列更新的過程並沒有更動染色體座標、僅修改部分序列資訊,因此不用重新命名成另一版本。
- GRCh37 (2009)
- GRCh37.p13 (2013)
-
補充2:GRC是由以下學術機構組成
-
發行時間:2009年
-
檔案名稱:ucsc.hg19.fasta
-
版本說明:是由UCSC Genome Browser基於GRCh37建立發行的版本,蠻多研究會將兩版本通用,不過和GRCH37也有些差異:
-
補充: UCSC官網可下載序列資料
- 檔案名稱:Homo_sapiens_assembly19.fasta
- 版本說明:是由Broad Institute基於GRCh37建立發行的版本,序列資料包含 GRCh37 使用GATK tool常會以此版作為參考序列。
- 檔案名稱:
- 不包含decoy: human_g1k_v37.fasta
- 包含decoy: hs37d5.fa, human_g1k_v37_decoy.fasta
- 版本說明:是由 1000 genomes Project 所完成的版本,相當於b37版本,不同之處在於此版有包含或不包含 decoy sequence (human herpesvirus 4 type 1)兩種。
目前研究多使用hs37d5作為參考序列,因在後續分析有最高的準確度,這說明了加上decoy sequence後能增加序列比對的數量。
-
發行時間:2013年
-
版本說明:和GRCh37版本相比,因定序處理的技術提升,能定序及修正更多區域,如 exon region, SNV and InDels等;GRCh38也試著做annotation of the centromere regions。而UCSC Genome Browser為了避免過往版本號碼不一致 (GRCh37 vs. hg19)造成混淆,也將其版本號碼跳動至hg38,和GRCh38可相通(但GRCh38/hg38間仍需座標轉換)。
-
補充: GRCh38還有版本更新,NCBI紀錄
- GRCh38 (2013).
- GRCh38.p14 (2022).
- 最大的差異在於alternative haplotype資訊,為了使參考序列具有全人類的代表性,擴增族群資料可增進序列的多元性,也提升序列比對率,這些資訊主要記錄在ALT contigs中。
- GRCh38版多了HLA typing的序列,免疫基因對於疾病研究相當重要,HLA資訊提升了參考序列的完整度。
- 除了序列擴增,GRCh38也嘗試修正參考序列;過去定序技術的限制而導致定序錯誤或無法定序的情況,主要透過新的定序計畫如 1000 Genomes Project協助修正外,也修正了GRCh37/hg19版內含有的false SNPs and indels。
version | GATK | Illumina | bwakit | 1000 Genome | NCBI |
---|---|---|---|---|---|
decoy | + | + | + | + | + |
ALT | + | + | + | + | + |
HLA | + | + | + | + | - |
Contig_Number | 3366 | 3366 | 5751 | 3366 | 2841 |
file name | Homo_sapiens_assembly38.fasta | GRCh38_full_analysis_set_plus_decoy_hla.fa | hs38DH.fa | GRCh38_full_analysis_set_plus_decoy_hla.fa | GCA_000001405.15_GRCh38_full_plus_hs38d1_analysis_set.fna |
在GRCh38版本中,依照 bwa-kit 官方建議所產生的 hs38DH.fa 和來自 GATK 的Homo_sapiens_assembly38.fasta contig number (3366)相同,但檔案格式不同,在 HLA typing 的測試中,Kourami 和 Hisat2 兩個軟體在來自 bwa-kit 的 hs38DH.fa 皆有較好的 performance,而來自 bwa-kit 的 hs38DH.fa 可以自行更新,因此所產生的 contig number 會隨之而改變。
https://gatk.broadinstitute.org/hc/en-us/articles/360035891071-Reference-genome
https://www.ncbi.nlm.nih.gov/grc
https://www.ncbi.nlm.nih.gov/grc/help/definitions/
https://cloud.google.com/life-sciences/docs/resources/public-datasets/reference-genome
Yan Guo, Yulin Dai, Hui Yu, Shilin Zhao, David C. Samuels, Yu Shyr,Improvements and impacts of GRCh38 human reference on high throughput sequencing data analysis, Genomics,Volume 109, Issue 2,2017,83-90,ISSN 0888-7543, https://doi.org/10.1016/j.ygeno.2017.01.005.