基因
在這基因體時代,基因這兩個字已不再是學者的專利,不分男女老幼,口中也時常蹦出這兩個字。到底什麼是基因呢?
生物的性狀是經由遺傳單位傳遞給下一代,這個概念在1900年由孟德爾(Gregor Mendel)提出,1909年約翰生(Wilhelm Johanssen)將這個遺傳單位的概念冠上"gene"的名字,漢文將之翻譯成"基因",日本人則將之翻譯成"遺傳子",更為直接。
"基因"這兩個字雖然大家耳熟能詳,但基因的真正性質至今連科學家也爭議不休。最早的觀念中,基因是前述的"遺傳單位"(unit of inheritance)。這是一個比較功能性的概念,它是一個自主單位(autonomous unit),能把性狀遺傳給後代。相對地,有人認為基因是一個有形的物體(physical entity),它是染色體上面一段固定的序列。這兩派看法多年來,各執一詞,不相上下。1920年代及1930年代早期Alfred H Sturtevant以Hermann Muller在果蠅研究上,發現基因在染色體上的位置改變時,儘管基因結構本身不變,其功能卻會變化而造成果蠅性狀的突變。實驗中,他們將一個基因挪近所謂異染色質區(heterochromatin)時,果蠅會產生所謂雜色(variegated)的表現型,也就是一個基因在某些細胞會表現,卻在某些細胞不會表現,而造成"雜色",例如複眼中有些部分呈現白色,有些部分則呈現紅色。由於基因的功能似乎會因應其所在位置而改變,以致有人甚至認為基因根本不是一個固定而具體的單位(particulate gene),然而,在實務上卻又不能完全否定"基因"做為遺傳單位的概念。
在最新版的Thompson & Thompson "Genetics in Medicine"(2001),基因的定義是"A sequence of chromosome DNA that is required for production of a functional product,be it a polypeptide or a functional RNA molecule"。因此當代對基因的定義除了被轉譯的DNA序列本身之外,調控此一轉譯工作的DNA序列也應包含在內。那麼基因的範疇到底何在?
假若基因是一個比較固定而具體的單位(particulate gene)則我們應該可以找出界定基因的"區隔"(barrier or insulator)。然而學者費盡心力卻遍尋不著能夠區別個別基因的結構。因此,從學者無法找到能夠區隔個別基因的barrier or insulator來看,基因可能是一個相當具有伸縮性的結構。另外一個觀察是,一個基因的功能取決於它對某些轉錄因子(transcriptional factor)的反應,而非本身在染色體上的位置,這個現象是Frank Grosveld在人類β-globin locus control region首先觀察到。因此基因應該是包含被轉錄的DNA序列以及轉錄因子的結合區。這些轉錄因子的結合區可以延伸幾百個Kilobase。最近的研究顯示人類的DACH基因,其enhancer甚至在遠達1Mb的基因沙漠(gene desert)中。這個"基因包含轉錄因子結合區"的概念,使基因變成一個功能性而且可以彼此重疊的概念。意即,一段DNA序列,可以因對轉錄因子反應的不同,可以有一種以上的基因功能,而一個基因的轉錄序列,可能是另一個基因的轉錄調控區。
時至今日,基因的定義已經不再是一段具有明顯邊界的固定DNA序列(particulate gene),而是一個具有伸縮性(flexible)的功能性組合,它的範圍是以其(1)空間結構與位置(2)對特定調控因子的反應(3)對最終表現型的效果來決定。
根據以上的論述,基因的基本條件有三:1、必須要有產出(product)2、必須要有功能3、包含轉錄區及調控區。根據這三個條件,實務上我們如何去從漫長的DNA序列中找出基因呢?以下是五種常用的標準。
1、Open reading frames(ORF)
ORF是指位於start codon與stop codon之間的DNA序列。以ORF尋找基因較適用於原核生物或其他intron稀少的生物。當生物的exon被隱藏在大段的intron時,ORF常常不易被找到。
2、Sequence features
找出ORF之後,利用基因通常GC較AT多的特徵,再加以驗證。另外找尋splice site(AG、GT)可能也有助於基因的辨識。不過使用這些辨識原則的電腦軟體只能預測50%的exon和20%的基因。
3、Sequence conservation
比對不同生物的鹼基序列也是辨識基因的利器,理論上,在不同生物均有的序列(conserved sequence)應該有其功能上的重要性,本身是基因的機會較大。利用不同生物來比對基因序列,必須這些生物間有相當的演化距離(evolutionary distance),例如最近人類六號染色體的基因辨識是利用五種其他生物-大鼠、小鼠、河豚、綠色斑點河豚以及斑馬魚來進行比對。當然隨著所用生物的不同,比對出來的基因數目也會有所差異。
4、Evidence of transcription
藉由尋找基因產物-RNA或蛋白質也有助於基因的辨識,其常用方法有microarray hybridization、serial analysis of gene expression(SAGE),cDNA mapping或sequencing of expressed sequence tag。最近利用transposon 來進行大規模的gene tagging,結果從yeast的基因體上找出許多能轉錄蛋白質的新區段,利用帶有標記的cDNA與含有人類染色體序列的microarray雜交,也找出人類染色體上以前未知的許多轉錄區段,但如果迄今尚未找到gene product就無法運用此法來反推基因。
5、Gene inactivation
藉由減消一個gene product的功能也是辨識基因的一個方法。通常可以用Knock out或用RNAi來執行此一工作。不過很多基因的gene product被減消之後往往還是看不到表現型,以致難以確定該基因的功能。這現象的主要原因是生物都有很大的功能重疊性(functional redundancy),此外基因功能檢測的方法也會影響其結果。
除了以五個檢測標準之外,還有以下三種情況必須考慮:
1、基因的重疊(overlapping)
2、多樣切割(alternative splicing)
3、偽基因(pseudogenes)
目前已知有不少基因的轉譯區(包括基因本體及調控區域)是重疊的,一個基因的exon可以在別的基因的intron之間,此一觀念在前面基因的定義以加以闡述。
alternative splicing使基因的辨識工作更形複雜,因為人類基因體中,至少一半的基因有spliced isoform,事實上沒人知道基因到底會產生多少的spliced isoform因此要從mRNA去反推基因,有其潛在的困難。
所謂偽基因的存在也連帶影響基因的定義。偽基因的序列與正常基因相同但卻帶有明顯的frame shift或stop codon,以致缺乏具有功能的gene product當然也看不到對phenotype的影響。偽基因廣見於動物、植物、黴菌以及細菌,通常為數不少,例如人類80個ribosomal protein gene就有2000以上相關的偽基因。更令人迷惑的是同一種生物中一個基因在某一品系是真正的基因,在另外的品系卻是偽基因,例如酵母菌的FLO8就是一個例子,雖說偽基因不能轉錄,但近來有發現有些偽基因有轉錄現象。甚至有些偽基因根本沒有frame shift或stop codon,基本無法轉錄的原因可能是缺少我們未知的調控單位。
且讓我們以酵母菌的基因體序列來嘗試計算基因的數目,若以>100 codon的所有ORF來推算則有6274可能基因。後來藉由比對基因資料庫以及有無轉錄的現象,增加一些較小的基因,而283個基因也因全無轉錄及功能表現而被剔除,迄今最新的估算是酵母菌有6128基因。
人類的基因體比酵母菌複雜許多,人類的exon不大(平均140 base pair)因此可能存在的ORF數目龐大,再加上mRNA 的alternative splicing使問題更加龐雜。因此學者以為最好的基因辨識方法還是回歸基因的原始定義-a sequence coding a functional product ,也就是從功能上去辨認基因(functional polypeptide or functional RNA),再配合不同生物基因體序列的對比,尋找演化上高度保留的區段,才是辨識人類基因最好的方法。
轉錄擷取文....http://tw.knowledge.yahoo.com/question/question?qid=1105060203239