生物科技暨基因體學
理事長王佳文 97/10/03
經建會主委何美玥于今年(96年)9月12日晚間宣布,行政院國發基金決定以2千萬美金(40%股權)投資宇昌生技公司,並延攬前行政院副院長蔡英文擔任董事長、愛滋病治療權威何大一博士擔任科技創辦人。9月14日經建會主委何美玥偕同何大一博士,以及中研院院長翁啟惠對外召開記者會,宇昌生技已成功爭取全球知名美國藥廠「Genentech」抗愛滋藥物「TNX-355」的專利授權,這是台灣生技界的一大突破,期望藉由宇昌建立一套成功商業模式,進而加速推動國內生技產業之發展。何大一博士更進一步指出:『無人可保證國發基金能賺大錢,但我們能肯定的告訴你,如果是以發展台灣生技產業為目標,這將是明智的選擇。(No one here could tell you for sure this is going to make a lot of money, but we could tell you that it seems like a reasonable industry for the purpose of developing this industry in Taiwan.)』
由上述可知,顯見政府對於生技產業發展之重視。的確,生物技術被譽為廿一世紀的明星產業,政府早在1980年即將生物科技列為八大重點發展目標之一;1995年行政院頒布「加強生物技術產業推動方案」;2000年,生物技術列為十大新興工業之一,工研院亦設立「生物醫學工程中心」;2001年規劃成立研究型「竹南生物技術專業園區」以及國家級基因體研究中心;2003年提出行動計畫書的推動下,更輔以多項配套措施,加速生技產業的快速升級。要談生物科技產業之發展,就必須從基因體與蛋白體學做深入的研究,因為,那是生物科技發展之基石。這也是本文將探討之主題與重點。
基因要執行功能,當然要合成蛋白質,蛋白質合成後還要進行轉譯(translation)後的修飾。人體的基因會表現出蛋白質,在表現的過程中,RNA有剪接的現象,因此可以合成的蛋白質就非常多,而這些蛋白質還會再經過修飾,其中最複雜的修飾方式就是醣化。醣類會影響蛋白質的水溶性和立體結構以及它的功能。總之基層醫師要了解生物科技,要先清楚基因的功能。2007年7月24日在新加坡舉行的第18屆WONCA World Conference的議題為”Human Genomics and its Impact on Family Physicians”,即在闡述基因體學對家庭醫師的重要性。二十一世紀是生命科學的世紀,醫學進步很快,分子生物學的進步更是日新月異,譬如Ezetimibe最初以為其降膽固醇的作用是促進HDL receptor SR-B1或小腸上皮排固醇的輸送蛋白ABCG5/G8及抑制Caveolin-1等所致。走了好多冤枉路,最後終於于2004年確定機制為抑制小腸絨毛上刷狀邊緣的膽固醇吸收輸送蛋白NPC1L11。喧騰一時的羅倫佐的油,常不知其為何物。其實引起羅倫佐致病的是腎上腺白質退化症(ALD, adrenoleukodystrophy),依2002年第四版Nelson Essentials of Pediatrics (p136)所載,認為其是因very long chain fatty acid CoA synthetase 的缺陷所引起,但在2004年由 Darnell等人所著第五版的 Molecular Cell Biology 則認為是在過氧化物酶體膜(peroxisomal membrane)上輸入very long chain fatty acid 的輸送蛋白(ABC transporter protein, ABCD1)缺陷導致。最近該基因也已選殖確認(ABCD1, ATP-binding cassette, subfamilyD, Member1[Homo Sapiens],Chromosone Xq28,Gene ID:215.)。另外發現mRNA轉譯前可在mRNA 3’端非轉譯區(3’untranslated region)用MicroRNA( miRNA)與其雜交加以抑制或用RNA interference(RNAi)與其完全互補配對加以切離以達壓抑轉譯的目的。這是近幾年才發現,前一版的書並不見,所以我們除了多讀期刊外也必需讀最新版的書。以上例子是基因突變與轉譯調控導致產生異常蛋白質,致影響正常生理功能。
一、基因組(GENOME)
人體的基因組(genome)含有三十億(3 billion, 3 ×109)個核苷酸對,其中屬於獨特序列(unique copy DNA,意即整個基因體上只有一套copy)的部分約佔45%,另外55%則是反覆序列(repetitive sequence),後者含10-15% 銜接重複序列(tandem repeat sequence),其DNA亦稱衛星DNA(satellite DNA),法醫即用其重複序列多樣性的STR(short tandem repeat)來鑑定親子關係,另含45%散布重複序列,它是一種轉位元(transposable element),亦稱跳躍單元(mobile element)。Francis Crick更指它為”selfish DNA”,能藉著DNA重組的機轉,轉至他處。較著名的是佔基因組10-15%的Alu家族即在其中。人類的體細胞有46條染色體,由不同的DNA分子組成22對體染色體和兩條性染色體(X,Y或X,X)及約1%的粒線體DNA,而後者幾乎百分之九十九點九九都來自母親卵子,與父親毫無關聯,且複製時是以D LOOP而非如細菌之θ型態複製。每一個人類細胞中皆帶有許多的粒線體,每個粒線體基因組共含16569個鹼基對,為一條雙鏈環狀的DNA分子,含有37個基因,其中13個是編碼蛋白質基因,兩條rRNAs和22種tRNAs分子,粒線體大多數(67中之54)參與電子傳遞鏈的蛋白質都是核基因所編碼的粒線體蛋白質。
二、核酸的結構
DNA及RNA屬於核苷酸(nucleic acids),由鹼基、五碳糖與磷酸根組成。RNA的五碳糖是核糖(ribose),DNA的是去氧核糖(deoxyribose)。去氧核糖在2’位置比核糖少一個氧原子。核苷酸的鹼基共有5種:腺嘌呤(adenine,A)、胸腺嘧啶(thymine,T)、鳥嘌呤(guanine,G)、胞嘧啶(cytosine,C)及尿嘧啶(uracil,U)。DNA 由A.T.C.G四種不同鹼基組成;RNA 由A.U.C.G組成。核苷酸藉著磷酸二酯鍵(phosphodiesterase bond)將一個核苷酸的5’端與另一個的3’端結合在一起。真核細胞DNA的構型有A.B.Z.H四種,前三種皆以兩股互相繞成雙螺旋(double helix),一股鹼基與另一股鹼基利用氫鍵以相反平行的方向(antiparallel)互相配對,G與C以3氫鍵結合而A與T以2氫鍵結合。1953年,Watson及Crick 提出在生理狀況的低鹽高水下存在的最主要DNA的B型結構,在此結構裡,兩股以較穩定的右手螺旋(right-handed helix)纏繞著,每前進3.4 nm繞一圈,每圈內含10個鹼基對,因此兩個鹼基對的距離為0.34 nm。依Chargaff 等人分析真核生物DNA的鹼基組成時發現: 1. A=T, G=C, 2. A+G=T+C, 3. A+T≠G+C,此即所謂的Chargaff’s rule.
1990美國與各國合作開始成立人類基因體研究計劃(Human Genomic Project, HPG)以來,經不斷的努力,於2000年六月宣佈完成人類遺傳基因體的草圖(由美國當時能原部長Francis Collins及私人Celera Genomics公司的Craig Venter聯合公佈),估計其中蛋白質的密碼只佔基因組的1.1-1.5%,約只有30000至40000個蛋白質表現基因。蛋白質的合成需要三種 RNAs: mRNA, rRNA, tRNA。mRNA的核苷酸序列隱含所要合成的蛋白質密碼。rRNA 與蛋白質結成核糖體,執行蛋白質的合成。tRNA負責將mRNA的序列轉譯成蛋白質的氨基酸序列。
三、基因的要素
一個基因(gene)包含合成一個具有功能的RNA分子或胜太鏈所需的全部序列。它可分成轉錄區和轉錄調控區。一段含有100密碼子以上的DNA,始於start codon終於stop codon稱為開放轉錄區(ORF, open reading frame)。真核生物的轉錄區包括外顯子(exon)和內含子(intron)。外顯子具有所要合成的RNA或胜太鏈的密碼,亦稱編碼區(coding region)。內含子在轉錄後的RNA處理會被切除。轉錄調控區是轉錄因子與DNA作用的區域,後者稱辨認序列(recognition sequence)。調控區依位置之不同,又分成啟動子(promoter),增強子(enhancer)和靜默子(silencer)等。一般將轉錄起點(Inr,initiator)定為+1,蛋白質基因最主要的啟動子是TATA box 和Inr,他們亦合稱為核心啟動子(core promoter),TATA box 位於轉錄起點上游25 bp至30 bp.,與TATA box作用的蛋白質叫 TBP(TATA box binding protein),該部位是RNA polymerase 11及其他轉錄蛋白質結合的位點,與轉錄起始的準確定位有關,位於Inr上游-70至-80 bp含有CAAT序列,約在-80至-110 bp有GC box,合稱為啟動相鄰元,它們是基因有效轉錄所必需的序列,主要控制轉錄起始頻率,不參與起始位點的確定。增強子位於轉錄起點遠處,可能在其上游或下游數千鹼基或數萬鹼基處,不管從5’→3’或3’→5’均能提高啟動子的活性。譬如steroid hormone( glucocorticoid等)通過細胞膜與steroid receptor的配體結合區(LBD, ligand binding domain)結合,受體即進入細胞核,以其DNA結合區(DBD, DNA-binding domain)和染色體上類似enhancer的激素反應元(HRE, hormone response element)相結合,而活化基因的表現。
四、中心信條與其修正
1950年代 Francis Crick 對細胞內整個訊息傳遞的過程提出所謂的”中心信條”(Central Dogma):即以DNA為模板轉錄(transcription)做出RNA,再以RNA為模板轉譯(translation)做出蛋白質。以上步驟皆為單方向,無法以蛋白質做出RNA,也無法以RNA為模板做出DNA。1970年,Temin 提出reverse transcriptase的存在,它能以RNA為模板合成DNA,再以新合成的DNA為模板合成mRNA,然後轉譯成蛋白質,故中心信條應加以修正。
五、蛋白質合成與基因密碼
真核細胞經RNA polymerase11 及轉錄因子做出的pre-m RNA需經四個步驟處理:1. 5’加帽(5’capping)-加7-methylguanylate;2. 切除部分3’端(cleavage);3. 加多腺苷酸(polyadenylation)-poly-A 尾巴;4. 剪接(splicing)。5’capping 與3’tailing可協助m RNA由細胞核運至細胞質。此外,有些還經過編輯(editing)。剪接係將內含子剪掉,並連接外顯子,藉由小核RNA(sn RNA:U1.U2.U4.U5.U6)與蛋白質的協助,在內含子5’端GU處及3’AG處(尚需3’端上游20-25 bp處支點A的協助)剪接成簡單(simple transcript)或複雜不同剪接方式的 mRNAs(complex transcript,如alternative splicing)。
生物的蛋白質合成都是由DNA上連續排列的遺傳密碼(genetic code)所決定,DNA的遺傳信息轉錄到mRNA上,通過翻譯讀寫mRNA上的遺傳密碼,將DNA上遺傳信息轉變為蛋白質的氨基酸排列順序。mRNA分子中每三個相鄰鹼基代表一種氨基酸或終止信號,這3個相鄰鹼基稱為密碼子(codon)。mRNA上有4種鹼基,按排列可形成64(43)種密碼子,其中3個為終止密碼子(stop codons),又稱’無意義密碼”(nonsense codons),即UAA(ochre)、UAG(amber)及UGA(opal)。AUG為起始密碼(其在胜太鏈尚可做為methionine的密碼),其它60個代表相對應氨基酸。在生物體中,組成蛋白質的氨基酸共有20種,但決定氨基酸的密碼有61個,顯然每一種氨基酸必有一種或一種以上遺傳密碼與之對應,此稱為遺傳密碼的退化性(degeneracy of genetic code),例如GUU、GUC、GUA、GUG皆決定valine,若突變使密碼GUU改變成GUC,則仍然可轉譯為valine,不影響蛋白質的活性(稱為靜默突變,silent mutation),此意味著tRNA的反密碼子(anticodon)的第一個鹼基(從5’端算起)與 mRNA的密碼子的第三個鹼基並非一對一的關係,此即所謂的搖擺位子(wobble position),例如arginine的兩個codonAGA及AGG皆與同一個第一位子含U的反密碼子(UCU)配對,glycine的GGU.GGC.GGA也與同一個反密碼子( CCI)配對(I, inosine nucleotide) 。若mRNA上遺傳密碼發生改變,使得所對應的氨基酸改變成另一種時,此稱為誤意突變(missense mutation),譬如sickle anemia Hb S其βchain的第6個密碼子GAG(glutamic acid)突變成GUG(valine),因而影響紅血球的形狀及生理功能。所有胜太鏈的合成皆從甲硫氨酸(methionine, Met)開始,細菌在mRNA起始密碼子AUG上游約10個鹼基處具有一段多嘌呤序列(5’AGGAGG3’)稱為Shine-Dalgarno sequence能與核糖體小亞單元互補結合,藉此能正確找到起始密碼AUG開始轉譯。真核細胞則係由小亞單元(40S)與啟動因子(IF,initiation factors)、Met-t RNAi從5’冠帽往3’端掃描,碰到第一個AUG(Kozak consensus sequence,5’-ACCAUGG-)後,大亞單元(60S)才加進來合成80S起始複體(initiation complex)。每一個核糖體有三個tRNA結合位置,分別叫做A、P、E位。開始合成時,P及A位分別與mRNA的起始密碼子及下一個密碼子對齊。因此tRNA將第一個氨基酸帶進P位,第二個帶進A位。經酵素催化,兩個氨基酸即以胜太鍵結合,附著於A位的tRNA上。然後核糖體在m RNA 位移一個密碼子。第一個已去掉氨基酸的tRNA從P位移至E位,旋即離開核糖體.。第二個攜帶胜太鏈的tRNA從A位移至空出的P位。於是A位又能接納下一個tRNA。如此週而復始,直至碰到stop codon,完成peptide 的合成。
六、結論
自從2000年人類基因體被宣佈解碼以來,吾人了解蛋白質基因只有30000至40000個,可能比低等動物還少,但是人類的蛋白質基因並非一個基因只產生一個蛋白質,為適應環境,在不同生長發育過程、營養狀態及外在環境(如溫差、輻射)下,同一個基因可用alternative splicing(約60%人類基因被發現有) 製造不同 isoforms(如NFAT1,NFAT2等 ),再加上基因突變所產生的各種異常蛋白質,種類繁多,我們都要積極去掌控了解,庶幾對人類的健康促進與疾病防治多所助益。