En bakteriecelle syntetiserer tusindvis af forskellige polypeptider. Sekvensen af disse polypeptider (de nøjagtige aminosyrer fra N- til C-terminal) er kodet i organismens DNA. Genomet i de fleste bakterier er et dobbeltstrenget cirkulært DNA-molekyle, der har en længde på millioner af basepar. Hvert polypeptid er kodet af et specifikt område af dette DNA-molekyle. Så vores spørgsmål er, hvordan genkendes specifikke regioner i DNA’et, og hvordan oversættes den information, der er til stede i nukleinsyre-sekvensen, til polypeptid-sekvens.
For at besvare det første spørgsmål skal vi tænke tilbage på DNA’s struktur. Det var umiddelbart indlysende, at den endimensionale sekvens af et polypeptid kunne være kodet i den endimensionale sekvens af polynukleotidkæderne i et DNA-molekyle231. Det virkelige spørgsmål var, hvordan man kunne oversætte sproget for nukleinsyrer, som består af sekvenser af fire forskellige nukleotidbaser, til sproget for polypeptider, som består af sekvenser af de 20 (eller 22) forskellige aminosyrer. Som påpeget af fysikeren George Gamow (1904-1968)232 er det minimale sæt af nukleotider, der er nødvendigt for at kode alle 20 aminosyrer, tre; en sekvens på ét nukleotid (41) kunne højst kode for fire forskellige animosyrer, en sekvens på to nukleotider kunne kode for (42) eller 16 forskellige aminosyrer (ikke nok), mens en sekvens på tre nukleotider (43) kunne kode for 64 forskellige aminosyrer (mere end nok)233. Selv om det faktiske kodningsskema, som Gamow foreslog, var forkert, fik hans tanker om DNA’s kodningskapacitet indflydelse på dem, der satte sig for eksperimentelt at bestemme de faktiske regler for “den genetiske kode”.
Den genetiske kode er ikke selve informationen, men den algoritme, hvormed nukleotidsekvenser “læses” for at bestemme polypeptidsekvenser. Et polypeptid er kodet af en sekvens af nukleotider. Denne nukleotidsekvens læses i grupper af tre nukleotider, der er kendt som et kodon. Kodonerne læses på en måde, der ikke overlapper hinanden, uden at der er mellemrum (dvs. ikke-kodende nukleotider) mellem dem. Da der er 64 mulige kodoner, men kun 20 (eller 22 – se ovenfor) forskellige aminosyrer, der anvendes i organismer, er koden redundant, dvs. at visse aminosyrer er kodet for mere end ét kodon. Desuden er der tre kodoner, UAA, UAG og UGA, som ikke koder for nogen aminosyre, men som bruges til at markere enden af et polypeptid, de koder for “stop” eller perioder.
Den del af nukleinsyren, der koder for et polypeptid, begynder med det såkaldte “start”-kodon og fortsætter, indtil et af de tre stopkodoner er nået. En sekvens, der er defineret af in-frame start- og stopkodoner (med et vist antal kodoner imellem dem), kaldes en åben læseramme eller en ORF. På dette punkt er det vigtigt at påpege, at selv om informationen, der koder for et polypeptid, findes i DNA’et, bruges denne information ikke direkte til at specificere polypeptidsekvensen. Der er snarere tale om en indirekte proces. Informationen i DNA’et kopieres først til et RNA-molekyle (kendt som messenger RNA), og det er dette RNA-molekyle, der styrer polypeptidsyntesen. Processen med at bruge information i DNA til at lede syntesen af et RNA-molekyle kaldes transkription, fordi både DNA og RNA bruger det samme sprog, nemlig nukleotidsekvenser. Polypeptider er derimod skrevet på et andet sprog, nemlig aminosyresekvenser. Af denne grund kaldes processen med RNA-styret polypeptidsyntese for translation.
Kontributorer og bidragsydere
-
Michael W. Klymkowsky (University of Colorado Boulder) og Melanie M. Cooper (Michigan State University) med væsentlige bidrag fra Emina Begovic & med nogen redaktionel bistand fra Rebecca Klymkowsky.