Eine Bakterienzelle synthetisiert Tausende von verschiedenen Polypeptiden. Die Sequenz dieser Polypeptide (die genauen Aminosäuren von N- bis C-terminal) ist in der DNA des Organismus kodiert. Das Genom der meisten Bakterien ist ein doppelsträngiges, zirkuläres DNA-Molekül mit einer Länge von Millionen von Basenpaaren. Jedes Polypeptid wird von einer bestimmten Region dieses DNA-Moleküls kodiert. Unsere Fragen lauten also: Wie werden bestimmte Regionen in der DNA erkannt und wie wird die in der Nukleinsäuresequenz enthaltene Information in eine Polypeptidsequenz übersetzt?
Um die erste Frage zu beantworten, sollten wir uns die Struktur der DNA vergegenwärtigen. Es war sofort klar, dass die eindimensionale Sequenz eines Polypeptids in der eindimensionalen Sequenz der Polynukleotidketten in einem DNA-Molekül kodiert werden konnte231. Die eigentliche Frage war, wie man die Sprache der Nukleinsäuren, die aus Sequenzen von vier verschiedenen Nukleotidbasen besteht, in die Sprache der Polypeptide übersetzen konnte, die aus Sequenzen der 20 (oder 22) verschiedenen Aminosäuren besteht. Der Physiker George Gamow (1904-1968)232 wies darauf hin, dass mindestens drei Nukleotide erforderlich sind, um alle 20 Aminosäuren zu kodieren; eine Sequenz von einem Nukleotid (41) könnte höchstens vier verschiedene Aminosäuren kodieren, eine Sequenz von zwei Nukleotiden Länge (42) oder 16 verschiedene Aminosäuren (nicht genug), während eine Sequenz von drei Nukleotiden (43) 64 verschiedene Aminosäuren (mehr als genug) kodieren könnte233. Obwohl das von Gamow vorgeschlagene Kodierungsschema falsch war, beeinflusste sein Denken über die Kodierungskapazität der DNA diejenigen, die sich daran machten, die tatsächlichen Regeln des „genetischen Codes“ experimentell zu bestimmen.
Der genetische Code ist nicht die Information selbst, sondern der Algorithmus, mit dem Nukleotidsequenzen „gelesen“ werden, um Polypeptidsequenzen zu bestimmen. Ein Polypeptid wird durch die Sequenz von Nukleotiden kodiert. Diese Nukleotidsequenz wird in Gruppen von drei Nukleotiden gelesen, die als Codon bezeichnet werden. Die Codons werden nicht überlappend gelesen, ohne Zwischenräume (d. h. nicht kodierende Nukleotide) zwischen ihnen. Da es 64 mögliche Codons gibt, aber nur 20 (oder 22 – siehe oben) verschiedene Aminosäuren, die in Organismen verwendet werden, ist der Code redundant, d. h. bestimmte Aminosäuren werden durch mehr als ein Codon kodiert. Außerdem gibt es drei Codons, UAA, UAG und UGA, die für keine Aminosäure kodieren, sondern das Ende eines Polypeptids markieren, sie kodieren „Stopps“ oder Perioden.
Der Bereich der Nukleinsäure, der für ein Polypeptid kodiert, beginnt mit dem so genannten „Start“-Codon und setzt sich fort, bis eines der drei Stopp-Codons erreicht ist. Eine Sequenz, die durch Start- und Stoppcodons (mit einer gewissen Anzahl von Codons dazwischen) definiert ist, wird als offener Leserahmen oder ORF bezeichnet. An dieser Stelle ist es wichtig, ausdrücklich darauf hinzuweisen, dass die Information, die für ein Polypeptid kodiert, zwar in der DNA vorhanden ist, diese Information aber nicht direkt für die spezifische Polypeptidsequenz verwendet wird. Der Prozess ist vielmehr indirekt. Die Information in der DNA wird zunächst in ein RNA-Molekül (eine so genannte Boten-RNA) kopiert, und dieses RNA-Molekül steuert die Polypeptidsynthese. Der Prozess der Verwendung von Informationen in der DNA zur Steuerung der Synthese eines RNA-Moleküls wird als Transkription bezeichnet, da sowohl die DNA als auch die RNA dieselbe Sprache verwenden, nämlich Nukleotidsequenzen. Im Gegensatz dazu werden Polypeptide in einer anderen Sprache, den Aminosäuresequenzen, geschrieben. Aus diesem Grund wird der Prozess der RNA-gesteuerten Polypeptidsynthese als Translation bezeichnet.
Mitwirkende und Zuordnungen
-
Michael W. Klymkowsky (University of Colorado Boulder) und Melanie M. Cooper (Michigan State University) mit wesentlichen Beiträgen von Emina Begovic & und redaktioneller Unterstützung von Rebecca Klymkowsky.