Een bacteriële cel synthetiseert duizenden verschillende polypeptiden. De volgorde van deze polypeptiden (de exacte aminozuren van N- tot C-terminal) is gecodeerd in het DNA van het organisme. Het genoom van de meeste bacteriën is een dubbelstrengs cirkelvormig DNA-molecuul dat miljoenen basenparen lang is. Elk polypeptide wordt gecodeerd door een specifieke regio van deze DNA-molecule. Onze vragen zijn dus hoe specifieke regio’s in het DNA worden herkend en hoe de informatie die aanwezig is in de nucleïnezuur-sequentie wordt vertaald in polypeptide-sequentie.
Om de eerste vraag te beantwoorden, laten we terugdenken aan de structuur van DNA. Het was onmiddellijk duidelijk dat de eendimensionale sequentie van een polypeptide kon worden gecodeerd in de eendimensionale sequentie van de polynucleotideketens in een DNA-molecule231. De echte vraag was hoe de taal van nucleïnezuren, die bestaat uit reeksen van vier verschillende nucleotidebasen, kon worden vertaald in de taal van polypeptiden, die bestaat uit reeksen van de 20 (of 22) verschillende aminozuren. Zoals de natuurkundige George Gamow (1904-1968)232 opmerkte, is de minimale reeks nucleotiden die nodig is om alle 20 aminozuren te coderen drie; een reeks van één nucleotide (41) zou ten hoogste vier verschillende aminozuren kunnen coderen, een reeks van twee nucleotiden zou (42) of 16 verschillende aminozuren kunnen coderen (niet genoeg), terwijl een reeks van drie nucleotiden (43) 64 verschillende aminozuren zou kunnen coderen (meer dan genoeg)233. Hoewel het eigenlijke coderingsschema dat Gamow voorstelde fout was, beïnvloedde zijn denken over de coderingscapaciteit van DNA degenen die experimenteel de eigenlijke regels van de “genetische code” wilden bepalen.
De genetische code is niet de informatie zelf, maar het algoritme waarmee nucleotide-sequenties worden “gelezen” om polypeptide-sequenties te bepalen. Een polypeptide wordt gecodeerd door de sequentie van nucleotiden. Deze nucleotidensequentie wordt gelezen in groepjes van drie nucleotiden, codons genoemd. De codons worden op niet-overlappende wijze afgelezen, zonder spaties (d.w.z. niet-coderende nucleotiden) ertussen. Aangezien er 64 mogelijke codons zijn, maar slechts 20 (of 22 – zie boven) verschillende aminozuren die in organismen worden gebruikt, is de code redundant, dat wil zeggen dat bepaalde aminozuren door meer dan één codon worden gecodeerd. Bovendien zijn er drie codons, UAA, UAG en UGA, die geen enkel aminozuur coderen, maar gebruikt worden om het einde van een polypeptide aan te geven, zij coderen “stops” of perioden.
Het gebied van het nucleïnezuur dat een polypeptide codeert, begint met wat bekend staat als het “start”-codon en gaat door tot een van de drie stop-codons is bereikt. Een sequentie die wordt bepaald door in-frame start- en stopcodons (met een aantal codons ertussen) staat bekend als een open leesframe of een ORF. Op dit punt is het van belang er uitdrukkelijk op te wijzen dat, hoewel de informatie die een polypeptide codeert in het DNA aanwezig is, deze informatie niet rechtstreeks wordt gebruikt om de polypeptidesequentie te specificeren. Het proces is veeleer indirect. De informatie in het DNA wordt eerst gekopieerd naar een RNA-molecule (bekend als boodschapper-RNA) en het is deze RNA-molecule die de synthese van polypeptiden stuurt. Het proces waarbij informatie in het DNA wordt gebruikt om de synthese van een RNA-molecule te sturen, wordt transcriptie genoemd, omdat zowel DNA als RNA dezelfde taal gebruiken, namelijk nucleotidenreeksen. Polypeptiden daarentegen worden in een andere taal geschreven, namelijk aminozuurreeksen. Daarom wordt het proces van RNA-gestuurde synthese van polypeptiden vertaling genoemd.
Betalers en toeschrijvingen
-
Michael W. Klymkowsky (University of Colorado Boulder) en Melanie M. Cooper (Michigan State University) met belangrijke bijdragen van Emina Begovic & enige redactionele hulp van Rebecca Klymkowsky.