Una cellula batterica sintetizza migliaia di polipeptidi diversi. La sequenza di questi polipeptidi (gli aminoacidi esatti da N a C-terminale) è codificata nel DNA dell’organismo. Il genoma della maggior parte dei batteri è una molecola di DNA circolare a doppio filamento, lunga milioni di paia di basi. Ogni polipeptide è codificato da una regione specifica di questa molecola di DNA. Quindi, le nostre domande sono: come vengono riconosciute le regioni specifiche nel DNA e come vengono tradotte le informazioni presenti nella sequenza dell’acido nucleico in sequenza polipeptidica.
Per affrontare la prima domanda, ripensiamo alla struttura del DNA. Fu subito ovvio che la sequenza unidimensionale di un polipeptide poteva essere codificata nella sequenza unidimensionale delle catene polinucleotidiche in una molecola di DNA231. La vera questione era come tradurre il linguaggio degli acidi nucleici, che consiste in sequenze di quattro diverse basi nucleotidiche, nel linguaggio dei polipeptidi, che consiste in sequenze di 20 (o 22) diversi amminoacidi. Come sottolineato dal fisico George Gamow (1904-1968)232 l’insieme minimo di nucleotidi necessari per codificare tutti i 20 amminoacidi è tre; una sequenza di un nucleotide (41) potrebbe codificare al massimo quattro diversi animoacidi, una sequenza lunga due nucleotidi potrebbe codificare (42) o 16 diversi amminoacidi (non abbastanza), mentre una sequenza di tre nucleotidi (43) potrebbe codificare 64 diversi amminoacidi (più che abbastanza)233. Sebbene lo schema di codifica effettivo proposto da Gamow fosse sbagliato, il suo pensiero sulla capacità di codifica del DNA influenzò coloro che si misero a determinare sperimentalmente le regole effettive del “codice genetico”.
Il codice genetico non è l’informazione in sé, ma l’algoritmo con cui le sequenze nucleotidiche vengono “lette” per determinare le sequenze polipeptidiche. Un polipeptide è codificato dalla sequenza di nucleotidi. Questa sequenza di nucleotidi viene letta in gruppi di tre nucleotidi, noti come codoni. I codoni sono letti in modo non sovrapposto, senza spazi (cioè nucleotidi non codificanti) tra loro. Poiché ci sono 64 possibili codoni ma solo 20 (o 22 – vedi sopra) diversi amminoacidi usati negli organismi, il codice è ridondante, cioè certi amminoacidi sono codificati da più di un codone. Inoltre ci sono tre codoni, UAA, UAG e UGA, che non codificano alcun amminoacido ma sono usati per segnare la fine di un polipeptide, codificano “stop” o periodi.
La regione dell’acido nucleico che codifica un polipeptide inizia con quello che è conosciuto come il codone “start” e continua fino a quando uno dei tre codoni di stop viene raggiunto. Una sequenza definita da codoni di inizio e di fine in-frame (con un certo numero di codoni tra di loro) è conosciuta come un open reading frame o ORF. A questo punto è importante sottolineare esplicitamente che, mentre l’informazione che codifica un polipeptide è presente nel DNA, questa informazione non è usata direttamente per specificare la sequenza polipeptidica. Piuttosto, il processo è indiretto. L’informazione nel DNA viene prima copiata in una molecola di RNA (conosciuta come RNA messaggero) ed è questa molecola di RNA che dirige la sintesi del polipeptide. Il processo di utilizzo delle informazioni nel DNA per dirigere la sintesi di una molecola di RNA è noto come trascrizione perché sia il DNA che l’RNA usano lo stesso linguaggio, le sequenze nucleotidiche. Al contrario, i polipeptidi sono scritti in un linguaggio diverso, le sequenze di amminoacidi. Per questo motivo il processo di sintesi polipeptidica diretta dall’RNA è noto come traduzione.
Contribuenti e attribuzioni
-
Michael W. Klymkowsky (University of Colorado Boulder) e Melanie M. Cooper (Michigan State University) con significativi contributi di Emina Begovic & e l’assistenza editoriale di Rebecca Klymkowsky.