Bakteerisolu syntetisoi tuhansia erilaisia polypeptidejä. Näiden polypeptidien sekvenssi (tarkat aminohapot N-terminaalista C-terminaaliin) on koodattu organismin DNA:ssa. Useimpien bakteerien genomi on kaksijuosteinen pyöreä DNA-molekyyli, jonka pituus on miljoonia emäspareja. Kukin polypeptidi on koodattu tämän DNA-molekyylin tietyllä alueella. Kysymyksemme ovat siis, miten DNA:n tietyt alueet tunnistetaan ja miten nukleiinihapposekvenssissä oleva informaatio käännetään polypeptidisekvenssiksi.
Vastaaksemme ensimmäiseen kysymykseen palataan DNA:n rakenteeseen. Oli heti selvää, että polypeptidin yksiulotteinen sekvenssi voidaan koodata DNA-molekyylin polynukleotidiketjujen yksiulotteiseen sekvenssiin231. Todellinen kysymys oli, miten kääntää nukleiinihappojen kieli, joka koostuu neljän eri nukleotidiemäksen sekvensseistä, polypeptidien kieleksi, joka koostuu 20 (tai 22) eri aminohapon sekvensseistä. Kuten fyysikko George Gamow (1904-1968)232 huomautti, kaikkien 20 aminohapon koodaamiseen tarvitaan vähintään kolme nukleotidia; yhden nukleotidin pituinen sekvenssi (41) voisi koodata korkeintaan neljä erilaista aminohappoa, kahden nukleotidin pituinen sekvenssi voisi koodata (42) tai 16 erilaista aminohappoa (se ei riitä), kun taas kolmen nukleotidin pituinen sekvenssi (43) voisi koodata 64 erilaista aminohappoa (se on enemmän kuin tarpeeksi)233. Vaikka Gamowin ehdottama varsinainen koodauskaavio olikin väärä, hänen ajattelunsa DNA:n koodauskapasiteetista vaikutti niihin, jotka ryhtyivät määrittämään kokeellisesti ”geneettisen koodin” todellisia sääntöjä.
Geneettinen koodi ei ole itse informaatiota vaan algoritmi, jonka avulla nukleotidisekvenssejä ”luetaan” polypeptidisekvenssien määrittämiseksi. Nukleotidisekvenssi koodaa polypeptidin. Tämä nukleotidisekvenssi luetaan kolmen nukleotidin ryhmissä, joita kutsutaan koodoneiksi. Koodonit luetaan päällekkäin, eikä niiden välissä ole välilyöntejä (eli ei-koodaavia nukleotideja). Koska mahdollisia koodoneja on 64 mutta vain 20 (tai 22 – ks. edellä) erilaista eliöissä käytettävää aminohappoa, koodi on redundantti, eli tiettyjä aminohappoja koodataan useammalla kuin yhdellä koodonilla. Lisäksi on kolme koodonia, UAA, UAG ja UGA, jotka eivät koodaa mitään aminohappoa, mutta joita käytetään merkitsemään polypeptidin loppua, ne koodaavat ”stoppeja” tai pisteitä.
Nukleiinihapon alue, joka koodaa polypeptidiä, alkaa niin sanotulla aloituskoodonilla ja jatkuu, kunnes saavutetaan yksi kolmesta stoppeista. Sekvenssiä, joka on määritelty kehyksen sisällä olevilla aloitus- ja lopetuskoodoneilla (joiden välissä on tietty määrä koodoneja), kutsutaan avoimeksi lukukehykseksi tai ORF:ksi. Tässä vaiheessa on tärkeää huomauttaa, että vaikka polypeptidiä koodaava tieto on DNA:ssa, sitä ei käytetä suoraan polypeptidisekvenssin määrittämiseen. Prosessi on pikemminkin epäsuora. DNA:n sisältämä tieto kopioidaan ensin RNA-molekyyliksi (sanansaattaja-RNA), ja tämä RNA-molekyyli ohjaa polypeptidisynteesiä. Prosessia, jossa DNA:n sisältämää tietoa käytetään RNA-molekyylin synteesin ohjaamiseen, kutsutaan transkriptioksi, koska sekä DNA että RNA käyttävät samaa kieltä, nukleotidisekvenssejä. Sitä vastoin polypeptidit kirjoitetaan eri kielellä, aminohapposekvensseillä. Tästä syystä RNA:n ohjaamaa polypeptidisynteesiä kutsutaan translaatioksi.
Tekijät ja attribuutit
-
Michael W. Klymkowsky (University of Colorado Boulder) ja Melanie M. Cooper (Michigan State University), Emina Begovic & merkittävässä määrin mukana.
toimituksellista apua antoi Rebecca Klymkowsky.