細菌細胞は、数千種類のポリペプチドを合成する。 これらのポリペプチドの配列(N末端からC末端までの正確なアミノ酸)は、生物のDNA内にコードされています。 ほとんどのバクテリアのゲノムは、長さ数百万塩基対の二本鎖の円形DNA分子である。 各ポリペプチドは、このDNA分子の特定の領域によってコードされている。 そこで、私たちの疑問は、DNA の特定の領域がどのように認識されるのか、また、核酸配列に存在する情報がどのようにしてポリペプチド配列に変換されるのか、ということです。 ポリペプチドの一次元配列は、DNA分子内のポリヌクレオチド鎖の一次元配列にコード化できることはすぐにわかった231。 問題は、4種類の塩基配列からなる核酸の言語を、20種類(または22種類)のアミノ酸配列からなるポリペプチドの言語にどのように翻訳するかであった。 物理学者ジョージ・ガモフ(1904-1968)が指摘したように232、20種類のアミノ酸をすべてコードするのに必要な最小限のヌクレオチドのセットは3つで、1塩基の配列(41)では最大4種類のアミノ酸を、2塩基の配列では(42)または16種類のアミノ酸(十分ではない)、そして3塩基(43)では64種類のアミノ酸(十分すぎるほど)をコードすることができるのである233。 ガモフの提案した実際のコード化方式は間違っていたが、DNAのコード化能力に関する彼の考え方は、「遺伝暗号」の実際の規則を実験的に決定しようとした人々に影響を与えた
遺伝暗号は情報そのものではなく、ヌクレオチドの配列を「読み取り」、ポリペプチドの配列を決定するアルゴリズムである。 ポリペプチドは、ヌクレオチドの配列によってコード化される。 このヌクレオチド配列は、コドンと呼ばれる3つのヌクレオチドのグループで読み取られる。 コドンは、間にスペース(つまりノンコーディングヌクレオチド)がないように、重ならないように読まれる。 コドンは64個あるが、生物に使われるアミノ酸は20種類(または22種類)しかないため、あるアミノ酸が複数のコドンにコードされているという冗長性がある。 さらに、UAA、UAG、UGAの3つのコドンは、どのアミノ酸もコードしていないが、ポリペプチドの終わりを示すために使われ、「ストップ」またはピリオドをコードしている。 フレーム内の開始コドンと停止コドン(その間にいくつかのコドンがある)によって定義される配列は、オープンリーディングフレームまたはORFと呼ばれる。 この時点で、ポリペプチドをコードする情報はDNA中に存在するが、この情報はポリペプチド配列を特定するために直接使用されないことを明確に指摘することが重要である。 むしろ、その過程は間接的なものである。 DNAの情報は、まずRNA分子(メッセンジャーRNAと呼ばれる)にコピーされ、このRNA分子がポリペプチドの合成を指令するのである。 DNAとRNAは同じ言語、ヌクレオチド配列を使っているので、DNAの情報を使ってRNA分子の合成を指示するプロセスは転写と呼ばれる。 一方、ポリペプチドはアミノ酸配列という異なる言語で書かれている。 このため、RNAによるポリペプチドの合成は翻訳と呼ばれている。 Klymkowsky (University of Colorado Boulder) and Melanie M. Cooper (Michigan State University) with significant contributions by Emina Begovic & some editorial assistance of Rebecca Klymkowsky.
…