If you're seeing this message, it means we're having trouble loading external resources on our website.

Si vous avez un filtre web, veuillez vous assurer que les domaines *. kastatic.org et *. kasandbox.org sont autorisés.

Contenu principal

Le code génétique

Comment les informations contenues dans une séquence d'ARNm sont-elles décodées pour constituer un polypeptide ? Apprenez comment les groupes de trois nucléotides, appelés codons, spécifient les acides aminés (ainsi que les signaux d'initiation et d'arrêt de la traduction).

Introduction

Avez-vous déjà écrit un message secret à l'un de vos amis ? Si oui, vous avez peut-être utilisé une sorte de code pour protéger votre message des regards indiscrets. Par exemple, vous avez peut-être remplacé les lettres du mot par des chiffres ou des symboles, en suivant un ensemble de règles particulières. Pour que votre camarade comprenne le message, il ou elle doit connaître le code et appliquer les mêmes règles, en sens inverse, pour déchiffrer ce que vous avez écrit.
Il s'avère que le décodage des messages constitue également une étape clé de l'expression génique, le processus au cours duquel les informations d'un gène sont utilisées pour construire une protéine (ou un autre produit fonctionnel). Comment les instructions pour construire une protéine sont-elles encodées dans l'ADN, et comment sont-elles déchiffrées par la cellule ? Dans cet article, on va examiner le code génétique, qui permet aux séquences nucléotidiques de l'ADN et de l'ARN d'être traduites en leurs séquences d'acides aminés correspondantes.

Vue d'ensemble : expression génique et code génétique

Les gènes qui fournissent les instructions pour fabriquer des protéines sont exprimés en deux temps.
  • Au cours de la transcription, la séquence d'ADN d'un gène est "recopiée" en utilisant les nucléotides de l'ARN. Chez les organismes eucaryotes, l'ARN subit quelques étapes supplémentaires de maturation avant de devenir un ARN messager ou ARNm.
  • Au cours de la traduction, la séquence nucléotidique de l'ARNm est "traduite" en la séquence en acides aminés d'un polypeptide (protéine ou sous-unité protéique).
Les cellules décodent les ARNm en lisant leurs nucléotides par groupe de trois, appelés des codons. Chaque codon spécifie un acide aminé particulier, ou fournit dans certains cas un signal "stop" qui met fin à la traduction. En outre, le codon AUG joue un rôle spécifique, car il sert de codon d'initiation, marquant le début de la traduction. L'ensemble des correspondances entre codons et acides aminés (ou signaux d'arrêt) est connu sous le nom de code génétique.
Dans le reste de cet article, on va se focaliser sur le code génétique. Tout d'abord, on verra comment il a été découvert. Ensuite, on examinera ses propriétés et comment il peut être utilisé pour prédire le polypeptide encodé par un ARNm.

Déchiffrer le code génétique

Pour déchiffrer le code génétique, les chercheurs ont dû comprendre comment les séquences nucléotidiques dans une molécule d'ADN ou d'ARN encodaient la séquence en acides aminés d'un polypeptide.
Pourquoi ce problème est-il délicat ? Parmi les plus simples codes potentiels, on pourrait imaginer que chaque nucléotide d'une molécule d'ADN ou d'ARN correspond à un acide aminé dans un polypeptide. Toutefois, ce code ne peut pas fonctionner, car on rencontre communément 20 acides aminés différents dans les protéines et on dispose seulement de 4 bases nucléotidiques dans l'ADN ou l'ARN. Les chercheurs en ont donc déduit que ce code était beaucoup plus complexe qu'une simple correspondance entre un nucléotide et un acide aminé.

L'hypothèse des triplets

Au milieu des années 1950, le physicien George Gamow part de cette idée pour en déduire que le code génétique doit se composer de triplets de nucléotides. Il propose donc que, dans un gène, un groupe de 3 nucléotides consécutifs encode un acide aminé d'un polypeptide.
Le raisonnement de Gamow repose sur le fait que même un code à doublet (2 nucléotides par acide aminé) ne peut pas fonctionner, car il ne produit que 16 groupes ordonnés de nucléotides (42), donc trop peu pour encoder les 20 acides aminés classiques qui servent à fabriquer les protéines. En revanche, un code basé sur des triplets de nucléotides semble prometteur, car il fournit 64 séquences uniques de nucléotides (43). C'est largement suffisant pour spécifier les 20 acides aminés.

Nirenberg, Khorana et l'identification des codons

L'hypothèse des triplets de Gamow apparait comme logique. Elle est donc largement acceptée. Cependant, elle reste à prouver expérimentalement, et les chercheurs ignorent encore quels triplets de nucléotides correspondent à quels acides aminés.
Le déchiffrage du code génétique débute en 1961, avec le travail du biochimiste américain Marshall Nirenberg. Pour la première fois, Nirenberg et ses collègues identifient des triplets de nucléotides spécifiques qui correspondent à des acides aminés particuliers. Leur succès repose sur deux innovations expérimentales :
  • Un moyen de fabriquer des molécules artificielles d'ARNm avec des séquences spécifiques définies au préalable.
  • Un système permettant de traduire les ARNm en polypeptides en dehors d'une cellule (un système "acellulaire"). Le système de Nirenberg se compose de cytoplasme de bactéries E. coli, qui contient tous les matériaux nécessaires à la traduction.
D'abord, Nirenberg synthétise une molécule d'ARNm (appelée poly-U) composée d'un seul nucléotide : l'uracile. Quand il ajoute des ARNm poly-U à son système acellulaire, il découvre que les polypeptides fabriqués contiennent exclusivement l'acide aminé phénylalanine. Le seul triplet dans un ARNm poly-U étant UUU, Nirenberg en déduit que UUU encode la phénylalanine. En utilisant la même approche, il montre que les ARNm poly-C sont traduits en polypeptides constitués exclusivement de l'acide aminé proline, ce qui suggère que le triplet CCC encode la proline.
D'autres chercheurs, comme le biochimiste Har Gobind Khorana de l'Université du Wisconsin, développent l'expérience de Nirenberg en synthétisant des ARNm artificiels dotés de séquences plus complexes. Par exemple, dans une expérience, Khorana génère un ARNm poly-UC (UCUCUCUCUC…) qu'il ajoute à un système acellulaire similaire à celui de Nirenberg. L'ARNm poly-UC ainsi traduit en polypeptides présente une alternance d'acides aminés de type sérine et leucine. Ces résultats, avec d'autres, confirment sans ambiguïté que le code génétique est constitué de triplets de nucléotides, ou codons. Aujourd'hui, on sait que la sérine est encodée par le codon UCU, tandis que la leucine est spécifiée par le codon CUC.
En 1965, grâce au système acellulaire et à d'autres techniques, Nirenberg, Khorana et leurs collègues déchiffrent l'ensemble du code génétique. Autrement dit, ils identifient l'acide aminé ou le signal "stop" correspondant à chacun des 64 codons (triplets de nucléotides). Pour leurs travaux sur le code génétique, Nirenberg et Khorana (ainsi qu'un autre scientifique, Robert Holley) reçoivent le prix Nobel en 1968.
_À gauche : image modifiée à partir de "Marshall Nirenberg and Heinrich Matthaei," par N. MacVicar (domaine public). À droite : "Har Gobind Khorana" (domaine public)._

Les propriétés du code génétique

Comme on l'a vu ci-dessus, le code génétique est constitué de triplets de nucléotides appelés des codons, qui spécifient individuellement les acides aminés d'un polypeptide (ou le signal "stop" qui le termine). Les codons d'un ARNm sont "lus" un par un à l'intérieur de structures, faites de protéines et d'ARN, nommées des ribosomes, à partir de la fin de l'extrémité 5' du gène et en se déplaçant vers l'extrémité 3’. Examinons le code génétique dans le contexte de la traduction.

Les types de codons (d'initiation, d'arrêt, et "normal")

_Crédit d'image : "The genetic code," par OpenStax College, Biology (CC BY 3.0)._
La traduction commence toujours par un codon d'initiation, qui présente la séquence AUG et encode l'acide aminé méthionine (Met) chez la plupart des organismes. Ainsi, chaque polypeptide débute généralement par une méthionine, bien que cette méthionine initiale puisse être enlevée par la suite lors des étapes de maturation. Un codon d'initiation est nécessaire pour commencer la traduction, mais le codon AUG peut également apparaître plus tard dans la séquence codante d'un ARNm, où il spécifie simplement une méthionine.
La traduction débute donc au niveau du codon d'initiation. Puis, les codons suivants de l'ARNm sont lus un par un, dans la direction de 5' vers 3'. À mesure que chaque codon est lu, l'acide aminé correspondant est ajouté à l'extrémité C-terminale du polypeptide. La plupart des codons du code génétique spécifient des acides aminés et sont lus au cours de la phase de la traduction.
La traduction se poursuit jusqu'à atteindre un codon d'arrêt. Il existe trois codons d’arrêt dans le code génétique : UAA, UAG et UGA. Contrairement aux codons d’initiation, les codons d'arrêt ne correspondent à aucun acide aminé. Ils agissent comme des signaux "stop", indiquant que le polypeptide est complet et entraînant sa libération par les ribosomes. Les nucléotides qui peuvent se trouver après le codon d'arrêt sur l'ARNm ne seront pas traduits dans le polypeptide.

Le cadre de lecture

Le codon d'initiation est essentiel, car il détermine où la traduction débute sur l’ARNm. Plus important encore, la position du codon d'initiation définit le cadre de lecture, ou comment la séquence de l'ARNm est divisée en groupes de trois nucléotides à l'intérieur du ribosome. Comme le montre le schéma ci-dessous, la même séquence de nucléotides peut encoder des polypeptides complètement différents en fonction du cadre qui est lu. Le codon d'initiation détermine quel cadre est choisi et assure ainsi la production du bon polypeptide.
Pour définir le cadre de lecture, on peut utiliser par analogie des mots et des lettres. Le message qui suit semble logique, car on le lit dans le bon cadre (correctement divisés en groupes de trois lettres) : LÉO ÔTE SON BOB. Mais, si on décale d'une lettre le cadre de lecture et qu'on regroupe les lettres par groupes de trois, on obtient : ÉOÔ TES ONB OB. Le cadre de lecture produit un message qui n'a aucun sens.
Il est important de noter ici que les nucléotides d'un gène ne sont pas physiquement séparés en groupes de trois. En fait, la composition des codons dépend simplement de l'endroit où le ribosome débute la lecture, et de la séquence nucléotidique qui suit le codon d'initiation. Les mutations qui insèrent ou suppriment un seul nucléotide peuvent modifier le cadre de lecture, ce qui entraîne la production d'une protéine "charabia" à l'image de la phrase brouillée de l'exemple ci-dessus.

Un acide aminé, plusieurs codons

Comme mentionné précédemment, le code génétique est constitué de 64 codons uniques. Mais s'il n'y a que 20 acides aminés, à quoi servent les 44 autres codons ? On a vu que certains servent de codons d'arrêt, mais cela ne s'applique pas à la plupart d'entre eux. En fait, le code génétique est un code dégénéré, ce qui signifie que certains acides aminés sont spécifiés par plus d'un codon. Par exemple, la proline est représentée par quatre codons différents (CCU, CCC, CCA et CCG). Si l'un de ces codons apparaît dans un ARNm, il entraîne l'ajout de la proline à la chaîne polypeptidique.
Dans le code génétique, la plupart des acides aminés sont encodés par au moins deux codons. La méthionine et le tryptophane sont les seuls acides aminés spécifiés par un seul codon. Par contre, l'inverse n'est pas vrai : chaque codon spécifie seulement un acide aminé ou un signal "stop". Il n'y a donc aucune ambiguïté (incertitude) dans le code génétique. Un codon particulier de l'ARNm sera toujours traduit sans surprise en un acide aminé spécifique ou en un signal d'arrêt.

Le code génétique est (presque) universel

À quelques petites exceptions près, tous les organismes vivants de la Terre exploitent le même code génétique. Cela signifie que les codons spécifiant les 20 acides aminés de vos cellules sont les mêmes que ceux utilisés par les bactéries qui habitent les cheminées hydrothermales du fond de l'océan Pacifique. Même chez les organismes qui n'utilisent pas le code "standard", les différences sont relativement petites. Il peut s'agir par exemple d'une modification de l'acide aminé spécifié par un codon particulier.
Le partage d'un code génétique par divers organismes appuie la thèse d'une origine commune de la vie sur Terre. Cela signifie que les nombreuses espèces terrestres actuelles ont probablement évolué à partir d'un organisme ancestral chez lequel le code génétique existait déjà. Le code étant essentiel à la fonction des cellules, il a tendance à être conservé par les espèces au fil des générations, car les individus présentant des modifications importantes s'avèrent incapables de survivre. Ce type de processus évolutif peut expliquer la remarquable similarité du code génétique chez les organismes actuels.

Vous souhaitez rejoindre la discussion ?

Pas encore de posts.
Vous comprenez l'anglais ? Cliquez ici pour participer à d'autres discussions sur Khan Academy en anglais.