Résultats et discussion
La voie anabolique de l’acide shikimique comporte sept étapes , qui peuvent être catalysées par sept polypeptides différents ou par moins de polypeptides multifonctionnels (22). Les enzymes de cinq des étapes de biosynthèse sont homologues dans tous les organismes qui possèdent la voie. Pour deux des étapes, il existe deux enzymes différentes connues pour chacune d’elles, et chaque organisme exprimant la voie possède un homologue de l’une de ces enzymes. En outre, il y a deux considérations supplémentaires dans la détection des gènes codant pour les enzymes de la voie de l’acide shikimique chez N. vectensis : (i) l’origine évolutive des gènes serait incertaine de sorte que les séquences pourraient avoir divergé considérablement de toute séquence de comparaison utilisée et (ii) la séquence génomique peut contenir des introns.
Pour obtenir la plus grande sensibilité d’interrogation, la suite de programmes HMMER (23) a été utilisée pour rechercher des séquences de protéines consensus en utilisant des profils de modèles de Markov cachés. Cette méthode donne plus de poids aux résidus conservés au cours de l’évolution, et les profils locaux révèlent les fragments de protéines dans les exons codants. La séquence du génome de N. vectensis a été traduite dans les six cadres de lecture et recherchée en utilisant neuf profils couvrant les sept enzymes de la voie de l’acide shikimique obtenus à partir de la base de données Pfam (24). Deux alignements ( » hits « ) ont été trouvés dans de grands échafaudages avec HMMER en utilisant les profils aroA et aroB (SI Dataset 1). Le résultat positif pour aroA s’est produit dans le scaffold_33 (1,4 Mbp). Lorsque la séquence protéique prédite a été utilisée pour une recherche BLAST, elle s’est alignée avec le produit du gène murA d’une variété de bactéries avec ≈40% d’identité d’acides aminés. Ce gène bactérien code pour l’UDP-N-acétylglucosamine 1-carboxyvinyltransférase (SI Dataset 2), une enzyme apparentée à l’aroA (3-phosphoshikimate 1-carboxyvinyltransférase), alors que l’enzyme MurA est impliquée dans la biosynthèse de la paroi cellulaire du peptidoglycane. Cette constatation a initialement suggéré que la séquence alignée pouvait provenir d’une contamination bactérienne. Cependant, un examen attentif des résultats HMMER a montré que la protéine prédite manquait de ≈20 acides aminés conservés à l’extrémité C-terminale, et que la séquence d’acides aminés manquante était située ≈1 kb en aval dans l’échafaudage. La comparaison visuelle de la séquence génomique avec les séquences consensus pour les introns de vertébrés a révélé des sites d’épissage plausibles (AGGTRA et AGG, respectivement) qui produiraient un ARNm codant pour un homologue complet de murA présentant une correspondance étroite avec le profil de recherche. La présence d’introns élimine donc la question des contaminants bactériens ou des symbiotes comme source proximale de ce gène.
L’échafaudage de 1,4 Mbp contenant l’homologue aroA-like a été traduit dans les six cadres de lecture et scanné en utilisant HMMER avec la bibliothèque Pfam entière. Ce processus a montré la présence d’une variété de domaines eucaryotes typiques, y compris la transcriptase inverse, l’EGF, le domaine EGF de liaison au calcium, le peptide analogue à la défensine, l’actine et le domaine de la tête de fourche, soutenant à nouveau l’idée que l’homologue aroA-like est contenu dans le génome de N. vectensis lui-même. La séquence de la protéine prédite a été utilisée pour construire un arbre phylogénétique à comparer avec les séquences bactériennes les plus proches trouvées dans la recherche BLAST et avec Tenacibaculum sp. MED152 et Escherichia coli W3110 (Fig. 1). La séquence aroA-like de N. vectensis ne s’est pas regroupée avec les homologues d’aucun groupe de bactéries testées, mais a montré une divergence de séquence par rapport aux séquences bactériennes comparable à celle des gènes murA entre différents groupes bactériens. On ignore encore si ce gène chez N. vectensis dirige la biosynthèse du peptidoglycane ou des intermédiaires de la voie du shikimate.
Arbre phylogénétique montrant la relation de la séquence protéique prédite du gène aroA-like de N. vectensis avec les séquences protéiques murA prédites des sept meilleurs résultats dans une analyse BLAST et avec celles de E. coli et Tenacibaculum. Les distances ont été calculées à partir d’un alignement CLUSTAL W en utilisant la matrice de Jones-Taylor-Thornton, et l’arbre a été construit en utilisant l’algorithme d’assemblage par voisinage dans les programmes du paquet PHYLIP (version 3.63). La distance est la proportion de substitutions d’acides aminés.
Le deuxième alignement, relatif à aroB, était présent sur l’échafaudage-85 (0,8 Mbp). Lorsque la séquence protéique prédite a été utilisée pour une recherche BLAST (SI Dataset 3), l’ajustement le plus proche était avec le dinoflagellé Oxyrrhis marina (66% d’identité de séquence d’acides aminés). Chez ce dinoflagellé, l’enzyme aroB (3-déhydroquinate synthase) est présente dans le chloroplaste et est fusionnée à une O-méthyltransférase (25). Lorsque la séquence complète de la protéine de fusion de O. marina a été utilisée dans une recherche BLAST contre l’ADN traduit de N. vectensis, il était évident qu’un gène de protéine de fusion était également présent chez N. vectensis (SI Dataset 4). Ce gène contient cinq introns. Lorsque le segment aroB du gène a été utilisé pour construire un arbre phylogénétique avec les résultats BLAST les plus proches (Fig. 2), la séquence de N. vectensis est apparue comme étant la plus proche de celles de deux dinoflagellés (O. marina et Heterocapsa triquetra) qui possèdent chacun le gène de fusion complet. Là encore, ce gène pourrait être impliqué dans la synthèse de précurseurs conduisant à des métabolites secondaires dérivés de la voie du shikimate, plus particulièrement le 3-déhydroquinate, embranchement intermédiaire putatif de la biosynthèse des MAA (5).
Arbre phylogénétique montrant la relation de la séquence protéique déduite de la partie aroB de la protéine AroB-O-méthyltransférase de N. vectensis avec les protéines homologues de dinoflagellés. Les séquences ont été alignées avec CLUSTALW et l’arbre a été construit en utilisant l’algorithme de jonction des voisins avec des distances dérivées du modèle Jones-Taylor-Thornton (en utilisant PHYLIP version 3.63). L’arbre a été enraciné en utilisant Anabaena variabilis comme groupe externe. Les distances représentent la proportion de substitutions d’acides aminés, et les valeurs bootstrap basées sur 100 échantillons sont indiquées.
Parce que les dinoflagellés endosymbiotiques sont souvent associés aux cnidaires, il fallait envisager la possibilité qu’un dinoflagellé non détecté contamine la séquence de N. vectensis. Les séquences protéiques prédites dérivées des gènes voisins de part et d’autre de l’homologue aroB-like ont été utilisées pour des recherches BLAST. Les alignements les plus proches étaient avec divers vertébrés et avec des séquences de l’oursin Strongylocentrotus purpuratus, ce qui rend peu probable que ces gènes de la voie du shikimate dans le génome du métazoaire hôte proviennent d’une contamination par le génome d’un dinoflagellé associé (SI Dataset 5). En outre, trois séquences protéiques putatives de O. marina ont été utilisées pour des recherches BLAST contre N. vectensis. Les meilleurs résultats ont été utilisés pour construire un arbre phylogénétique, et dans aucun cas les séquences de N. vectensis et d’O. marina n’étaient étroitement liées (Fig. 3). Il faut cependant souligner que des preuves supplémentaires sont nécessaires pour déterminer la fonction présumée de ces gènes et pour prouver leur acquisition par transfert horizontal de gènes (THG) chez N. vectensis, en particulier parce que les cnidaires sont réputés avoir des gènes conservés qu’ils ont hérités d’ancêtres non métazoaires (26). Bien que l’importance du HGT dans l’évolution eucaryote reste controversée, il existe des preuves indépendantes de l’existence d’un autre événement HGT chez N. vectensis. L’examen génomique comparatif des enzymes du cycle du glyoxylate a révélé le transfert probable d’une isocitrate lyase (ICL) bifonctionnelle et d’une MS, codée par un gène ICL-MS fusionné provenant d’un précurseur bactérien, vers le génome de N. vectensis (27). Nos résultats sont similaires à ceux d’autres personnes rapportant des preuves de transfert de gènes vers des espèces cnidaires d’eau douce (Hydra) à partir de multiples partenaires eucaryotes ancestraux (18, 28).
Arbre phylogénétique des séquences de la protéine PCNA. La séquence de la protéine PCNA de O. marina a été utilisée pour une recherche BLAST contre les séquences génomiques traduites de N. vectensis. Les alignements BLAST ont été utilisés pour assembler la séquence de la protéine de N. vectensis. Les séquences des deux espèces ont été utilisées pour des recherches BLAST dans GenBank, et une sélection des meilleurs résultats pour chaque espèce a été utilisée pour construire un arbre phylogénétique en utilisant l’algorithme de jonction des voisins dans les programmes du paquet PHYLIP (version 3.63). La distance est la proportion de substitutions nucléotidiques.
Notre exploration génomique de N. vectensis a révélé une autre surprise au-delà du transfert de gènes d’une bactérie et d’un dinoflagellé vers le génome du cnidaire. Nous avons trouvé sept bons alignements de séquences correspondant à cinq gènes potentiels de la voie de l’acide shikimique. Parmi ceux-ci, il y avait quatre alignements très forts correspondant aux gènes aroA, aroB, aroC, et aroE de E. coli (SI Dataset 6). Les séquences protéiques prédites de ces gènes ont été utilisées dans des requêtes de recherche BLAST (29) contre la base de données GenBank du National Center for Biotechnology Information (NCBI) pour révéler des séquences apparentées. Dans les quatre cas, les meilleures correspondances étaient avec les gènes de la voie de l’acide shikimique chez les Flavobacteria, ayant ≈70% d’identité d’acides aminés (SI Dataset 7). Dans la plupart des cas, Tenacibaculum sp. MED152, dont le génome est en cours de séquençage (www.moore.org/marine-micro.aspx), était la meilleure correspondance, bien qu’une stricte similarité puisse être influencée par un biais de la base de données pour cette bactérie. Un cinquième gène de N. vectensis correspondait aux gènes aroF-H de E. coli, qui codent les isoenzymes de la 3-désoxy-d-arabinoheptulosonate-7-phosphate synthase (DAHPS). Cependant, les recherches BLAST ont montré que les meilleurs résultats (90% d’identité d’acides aminés) étaient les gènes kdsA des Flavobacteria ; ceux-ci codent pour d’autres isoenzymes de la famille DAHPS qui sont impliqués dans la synthèse des lipopolysaccharides.
La grande similarité des séquences de gènes de N. vectensis avec celles de la voie du shikimate bactérien pourrait s’expliquer soit par un événement HGT récent, soit par une contamination d’ADN bactérien dans les séquences du génome de N. vectensis. L’utilisation des codons était similaire à Tenacibaculum plutôt qu’à N. vectensis. On a identifié deux séquences qui semblaient être des fragments significatifs de gènes d’ARNr 16S bactériens. Une séquence d’ARNr 16S (985 pb ; ensemble de données SI 8a) présentait la plus grande similarité avec les séquences de Pseudomonas. Cependant, comme elle n’appartenait pas à un échafaudage contenant d’autres séquences bactériennes et qu’aucune autre séquence génomique de type Pseudomonas n’a été détectée, il est probable qu’elle provienne d’un contaminant de séquençage. Comme les données originales de séquençage shotgun n’étaient pas à notre disposition, nous n’avons pas pu analyser le génome de N. vectensis en utilisant une version récemment publiée de l’outil d’annotation de gènes Glimmer (http://cbcb.umd.edu/software/glimmer ; réf. 30), ce qui aurait été un moyen utile de quantifier le pourcentage de l’hologénome codé sur de petits échafaudages et susceptible, par conséquent, de provenir de bactéries vivantes.
L’autre séquence d’ARNr 16S appartenait à un échafaudage, qui contenait également des séquences d’ARNr 23S dans un arrangement typique des opérons d’ARNr (720 pb ; SI Dataset 8b ), et un arbre phylogénétique de la portion d’ARNr 16S (Fig. 4) a montré qu’elle provenait d’une flavobactérie, mais elle n’a pas pu être assignée à un genre connu. Des arbres phylogénétiques ont également été construits pour les séquences aroA, aroB, aroC et aroE, avec des résultats similaires. Une autre considération était qu’une grande partie du génome de N. vectensis était organisée en grands échafaudages, alors que ces fragments d’ARNr 16S étaient présents dans de petits échafaudages à partir desquels de courts contigs ont été séquencés, de sorte que seules des séquences génétiques incomplètes ont été révélées. Ce résultat a donné la première indication que ces fragments d’ARNr 16S pourraient provenir d’une contamination bactérienne plutôt que de l’ADN génomique de N. vectensis au sens strict. Le projet du génome de Tenacibaculum a identifié la plupart de ses gènes, et les 2 679 séquences de protéines prédites à partir de l’annotation génomique ont été utilisées pour une recherche BLAST contre l’ADN traduit de N. vectensis. Lorsqu’une valeur attendue stricte de <10-30 a été utilisée, 509 des séquences de Tenacibaculum (19%) ont donné des résultats positifs. Cependant, un seuil moins rigoureux (10-10) a donné 1 563 résultats positifs (58 %). Dans beaucoup de ces cas, les valeurs attendues les plus élevées étaient associées à des séquences partielles, car les résultats étaient dans des échafaudages plus petits ayant de petits contigs avec de nombreuses bases dans les échafaudages non déterminées. En fait, les gènes aroE et kdsA se trouvaient aux extrémités de contigs, de sorte que leurs séquences étaient tronquées et manquaient les 40 ou 25 derniers aa, respectivement. Bien qu’une contamination accidentelle du gabarit original de N. vectensis ne puisse être exclue, une possibilité excitante est que les séquences proviennent d’un associé flavobactérien similaire à Tenacibaculum, non soupçonné auparavant.
Arbre phylogénétique montrant la relation entre la séquence du gène de l’ARNr 16S trouvée dans la séquence du génome de N. vectensis (fragment de 720 pb dans l’entrée c429301624.Contig1 de StellaBase, http://evodevo.bu.edu/stellabase ; SI Dataset 8a ) et les séquences des souches types les plus proches dans Ribosomal Data Base Project II (version 9.52 ; http://rdp.cme.msu.edu). Les distances ont été calculées à partir d’un alignement CLUSTAL W utilisant le modèle F84, et l’arbre a été construit comme dans la Fig. 3.
Il y a un soutien indépendant pour notre affirmation que les séquences précédentes dans le génome publié pour N. vectensis peuvent provenir de bactéries associées aux premiers stades de développement de l’anémone. Les auteurs du génome de Nematostella vectensis rapporté (20), dans leur matériel d’appui en ligne (supplément S2 dans www.sciencemag.org/cgi/content/full/317/5834/86/DC1), ont explicitement déclaré qu’ils ont préparé l’ADN génomique des larves pour éviter la contamination par les commensaux ou les symbiotes qui ont été signalés pour les adultes, bien qu’ils n’aient donné aucune référence pour cette dernière déclaration concernant de tels associés. Malgré cette précaution, il y a des découvertes séparées que les isolats d’ADN des embryons et des larves de planula tôt de cette anémone de mer contiennent des séquences 16S rRNA obtenues à partir des amplicons de PCR attribués aux bactéries, y compris ceux des mêmes groupes (Flavobacteria et Pseudomonas) que nous rapportons ici (H. Marlow et M. Q. Martindale, communication personnelle).
Les associés bactériens des cnidaires ont été connus pour au moins 30 ans (par exemple, réf. 31 et 32), et plus récemment ils ont été visualisés au microscope comme épibiontes et endosymbiontes dans deux espèces d’Hydra d’eau douce (33) et comme agrégats enveloppés dans des cavernes entre les cellules ectodermiques de l’anémone de mer Metridium senile nominalement non symbiotique (34). Une telle association intime avec des cellules métazoïques dépourvues de barrière physique externe se prête à des interactions directes hôte-microbe qui se manifestent de diverses manières : pathogénicité chez les coraux (35), développement de la réponse immunitaire chez les Cnidaires (33), et intégration symbiotique étroite aboutissant à une HGT de la bactérie à l’hôte cnidaire, comme démontré ici. On ne sait pratiquement rien de la biosynthèse ou de toute autre fonction métabolique des bactéries symbiotiques avec les hôtes cnidaires, un sujet qui, comme tant d’autres dans la microbiologie marine moderne, mérite d’être étudié.
Le THG entre les bactéries et certains métazoaires (ecdysozoaires, y compris les insectes et les nématodes) a récemment été démontré par Baldo et al. (36) comme étant plus répandu que soupçonné. Ils ont noté que les séquences bactériennes ont été considérées auparavant comme une contamination et systématiquement exclues par les projets de séquençage du génome eucaryote, ce qui a peut-être masqué l’importance de ce transfert chez divers invertébrés. Auparavant, la séquence du génome de l’endosymbiont bactérien Carsonella ruddii trouvé chez les pucerons avait été rendue publique (37, 38). La comparaison de cette séquence génomique avec celle d’un autre endosymbionte bactérien des pucerons, Buchnera aphidicola, a montré que les deux génomes avaient subi des délétions considérables, notamment la perte de certains gènes codant pour des voies métaboliques essentielles. L’une de ces voies manquantes menant à la formation de l’acide aminé aromatique tryptophane chez C. ruddii a attiré notre attention. Selon le dogme (10), les précurseurs de cet acide aminé essentiel devraient être synthétisés par la voie de l’acide shikimique chez les bactéries commensales. Une fois de plus, nous avons recherché les alignements de séquences globaux pour les gènes codant les enzymes de la voie de l’acide shikimique dans ces génomes bactériens. Nous avons trouvé un gène codant pour une phospholyase putative de 5-enolpyruvylshikimate-3-phosphate dans C. ruddii (bien que la question de savoir si ce gène transcrirait un produit fonctionnel soit discutable en raison du grand nombre de codons stop dans la séquence), et seulement trois (ceux codant pour la shikimate 5-déshydrogénase, la 5-énolpyruvylshikimate-3-phosphate phospholyase, et la 5-énolpyruvylshikimate-3-phosphate synthase) des sept gènes de la voie étaient apparents dans le génome de B. aphidicola (SI Dataset 9). Pris ensemble avec nos résultats pour le symbiote putatif Tenacibaculum-like et son hôte N. vectensis, cette preuve suggère fortement que la perte de la fonction métabolique essentielle dans l’endosymbiote est un processus continu de transfert et de suppression de gènes dans l’évolution des symbioses qui pourrait finalement conduire à l’extinction du symbiote par l’assimilation progressive de son matériel génétique dans le génome de l’hôte (37, 38).
L’élucidation des » adaptations métaboliques partagées « , où la production de métabolites essentiels implique un apport des partenaires d’une symbiose (même si l’un d’entre eux est dégénéré), nécessitera une dissection génomique plus poussée de l’organisation unique et du fonctionnement moléculaire des symbioses invertébrées-microbiennes. Ceci est mis en évidence par notre découverte que deux des gènes des enzymes de la voie shikimique, classiquement considérés comme absents des « animaux », sont codés dans le génome de l’hôte métazoaire. La mesure dans laquelle une telle HGT, ou l’implication de consorts bactériens insoupçonnés, peut expliquer les anomalies métaboliques apparentes chez les cnidaires décrites dans l’introduction, mérite d’être approfondie. La compréhension de ces processus peut en outre fournir des informations essentielles sur la cause du dysfonctionnement métabolique évoqué par le changement climatique et le stress environnemental, en particulier dans les symbioses fragiles des coraux tropicaux et d’autres cnidaires marins.