Risultati e Discussione
La via anabolica dell’acido shikimico ha sette passi, che possono essere catalizzati da sette diversi polipeptidi o da un minor numero di polipeptidi multifunzionali (22). Gli enzimi per cinque dei passi biosintetici sono omologhi in tutti gli organismi che possiedono la via. Per due dei passi, ci sono due diversi enzimi noti per ciascuno, e ogni organismo che esprime il percorso ha un omologo di uno di questi enzimi. Inoltre, ci sono due considerazioni aggiuntive nel rilevare i geni che codificano gli enzimi del percorso dell’acido shikimico in N. vectensis: (i) l’origine evolutiva dei geni sarebbe incerta per cui le sequenze potrebbero essersi discostate notevolmente da qualsiasi sequenza di confronto utilizzata e (ii) la sequenza genomica potrebbe contenere introni.
Per ottenere la massima sensibilità di interrogazione, è stata utilizzata la suite di programmi HMMER (23) per cercare sequenze di proteine di consenso utilizzando profili di modelli di Markov nascosti. Questo metodo fornisce un peso maggiore ai residui conservati evolutivamente, e i profili locali rivelano i frammenti proteici negli esoni codificanti. La sequenza del genoma di N. vectensis è stata tradotta in tutti e sei i frame di lettura e ricercata utilizzando nove profili che coprono tutti e sette gli enzimi della via dell’acido shikimico ottenuti dal database Pfam (24). Due allineamenti (“hits”) sono stati trovati in grandi scaffold con HMMER usando i profili aroA e aroB (SI Dataset 1). Il risultato di aroA si è verificato in scaffold_33 (1,4 Mbp). Quando la sequenza proteica predetta è stata utilizzata per una ricerca BLAST, si è allineata con il prodotto del gene murA di una varietà di batteri con ≈40% di identità aminoacidica. Questo gene batterico codifica l’UDP-N-acetilglucosamina 1-carbossiviniltransferasi (SI Dataset 2), un enzima legato all’aroA (3-fosfosichimato 1-carbossiviniltransferasi), mentre l’enzima MurA è coinvolto nella biosintesi della parete cellulare del peptidoglicano. Questo risultato ha inizialmente suggerito che la sequenza allineata potrebbe provenire da una contaminazione batterica. Tuttavia, un attento esame dei risultati di HMMER ha mostrato che la proteina prevista mancava di ≈20 aminoacidi conservati al terminale C, e che la sequenza mancante di aminoacidi era situata ≈1 kb a valle dello scaffold. Il confronto visivo della sequenza genomica con le sequenze di consenso per gli introni dei vertebrati ha rivelato siti di splicing plausibili (AGGTRA e AGG, rispettivamente) che produrrebbero mRNA che codifica un omologo di murA a lunghezza intera con una stretta corrispondenza al profilo di ricerca. La presenza di introni elimina quindi la questione dei contaminanti batterici o dei simbionti come fonte prossimale di questo gene.
Lo scaffold di 1,4 Mbp contenente l’omologo aroA-like è stato tradotto in tutti e sei i frame di lettura e analizzato utilizzando HMMER con l’intera libreria Pfam. Questo processo ha mostrato la presenza di una varietà di domini tipici eucariotici tra cui la trascrittasi inversa, l’EGF, il dominio EGF legante il calcio, il peptide simile alla defensina, l’actina e il dominio della testa a forcella, sostenendo nuovamente l’idea che l’omologo aroA-like sia contenuto nel genoma di N. vectensis stesso. La sequenza della proteina predetta è stata utilizzata per costruire un albero filogenetico da confrontare con le sequenze batteriche più vicine trovate nella ricerca BLAST e con Tenacibaculum sp. MED152 e Escherichia coli W3110 (Fig. 1). La sequenza aroA-like di N. vectensis non ha fatto cluster con gli omologhi di nessun gruppo di batteri testati, ma ha mostrato una divergenza di sequenza dalle sequenze batteriche paragonabile a quella dei geni murA tra diversi gruppi batterici. Se questo gene in N. vectensis diriga la biosintesi del peptidoglicano o degli intermedi della via shikimate è ancora sconosciuto.
Albero filogenetico che mostra la relazione della sequenza proteica prevista del gene aroA-like di N. vectensis con le sequenze proteiche murA previste dei sette migliori risultati in un’analisi BLAST e con quelle in E. coli e Tenacibaculum. Le distanze sono state calcolate da un allineamento CLUSTAL W utilizzando la matrice Jones-Taylor-Thornton, e l’albero è stato costruito utilizzando l’algoritmo neighbor-joining nei programmi del pacchetto PHYLIP (versione 3.63). La distanza è proporzionale alle sostituzioni di aminoacidi.
Il secondo allineamento, relativo a aroB, era presente su scaffold-85 (0,8 Mbp). Quando la sequenza della proteina predetta è stata usata per una ricerca BLAST (SI Dataset 3), l’allineamento più vicino è stato con il dinoflagellato Oxyrrhis marina (66% di identità di sequenza aminoacidica). In questo dinoflagellato, l’enzima aroB (3-deidroquinato sintasi) è presente nel cloroplasto ed è fuso con una O-metiltransferasi (25). Quando la sequenza completa della proteina di fusione di O. marina è stata usata in una ricerca BLAST contro il DNA tradotto di N. vectensis, è stato evidente che un gene della proteina di fusione era presente anche in N. vectensis (SI Dataset 4). Questo gene contiene cinque introni. Quando il segmento aroB del gene è stato utilizzato per costruire un albero filogenetico con i risultati BLAST più vicini (Fig. 2), la sequenza di N. vectensis è emersa come la più vicina a quelle di due dinoflagellati (O. marina e Heterocapsa triquetra) che possiedono ciascuno il gene di fusione completo. Ancora una volta, questo gene potrebbe essere coinvolto nella sintesi dei precursori che portano ai metaboliti secondari derivati dal percorso shikimate, in particolare il 3-deidroquinato, il punto di diramazione intermedio putativo della biosintesi MAA (5).
Albero filogenetico che mostra la relazione della sequenza proteica dedotta della parte aroB della proteina AroB-O-metiltransferasi di N. vectensis con proteine omologhe di dinoflagellate. Le sequenze sono state allineate con CLUSTALW e l’albero è stato costruito usando l’algoritmo neighbor-joining con distanze derivate dal modello Jones-Taylor-Thornton (usando PHYLIP versione 3.63). L’albero è stato radicato usando Anabaena variabilis come gruppo esterno. Le distanze sono la proporzione di sostituzioni aminoacidiche, e sono mostrati i valori di bootstrap basati su 100 campioni.
Poiché i dinoflagellati endosimbiotici sono spesso associati agli cnidari, si doveva considerare la possibilità che ci fosse un dinoflagellato non rilevato a contaminare la sequenza di N. vectensis. Le sequenze proteiche predette derivate dai geni vicini su entrambi i lati dell’omologo aroB-like sono state utilizzate per le ricerche BLAST. Gli allineamenti più vicini sono stati con vari vertebrati e con sequenze dal riccio di mare Strongylocentrotus purpuratus, il che rende improbabile che questi geni del percorso shikimate nel genoma del metazoo ospite siano da contaminazione da parte del genoma di un dinoflagellato associato (SI Dataset 5). Inoltre, tre sequenze di proteine putative di O. marina sono state utilizzate per ricerche BLAST contro N. vectensis. I migliori risultati sono stati utilizzati per costruire un albero filogenetico, e in nessun caso le sequenze di N. vectensis e O. marina erano strettamente correlate (Fig. 3). Va sottolineato, tuttavia, che sono necessarie ulteriori prove per determinare la funzione presunta di questi geni e per la prova della loro acquisizione da trasferimento genico orizzontale (HGT) in N. vectensis, in particolare perché gli cnidari hanno presumibilmente conservato i geni che hanno ereditato da antenati non-metazoi (26). Anche se l’importanza dell’HGT nell’evoluzione eucariotica rimane controversa, c’è una prova indipendente del verificarsi di un altro evento HGT in N. vectensis. L’esame genomico comparativo degli enzimi del ciclo del gliossilato ha rivelato il probabile trasferimento di una isocitrato liasi bifunzionale (ICL) e di un MS, codificato da un gene fuso ICL-MS da un precursore batterico, al genoma di N. vectensis (27). I nostri risultati sono simili a quelli di altri che riportano prove di trasferimento di geni a specie di acqua dolce cnidari (Hydra) da più partner eucarioti ancestrali (18, 28).
Albero filogenetico delle sequenze della proteina PCNA. La sequenza della proteina PCNA di O. marina è stata utilizzata per una ricerca BLAST contro le sequenze genomiche tradotte di N. vectensis. Gli allineamenti BLAST sono stati utilizzati per assemblare la sequenza della proteina di N. vectensis. Le sequenze delle due specie sono state utilizzate per le ricerche BLAST di GenBank, e una selezione dei migliori risultati per ogni specie è stata utilizzata per costruire un albero filogenetico utilizzando l’algoritmo neighbor-joining nei programmi del pacchetto PHYLIP (versione 3.63). La distanza è la proporzione delle sostituzioni nucleotidiche.
Il nostro mining genomico di N. vectensis ha rivelato un’altra sorpresa oltre al trasferimento di geni da un batterio e una dinoflagellata al genoma dello cnidario. Abbiamo trovato sette buoni allineamenti di sequenza corrispondenti a cinque potenziali geni del percorso dell’acido shikimico. Tra questi c’erano quattro allineamenti molto forti corrispondenti ai geni aroA, aroB, aroC e aroE di E. coli (SI Dataset 6). Le sequenze proteiche predette di questi geni sono state utilizzate in query di ricerca BLAST (29) contro il database GenBank del National Center for Biotechnology Information (NCBI) per rivelare sequenze correlate. In tutti e quattro i casi, le migliori corrispondenze erano con i geni del percorso dell’acido shikimico nei Flavobacteria, avendo ≈70% di identità aminoacidica (SI Dataset 7). Nella maggior parte dei casi Tenacibaculum sp. MED152, il cui genoma è in fase di sequenziamento (www.moore.org/marine-micro.aspx), è stata la migliore corrispondenza, anche se una stretta somiglianza può essere influenzata dalla distorsione del database per questo batterio. Un quinto gene in N. vectensis corrispondeva ai geni aroF-H di E. coli, che codificano isoenzimi per la 3-deossi-d-arabinoheptulosonate-7-fosfato sintasi (DAHPS). Tuttavia, le ricerche BLAST hanno mostrato che i migliori risultati (90% di identità aminoacidica) sono i geni kdsA di Flavobacteria; questi codificano altri isoenzimi della famiglia DAHPS che sono coinvolti nella sintesi dei lipopolisaccaridi.
L’alta somiglianza delle sequenze geniche di N. vectensis con quelle del percorso shikimate batterico potrebbe essere spiegata da un recente evento HGT o dalla contaminazione del DNA batterico nelle sequenze del genoma di N. vectensis. L’uso del codone era simile a Tenacibaculum piuttosto che a N. vectensis. Sono state identificate due sequenze che sembravano essere frammenti significativi di geni 16S rRNA batterici. Una sequenza 16S rRNA (985 bp; SI Dataset 8a ) ha mostrato la somiglianza più vicina alle sequenze di Pseudomonas. Tuttavia, poiché non apparteneva a uno scaffold contenente altre sequenze batteriche e non sono state rilevate altre sequenze genomiche simili a Pseudomonas, è probabile che derivi da un contaminante di sequenziamento. Poiché i dati originali di sequenziamento shotgun non erano disponibili per noi, non abbiamo potuto analizzare il genoma di N. vectensis utilizzando una versione recentemente rilasciata dello strumento di annotazione del gene Glimmer (http://cbcb.umd.edu/software/glimmer; rif. 30), che sarebbe stato un modo utile per quantificare la percentuale dell’ologenoma codificato su piccoli scaffold e probabile, quindi, essere da batteri viventi.
L’altra sequenza di 16S rRNA apparteneva a uno scaffold, che conteneva anche sequenze di 23S rRNA in una disposizione tipica degli operoni di rRNA (720 bp; SI Dataset 8b ), e un albero filogenetico della porzione di 16S rRNA (Fig. 4) ha mostrato che proveniva da un flavobatterio, ma non poteva essere assegnato a un genere noto. Gli alberi filogenetici sono stati costruiti anche per le sequenze aroA, aroB, aroC e aroE, con risultati simili. Un’ulteriore considerazione era che gran parte del genoma di N. vectensis era organizzato in grandi impalcature, mentre questi frammenti di 16S rRNA erano presenti in piccole impalcature da cui sono stati sequenziati brevi contigs, in modo da rivelare solo sequenze geniche incomplete. Questo risultato ha dato la prima indicazione che questi frammenti di 16S rRNA potrebbero provenire da una contaminazione batterica piuttosto che dal DNA genomico di N. vectensis in senso stretto. Il progetto del genoma del Tenacibaculum ha identificato la maggior parte dei suoi geni, e le 2.679 sequenze proteiche previste dall’annotazione genomica sono state utilizzate per una ricerca BLAST contro il DNA tradotto di N. vectensis. Quando è stato utilizzato un valore atteso rigoroso di <10-30, 509 delle sequenze di Tenacibaculum (19%) hanno dato risultati positivi. Tuttavia, un cutoff meno rigoroso (10-10) ha dato 1.563 (58%) riscontri. In molti di questi casi, i valori attesi più alti erano associati a sequenze parziali, poiché i riscontri erano in scaffold più piccoli che avevano contigs piccoli con molte basi negli scaffold non determinati. Infatti, i geni aroE e kdsA erano alle estremità dei contigs in modo che le loro sequenze erano troncate e mancavano gli ultimi 40 o 25 aa, rispettivamente. Sebbene non si possa escludere una contaminazione accidentale del modello originale di N. vectensis, una possibilità eccitante è che le sequenze provengano da un associato flavobatterico precedentemente insospettato simile al Tenacibaculum.
Albero filogenetico che mostra la relazione della sequenza del gene 16S rRNA trovata nella sequenza del genoma di N. vectensis (frammento 720-bp nella voce c429301624.Contig1 di StellaBase, http://evodevo.bu.edu/stellabase; SI Dataset 8a ) con le sequenze dei ceppi tipo più vicini nel Ribosomal Data Base Project II (release 9.52; http://rdp.cme.msu.edu). Le distanze sono state calcolate da un allineamento CLUSTAL W utilizzando il modello F84, e l’albero è stato costruito come in Fig. 3.
C’è un supporto indipendente per la nostra tesi che le sequenze di cui sopra nel genoma pubblicato per N. vectensis possono provenire da batteri associati con le prime fasi di sviluppo dell’anemone. Gli autori del genoma di Nematostella vectensis riportato (20), nel loro materiale di supporto online (Supplemento S2 in www.sciencemag.org/cgi/content/full/317/5834/86/DC1), hanno esplicitamente dichiarato di aver preparato il DNA genomico dalle larve per evitare la contaminazione da commensali o simbionti che sono stati segnalati per gli adulti, anche se non hanno dato alcun riferimento per quest’ultima affermazione riguardante tali associati. Nonostante questa precauzione, ci sono risultati separati che il DNA isolato da embrioni e larve di planule precoci di questo anemone di mare contengono sequenze 16S rRNA ottenute da ampliconi PCR attribuiti a batteri, compresi quelli degli stessi gruppi (Flavobacteria e Pseudomonas) che riportiamo qui (H. Marlow e M. Q. Martindale, comunicazione personale).
I soci batterici degli cnidari sono noti da almeno 30 anni (es, 31 e 32), e più recentemente sono stati visualizzati al microscopio come epibionti ed endosimbionti in due specie di Hydra d’acqua dolce (33) e come aggregati avvolti da un involucro nelle caverne tra le cellule ectodermiche dell’anemone di mare nominalmente non simbiotico Metridium senile (34). Tale intima associazione con cellule metazoiche prive di una barriera fisica esterna si presta a interazioni dirette ospite-microbo che si manifestano variamente come patogenicità nei coralli (35), lo sviluppo della risposta immunitaria in Cnidaria (33), e una stretta integrazione simbiotica che culmina in HGT da batteri a ospite cnidari come dimostrato qui. Praticamente nulla si sa della funzione biosintetica o di altre funzioni metaboliche dei batteri simbiotici con gli ospiti cnidari, un argomento che, come molti altri nella moderna microbiologia marina, merita un’indagine.
HGT tra i batteri e alcuni metazoi (ecdysozoi, compresi insetti e nematodi) è stato recentemente dimostrato da Baldo et al. (36) di essere più diffuso di quanto sospettato. Hanno notato che le sequenze batteriche sono state considerate in precedenza come contaminazione e sistematicamente escluse dai progetti di sequenziamento del genoma eucariotico, forse mascherando l’importanza di tale trasferimento in diversi invertebrati. In precedenza, la sequenza del genoma dell’endosimbionte batterico Carsonella ruddii trovato negli afidi è stata resa pubblica (37, 38). Il confronto di questa sequenza genomica con quella di un altro endosimbionte batterico degli afidi, Buchnera aphidicola, ha mostrato che entrambi i genomi avevano subito una considerevole delezione, compresa la perdita di alcuni geni che codificano vie metaboliche essenziali. Una di queste vie mancanti che porta alla formazione dell’aminoacido aromatico triptofano in C. ruddii ha attirato la nostra attenzione. Secondo il dogma (10), i precursori di questo aminoacido essenziale dovrebbero essere sintetizzati attraverso la via dell’acido shikimico nei batteri commensali. Di nuovo, abbiamo cercato allineamenti di sequenza globali per i geni che codificano gli enzimi della via dell’acido shikimico in questi genomi batterici. Abbiamo trovato un gene che codifica una fosfoliazione putativa 5-enolpiruvilshikimate-3-fosfato in C. ruddii (anche se se questo gene sarebbe trascrivere un prodotto funzionale è discutibile a causa del gran numero di codoni di stop nella sequenza), e solo tre (quelli che codificano shikimate 5-deidrogenasi, 5-enolpyruvylshikimate-3-fosfato fosfolasi, e 5-enolpyruvylshikimate-3-fosfato sintasi) dei sette geni per il percorso erano evidenti nel genoma di B. aphidicola (SI Dataset 9). Insieme ai nostri risultati per il simbionte putativo Tenacibaculum-like e il suo ospite N. vectensis, questa evidenza suggerisce fortemente che la perdita della funzione metabolica essenziale nell’endosimbionte è un processo continuo di trasferimento e cancellazione di geni nell’evoluzione delle simbiosi che potrebbe infine portare all’estinzione del simbionte attraverso la progressiva assimilazione del suo materiale genetico nel genoma dell’ospite (37, 38).
L’elucidazione degli “adattamenti metabolici condivisi”, dove la produzione di metaboliti essenziali coinvolge l’input dei partner di una simbiosi (anche se uno è degenerato), richiederà un’ulteriore dissezione genomica dell’organizzazione unica e del funzionamento molecolare delle simbiosi invertebrate-microbiche. Questo è evidenziato dalla nostra scoperta che due dei geni per gli enzimi della via shikimica, classicamente detti assenti dagli “animali”, sono codificati nel genoma dell’ospite metazoo. La misura in cui tale HGT, o il coinvolgimento di insospettabili consorterie batteriche, possa spiegare le apparenti anomalie metaboliche negli cnidari descritte nell’introduzione, richiede ulteriori indagini. La comprensione di questi processi può inoltre fornire una comprensione critica della causa della disfunzione metabolica evocata dal cambiamento climatico e dallo stress ambientale, in particolare nelle fragili simbiosi dei coralli tropicali e di altri cnidari marini.