Il Progetto 1000 Genomi è un consorzio di ricerca internazionale che è stato istituito nel 2007 con l’obiettivo di sequenziare i genomi di almeno 1.000 volontari provenienti da diverse popolazioni in tutto il mondo al fine di migliorare la nostra comprensione del contributo genetico alla salute e alla malattia umana. Il supporto globale è stato fornito da importanti istituzioni, tra cui il Wellcome Trust Sanger Institute (Regno Unito), il Beijing Genomics Institute (Cina) e l’US National Human Genome Research Institute. L’obiettivo del progetto era quello di produrre un catalogo delle variazioni umane fino alle varianti che si verificano all’1% di frequenza o meno sul genoma, al fine di facilitare gli studi genetici sulle malattie umane comuni (1).
Un importante documento, pubblicato nel numero 1 ottobre 2015 di Nature, segna il completamento della fase finale del progetto colossale: un database completo, ad accesso aperto, di variazioni genetiche da 2.504 individui provenienti da 26 popolazioni di tutto il mondo (2). I genotipi sono stati ottenuti utilizzando una combinazione di sequenziamento dell’intero genoma, sequenziamento profondo dell’esoma e microarray ad alta densità di polimorfismi a singolo nucleotide (SNPs). La caratterizzazione delle varianti si è basata su un set di 24 strumenti di analisi della sequenza. Nel complesso, il progetto ha scoperto e caratterizzato più di 88 milioni di varianti, tra cui 84,7 milioni di SNPs, 2,6 milioni di inserzioni/cancellazioni brevi (indel), e 60.000 varianti strutturali, che sono state integrate in uno scaffold aplotipico di alta qualità.
Alcuni risultati salienti: Rispetto al genoma umano di riferimento, un genoma tipico differisce di circa 4 a 5 milioni di siti, il 99,9% di queste varianti sono SNPs e brevi indel. Il numero di siti di varianti è maggiore negli individui di origine africana, come previsto dal modello di espansione umana fuori dall’Africa. Le analisi delle varianti che più probabilmente influenzano la funzione del gene hanno rivelato che un genoma tipico contiene ~150 siti con varianti di troncamento della proteina, ~10.000 siti con varianti che alterano la sequenza del peptide e ~ 500.000 siti di varianti che si sovrappongono alle regioni di regolazione come promotori, esaltatori o siti di legame dei fattori di trascrizione. È importante notare che ~ 2.000 varianti per genoma sono state associate a tratti complessi attraverso studi di associazione genome-wide (GWAS) e 24 – 30 varianti per genoma implicate in malattie rare attraverso ClinVar (un database delle relazioni tra variazioni umane e fenotipi). Altre analisi hanno fornito informazioni sulla storia della popolazione, la demografia delle popolazioni antenate e la risoluzione degli studi di associazione genetica (2).
I risultati del Progetto 1000 Genomi, che attestano i benefici della “scienza basata sul consorzio”, completano un insieme di informazioni genomiche già in uso da diversi anni. Tali informazioni sono particolarmente utili per la progettazione di array di genotipizzazione, la genetica delle popolazioni (ad esempio l’imputazione dei genotipi in GWAS, la definizione delle varianti nelle regioni di interesse, il filtraggio delle varianti probabilmente neutre), e le indagini sulla selezione naturale, la struttura della popolazione e la commistione. I principali vantaggi del set di dati del Progetto 1000 Genomi includono l’ampia rappresentazione della variazione genetica umana (con una copertura molto migliorata delle popolazioni dell’Asia meridionale e dell’Africa); l’uso di strategie di analisi multiple, aumentando la qualità del filtraggio e della mappatura e permettendo la cattura di tipi più diversi di varianti genetiche; e l’ampia disponibilità di campioni e dati risultanti dal progetto. Complessivamente, questi elementi contribuiranno a fornire ulteriori approfondimenti sulle basi genetiche delle malattie. Saranno utilizzati, per esempio, negli sforzi in corso per decifrare la base genetica del trasporto peritoneale e l’esito della dialisi peritoneale.
“Ora questa non è la fine… Ma è, forse, la fine dell’inizio” come disse Winston Churchill. I progetti di sequenziamento su larga scala continueranno per altri gruppi regionali o etnici, al fine di estendere la copertura globale. Molti sforzi si concentreranno su una migliore comprensione della relazione tra variazione genetica e disturbi comuni. La traduzione di queste massicce informazioni genetiche alla salute umana trarrà vantaggio dallo sviluppo di complessi database che raccolgono dati genetici, clinici e biologici, come i profili multiomici, pur mantenendo la protezione delle informazioni personali potenzialmente sensibili (3). Sono anche in corso sforzi per aumentare la consapevolezza genetica nel pubblico e per educare i professionisti della salute (http://www.1000genomes.org/about).