Projekt 1000 Genomów jest międzynarodowym konsorcjum badawczym, które zostało założone w 2007 roku w celu sekwencjonowania genomów co najmniej 1000 ochotników z wielu populacji na całym świecie, aby poprawić nasze zrozumienie genetycznego wkładu w ludzkie zdrowie i choroby. Globalnego wsparcia udzieliły największe instytucje, w tym Wellcome Trust Sanger Institute (Wielka Brytania), Beijing Genomics Institute (Chiny) oraz amerykański National Human Genome Research Institute. Celem projektu było stworzenie katalogu zmienności człowieka aż do wariantów, które występują z częstotliwością 1% lub mniej w całym genomie, w celu ułatwienia badań genetycznych nad powszechnymi chorobami człowieka (1).
Duża praca, opublikowana w numerze Nature z 1 października 2015 roku, oznacza zakończenie ostatniej fazy tego kolosalnego projektu: kompleksowa, ogólnodostępna baza danych zmienności genetycznej od 2 504 osób z 26 populacji z całego świata (2). Genotypy uzyskano dzięki połączeniu sekwencjonowania całego genomu, głębokiego sekwencjonowania eksomu oraz mikromacierzy pojedynczych polimorfizmów nukleotydów (SNPs) o dużej gęstości. Charakterystykę wariantów oparto na zestawie 24 narzędzi do analizy sekwencji. W sumie w ramach projektu odkryto i scharakteryzowano ponad 88 milionów wariantów, w tym 84,7 miliona SNP, 2,6 miliona krótkich insercji/delecji (indeli) i 60 000 wariantów strukturalnych, które zostały zintegrowane z wysokiej jakości rusztowaniem haplotypowym.
Kilka istotnych ustaleń: W porównaniu z referencyjnym genomem ludzkim, typowy genom różni się w ~ 4 do 5 mln miejsc, przy czym 99,9% tych wariantów to SNP i krótkie indele. Liczba miejsc wariantów jest największa u osób o afrykańskim rodowodzie, zgodnie z oczekiwaniami na podstawie modelu ekspansji człowieka poza Afryką. Analiza wariantów najprawdopodobniej wpływających na funkcję genów ujawniła, że typowy genom zawierał ~150 miejsc z wariantami obcinającymi białka, ~10,000 miejsc z wariantami zmieniającymi sekwencję peptydów i ~500,000 miejsc z wariantami nakładającymi się na regiony regulacyjne, takie jak promotory, enhancery lub miejsca wiązania czynników transkrypcyjnych. Co ważne, ~2,000 wariantów na genom było związanych ze złożonymi cechami poprzez badania asocjacyjne (GWAS), a 24-30 wariantów na genom było związanych z rzadkimi chorobami poprzez ClinVar (baza danych zależności pomiędzy ludzkimi wariantami i fenotypami). Inne analizy dostarczyły informacji o historii populacji, demografii populacji przodków i rozdzielczości badań asocjacji genetycznych (2).
Wyniki Projektu 1000 Genomes, które świadczą o korzyściach płynących z „nauki opartej na konsorcjum”, uzupełniają zestaw informacji genomowych, które są już w użyciu od kilku lat. Takie informacje są szczególnie przydatne w projektowaniu tablic genotypowych, genetyce populacyjnej (np. imputacja genotypu w GWAS, definiowanie wariantów w regionach zainteresowania, filtrowanie prawdopodobnych wariantów neutralnych) oraz badaniach nad selekcją naturalną, strukturą populacji i domieszkami. Główne zalety zestawu danych Projektu 1000 Genomes obejmują szeroką reprezentację ludzkiej zmienności genetycznej (ze znacznie lepszym pokryciem populacji południowoazjatyckich i afrykańskich); wykorzystanie wielu strategii analizy, co zwiększa jakość filtrowania i mapowania oraz pozwala na wychwycenie bardziej zróżnicowanych typów wariantów genetycznych; oraz szeroką dostępność próbek i danych wynikających z projektu. W sumie elementy te przyczynią się do zapewnienia dalszego wglądu w genetyczne podstawy chorób. Zostaną one wykorzystane, na przykład, w trwających wysiłkach mających na celu rozszyfrowanie genetycznych podstaw transportu otrzewnowego i wyników dializy otrzewnowej.
„Teraz to nie koniec… Ale jest to, być może, koniec początku”, jak powiedział Winston Churchill. Projekty sekwencjonowania na dużą skalę będą kontynuowane dla kolejnych grup regionalnych lub etnicznych, w celu rozszerzenia globalnego zasięgu. Wiele wysiłków zostanie skupionych na lepszym zrozumieniu związku między zmiennością genetyczną a powszechnymi zaburzeniami. Przełożenie tych ogromnych informacji genetycznych na zdrowie człowieka będzie możliwe dzięki rozwojowi złożonych baz danych gromadzących dane genetyczne, kliniczne i biologiczne, takich jak profile multi-omiczne, przy jednoczesnym zachowaniu ochrony potencjalnie wrażliwych danych osobowych (3). Podejmowane są również wysiłki mające na celu zwiększenie świadomości genetycznej w społeczeństwie oraz kształcenie pracowników służby zdrowia (http://www.1000genomes.org/about).