- Szybkie obrazowanie kulek żelowych i komórek w GEM-ach
- Linie komórkowe i próbki pacjentów po przeszczepach
- Oszacowanie zawartości RNA na komórkę
- Przygotowanie komórek
- Konstrukcja biblioteki sekwencjonowania przy użyciu platformy GemCode
- ERCC assay
- test ddPCR
- Obliczanie wydajności wychwytywania komórek
- Test chimeryzmu
- Przydzielanie, przypisywanie kodów kreskowych i liczenie UMI
- Analiza PCA mieszania komórek Jurkat i 293T
- Analiza SNV danych Jurkat i 293T scRNA-seq
- Analiza PCA i tSNE PBMCs
- Identyfikacja genów specyficznych dla klastra i klasyfikacja oparta na markerach
- Selekcja oczyszczonych subpopulacji PBMCs
- Analiza klasyfikacji komórek przy użyciu oczyszczonych PBMCs
- Klasteryzacja i klasyfikacja komórek za pomocą programu Seurat
- Porównanie świeżych i mrożonych PBMC
- SNV-based genotype assignment
- Porównanie genotypu z czystą próbką
- Analiza PCA i tSNE BMMCs
- Dostępność danych
Szybkie obrazowanie kulek żelowych i komórek w GEM-ach
Mikroskop (Nikon Ti-E, obiektyw × 10) i szybka kamera wideo (Photron SA5, częstotliwość odświeżania=4000 s-1) zostały użyte do obrazowania każdego GEM-a w miarę ich generowania w układzie mikroprzepływowym. Do zliczania liczby wygenerowanych GEM i liczby kulek obecnych w każdym GEM wykorzystano własne oprogramowanie analityczne, bazujące na detekcji krawędzi i kontraście pomiędzy krawędziami kulek i krawędziami GEM a przylegającą cieczą. Wyniki analizy podsumowano na ryc. 1c. W celu oszacowania rozmieszczenia komórek w GEM zastosowano ręczne zliczanie dla ∼28k klatek jednego filmu na podzbiorze GEM. Wyniki wskazują na przybliżoną zgodność z rozkładem Poissona. Jednakże odsetek wielokrotnych enkapsulacji komórek był o 16% wyższy od wartości oczekiwanej, prawdopodobnie z powodu błędu podpróbkowania lub interakcji komórka-komórka (podczas ręcznego liczenia zaobserwowano kilka dwukomórkowych zbitek) (Supplementary Fig. 1b).
Linie komórkowe i próbki pacjentów po przeszczepach
Komórki Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) i 3T3 (ATCC CRL-1658) pozyskano z ATCC i hodowano zgodnie z wytycznymi ATCC. Świeże PBMCs, mrożone PBMCs i BMMCs zostały zakupione od ALLCELLS. Zamrożone PBMC od dawcy A zostały wytworzone ze świeżych PBMC od dawcy A przez zmieszanie 1e6 komórek w podłożu zamrażającym (15% dimetylosulfotlenek (DMSO) w zmodyfikowanym podłożu Dulbecco’s Iscove’a zawierającym 20% FBS) delikatnie, i schłodzone w CoolCell FTS30 (BioCision) w -80 ° C przez co najmniej 4 godziny przed przeniesieniem do ciekłego azotu do przechowywania przez 3 tygodnie.
Institutional Review Board w Fred Hutchinson Cancer Research Center zatwierdził badanie na próbkach przeszczepu. Stosowane procedury były zgodne z Deklaracją Helsińską z 1975 roku i Wspólną Regułą. Próbki uzyskano po dostarczeniu przez pacjentów pisemnej świadomej zgody na analizy molekularne. Zidentyfikowaliśmy pacjentów z AML poddanych allogenicznemu przeszczepowi krwiotwórczych komórek macierzystych w Fred Hutchinson Cancer Research Center. Rozpoznanie AML ustalono zgodnie ze zmienionymi kryteriami Światowej Organizacji Zdrowia33.
Aspiraty szpiku kostnego uzyskano do standardowych badań klinicznych 20-30 dni przed przeszczepem i seryjnie po przeszczepie zgodnie z protokołem leczenia. Alikwoty aspiratu szpiku kostnego były przetwarzane w ciągu 2 h od pobrania. BMMCs izolowano za pomocą wirowania przez gradient Ficoll (Histopaque-1077; Sigma Life Science, St Louis, MO, USA). BMMC były zbierane z granicy surowica-Ficoll za pomocą jednorazowej pipety Pasteura i przenoszone do 50 ml probówki stożkowej z 2% surowicą pacjenta w 1 × PBS. BMMC były liczone przy użyciu hemakytometru, a żywotność oceniano przy użyciu błękitu Trypanu. BMMC zostały ponownie zawieszone w 90% FBS, 10% DMSO pożywce zamrażającej i zamrożone za pomocą Nalgene Mr Frosty (Thermo Scientific) w zamrażarce -80 ° C przez 24 godziny przed przeniesieniem do ciekłego azotu w celu długotrwałego przechowywania.
Oszacowanie zawartości RNA na komórkę
Ilość RNA na typ komórki określono przez ilościowe oznaczenie (Qubit; Invitrogen) RNA wyekstrahowanego (Maxwell RSC simplyRNA Cells Kit) z kilku różnych komórek o znanej liczbie.
Przygotowanie komórek
Świeże komórki zbierano, przemywano 1 × PBS i ponownie zawieszano przy 1 × 106 komórek na ml w 1 × PBS i 0,04% albuminie surowicy bydlęcej. Świeże PBMC zostały zamrożone przy 10 × przez ponowne zawieszenie PBMC w DMEM+40% FBS+10% DMSO, zamrożenie do -by °C w urządzeniu CoolCell® FTS30 (BioCision), a następnie umieszczenie w ciekłym azocie do przechowywania.
Fiolki z zamrożonymi komórkami z ALLCELLS i badań nad przeszczepami zostały szybko rozmrożone w łaźni wodnej o temperaturze 37 °C przez ∼2 minuty. Fiolki usuwano, gdy pozostawały na nich drobne kryształki lodu. Rozmrożone PBMC płukano dwukrotnie w pożywce, a następnie ponownie zawieszano w 1 × PBS i 0,04% surowiczej albuminie bydlęcej w temperaturze pokojowej. Komórki odwirowywano przy 300 obrotach na minutę przez 5 minut za każdym razem. Rozmrożone BMMC płukano i ponownie zawieszano w 1 × PBS i 20% FBS. Końcowe stężenie rozmrożonych komórek wynosiło 1 × 106 komórek na ml.
Konstrukcja biblioteki sekwencjonowania przy użyciu platformy GemCode
Zawiesiny komórkowe załadowano do GemCode Single-Cell Instrument (10x Genomics, Pleasanton, CA, USA) w celu wygenerowania jednokomórkowych GEM. Jednokomórkowe biblioteki RNA-Seq zostały przygotowane przy użyciu GemCode Single-Cell 3′ Gel Bead and Library Kit (obecnie sprzedawane jako P/N 120230, 120231, 120232, 10x Genomics). GEM-RT przeprowadzono w termocyklerze C1000 Touch z modułem 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197): 55 °C przez 2 h, 85 °C przez 5 min; utrzymywano w temperaturze 4 °C. Po RT, GEM-y zostały przerwane, a jednoniciowy cDNA oczyszczono przy użyciu DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) i SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318). cDNA amplifikowano przy użyciu termocyklera C1000 Touch z modułem 96-Deep Well Reaction Module: 98 °C przez 3 min; cyklicznie 14 × : 98 °C przez 15 s, 67 °C przez 20 s i 72 °C przez 1 min; 72 °C przez 1 min; utrzymywano w temperaturze 4 °C. Wzmocniony produkt cDNA oczyszczono przy użyciu SPRIselect Reagent Kit (0,6 × SPRI). Następnie cDNA było ścinane do ∼200 bp przy użyciu systemu Covaris M220 (Covaris; P/N 500295). Indeksowane biblioteki sekwencjonujące skonstruowano przy użyciu odczynników z zestawu GemCode Single-Cell 3′ Library Kit, wykonując następujące kroki: (1) naprawa końców i ogon A; (2) ligacja adaptera; (3) czyszczenie po ligacji za pomocą SPRIselect; (4) PCR z indeksem próbki i czyszczenie. Biblioteki sekwencjonowania z kodem kreskowym były kwantyfikowane ilościowo metodą PCR (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). Biblioteki sekwencjonujące załadowano w ilości 2,1 pM na urządzenie Illumina NextSeq500 z zestawami 2 × 75 paired-end, stosując następujące długości odczytów: 98 bp Read1, 14 bp I7 Index, 8 bp I5 Index i 10 bp Read2. Niektóre wcześniejsze biblioteki zostały wykonane z 5 nt UMI, a zamiast tego uzyskano 5 bp Read2. Biblioteki te zostały udokumentowane w Tabeli Dodatkowej 1.
ERCC assay
ERCC syntetyczne spike-in RNA (Thermo Fisher Scientific; P/N 4456740) zostały rozcieńczone (1:10 lub 1:50) i załadowane do GemCode Single-Cell Instrument, zastępując komórki normalnie używane do generowania GEM. Testowano zarówno Spike-in Mix1 jak i Mix2. Zastosowano nieznacznie zmodyfikowany protokół, ponieważ tylko niewielka część GEMs została pobrana do RT i amplifikacji cDNA. Po zakończeniu GEM-RT, 1,25 μl emulsji zostało usunięte i dodane do dwufazowej mieszaniny czynnika odzysku (125 μl) (P/N 220016) i 25 mM dodatku 1 (30 μl) (P/N 220074, 10x Genomics). Następnie usunięto czynnik odzyskujący, a pozostały roztwór wodny oczyszczono przy użyciu zestawu SPRISelect Reagent Kit (0,8 × SPRI). cDNA amplifikowano przy użyciu termocyklera C1000 Touch z modułem 96-Deep Well Reaction Module: 98 °C przez 3 min; cyklizowano 14 × : 98 °C przez 15 s, 67 °C przez 20 s i 72 °C przez 1 min; 72 °C przez 1 min; utrzymywano w temp. 4 °C. Amplifikowany produkt cDNA oczyszczano przy użyciu SPRIselect Reagent Kit (0,8 × ) cDNA był następnie ścinany do ∼200 bp przy użyciu systemu Covaris M220 w celu skonstruowania bibliotek indeksowanych próbkami z adapterami 10x Genomics. Oczekiwana liczba cząsteczek ERCC została obliczona na podstawie ilości użytych cząsteczek ERCC i współczynników rozcieńczenia próbki. Liczby te porównano z liczbą wykrytych cząsteczek (UMI counts) w celu obliczenia wydajności konwersji.
test ddPCR
Komórki Jurkat wykorzystano w testach ddPCR w celu oszacowania wydajności konwersji w następujący sposób: (1) ilość RNA na komórkę Jurkat określono poprzez ilościowe oznaczenie (Qubit, Invitrogen) RNA wyekstrahowanego (Maxwell RNA Purification Kits) z kilku różnych komórek Jurkat o znanej liczbie. (2) Masowe RT-ddPCR (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) zostało wykonane na wyekstrahowanym RNA w celu określenia liczby kopii na komórkę ośmiu wybranych genów. (3) Około 5 000 komórek Jurkat przetworzono przy użyciu platformy GemCode Single-Cell 3′, a jednoniciowy cDNA zebrano po RT w GEMs zgodnie z protokołami wymienionymi w sekcji „Konstrukcja biblioteki sekwencjonowania przy użyciu platformy GemCode”. Kopie cDNA ośmiu genów określono przy użyciu ddPCR (Bio-Rad ddPCR Supermix for Probes (bez dUTP) P/N 1863024). Rzeczywista liczba komórek Jurkat została ustalona przez sekwencjonowanie podzbioru reakcji GEM-RT na MiSeq. Wydajność konwersji jest stosunkiem między kopiami cDNA na komórkę (krok 3) i kopiami RNA na komórkę z masowego RT-ddPCR (krok 2), przy założeniu 50% wydajności w RT-ddPCR34.
Sekwencje sond dla testu ddPCR są następujące: SERAC1_f, 5′-CACGAGCCGCCAGC-3′ i SERAC1_r, 5′-TCTGCAACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCATGTCTAAGC-3′ i AP1S3_r, 5′-CCTTGTCGACTGAAGAGCAATATATG-3′; AP1S3_p: /56-FAM/CGGCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGTCTCGTOR-3′ i AOV1_r, 5′-TTCTTCATAGCCTTCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGAGGTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGACGGA-3′ i DOLPP1_r, 5′-GGCTCAGGTAGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ i KPNA6_r, 5′-CCCTGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCGC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGACAGGCTACGCAACAG-3′ i ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCGCTTCCA-3′ i LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGGTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGCAGACG-3′ i AP2M1_r, 5′-ATGGCGCAGATCAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCT/ZEN/GAGAACAGACCTGTGTG/3IABkFQ/.
Obliczanie wydajności wychwytywania komórek
Wydajność oblicza się, biorąc stosunek liczby komórek wykrytych przez sekwencjonowanie do liczby komórek załadowanych do chipa. Ta ostatnia jest określana na podstawie (dodana objętość × wejściowe stężenie komórek). Stężenie wejściowe komórek zostało określone przy użyciu automatycznego licznika komórek Countess II (Thermo Fisher Scientific). Warto zauważyć, że istnieje 15-20% błąd w liczeniu komórek, co może odpowiadać za przynajmniej część zmienności w obliczonych wydajnościach.
Test chimeryzmu
Systemu PowerPlex 16 (Promega) użyto w połączeniu z analizatorem genetycznym Applied Biosystems (Life Technologies) 3130xl. BMMC dawcy były używane jako referencyjna linia podstawowa.
Przydzielanie, przypisywanie kodów kreskowych i liczenie UMI
Program Cell Ranger Single-Cell Software Suite był używany do wykonywania demultipleksowania próbek, przetwarzania kodów kreskowych i liczenia genów 3′ pojedynczej komórki (http://software.10xgenomics.com/single-cell/overview/welcome). Najpierw przeprowadzono demultipleksowanie próbki w oparciu o odczyt indeksu próbki 8 bp w celu wygenerowania FASTQ dla odczytów Read1 i Read2 w układzie sparowanym, jak również kodu kreskowego GemCode 14 bp. Z odczytu2 wyekstrahowano znaczniki UMI o długości 10 bazepair (14 bibliotek wykonano ze znacznikami UMI o długości 5 bp, jak zaznaczono w Tabeli Dodatkowej 1, ze względu na wcześniejszą iterację metod. Dla tych próbek 5 bp znaczników UMI wyekstrahowano z Read2). Następnie Read1, zawierający wstawkę cDNA, został wyrównany do odpowiedniego genomu referencyjnego przy użyciu programu STAR35. Dla komórek mysich użyto mm10, a dla komórek ludzkich hg19. Dla próbek z mieszankami komórek mysich i ludzkich użyto unii hg19 i mm10. Dla próbek ERCC użyto referencji ERCC (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt).
Następnie odfiltrowano kody kreskowe GemCode i UMI. Rozważono wszystkie znane wymienione kody kreskowe, które znajdują się w odległości 1-Hamming-distance od obserwowanego kodu kreskowego. Następnie oblicza się prawdopodobieństwo potomne, że zaobserwowany kod kreskowy powstał w wyniku błędu sekwencjonowania, biorąc pod uwagę cechy bazowe zaobserwowanego kodu kreskowego i prawdopodobieństwo uprzednie zaobserwowania kodu kandydującego (wzięte z ogólnego rozkładu liczby kodów kreskowych). Jeśli prawdopodobieństwo wstępne dla dowolnego kandydującego kodu kreskowego wynosi co najmniej 0,975, wówczas kod kreskowy jest korygowany do kandydującego kodu kreskowego o najwyższym prawdopodobieństwie wstępnym. Jeśli wszystkie kandydujące sekwencje są równie prawdopodobne, wówczas wybierana jest ta, która pojawia się jako pierwsza w kolejności leksykalnej.
UMI z wynikiem jakości sekwencjonowania >10 uznano za ważne, jeśli nie były homopolimerami. Qual=10 implikuje 90% dokładność wywoływania bazy. UMI, który jest oddalony o 1-Hamming-distance od innego UMI (z większą liczbą odczytów) dla tego samego kodu paskowego komórki i genu, jest korygowany do UMI z większą liczbą odczytów. Podejście to jest niemal identyczne jak w Jaitin et al.4 i podobne do tego w Klein et al.8 (chociaż Klein et al.8 również używał UMI do rozwiązywania problemu wielomapowanych odczytów, co nie zostało zaimplementowane tutaj).
Na końcu oznaczano duplikaty PCR, jeśli dwa zestawy par odczytów miały wspólną sekwencję kodu kreskowego, znacznik UMI i identyfikator genu (użyto Ensembl GTFs GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz i GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz). Tylko pewnie zmapowane (MAPQ=255), niepoddane PCR duplikaty z ważnymi kodami kreskowymi i UMI zostały użyte do wygenerowania matrycy gen-kod kreskowy.
Kody kreskowe komórek zostały określone na podstawie rozkładu liczby UMI. Wszystkie najwyższe kody kreskowe w obrębie tego samego rzędu wielkości (>10% najwyższego n-tego kodu kreskowego, gdzie n jest 1% oczekiwanej liczby odzyskanych komórek) zostały uznane za kody kreskowe komórek. Liczba odczytów, które dostarczają istotnych informacji, jest obliczana jako iloczyn czterech metryk: (1) ważnych kodów kreskowych; (2) ważnych UMI; (3) związanych z kodem kreskowym komórki; i (4) pewnie zmapowanych do eksonów.
W eksperymentach mieszania myszy i człowieka, szybkość multipletów została zdefiniowana jako dwukrotność szybkości kodów kreskowych komórek z istotnymi liczeniami UMI zarówno od myszy, jak i człowieka, gdzie górny 1% liczebności UMI został uznany za znaczący. Zakres krzyżowania kodów kreskowych oceniano na podstawie frakcji odczytów mysich w kodach kreskowych ludzkich lub odwrotnie.
Próbki przetwarzane z wielu kanałów mogą być łączone przez konkatenację macierzy gen-komórka-kod kreskowy. Ta funkcjonalność jest zapewniona w zestawie Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Dane sekwencjonowania z wielu przebiegów sekwencjonowania biblioteki mogą być łączone przez zliczanie nieduplikowanych odczytów. Funkcjonalność ta jest zapewniona w potoku Cell Ranger. Dodatkowo, dane sekwencjonowania mogą być podpróbkowane w celu uzyskania określonej liczby zliczeń UMI na komórkę. Ta funkcjonalność jest również dostępna w zestawie Cell Ranger R i jest przydatna podczas łączenia danych z wielu próbek w celu ich porównania.
Analiza PCA mieszania komórek Jurkat i 293T
Macierz genów-komórek-kodów kreskowych z każdej z czterech próbek została poddana konkatenacji. Użyto tylko genów z co najmniej jedną liczbą UMI wykrytą w co najmniej jednej komórce. Normalizacja UMI została wykonana poprzez podzielenie liczby UMI przez całkowitą liczbę UMI w każdej komórce, a następnie pomnożenie przez medianę całkowitej liczby UMI w komórkach. Następnie obliczono logarytm naturalny liczby UMI. Na koniec każdy gen został znormalizowany tak, aby średni sygnał dla każdego genu wynosił 0, a odchylenie standardowe 1. Na znormalizowanej macierzy gen-kod paskowy przeprowadzono PCA. Znormalizowane liczby UMI każdego genu zostały użyte do pokazania ekspresji markera na wykresie tSNE.
Analiza SNV danych Jurkat i 293T scRNA-seq
SNVs zostały wywołane przez uruchomienie Freebayes 1.0.2 (ref. 36) na genomie BAM wyprodukowanym przez Cell Ranger. Wybierano SNV wysokiej jakości (SNV calling Qual>=100 z co najmniej 10 liczeniami UMI z co najmniej dwóch komórek; indele są ignorowane), które były obserwowane tylko w komórkach Jurkat lub 293T (ale nie w obu). Komórki zostały oznaczone jako Jurkat lub 293T na podstawie specyficznych dla Jurkat i 293T zliczeń SNV, gdzie frakcja zliczeń z drugiego gatunku jest <0,2. Komórki z frakcją SNV z jednego z gatunków pomiędzy 0,2 a 0,8 są uważane za multiplety. Wywnioskowany wskaźnik multipletów to 2* obserwowany wskaźnik multipletów (aby uwzględnić multiplety Jurkat:Jurkat i 293T:293T).
Analiza PCA i tSNE PBMCs
Użyto genów z co najmniej jedną liczbą UMI wykrytą w co najmniej jednej komórce. Zidentyfikowano 1000 najbardziej zmiennych genów na podstawie ich średniej i dyspersji (wariancja/średnia), co jest podobne do podejścia zastosowanego przez Macoscko i wsp.7 Geny zostały umieszczone w 20 przedziałach na podstawie ich średniej ekspresji. Znormalizowaną dyspersję obliczono jako bezwzględną różnicę między dyspersją a medianą dyspersji średniej ekspresji, znormalizowaną przez medianę bezwzględnego odchylenia w każdym bin.
PCA przeprowadzono na znormalizowanej macierzy gen-kod paskowy 1000 najbardziej zmiennych genów, aby zmniejszyć liczbę wymiarów cech (genów). Normalizacja UMI została przeprowadzona poprzez podzielenie liczby UMI przez całkowitą liczbę UMI w każdej komórce, a następnie pomnożenie przez medianę całkowitej liczby UMI w komórkach. Następnie obliczono logarytm naturalny liczby UMI. Na koniec każdy gen został znormalizowany w taki sposób, aby średnia sygnału dla każdego genu wynosiła 0, a odchylenie standardowe 1. Na znormalizowanej macierzy genów i kodów kreskowych przeprowadzono PCA. Po uruchomieniu PCA, na pierwszych 50 PC wykonano aproksymację Barnesa-huta37 do t-SNE16 w celu wizualizacji komórek w przestrzeni dwuwymiarowej. Pięćdziesiąt PC zostało użytych, ponieważ: (1) wykorzystanie wszystkich PCs zajęłoby bardzo dużo czasu przy analizie tSNE; (2) wyjaśniały one ∼25% całkowitej wariancji. K-means15 clustering został przeprowadzony w celu pogrupowania komórek do analizy skupień. k=10 zostało wybrane w oparciu o sumę kwadratów błędu scree plot (Supplementary Fig. 5d).
Identyfikacja genów specyficznych dla klastra i klasyfikacja oparta na markerach
Aby zidentyfikować geny, które są wzbogacone w określonym klastrze, średnia ekspresja każdego genu została obliczona dla wszystkich komórek w klastrze. Następnie każdy gen z klastra porównywano z medianą ekspresji tego samego genu z komórek we wszystkich innych klastrach. Geny uszeregowano na podstawie różnicy w ich ekspresji i wybrano 10 najlepiej wzbogaconych genów z każdego klastra. Dla klastrowania hierarchicznego obliczono korelację para-wise między każdym klastrem, a wyśrodkowana ekspresja każdego genu została użyta do wizualizacji za pomocą mapy cieplnej.
Klasyfikacja PBMCs została wywnioskowana z adnotacji genów specyficznych dla klastra. W przypadku klastra 10, wykryto ekspresję markerów wielu typów komórek (na przykład B, dendrytycznych i T). Ponieważ względna wielkość klastrów B, dendrytycznych i T wynosi odpowiednio 5,7%, 6,6% i 81%, spodziewalibyśmy się, że klaster 10 (który stanowi tylko 0,5%) będzie zawierał multiplety składające się głównie z B:dendrytycznych (0.36%) i B:dendrytyczne:T (0,3%).
Selekcja oczyszczonych subpopulacji PBMCs
Każda populacja oczyszczonych PBMCs została poddana downsamplingowi do ∼16k odczytów na komórkę. PCA, tSNE i klasteryzację k-średnich przeprowadzono dla każdej matrycy z obniżonym próbkowaniem, wykonując te same kroki, które opisano w analizie PCA i t-SNE PBMCs. W większości próbek wykryto tylko jedno skupisko, co jest zgodne z analizami FACS (Supplementary Fig. 6). Dla próbek z więcej niż jednym klastrem, tylko klastry, które wykazywały oczekiwaną ekspresję genów markerowych zostały wybrane do dalszej analizy. W przypadku monocytów CD14+ zaobserwowano dwa skupiska, które zidentyfikowano jako monocyty CD14+ i komórki dendrytyczne na podstawie ekspresji genów markerowych FTL i CLEC9A, odpowiednio.
Analiza klasyfikacji komórek przy użyciu oczyszczonych PBMCs
Każda populacja oczyszczonych PBMCs została poddana downsamplingowi do ∼16k pewnie zmapowanych odczytów na komórkę. Następnie obliczono średni profil ekspresji genów we wszystkich komórkach. Następnie porównywano ekspresję genów z każdej komórki złożonej populacji z profilami ekspresji genów oczyszczonych populacji PBMC za pomocą korelacji Spearmana. Komórce przypisywano identyfikator oczyszczonej populacji, jeśli miała najwyższą korelację z tą populacją. Zauważ, że różnica między najwyższą i drugą najwyższą korelacją była niewielka dla niektórych komórek (na przykład różnica między cytotoksycznymi komórkami T i NK), co sugeruje, że przypisanie komórki nie było tak pewne dla tych komórek. Kilka z oczyszczonych populacji PBMC pokrywało się ze sobą. Na przykład, komórki T-helper CD4+ obejmują wszystkie komórki CD4+. Oznacza to, że komórki z tej próbki będą nakładać się na komórki z próbek zawierających komórki CD4+, w tym CD4+/CD25+ T reg, CD4+/CD45RO+ T memory, CD4+/CD45RA+/CD25- naive T. Tak więc, gdy komórce przypisano identyfikator komórki CD4+ T-helper w oparciu o wynik korelacji, sprawdzano następną najwyższą korelację, aby sprawdzić, czy była to jedna z próbek CD4+. Jeśli tak było, identyfikator komórki był aktualizowany do typu komórki z następną najwyższą korelacją. Ta sama procedura została wykonana dla CD8+ cytotoksycznych T i CD8+/CD45RA+ naiwnych cytotoksycznych T (które są podzbiorem CD8+ cytotoksycznych T).
Kod R użyty do analizy 68k PBMCs i oczyszczonych PBMCs można znaleźć tutaj: https://github.com/10XGenomics/single-cell-3prime-paper.
Klasteryzacja i klasyfikacja komórek za pomocą programu Seurat
Macierz geny-komórki-kod paskowy 68k PBMCs poddano log-transformacji jako dane wejściowe do programu Seurat. Do obliczenia PCs użyto 469 najbardziej zmiennych genów wybranych przez Seurata. Pierwsze 22 PC były znaczące (P<0.01) w oparciu o wbudowaną analizę jackstraw i zostały użyte do wizualizacji tSNE. Klasyfikację komórek zaczerpnięto z analizy klasyfikacji komórek przy użyciu oczyszczonych PBMC.
Porównanie świeżych i mrożonych PBMC
Dane sekwencjonowania 68k świeżych PBMC i 3k mrożonych PBMC były próbkowane w taki sposób, aby każda próbka miała ∼14k pewnie zmapowanych odczytów na komórkę. Tylko geny, które zostały wykryte w co najmniej jednej komórce zostały włączone do porównania, które wykorzystuje średnią każdego genu dla wszystkich komórek.
Dla porównania klasyfikacji komórek pomiędzy oczyszczonymi i zamrożonymi PBMC, połączyliśmy wszystkie komórki oznaczone jako komórki T lub natural killer razem. Wynika to z faktu, że subpopulacje w obrębie T oraz pomiędzy T a komórkami naturalnego zabójcy są czasami trudne do oddzielnego zgrupowania. Nie chcieliśmy, aby na porównanie między świeżymi i zamrożonymi komórkami miały wpływ zastosowane metody grupowania.
SNV-based genotype assignment
SNVs zostały wywołane przez uruchomienie Freebayes 1.0.2 (ref. 36) na genomie BAM wyprodukowanym przez Cell Ranger. Uwzględniono tylko SNV z poparciem z co najmniej dwóch kodów kreskowych komórek, z minimalnym SNV Qual score >=30, minimalnym SNV base Qual>=1. Liczby alleli referencyjnych (R) i alternatywnych (A) zostały obliczone dla każdego SNV, tworząc macierz komórek-referencyjnych UMI counts i komórek-alternatywnych-alleli UMI counts. Macierze te były modelowane jako mieszanina dwóch genomów, gdzie prawdopodobieństwo każdego z trzech genotypów (R/R, R/A lub A/A) w danym miejscu było przyjmowane jako rozkład dwumianowy ze stałą stopą błędu 0,1%. Dla każdej próbki wnioskowano równolegle dwa modele, jeden, gdy obecny jest tylko jeden genom (K=1) i drugi, gdy obecne są dwa genomy (K=2). Wnioskowanie o parametrach modelu (przyporządkowanie komórek do genomów i K zestawów genotypów) przeprowadzono za pomocą próbnika Gibbsa, aproksymując ich rozkłady potomne. Aby złagodzić problem zamiany etykiet w wnioskowaniu Monte Carlo o modelach mieszanin, ponowne etykietowanie próbkowanych przyporządkowań komórka-genom przeprowadzono według Stephens et al.38
W eksperymentach mieszania komórek in silico, gdy model K=2 nie zdołał odpowiednio rozdzielić dwóch genomów, podawał rozkład prawdopodobieństwa potomnego bliski 0,5 dla połączeń komórka-genom, wskazując na brak zaufania do tych połączeń. Zastosowaliśmy wymóg, że 90% komórek ma prawdopodobieństwo potomne >75%, aby wybrać model K=2 zamiast modelu K=1. Wybór K=1 wskazuje, że frakcja mieszaniny jest poniżej poziomu wykrywalności metody, który w eksperymentach mieszania in silico został określony na 4% z 6000 komórek.
Porównanie genotypu z czystą próbką
Aby upewnić się co do przypisania genotypów do osobników, wzięto pod uwagę tylko wspólne SNV pomiędzy grupą genotypową a czystą próbką. Następnie, średni genotyp wszystkich komórek został porównany z genotypem czystej próbki. Aby uzyskać pewien punkt odniesienia dla % nakładania się genotypów pomiędzy różnymi osobnikami, wykonaliśmy porównania parami genotypów wywołanych od tych samych osobników (11 porównań parami) lub od różnych osobników (15 porównań parami). Procentowe nakładanie się genotypów między tymi samymi osobnikami wynosi średnio ∼98±0.3%, podczas gdy procentowe nakładanie się genotypów między różnymi osobnikami wynosi średnio ∼73±2%.
Analiza PCA i tSNE BMMCs
Użyto danych z sześciu próbek: dwóch zdrowych kontroli, AML027 przed i po przeszczepie oraz AML035 przed i po przeszczepie. Każda próbka została poddana downsamplingowi do ∼10k pewnie zmapowanych odczytów na komórkę. Następnie macierz kodów kreskowych gen-komórka z każdej próbki była konkatenowana. PCA, tSNE i klasteryzację k-średnich przeprowadzono na połączonej macierzy, wykonując te same kroki, które opisano w analizie PCA i tSNE PBMCs. Dla klastrowania k-średnich, K=10 zostało użyte w oparciu o wygięcie w wykresie sumy kwadratów błędów scree.
Geny specyficzne dla klastra zostały zidentyfikowane zgodnie z krokami opisanymi w 'Identyfikacji genów specyficznych dla klastra i klasyfikacji opartej na markerach’. Klasyfikacja została przypisana w oparciu o geny specyficzne dla klastra oraz w oparciu o ekspresję niektórych dobrze znanych markerów typów komórek odpornościowych. 'Blasts and Immature Ery 1′ odnosi się do klastra 4, który wyraża CD34, marker progenitorów hematopoetycznych39, i Gata2, marker wczesnych erytroidów40. Niedojrzałe Ery 2″ odnoszą się do klastrów 5 i 8, które wykazują ekspresję Gata1, czynnika transkrypcyjnego niezbędnego dla erytropoezy41, ale nie CD71, które często występują w bardziej zaangażowanych komórkach erytroidalnych39. 'Niedojrzałe Ery 3′ odnosi się do klastra 1, które wykazują ekspresję CD71. 'Dojrzałe Ery’ odnoszą się do skupiska 2. HBA1, marker dojrzałych komórek erytroidalnych, jest preferencyjnie wykrywany w skupisku 2. Klaster 3 został przypisany jako „Niedojrzałe Granulocyty” ze względu na ekspresję wczesnych markerów granulocytów, takich jak AZU1 i IL8 (ref. 42), oraz brak ekspresji CD16. Klaster 7 został przypisany jako „Monocyty” ze względu na ekspresję CD14 i FCN1, na przykład. B” odnosi się do klastrów 6 i 9 ze względu na markery takie jak CD19 i CD79A. 'T’ odnosi się do klastra 10, ze względu na markery takie jak CD3D i CD8A.
Dostępność danych
Wszystkie istotne dane są dostępne u autorów. Dane Single-cell RNA-seq zostały zdeponowane w Short Read Archive pod numerem akcesyjnym SRP073767. Dane są również dostępne pod adresem http://support.10xgenomics.com/single-cell/datasets. Kod analizy dla 68k PBMC jest dostępny pod adresem https://github.com/10XGenomics/single-cell-3prime-paper.
.