- High-speed imaging of gel beads and cells in GEMs
- Cellijnen en monsters van transplantatiepatiënten
- Bepaling van het RNA-gehalte per cel
- Celbereiding
- Sequencing bibliotheekconstructie met behulp van de GemCode platform
- ERCC assay
- ddPCR-assay
- Cell capture efficiency calculation
- Chimerism assay
- Alignment, barcode toewijzing en UMI tellen
- PCA-analyse van het mengen van Jurkat en 293T cellen
- SNV analyse van Jurkat en 293T scRNA-seq data
- PCA en tSNE analyse van PBMC’s
- Identificatie van cluster-specifieke genen en marker-gebaseerde classificatie
- Selectie van gezuiverde subpopulaties van PBMC’s
- Cel classificatie-analyse met behulp van gezuiverde PBMC’s
- Celclustering en classificatie met Seurat
- Vergelijking tussen verse en bevroren PBMC’s
- SNV-gebaseerde genotypetoekenning
- Genotypevergelijking met het zuivere monster
- PCA en tSNE analyse van BMMCs
- Beschikbaarheid van gegevens
High-speed imaging of gel beads and cells in GEMs
Een microscoop (Nikon Ti-E, × 10 objectief) en een high-speed videocamera (Photron SA5, frame rate=4.000 s-1) werden gebruikt om elke GEM beeld zoals ze werden gegenereerd in de microfluïdische chip. Een aangepaste analyse software werd gebruikt om het aantal gegenereerde GEMs en het aantal kralen aanwezig in elke GEM tellen, op basis van randdetectie en het contrast tussen kraal randen en GEM randen en de aangrenzende vloeistof. De resultaten van de analyse zijn samengevat in Fig. 1c. Om de verdeling van cellen in GEMs te schatten, werd handmatige telling gebruikt voor ∼28k frames van één video op een subset van GEMs. De resultaten wijzen op een benaderende overeenkomst met een Poisson-verdeling. Het percentage meervoudige cel inkapselingen was echter 16% hoger dan de verwachte waarde, mogelijk als gevolg van subsampling fout of cel-cel interacties (een aantal twee-cel klonters werden waargenomen tijdens de handmatige telling) (Supplementary Fig.
Cellijnen en monsters van transplantatiepatiënten
Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) en 3T3 (ATCC CRL-1658) cellen werden verkregen van ATCC en gekweekt volgens de ATCC-richtlijnen. Verse PBMC’s, ingevroren PBMC’s en BMMC’s werden gekocht bij ALLCELLS. Bevroren PBMC’s van donor A werden gemaakt van verse PBMC’s van donor A door 1e6 cellen voorzichtig te mengen in invriesmedium (15% dimethylsulfoxide (DMSO) in Iscove’s gemodificeerd Dulbecco’s medium dat 20% FBS bevat), en gekoeld in CoolCell FTS30 (BioCision) bij -80 °C gedurende ten minste 4 uur voordat ze werden overgebracht naar vloeibare stikstof voor opslag gedurende 3 weken.
De Institutional Review Board van het Fred Hutchinson Cancer Research Center heeft de studie van transplantatiemonsters goedgekeurd. De gevolgde procedures waren in overeenstemming met de Verklaring van Helsinki van 1975 en de Common Rule. De monsters werden verkregen nadat de patiënten schriftelijke geïnformeerde toestemming hadden gegeven voor moleculaire analyses. Wij identificeerden patiënten met AML die een allogene hematopoietische stamceltransplantatie ondergingen in het Fred Hutchinson Cancer Research Center. De diagnose van AML werd vastgesteld volgens de herziene criteria van de Wereldgezondheidsorganisatie33.
Botmergaspiraten werden verkregen voor standaard klinische testen 20-30 dagen vóór de transplantatie en serieel na de transplantatie volgens het behandelingsprotocol. Beenmerg aspiraat aliquots werden binnen 2 uur na de afname verwerkt. De BMMC’s werden geïsoleerd met behulp van centrifugatie door een Ficoll gradiënt (Histopaque-1077; Sigma Life Science, St Louis, MO, USA). De BMMC’s werden met een wegwerppasteurpipet uit het serum-Ficoll-interface verzameld en overgebracht naar een conische buis van 50 ml met 2% patiëntserum in 1 × PBS. De BMMC’s werden geteld met een hemacytometer en de levensvatbaarheid werd beoordeeld met Trypan blauw. De BMMC’s werden geresuspendeerd in 90% FBS, 10% DMSO vriesmedium en ingevroren met een Thermo Scientific Nalgene Mr Frosty (Thermo Scientific) in een -80 °C vriezer gedurende 24 uur voordat ze werden overgebracht naar vloeibare stikstof voor langdurige opslag.
Bepaling van het RNA-gehalte per cel
De hoeveelheid RNA per celtype werd bepaald door kwantificering (Qubit; Invitrogen) RNA geëxtraheerd (Maxwell RSC simplyRNA Cells Kit) van een aantal verschillende bekende aantallen cellen.
Celbereiding
Verse cellen werden geoogst, gewassen met 1 × PBS en geresuspendeerd bij 1 × 106 cellen per ml in 1 × PBS en 0,04% boviene serumalbumine. Verse PBMC’s werden bevroren op 10 × door PBMC’s te resuspenderen in DMEM + 40% FBS + 10% DMSO, invriezen tot -by ° C in een CoolCell ® FTS30 (BioCision) en vervolgens geplaatst in vloeibare stikstof voor opslag.
Gevroren cel vaatjes van ALLCELLS en transplantatie studies werden snel ontdooid in een 37 ° C waterbad voor ∼2 min. Flesjes werden verwijderd zodra er een minuscuul ijskristalletje overbleef. Ontdooide PBMC’s werden tweemaal gewassen in het medium en vervolgens geresuspendeerd in 1 × PBS en 0,04% boviene serumalbumine bij kamertemperatuur. De cellen werden gecentrifugeerd bij 300 omwentelingen per minuut gedurende 5 minuten. Ontdooide BMMC’s werden gewassen en opnieuw gesuspendeerd in 1 × PBS en 20% FBS. De uiteindelijke concentratie van ontdooide cellen was 1 × 106 cellen per ml.
Sequencing bibliotheekconstructie met behulp van de GemCode platform
Cellulaire suspensies werden geladen op een GemCode Single-Cell Instrument (10x Genomics, Pleasanton, CA, USA) om single-cell GEMs te genereren. Single-cel RNA-Seq bibliotheken werden bereid met behulp van GemCode Single-Cell 3′ Gel Bead en Bibliotheek Kit (nu verkocht als P / N 120230, 120231, 120232, 10x Genomics). GEM-RT werd uitgevoerd in een C1000 Touch thermische cycler met 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197): 55 ° C gedurende 2 uur, 85 ° C gedurende 5 minuten; gehouden op 4 ° C. Na RT werden de GEM’s gebroken en werd het enkelstrengs cDNA opgeruimd met DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) en SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318). cDNA werd geamplificeerd met de C1000 Touch Thermal cycler met 96-Deep Well Reaction Module: 98 °C gedurende 3 min; 14 × cyclisch: 98 °C gedurende 15 s, 67 °C gedurende 20 s, en 72 °C gedurende 1 min; 72 °C gedurende 1 min; gehouden bij 4 °C. Geamplificeerd cDNA-product werd gereinigd met de SPRIselect Reagent Kit (0,6 × SPRI). Het cDNA werd vervolgens geschoren tot ∼200 bp met behulp van een Covaris M220 systeem (Covaris; P/N 500295). Geïndexeerde sequencingbibliotheken werden geconstrueerd met behulp van de reagentia in de GemCode Single-Cell 3′ Library Kit, waarbij de volgende stappen werden gevolgd (1) end repair en A-tailing; (2) adapter ligatie; (3) postligatie cleanup met SPRIselect; (4) sample index PCR en cleanup. De barcode sequencing bibliotheken werden gekwantificeerd door kwantitatieve PCR (KAPA Biosystems Bibliotheek Kwantificatie Kit voor Illumina platforms P / N KK4824). De sequencingbibliotheken werden bij 2,1 pM op een Illumina NextSeq500 met 2 × 75 paired-end kits geladen met de volgende leeslengte: 98 bp Read1, 14 bp I7 Index, 8 bp I5 Index en 10 bp Read2. Sommige eerdere bibliotheken werden gemaakt met 5 nt UMI, en 5 bp Read2 werd in plaats daarvan verkregen. Deze bibliotheken zijn gedocumenteerd in aanvullende tabel 1.
ERCC assay
ERCC synthetische spike-in RNA’s (Thermo Fisher Scientific; P/N 4456740) werden verdund (1:10 of 1:50) en geladen in een GemCode Single-Cell Instrument, ter vervanging van cellen die normaal worden gebruikt voor het genereren van GEMs. Spike-in Mix1 en Mix2 werden beide getest. Er werd een licht gewijzigd protocol gebruikt aangezien slechts een klein deel van de GEMs werd verzameld voor RT en cDNA-amplificatie. Na de voltooiing van GEM-RT, werd 1,25 ul van de emulsie verwijderd en toegevoegd aan een bifasisch mengsel van recovery agent (125 ul) (P/N 220016) en 25 mM additief 1 (30 ul) (P/N 220074, 10x Genomics). Het recovery-agent werd vervolgens verwijderd en de resterende waterige oplossing werd opgeschoond met de SPRISelect Reagent Kit (0,8 × SPRI). cDNA werd versterkt met behulp van de C1000 Touch thermische cycler met 96-Deep Well Reaction Module: 98 °C gedurende 3 min; 14 × cyclisch: 98 °C gedurende 15 s, 67 °C gedurende 20 s, en 72 °C gedurende 1 min; 72 °C gedurende 1 min; gehouden bij 4 °C. Geamplificeerd cDNA product werd gereinigd met de SPRIselect Reagent Kit (0,8 × ) cDNA werd vervolgens geschoren tot ∼200 bp met behulp van een Covaris M220 systeem om monster-geïndexeerde bibliotheken te construeren met 10x Genomics adapters. De verwachte ERCC-molecuulaantallen werden berekend op basis van de hoeveelheid gebruikte ERCC-moleculen en monsterverdunningsfactoren. De tellingen werden vergeleken met gedetecteerde molecuulaantallen (UMI-tellingen) om de omzettingsefficiëntie te berekenen.
ddPCR-assay
Jurkat-cellen werden gebruikt in ddPCR-assays om de omzettingsefficiëntie als volgt te schatten: (1) de hoeveelheid RNA per Jurkat-cel werd bepaald door kwantificering (Qubit, Invitrogen) van RNA dat werd geëxtraheerd (Maxwell RNA Purification Kits) uit verschillende bekende aantallen Jurkat-cellen. (2) Bulk RT-ddPCR (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) werd uitgevoerd op het geëxtraheerde RNA om het aantal kopieën per cel van acht geselecteerde genen te bepalen. (3) Ongeveer 5 000 Jurkat-cellen werden verwerkt met het GemCode Single-Cell 3′-platform en enkelstrengs cDNA werd na RT in GEM’s verzameld volgens de protocollen in de paragraaf “Sequencing library construction using the GemCode platform”. cDNA-kopieën van de acht genen werden bepaald met ddPCR (Bio-Rad ddPCR Supermix voor Probes (no dUTP) P/N 1863024). Het werkelijke aantal Jurkat-cellen werd gevonden door sequencing van een subset van de GEM-RT-reacties op een MiSeq. De omzettingsefficiëntie is de verhouding tussen cDNA-kopieën per cel (stap 3) en RNA-kopieën per cel uit bulk-RT-ddPCR (stap 2), uitgaande van een 50%-efficiëntie bij RT-ddPCR34.
De probe-sequenties voor de ddPCR-test zijn als volgt: SERAC1_f, 5′-CACGAGCCGCCAGC-3′ en SERAC1_r, 5′-TCTGCAACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCATGGTCTAAGC-3′ en AP1S3_r, 5′-CCTTGTCGACTGAAGAGCAATATG-3′; AP1S3_p: /56-FAM/CGGCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGGTCTCGTOR-3′ en AOV1_r, 5′-TTCTTCATAGCCTTCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGGTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ en DOLPP1_r, 5′-GGCTCAGGTAGGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ en KPNA6_r, 5′-CCCTGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCGC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGACAGGCTACGCAACAG-3′ en ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCGCTTCCA-3′ en LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGCAGACG-3′ en AP2M1_r, 5′-ATGGCGGCAGATCAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCT/ZEN/GAGAACAGACCTGGTG/3IABkFQ/.
Cell capture efficiency calculation
De efficiëntie wordt berekend door de verhouding te nemen van het aantal cellen dat door sequencing is gedetecteerd versus het aantal cellen dat in de chip is geladen. Dit laatste wordt bepaald uit (toegevoegd volume × ingangsconcentratie van cellen). De inputconcentratie van cellen is bepaald met een Countess II Automated Cell Counter (Thermo Fisher Scientific). Er zij op gewezen dat er een fout van 15-20% in celtellingen is, wat ten minste een deel van de variabiliteit in de berekende efficiënties zou kunnen verklaren.
Chimerism assay
PowerPlex 16 System (Promega) werd gebruikt in combinatie met een Applied Biosystems (Life Technologies) 3130xl Genetic Analyzer. Donor BMMC’s werden gebruikt als de referentie basislijn.
Alignment, barcode toewijzing en UMI tellen
De Cell Ranger Single-Cell Software Suite werd gebruikt om monster demultiplexing, barcode verwerking en single-cell 3′-gen tellen (http://software.10xgenomics.com/single-cell/overview/welcome) uit te voeren. Eerst monster demultiplexing werd uitgevoerd op basis van de 8 bp sample index gelezen naar FASTQs voor de Read1 en Read2 gepaarde-end leest, evenals de 14 bp GemCode barcode te genereren. Tien basepair UMI-tags werden geëxtraheerd uit Read2 (14 bibliotheken werden gemaakt met 5 bp UMI-tags, zoals vermeld in aanvullende tabel 1, als gevolg van een eerdere iteratie van de methoden. Voor deze monsters werden 5 bp UMI-tags uit Read2 geëxtraheerd.). Vervolgens werd Read1, dat de cDNA insert bevat, uitgelijnd met een geschikte referentie-genoom met behulp van STAR35. Voor muizencellen werd mm10 gebruikt en voor menselijke cellen hg19. Voor monsters met mengsels van muizen- en menselijke cellen werd de unie van hg19 en mm10 gebruikt. Voor ERCC-monsters werd de ERCC-referentie (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt) gebruikt.
Volgende GemCode-barcodes en UMI’s werden gefilterd. Alle bekende lijsten van barcodes die op 1-Hamming-afstand van een geobserveerde barcode liggen, werden in aanmerking genomen. Vervolgens wordt de posterieure waarschijnlijkheid berekend dat de geobserveerde barcode door een sequencingfout werd geproduceerd, gegeven de basiskwaliteiten van de geobserveerde barcode en de prioritaire waarschijnlijkheid dat de kandidaat-barcode werd geobserveerd (afgeleid uit de algemene verdeling van het aantal barcodes). Als de posterieure waarschijnlijkheid voor een kandidaatbarcode ten minste 0,975 is, wordt de barcode gecorrigeerd naar de kandidaatbarcode met de hoogste posterieure waarschijnlijkheid. Als alle kandidaat-sequenties even waarschijnlijk zijn, wordt degene gekozen die volgens de lexicale volgorde het eerst voorkomt.
UMI’s met sequencing-kwaliteitsscore >10 werden als geldig beschouwd als ze geen homopolymeren waren. Qual = 10 impliceert 90% base call nauwkeurigheid. Een UMI die 1-Hamming-afstand verwijderd is van een andere UMI (met meer gelezen) voor dezelfde celbarcode en hetzelfde gen wordt gecorrigeerd naar de UMI met meer gelezen. Deze aanpak is bijna identiek aan die in Jaitin et al.4, en is vergelijkbaar met die in Klein et al.8 (hoewel Klein et al.8 ook UMI’s gebruikte om multimapped reads op te lossen, wat hier niet is geïmplementeerd).
Ten slotte werden PCR duplicaten gemarkeerd als twee sets van gelezen paren een barcode sequentie, een UMI tag, en een gen ID deelden (Ensembl GTFs GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz en GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz, werden gebruikt). Alleen betrouwbaar in kaart gebrachte (MAPQ=255), niet-PCR duplicaten met geldige barcodes en UMI’s werden gebruikt om gen-barcode matrix te genereren.
Cel barcodes werden bepaald op basis van de verdeling van UMI tellingen. Alle top barcodes binnen dezelfde orde van grootte (>10% van de top n-de barcode, waarbij n is 1% van de verwachte herstelde cel aantal) werden beschouwd cel barcodes. Aantal leest dat zinvolle informatie te verstrekken wordt berekend als het product van vier metrieken: (1) geldige barcodes; (2) geldige UMI; (3) geassocieerd met een cel barcode; en (4) met vertrouwen in kaart gebracht exons.
In de muis en de mens mengexperimenten, multiplet tarief werd gedefinieerd als tweemaal het tarief van cel barcodes met significante UMI tellingen van zowel de muis en de mens, waarbij top 1% van de UMI tellingen werd beschouwd als significant. De mate van barcode overspraak werd beoordeeld door de fractie van muis leest in menselijke barcodes, of vice versa.
Samples verwerkt uit meerdere kanalen kunnen worden gecombineerd door aaneenschakeling gen-cel-barcode matrices. Deze functionaliteit wordt geboden in de Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Sequencing data van meerdere sequencing runs van een bibliotheek kunnen worden gecombineerd door het tellen van niet-dupliceerde reads. Deze functionaliteit wordt geboden in de Cell Ranger pijplijn. Bovendien kunnen sequencing-gegevens worden gesubsampled om een bepaald aantal UMI-tellingen per cel te verkrijgen. Deze functionaliteit wordt ook geleverd in de Cell Ranger R Kit, en is handig bij het combineren van gegevens van meerdere monsters voor vergelijking.
PCA-analyse van het mengen van Jurkat en 293T cellen
Gen-cel-barcode matrix van elk van de vier monsters werd aaneengeschakeld. Alleen genen met ten minste één in ten minste één cel gedetecteerde UMI-telling zijn gebruikt. De UMI werden genormaliseerd door eerst de UMI-tellingen te delen door de totale UMI-tellingen in elke cel, gevolgd door vermenigvuldiging met de mediaan van de totale UMI-tellingen in alle cellen. Vervolgens namen we de natuurlijke log van de UMI-tellingen. Tenslotte werd elk gen gen genormaliseerd zodat het gemiddelde signaal voor elk gen 0 is, en de standaardafwijking 1. PCA werd uitgevoerd op de genormaliseerde gen-barcode matrix. De genormaliseerde UMI tellingen van elk gen worden gebruikt om de expressie van een marker in een tSNE plot.
SNV analyse van Jurkat en 293T scRNA-seq data
SNVs werden genoemd door het uitvoeren van Freebayes 1.0.2 (ref. 36) op het genoom BAM geproduceerd door Cell Ranger. SNV’s van hoge kwaliteit (SNV calling Qual>=100 met ten minste 10 UMI tellingen van ten minste twee cellen; indels worden genegeerd) die alleen werden waargenomen in Jurkat of 293T cellen (maar niet beide) werden geselecteerd. Cellen werden gelabeld als Jurkat of 293T op basis van Jurkat- en 293T-specifieke SNV-tellingen, waarbij de fractie van tellingen van de andere soort <0,2 is. Cellen met een fractie van SNV van een van beide soorten tussen 0,2 en 0,8 worden beschouwd als multiplets. De afgeleide multiplet rate is 2* waargenomen multiplet rate (om rekening te houden met Jurkat:Jurkat en 293T:293T multiplets).
PCA en tSNE analyse van PBMC’s
Genen met ten minste één UMI telling gedetecteerd in ten minste één cel worden gebruikt. De top 1000 van meest variabele genen werden geïdentificeerd op basis van hun gemiddelde en spreiding (variantie/gemiddelde), wat vergelijkbaar is met de aanpak van Macoscko et al.7 Genen werden in 20 bins geplaatst op basis van hun gemiddelde expressie. Genormaliseerde spreiding wordt berekend als het absolute verschil tussen spreiding en mediane spreiding van het expressiegemiddelde, genormaliseerd door de mediane absolute afwijking binnen elke bin.
PCA werd uitgevoerd op de gen-barcode matrix van de top 1000 meest variabele genen om het aantal feature (gen) dimensies te verminderen. De UMI werden genormaliseerd door eerst de UMI-tellingen te delen door de totale UMI-tellingen in elke cel, gevolgd door vermenigvuldiging met de mediaan van de totale UMI-tellingen in alle cellen. Vervolgens namen we de natuurlijke log van de UMI-tellingen. Tenslotte werd elk gen gen genormaliseerd zodat het gemiddelde signaal voor elk gen 0 is, en de standaardafwijking 1. PCA werd uitgevoerd op de gen-barcode matrix. Na PCA werd een Barnes-hut37 benadering van t-SNE16 uitgevoerd op de eerste 50 PCs om de cellen in een tweedimensionale ruimte te visualiseren. Vijftig PC’s werden gebruikt omdat: (1) het gebruik van alle PC’s zeer veel tijd zou kosten met t-SNE analyse; (2) ze ∼25% van de totale variantie verklaarden. K-means15 clustering werd uitgevoerd om cellen te groeperen voor de clustering analyse. k = 10 werd geselecteerd op basis van de som van de gekwadrateerde fout scree plot (Supplementary Fig. 5d).
Identificatie van cluster-specifieke genen en marker-gebaseerde classificatie
Om genen die zijn verrijkt in een specifieke cluster te identificeren, werd de gemiddelde expressie van elk gen berekend over alle cellen in de cluster. Vervolgens werd elk gen van de cluster vergeleken met de mediane expressie van hetzelfde gen van cellen in alle andere clusters. Genen werden gerangschikt op basis van hun expressieverschil, en de top 10 verrijkte genen van elke cluster werden geselecteerd. Voor hiërarchische clustering werd de paarsgewijze correlatie tussen elke cluster berekend, en de gecentreerde expressie van elk gen werd gebruikt voor visualisatie door heatmap.
Classificatie van PBMC’s werd afgeleid uit de annotatie van clusterspecifieke genen. In het geval van cluster 10 werd markerexpressie van meerdere celtypen (bijvoorbeeld B, dendritisch en T) gedetecteerd. Aangezien de relatieve clustergrootte van B, dendritisch en T respectievelijk 5,7%, 6,6% en 81% is, zouden we verwachten dat cluster 10 (die slechts 0,5% bedraagt) multiplets bevat die voornamelijk bestaan uit B:dendritisch (0,6%) en B:dendritisch (0,5%).36%) en B:dendritic:T (0,3%).
Selectie van gezuiverde subpopulaties van PBMC’s
Elke populatie van gezuiverde PBMC’s werd gedownsampled tot ∼16k leest per cel. PCA, tSNE en k-means clustering werden uitgevoerd voor elke gedownsampled matrix, volgens dezelfde stappen als beschreven in PCA en t-SNE analyse van PBMC’s. Slechts één cluster werd gedetecteerd in de meeste monsters, consistent met de FACS-analyses (Supplementary Fig. 6). Voor monsters met meer dan één cluster, alleen clusters die de verwachte marker genexpressie weergegeven werden geselecteerd voor downstream analyse. Voor CD14 + monocyten, werden twee clusters waargenomen en geïdentificeerd als CD14 + monocyten en dendritische cellen op basis van expressie van marker genen FTL en CLEC9A, respectievelijk.
Cel classificatie-analyse met behulp van gezuiverde PBMC’s
Elke populatie van gezuiverde PBMC’s werd gedownsampled tot ∼16k met vertrouwen in kaart gebrachte leest per cel. Vervolgens werd een gemiddeld genexpressieprofiel over alle cellen berekend. Vervolgens werd de genexpressie van elke cel van de complexe populatie vergeleken met de genexpressieprofielen van gezuiverde populaties van PBMC’s door Spearman’s correlatie. De cel kreeg het ID van de gezuiverde populatie als hij de hoogste correlatie met die populatie had. Merk op dat het verschil tussen de hoogste en de op één na hoogste correlatie voor sommige cellen klein was (bijvoorbeeld het verschil tussen cytotoxische T- en NK-cellen), wat suggereert dat de celtoewijzing voor deze cellen niet zo zeker was. Enkele van de gezuiverde PBMC-populaties overlapten elkaar. Bijvoorbeeld, CD4+ T-helpercellen omvatten alle CD4+ cellen. Dit betekent dat cellen uit dit monster overlappen met cellen uit monsters die CD4+ cellen bevatten, waaronder CD4+/CD25+ T reg, CD4+/CD45RO+ T memory, CD4+/CD45RA+/CD25- naive T. Wanneer dus aan een cel op basis van de correlatiescore de ID CD4+ T-helpercel werd toegekend, werd bij de volgende hoogste correlatie nagegaan of het een van de CD4+ monsters was. Indien dit het geval was, werd de cel-ID bijgewerkt tot het celtype met de volgende hoogste correlatie. Dezelfde procedure werd uitgevoerd voor CD8+ cytotoxische T en CD8+/CD45RA+ naïeve cytotoxische T (die een subset is van CD8+ cytotoxische T).
De R-code die werd gebruikt om 68k PBMC’s en gezuiverde PBMC’s te analyseren, kan hier worden gevonden: https://github.com/10XGenomics/single-cell-3prime-paper.
Celclustering en classificatie met Seurat
De gen-cel-barcode matrix van 68k PBMCs werd log-getransformeerd als input voor Seurat. De top 469 meest variabele genen geselecteerd door Seurat werden gebruikt om de PCs te berekenen. De eerste 22 PCs waren significant (P<0.01) op basis van de ingebouwde jackstraw analyse, en werden gebruikt voor tSNE visualisatie. Celclassificatie werd genomen van Celclassificatie analyse met gezuiverde PBMC’s.
Vergelijking tussen verse en bevroren PBMC’s
De sequencing data van 68k verse PBMC’s en 3k bevroren PBMC’s werden gedown-sampled zodanig dat elk monster heeft ∼14k met vertrouwen in kaart gebrachte leest per cel. Alleen genen die zijn gedetecteerd in ten minste één cel werden opgenomen voor de vergelijking, die het gemiddelde van elk gen over alle cellen gebruikt.
Voor celclassificatie vergelijking tussen gezuiverde en bevroren PBMC’s, hebben we alle cellen gelabeld als T of natural killer cellen samen gepoold. De reden hiervoor is dat de subpopulaties binnen T en tussen T- en natural killer-cellen soms moeilijk afzonderlijk te clusteren zijn. We wilden niet dat de vergelijking tussen verse en ingevroren cellen zou worden beïnvloed door de gebruikte clusteringmethoden.
SNV-gebaseerde genotypetoekenning
SNV’s werden opgeroepen door Freebayes 1.0.2 (ref. 36) uit te voeren op het genoom BAM geproduceerd door Cell Ranger. Alleen SNV’s met steun van ten minste twee celbarcodes, met een minimale SNV Qual score >=30, minimale SNV base Qual>=1 werden opgenomen. Voor elke SNV werden tellingen van referentie- (R) en alternate- (A) allelen berekend, wat een matrix opleverde van cel-referentie UMI-tellingen en cel-alternate-allele UMI-tellingen. Deze matrices werden gemodelleerd als een mengsel van twee genomen waarbij de waarschijnlijkheid van een van de drie genotypes (R/R, R/A of A/A) op een plaats binomiaal verdeeld werd verondersteld met een vaste foutmarge van 0,1%. Voor elk monster werden parallel twee modellen afgeleid, één waarbij slechts één genoom aanwezig is (K=1) en één waarbij twee genomen aanwezig zijn (K=2). Afleiding van de modelparameters (cel-naar-genoom toewijzingen en de K sets van genotypen) werd uitgevoerd door gebruik te maken van een Gibbs sampler om hun posterior distributies te benaderen. Om het label-switching probleem in Monte Carlo afleiding van mengsel modellen te verbeteren, werd relabeling van de bemonsterde cel-naar-genoom toewijzingen uitgevoerd als per Stephens et al.38
In in silico cel mengen experimenten, wanneer de K = 2 model niet in geslaagd om adequaat te scheiden de twee genomen, het meldde een verdeling van posterior waarschijnlijkheden in de buurt van 0,5 voor de cel-genoom oproepen, wat wijst op een gebrek aan vertrouwen in die oproepen. We pasten een eis toe dat 90% van de cellen een posterior waarschijnlijkheid >75% moet hebben om het K=2 model boven het K=1 model te selecteren. De selectie van K=1 geeft aan dat de mengfractie onder het detectieniveau van de methode ligt, dat in in silico mengexperimenten werd vastgesteld op 4% van 6.000 cellen.
Genotypevergelijking met het zuivere monster
Om de toewijzing van genotypes aan individuen na te gaan, werden alleen gedeelde SNV’s tussen de genotypegroep en het zuivere monster in aanmerking genomen. Vervolgens werd het gemiddelde genotype van alle cellen vergeleken met dat van het zuivere monster. Om een basislijn voor het % genotypeoverlap tussen verschillende individuen te verkrijgen, hebben we paarsgewijze vergelijking uitgevoerd van genotypes die van dezelfde individuen (11 paarsgewijze vergelijkingen) of van verschillende individuen (15 paarsgewijze vergelijkingen) zijn opgeroepen. De procentuele genotype overlap tussen dezelfde individuen is gemiddeld ∼98±0.3%, terwijl de procentuele genotype overlap tussen de verschillende individuen gemiddeld ∼73±2% is.
PCA en tSNE analyse van BMMCs
Gegevens van zes monsters werden gebruikt: twee gezonde controles, AML027 pre- en post-transplantatie, en AML035 pre- en post-transplantatie. Elk monster werd gedownsampled tot ∼10k met vertrouwen in kaart gebracht leest per cel. Dan is de gen-cel barcode matrix van elk monster werd samengevoegd. PCA, tSNE en k-means clustering werden uitgevoerd op de gepoolde matrix, volgens dezelfde stappen als uiteengezet in PCA en tSNE analyse van PBMC’s. Voor k-means clustering werd K=10 gebruikt op basis van de buiging in de som van gekwadrateerde fouten scree plot.
Clusterspecifieke genen werden geïdentificeerd volgens de stappen die zijn beschreven in ‘Identificatie van clusterspecifieke genen en marker-gebaseerde classificatie’. Er werd een classificatie toegekend op basis van de clusterspecifieke genen en op basis van de expressie van enkele bekende merkers van immuun celtypes. Blasts en Immature Ery 1″ verwijst naar cluster 4, waarin CD34, een marker van hematopoietische progenitors39 , en Gata2, een marker voor vroege erytroïden40 , tot expressie komen. Immature Ery 2′ verwijst naar clusters 5 en 8, die expressie vertonen van Gata1, een transcriptiefactor die essentieel is voor erytropoëse41, maar niet van CD71, die vaak worden aangetroffen in meer gecommitteerde erytroïde cellen39. Immature Ery 3′ verwijst naar cluster 1, die expressie van CD71 vertonen. Rijpe erytroïde cellen’ verwijst naar cluster 2. HBA1, een marker van rijpe erytroïde cellen, wordt bij voorkeur gedetecteerd in cluster 2. Cluster 3 werd toegewezen als ‘Onvolwassen Granulocyten’ vanwege de expressie van vroege granulocyten-merkers zoals AZU1 en IL8 (ref. 42), en het ontbreken van expressie van CD16. Cluster 7 werd toegewezen als ‘Monocyten’ vanwege de expressie van CD14 en FCN1, bijvoorbeeld. ‘B’ verwijst naar de clusters 6 en 9 vanwege markers als CD19 en CD79A. ‘T’ verwijst naar cluster 10, vanwege markers als CD3D en CD8A.
Beschikbaarheid van gegevens
Alle relevante gegevens zijn beschikbaar bij de auteurs. Single-cel RNA-seq gegevens zijn gedeponeerd in de Short Read Archive onder toetredingsnummer SRP073767. Gegevens zijn ook beschikbaar op http://support.10xgenomics.com/single-cell/datasets. De analysecode voor de 68k PBMC-analyse is beschikbaar bij https://github.com/10XGenomics/single-cell-3prime-paper.