- Imagini de mare viteză ale perlelor de gel și ale celulelor în GEMs
- Liniile celulare și probele de pacienți transplantați
- Estimarea conținutului de ARN pe celulă
- Prepararea celulelor
- Construcția bibliotecilor de secvențiere utilizând platforma GemCode
- Sondaj ERCC
- DddPCR assay
- Calcularea eficienței capturării celulelor
- Analiză de chimism
- Aliniere, atribuire de coduri de bare și numărare UMI
- Analiză PCA a amestecului de celule Jurkat și 293T
- SNV analysis of Jurkat and 293T scRNA-seq data
- Analiză PCA și tSNE a PBMC
- Identificarea genelor specifice clusterului și clasificarea bazată pe markeri
- Selecția subpopulațiilor purificate de PBMC
- Analiză de clasificare a celulelor utilizând PBMC purificate
- Clasificarea și clasificarea celulelor cu Seurat
- Comparare între PBMC proaspete și PBMC congelate
- Asignarea genotipurilor pe bază de SNV
- Compararea genotipurilor cu eșantionul pur
- Analiză PCA și tSNE a BMMCs
- Date disponibile
Imagini de mare viteză ale perlelor de gel și ale celulelor în GEMs
Un microscop (Nikon Ti-E, obiectiv × 10) și o cameră video de mare viteză (Photron SA5, rata de cadre = 4.000 s-1) au fost folosite pentru a filma fiecare GEM pe măsură ce erau generate în cipul microfluidic. Un software de analiză personalizat a fost utilizat pentru a număra numărul de GEM generate și numărul de mărgele prezente în fiecare GEM, pe baza detectării marginilor și a contrastului dintre marginile mărgelelor și marginile GEM și lichidul adiacent. Rezultatele analizei sunt rezumate în Fig. 1c. Pentru a estima distribuția celulelor în GEM-uri, s-a utilizat numărarea manuală pentru ∼28k cadre ale unui videoclip pe un subset de GEM-uri. Rezultatele indică o aderență aproximativă la o distribuție Poisson. Cu toate acestea, procentul de încapsulări multiple de celule a fost cu 16% mai mare decât valoarea așteptată, posibil din cauza unei erori de subeșantionare sau a interacțiunilor celulă-celulă (au fost observate câteva aglomerări de două celule în timpul numărătorii manuale) (Fig. suplimentară. 1b).
Liniile celulare și probele de pacienți transplantați
Celulele Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) și 3T3 (ATCC CRL-1658) au fost achiziționate de la ATCC și cultivate în conformitate cu orientările ATCC. PBMC proaspete, PBMC congelate și BMMC au fost achiziționate de la ALLCELLS. PBMC congelate de la donatorul A au fost obținute din PBMC proaspete de la donatorul A prin amestecarea ușoară a 1e6 celule în mediu de congelare (15 % dimetilsulfoxid (DMSO) în mediul Dulbecco’s modificat Iscove care conține 20 % FBS) și răcite în CoolCell FTS30 (BioCision) la -80 °C timp de cel puțin 4 ore înainte de a fi transferate în azot lichid pentru depozitare timp de 3 săptămâni.
Consiliul de evaluare instituțională de la Centrul de cercetare a cancerului Fred Hutchinson a aprobat studiul privind probele de transplant. Procedurile urmate au fost în conformitate cu Declarația de la Helsinki din 1975 și cu Regula comună. Probele au fost obținute după ce pacienții și-au dat consimțământul informat în scris cu privire la analizele moleculare. Am identificat pacienți cu LMA supuși unui transplant alogen de celule stem hematopoietice la Fred Hutchinson Cancer Research Center. Diagnosticul de LMA a fost stabilit în conformitate cu criteriile revizuite ale Organizației Mondiale a Sănătății33.
Aspiratele de măduvă osoasă au fost obținute pentru teste clinice standard cu 20-30 de zile înainte de transplant și în serie post-transplant în conformitate cu protocolul de tratament. Alimentele de aspirat de măduvă osoasă au fost procesate în termen de 2 h de la prelevare. BMMC au fost izolate prin centrifugare printr-un gradient Ficoll (Histopaque-1077; Sigma Life Science, St Louis, MO, SUA). BMMC au fost colectate de la interfața ser-Ficoll cu o pipetă Pasteur de unică folosință și au fost transferate în tubul conic de 50 ml cu 2% ser al pacientului în 1 × PBS. BMMC au fost numărate cu ajutorul unui hema-citometru, iar viabilitatea a fost evaluată cu ajutorul albastru Trypan. BMMC au fost resuspendate în mediu de congelare cu 90% FBS, 10% DMSO și au fost congelate cu ajutorul unui Nalgene Mr Frosty (Thermo Scientific) într-un congelator la -80 °C timp de 24 de ore înainte de a fi transferate în azot lichid pentru depozitare pe termen lung.
Estimarea conținutului de ARN pe celulă
Cantitatea de ARN pe tip de celulă a fost determinată prin cuantificarea (Qubit; Invitrogen) ARN-ului extras (Maxwell RSC simplyRNA Cells Kit) din mai multe numere diferite de celule cunoscute.
Prepararea celulelor
Celele proaspete au fost recoltate, spălate cu 1 × PBS și resuspendate la 1 × 106 celule pe ml în 1 × PBS și 0,04% albumină serică bovină. PBMC proaspete au fost congelate la 10 × prin resuspendarea PBMC în DMEM+40% FBS+10% DMSO, congelarea la -by °C într-un CoolCell® FTS30 (BioCision) și apoi plasate în azot lichid pentru depozitare.
Filele de celule congelate din studiile ALLCELLS și de transplant au fost decongelate rapid într-o baie de apă la 37 °C timp de ∼2 min. Fiolele au fost îndepărtate atunci când a rămas un mic cristal de gheață. PBMC decongelate au fost spălate de două ori în mediu și apoi resuspendate în 1 × PBS și 0,04% albumină serică bovină la temperatura camerei. Celulele au fost centrifugate la 300 r.c.f. timp de 5 minute de fiecare dată. BMMC decongelate au fost spălate și resuspendate în 1 × PBS și 20 % FBS. Concentrația finală de celule decongelate a fost de 1 × 106 celule pe ml.
Construcția bibliotecilor de secvențiere utilizând platforma GemCode
Suspensiile celulare au fost încărcate pe un instrument GemCode Single-Cell (10x Genomics, Pleasanton, CA, SUA) pentru a genera GEM-uri unicelulare. Bibliotecile ARN-Seq monocelulare au fost pregătite folosind GemCode Single-Cell Single-Cell 3′ Gel Bead and Library Kit (în prezent vândut ca P/N 120230, 120231, 120232, 10x Genomics). GEM-RT a fost efectuată într-un termociclator C1000 Touch Thermal Cycler cu modulul de reacție 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197): 55 °C timp de 2 ore, 85 °C timp de 5 minute; menținut la 4 °C. După RT, GEM-urile au fost rupte, iar ADNc monocatenar a fost curățat cu DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) și SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318). ADNc a fost amplificat cu ajutorul termociclatorului C1000 Touch Thermal Cycler cu 96-Deep Well Reaction Module: 98 °C timp de 3 min; ciclat 14 × : 98 °C timp de 15 s, 67 °C timp de 20 s și 72 °C timp de 1 min; 72 °C timp de 1 min; menținut la 4 °C. Produsul ADNc amplificat a fost curățat cu setul de reactivi SPRIselect Reagent Kit (0,6 × SPRI). ADNc a fost ulterior forfecat la ∼200 pb cu ajutorul unui sistem Covaris M220 (Covaris; P/N 500295). Bibliotecile de secvențiere indexate au fost construite cu ajutorul reactivilor din GemCode Single-Cell Single-Cell Library Kit 3′, urmând următorii pași: (1) repararea capetelor și coada A; (2) ligatura adaptorului; (3) curățarea postligare cu SPRIselect; (4) PCR de indexare a probei și curățare. Bibliotecile de secvențiere a codurilor de bare au fost cuantificate prin PCR cantitativă (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). Bibliotecile de secvențiere au fost încărcate la 2,1 pM pe un Illumina NextSeq500 cu kituri 2 × 75 paired-end folosind următoarea lungime de citire: 98 pb Read1, 14 pb I7 Index, 8 pb I5 Index și 10 pb Read2. Unele biblioteci anterioare au fost realizate cu UMI de 5 nt și, în schimb, s-a obținut Read2 de 5 bp. Aceste biblioteci au fost documentate în tabelul suplimentar 1.
Sondaj ERCC
ERCC sintetic spike-in RNAs (Thermo Fisher Scientific; P/N 4456740) au fost diluate (1:10 sau 1:50) și încărcate într-un instrument GemCode Single-Cell Instrument, înlocuind celulele utilizate în mod normal pentru a genera GEMs. S-au testat atât Spike-in Mix1, cât și Mix2. S-a folosit un protocol ușor modificat, deoarece doar o mică parte din GEM a fost colectată pentru amplificarea RT și ADNc. După finalizarea GEM-RT, 1,25 μl din emulsie a fost îndepărtat și adăugat la un amestec bifazic de Recovery Agent (125 μl) (P/N 220016) și 25 mM aditiv 1 (30 μl) (P/N 220074, 10x Genomics). Agentul de recuperare a fost apoi îndepărtat, iar soluția apoasă rămasă a fost curățată cu kitul de reactivi SPRISelect (0,8 × SPRI). ADNc a fost amplificat cu ajutorul termociclatorului C1000 Touch Thermal Cycler cu modul de reacție în 96 de godeuri adânci: 98 °C timp de 3 min; s-a efectuat un ciclu de 14 × : 98 °C timp de 15 s, 67 °C timp de 20 s și 72 °C timp de 1 min; 72 °C timp de 1 min; s-a menținut la 4 °C. Produsul ADNc amplificat a fost curățat cu kitul de reactivi SPRIselect Reagent Kit (0,8 × ) ADNc a fost ulterior șlefuit la ∼200 pb cu ajutorul unui sistem Covaris M220 pentru a construi biblioteci indexate pe probe cu adaptoare Genomics 10x. Numărul așteptat de molecule ERCC a fost calculat pe baza cantității de molecule ERCC utilizate și a factorilor de diluție a probelor. Numerele au fost comparate cu numărul de molecule detectate (UMI counts) pentru a calcula eficiența conversiei.
DddPCR assay
Celele Jurkat au fost utilizate în teste ddPCR pentru a estima eficiența conversiei după cum urmează: (1) cantitatea de ARN per celulă Jurkat a fost determinată prin cuantificarea (Qubit, Invitrogen) ARN-ului extras (kituri de purificare a ARN-ului Maxwell) din mai multe celule Jurkat cu un număr diferit și cunoscut de celule Jurkat. (2) RT-ddPCR în masă (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) a fost efectuat pe ARN extras pentru a determina numărul de copii pe celulă a opt gene selectate. (3) Aproximativ 5 000 de celule Jurkat au fost procesate cu ajutorul platformei GemCode Single-Cell 3′, iar ADNc monocatenar a fost colectat după RT în GEM-uri în conformitate cu protocoalele enumerate în secțiunea „Sequencing library construction using the GemCode platform” (Construcția bibliotecii de secvențiere cu ajutorul platformei GemCode). copiile de ADNc ale celor opt gene au fost determinate cu ajutorul ddPCR (Bio-Rad ddPCR Supermix for Probes (fără dUTP) P/N 1863024). Numărul real de celule Jurkat a fost determinat prin secvențierea unui subset de reacții GEM-RT pe un MiSeq. Eficiența de conversie este raportul dintre copiile de ADNc pe celulă (etapa 3) și copiile de ARN pe celulă din RT-ddPCR în masă (etapa 2), presupunând o eficiență de 50% în RT-ddPCR34.
Secvențele sondei pentru testul ddPCR sunt următoarele: SERAC1_f, 5′-CACGAGCCCCGCCAGC-3′ și SERAC1_r, 5′-TCTGCAACACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCAGCCATGGTCTAAGC-3′ și AP1S3_r, 5′-CCTTGTCGACTGAAGAGAGCAATATG-3′; AP1S3_p: /56-FAM/CGGCCCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAGAAGTGGGTCTCTCGTOR-3′ și AOV1_r, 5′-TTCTTCATAGCCTTCCCGATACTACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGAGGAGGTTTTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ și DOLPP1_r, 5′-GGCTCTCAGGTAGGCAAGAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTCTGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ și KPNA6_r, 5′-CCCTGGGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCCCGC/ZEN/GATGGAGAGACACC/3IABkFQ/. ITSN2_f, 5′-GTGACACAGGCTACGCAACAG-3′ și ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCGCTTCTCCA-3′ și LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTCTTCCC/ZEN/TGTGCAAGAGAGGTTGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGCGGGCAGCAGACG-3′ și AP2M1_r, 5′-ATGGCGGCAGATCACAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCTCTCT/ZEN/GAGAACACAGACACCTCTGGTGG/3IABkFQ/.
Calcularea eficienței capturării celulelor
Eficiența se calculează prin luarea raportului dintre numărul de celule detectate prin secvențiere și numărul de celule încărcate în cip. Aceasta din urmă se determină din (volumul adăugat × concentrația de celule de intrare). Concentrația de celule de intrare a fost determinată cu ajutorul unui contor celular automatizat Countess II (Thermo Fisher Scientific). Este demn de remarcat faptul că există o eroare de 15-20% în numărarea celulelor, ceea ce ar putea explica cel puțin o parte din variabilitatea randamentelor calculate.
Analiză de chimism
Sistemul PowerPlex 16 (Promega) a fost utilizat împreună cu un analizor genetic Applied Biosystems (Life Technologies) 3130xl Genetic Analyzer. BMMC de la donator au fost utilizate ca linie de bază de referință.
Aliniere, atribuire de coduri de bare și numărare UMI
Suită software Cell Ranger Single-Cell a fost utilizată pentru a efectua demultiplexarea probelor, procesarea codurilor de bare și numărarea genei 3′ a celulelor unice (http://software.10xgenomics.com/single-cell/overview/welcome). În primul rând, s-a efectuat demultiplexarea probei pe baza citirii indexului probei de 8 bp pentru a genera FASTQ-uri pentru citirile Read1 și Read2 împerecheate, precum și pentru codul de bare GemCode de 14 bp. Au fost extrase etichete UMI de zece perechi de baze din Read2 (14 biblioteci au fost realizate cu etichete UMI de 5 bp, după cum se menționează în tabelul suplimentar 1, din cauza unei iterații anterioare a metodelor. Pentru aceste eșantioane, au fost extrase etichete UMI de 5 bp din Read2.). Apoi, Read1, care conține inserția ADNc, a fost aliniat la un genom de referință adecvat cu ajutorul STAR35. Pentru celulele de șoarece, a fost utilizat mm10, iar pentru celulele umane, hg19. Pentru probele cu amestecuri de celule umane și de șoarece, s-a utilizat uniunea dintre hg19 și mm10. Pentru probele ERCC, s-a utilizat referința ERCC (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt).
În continuare, au fost filtrate codurile de bare GemCode și UMI. Sunt luate în considerare toate listele cunoscute de coduri de bare care se află la o distanță de 1-Hamming de un cod de bare observat. Apoi, se calculează probabilitatea posterioară ca codul de bare observat să fi fost produs de o eroare de secvențiere, având în vedere calitățile de bază ale codului de bare observat și probabilitatea anterioară de observare a codului de bare candidat (luată din distribuția globală a numărului de coduri de bare). În cazul în care probabilitatea ulterioară pentru orice cod de bare candidat este de cel puțin 0,975, atunci codul de bare este corectat cu codul de bare candidat cu cea mai mare probabilitate ulterioară. Dacă toate secvențele candidate sunt la fel de probabile, atunci se alege cea care apare prima prin ordinea lexicală.
UMI cu scorul de calitate a secvențierii >10 au fost considerate valide dacă nu erau homopolimeri. Qual=10 implică o acuratețe de apelare a bazei de 90%. Un UMI care se află la o distanță de 1-Hamming de un alt UMI (cu mai multe citiri) pentru același cod de bare celular și aceeași genă este corectat la UMI cu mai multe citiri. Această abordare este aproape identică cu cea din Jaitin et al.4 și este similară cu cea din Klein et al.8 (deși Klein et al.8 au folosit, de asemenea, UMI-uri pentru a rezolva citirile multimapate, ceea ce nu a fost implementat aici).
În cele din urmă, duplicatele PCR au fost marcate dacă două seturi de perechi de citiri au avut în comun o secvență de cod de bare, o etichetă UMI și un ID de genă (au fost utilizate GTF-urile Ensembl GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz și GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz). Pentru a genera matricea gene-coduri de bare au fost utilizate doar duplicatele non-PCR cartografiate cu încredere (MAPQ=255), cu coduri de bare și UMI valide, pentru a genera matricea gene-coduri de bare.
Codurile de bare ale celulelor au fost determinate pe baza distribuției numărului de UMI. Toate codurile de bare de top în cadrul aceluiași ordin de mărime (>10% din al n-lea cod de bare de top, unde n este 1% din numărul de celule recuperate preconizate) au fost considerate coduri de bare de celule. Numărul de citiri care furnizează informații semnificative este calculat ca produs a patru măsurători: (1) coduri de bare valide; (2) UMI valide; (3) asociate cu un cod de bare celular; și (4) cartografiate cu încredere la exoni.
În experimentele de amestecare a șoarecilor și a oamenilor, rata multipleților a fost definită ca fiind de două ori mai mare decât rata codurilor de bare celulare cu număr semnificativ de UMI atât de la șoareci, cât și de la oameni, unde 1% din numărul maxim de UMI a fost considerat semnificativ. Gradul de încrucișare a codurilor de bare a fost evaluat prin fracția de citiri de șoarece în codurile de bare umane, sau invers.
Eșantioanele procesate din mai multe canale pot fi combinate prin concatenarea matricelor gene-celule-coduri de bare. Această funcționalitate este furnizată în Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Datele de secvențiere din mai multe cicluri de secvențiere ale unei biblioteci pot fi combinate prin numărarea citirilor care nu sunt duplicate. Această funcționalitate este furnizată în conducta Cell Ranger. În plus, datele de secvențiere pot fi subeșantionate pentru a obține un anumit număr de numărări UMI pe celulă. Această funcționalitate este, de asemenea, furnizată în Cell Ranger R Kit și este utilă atunci când se combină date de la mai multe probe pentru comparație.
Analiză PCA a amestecului de celule Jurkat și 293T
Matricea de coduri de bare gene-celule din fiecare dintre cele patru probe a fost concatenată. Sunt utilizate numai genele cu cel puțin un număr UMI detectat în cel puțin o celulă. Normalizarea UMI a fost realizată prin împărțirea mai întâi a numărului de UMI la numărul total de UMI din fiecare celulă, urmată de înmulțirea cu mediana numărului total de UMI din toate celulele. Apoi, am luat loganul natural al numărului de UMI. În cele din urmă, fiecare genă a fost normalizată astfel încât semnalul mediu pentru fiecare genă să fie 0, iar deviația standard să fie 1. PCA a fost rulată pe matricea normalizată a codurilor de bare genetice. Numerele UMI normalizate ale fiecărei gene sunt utilizate pentru a arăta expresia unui marker într-un grafic tSNE.
SNV analysis of Jurkat and 293T scRNA-seq data
SNVs au fost numiți prin rularea Freebayes 1.0.2 (ref. 36) pe BAM-ul genomului produs de Cell Ranger. Au fost selectate SNV-uri de înaltă calitate (SNV calling Qual>=100 cu cel puțin 10 numărări UMI din cel puțin două celule; indels sunt ignorate) care au fost observate numai în celulele Jurkat sau 293T (dar nu în ambele). Celulele au fost etichetate ca fiind Jurkat sau 293T pe baza numărătorii SNV specifice Jurkat și 293T, în cazul în care fracțiunea de numărători din cealaltă specie este <0,2. Celulele cu o fracție de SNV din oricare dintre specii între 0,2 și 0,8 sunt considerate multiplete. Rata de multipleți dedusă este 2* rata de multipleți observată (pentru a lua în considerare multipleții Jurkat:Jurkat și 293T:293T).
Analiză PCA și tSNE a PBMC
Se utilizează genele cu cel puțin un număr de UMI detectat în cel puțin o celulă. Primele 1.000 de gene cele mai variabile au fost identificate pe baza mediei și a dispersiei lor (varianță/medie), ceea ce este similar cu abordarea utilizată de Macoscko et al.7. Genele au fost plasate în 20 de bini pe baza expresiei lor medii. Dispersia normalizată este calculată ca diferență absolută între dispersie și dispersia mediană a mediei de expresie, normalizată prin abaterea absolută mediană în cadrul fiecărui bin.
PCA a fost rulată pe matricea normalizată gene-barcode a primelor 1.000 de gene cele mai variabile pentru a reduce numărul de dimensiuni ale caracteristicilor (gene). Normalizarea UMI a fost realizată prin împărțirea mai întâi a numărului de UMI la numărul total de UMI din fiecare celulă, urmată de înmulțirea cu mediana numărului total de UMI din toate celulele. Apoi, am luat loganul natural al numărului de UMI. În cele din urmă, fiecare genă a fost normalizată astfel încât semnalul mediu pentru fiecare genă să fie 0, iar abaterea standard să fie 1. PCA a fost rulată pe matricea normalizată a codurilor de bare genetice. După rularea PCA, s-a efectuat aproximarea Barnes-hut37 la t-SNE16 pe primele 50 de PC-uri pentru a vizualiza celulele într-un spațiu bidimensional. Au fost utilizate 50 de PC-uri deoarece: (1) utilizarea tuturor PC-urilor ar dura foarte mult timp cu analiza t-SNE; (2) acestea au explicat ∼25% din varianța totală. Clusterizarea K-means15 a fost rulată pentru a grupa celulele pentru analiza de clusterizare. k=10 a fost selectat pe baza graficului scree al sumei erorilor pătrate (Fig. Suplimentară 5d).
Identificarea genelor specifice clusterului și clasificarea bazată pe markeri
Pentru a identifica genele care sunt îmbogățite într-un cluster specific, expresia medie a fiecărei gene a fost calculată pentru toate celulele din cluster. Apoi, fiecare genă din cluster a fost comparată cu expresia mediană a aceleiași gene din celulele din toate celelalte clustere. Genele au fost clasificate în funcție de diferența lor de expresie și au fost selectate primele 10 gene îmbogățite din fiecare cluster. Pentru gruparea ierarhică, s-a calculat corelația pe perechi între fiecare grup, iar expresia centrată a fiecărei gene a fost utilizată pentru vizualizare prin heatmap.
Clasificarea PBMC-urilor a fost dedusă din adnotarea genelor specifice fiecărui grup. În cazul clusterului 10, a fost detectată expresia markerilor a mai multor tipuri de celule (de exemplu, B, dendritice și T). Având în vedere că dimensiunea relativă a clusterelor B, dendritice și T este de 5,7 %, 6,6 % și, respectiv, 81 %, ne-am aștepta ca clusterul 10 (care este de numai 0,5 %) să conțină multiplete formate în principal din B:dendritice (0.36%) și B:dendritic:T (0,3%).
Selecția subpopulațiilor purificate de PBMC
Care populație de PBMC purificate a fost redusă la ∼16k citiri pe celulă. PCA, tSNE și gruparea k-means au fost efectuate pentru fiecare matrice subeșantionată, urmând aceiași pași descriși în analiza PCA și t-SNE a PBMCs. În majoritatea eșantioanelor a fost detectat un singur cluster, în concordanță cu analizele FACS (Fig. Suplimentară 6). Pentru eșantioanele cu mai mult de un cluster, doar clusterele care prezentau expresia genei marker așteptată au fost selectate pentru analiza în aval. Pentru monocitele CD14+, au fost observate două clustere și au fost identificate ca fiind monocite CD14+ și celule dendritice pe baza expresiei genelor marker FTL și, respectiv, CLEC9A.
Analiză de clasificare a celulelor utilizând PBMC purificate
Care populație de PBMC purificate a fost eșantionată până la ∼16k citiri cartografiate cu încredere per celulă. Apoi, a fost calculat un profil mediu (mediu) de expresie genetică pentru toate celulele. Apoi, expresia genică din fiecare celulă a populației complexe a fost comparată cu profilurile de expresie genică ale populațiilor purificate de PBMC prin corelația lui Spearman. Celulei i s-a atribuit ID-ul populației purificate dacă avea cea mai mare corelație cu acea populație. Rețineți că diferența dintre cea mai mare și a doua cea mai mare corelație a fost mică pentru unele celule (de exemplu, diferența dintre celulele T citotoxice și celulele NK), ceea ce sugerează că atribuirea celulelor nu a fost la fel de sigură pentru aceste celule. Câteva dintre populațiile de PBMC purificate s-au suprapus între ele. De exemplu, celulele T-helper CD4+ includ toate celulele CD4+. Acest lucru înseamnă că celulele din acest eșantion se vor suprapune cu celulele din eșantioanele care conțin celule CD4+, inclusiv CD4+/CD25+ T reg, CD4+/CD45RO+ T memory, CD4+/CD45RA+/CD25- naive T. Astfel, atunci când unei celule i s-a atribuit ID-ul de celulă CD4+ T-helper pe baza scorului de corelație, s-a verificat următoarea corelație cea mai mare pentru a vedea dacă este vorba de unul dintre eșantioanele CD4+. Dacă da, ID-ul celulei a fost actualizat la tipul de celulă cu următoarea corelație cea mai mare. Aceeași procedură a fost efectuată pentru CD8+ cytotoxic T și CD8+/CD45RA+ naive cytotoxic T (care este un subset al CD8+ cytotoxic T).
Codul R utilizat pentru a analiza 68k PBMCs și PBMCs purificate poate fi găsit aici: https://github.com/10XGenomics/single-cell-3prime-paper.
Clasificarea și clasificarea celulelor cu Seurat
Matricea gene-celule-cod de bare de 68k PBMCs a fost transformată în log-transformată ca intrare pentru Seurat. Primele 469 cele mai variabile gene selectate de Seurat au fost utilizate pentru a calcula PC-urile. Primele 22 de PC-uri au fost semnificative (P<0,01) pe baza analizei jackstraw încorporate și au fost utilizate pentru vizualizarea tSNE. Clasificarea celulelor a fost preluată din Cell classification analysis using purified PBMCs.
Comparare între PBMC proaspete și PBMC congelate
Datele de secvențiere a 68k PBMC proaspete și 3k PBMC congelate au fost eșantionate astfel încât fiecare probă să aibă ∼14k lecturi cartografiate cu încredere per celulă. Doar genele care sunt detectate în cel puțin o celulă au fost incluse pentru comparație, care utilizează media fiecărei gene în toate celulele.
Pentru compararea clasificării celulare între PBMC purificate și PBMC congelate, am grupat toate celulele etichetate ca celule T sau celule ucigașe naturale împreună. Acest lucru se datorează faptului că subpopulațiile din cadrul T și dintre T și celulele natural killer sunt uneori dificil de grupat separat. Nu am dorit ca comparația dintre celulele proaspete și cele congelate să fie afectată de metodele de grupare utilizate.
Asignarea genotipurilor pe bază de SNV
SNV-urile au fost apelate prin rularea Freebayes 1.0.2 (ref. 36) pe BAM-ul genomului produs de Cell Ranger. Au fost incluse numai SNV-urile cu sprijin din cel puțin două coduri de bare celulare, cu un scor minim SNV Qual >=30, minim SNV base Qual>=1. Numărul de alele de referință (R) și de alele alternative (A) a fost calculat pentru fiecare SNV, producând o matrice de numere UMI de referință pentru celule și de numere UMI de alele alternative pentru celule. Aceste matrici au fost modelate ca un amestec de două genomuri în care probabilitatea oricăruia dintre cele trei genotipuri (R/R, R/A sau A/A) la un loc a fost considerată ca fiind distribuită binomial cu o rată de eroare fixă de 0,1 %. Pentru fiecare eșantion, au fost deduse în paralel două modele, unul în cazul în care este prezent un singur genom (K=1) și altul în cazul în care sunt prezente două genomuri (K=2). Inferența parametrilor modelului (atribuirile celulă-genom și cele K seturi de genotipuri) a fost realizată prin utilizarea unui eșantionator Gibbs pentru a aproxima distribuțiile lor posterioare. Pentru a ameliora problema schimbării etichetei în inferența Monte Carlo a modelelor de amestec, s-a efectuat o reetichetare a asignărilor eșantionate de la celulă la genom în conformitate cu Stephens et al.38
În experimentele in silico de amestecare a celulelor, atunci când modelul K=2 nu a reușit să separe în mod adecvat cele două genomuri, acesta a raportat o distribuție a probabilităților posterioare de aproape 0,5 pentru apelurile celulă-genom, indicând o lipsă de încredere în aceste apeluri. Am aplicat cerința ca 90% din celule să aibă o probabilitate posterioară >75% pentru a selecta modelul K=2 în locul modelului K=1. Selectarea K=1 indică faptul că fracțiunea de amestec este sub nivelul de detecție al metodei, care în experimentele de amestecare in silico a fost determinată ca fiind de 4% din 6.000 de celule.
Compararea genotipurilor cu eșantionul pur
Pentru a verifica atribuirea genotipurilor indivizilor, au fost luate în considerare doar SNV-urile partajate între grupul de genotipuri și eșantionul pur. Apoi, genotipul mediu al tuturor celulelor a fost comparat cu cel al eșantionului pur. Pentru a obține o bază de referință pentru % de suprapunere a genotipurilor între diferiți indivizi, am efectuat comparații pe perechi de genotipuri obținute de la aceiași indivizi (11 comparații pe perechi) sau de la indivizi diferiți (15 comparații pe perechi). Procentul de suprapunere a genotipurilor între aceiași indivizi este în medie de ∼98±0,3 %, în timp ce procentul de suprapunere a genotipurilor între indivizi diferiți este în medie de ∼73±2 %.
Analiză PCA și tSNE a BMMCs
Au fost utilizate date din șase probe: două probe de control sănătoase, AML027 pre și posttransplant și AML035 pre și posttransplant. Fiecare eșantion a fost micșorat la ∼10k citiri cartografiate cu încredere pe celulă. Apoi, matricea codului de bare genă-celulă din fiecare eșantion a fost concatenată. PCA, tSNE și gruparea k-means au fost efectuate pe matricea combinată, urmând aceiași pași descriși în analiza PCA și tSNE a PBMC-urilor. Pentru gruparea k-means, a fost utilizat K=10 pe baza curburii din graficul scree al sumei erorilor pătrate.
Gene specifice clusterului au fost identificate urmând pașii descriși în „Identificarea genelor specifice clusterului și clasificarea bazată pe markeri”. Clasificarea a fost atribuită pe baza genelor specifice clusterului și pe baza expresiei unor markeri bine-cunoscuți ai tipurilor de celule imune. ‘Blasts and Immature Ery 1’ se referă la clusterul 4, care exprimă CD34, un marker al progenitorilor hematopoietici39, și Gata2, un marker al eritroizilor timpurii40. „Immature Ery 2” se referă la clusterele 5 și 8, care prezintă expresia Gata1, un factor de transcripție esențial pentru eritropoieză41, dar nu CD71, care se găsește adesea în celulele eritroide mai angajate39. „Immature Ery 3” se referă la grupul 1, care prezintă expresia CD71. „Mature Ery” se referă la grupul 2. HBA1, un marker al celulelor eritroide mature, este detectat în mod preferențial în clusterul 2. Clusterul 3 a fost atribuit ca „Granulocite imature” din cauza exprimării markerilor timpurii ai granulocitelor, cum ar fi AZU1 și IL8 (ref. 42), și a lipsei de exprimare a CD16. Clusterul 7 a fost atribuit ca „Monocite” din cauza exprimării CD14 și FCN1, de exemplu. ‘B’ se referă la clusterele 6 și 9 din cauza unor markeri precum CD19 și CD79A. ‘T’ se referă la clusterul 10, din cauza unor markeri precum CD3D și CD8A.
Date disponibile
Toate datele relevante sunt disponibile la autori. Datele RNA-seq cu o singură celulă au fost depuse în Arhiva de citire scurtă sub numărul de acces SRP073767. Datele sunt, de asemenea, disponibile la http://support.10xgenomics.com/single-cell/datasets. Codul de analiză pentru analiza 68k PBMC este disponibil la https://github.com/10XGenomics/single-cell-3prime-paper.
.