- High-speed imaging of gel beads and cells in GEMs
- Cellavonalak és transzplantált betegminták
- A sejtenkénti RNS-tartalom becslése
- Cellakészítés
- Szekvenáló könyvtárépítés a GemCode platform segítségével
- ERCC assay
- ddPCR assay
- Cellafogó hatékonyságának kiszámítása
- Chimerism assay
- Alignment, vonalkód hozzárendelés és UMI számlálás
- Jurkat és 293T sejtek keverésének PCA-elemzése
- A Jurkat és 293T scRNA-seq-adatok SNV-elemzése
- PCA és tSNE PBMC-k elemzése
- Klaszter-specifikus gének azonosítása és marker alapú osztályozás
- PBMC-k tisztított alpopulációinak kiválasztása
- Cellosztályozási elemzés tisztított PBMC-k felhasználásával
- Cellaklaszterezés és osztályozás Seurat segítségével
- A friss és fagyasztott PBMC-k összehasonlítása
- SNV-alapú genotípus-hozzárendelés
- Genotípus-összehasonlítás a tiszta mintával
- PCA és tSNE elemzés a BMMC-kről
- Adatok elérhetősége
High-speed imaging of gel beads and cells in GEMs
A mikroszkóp (Nikon Ti-E, × 10 objektív) és egy nagysebességű videokamera (Photron SA5, frame rate=4,000 s-1) segítségével minden egyes GEM-et a mikrofluidikus chipben történő képalkotás során rögzítettünk. Egy egyedi elemzőszoftvert használtunk a generált GEM-ek számának és az egyes GEM-ekben jelen lévő gyöngyök számának megszámlálásához, a peremfelismerés és a gyöngyszélek és a GEM-ek szélei és a szomszédos folyadék közötti kontraszt alapján. Az elemzés eredményeit az 1c. ábra foglalja össze. A GEM-ekben lévő sejtek eloszlásának becsléséhez kézi számlálást alkalmaztunk egy videó ∼28k képkockáján a GEM-ek egy részhalmazán. Az eredmények a Poisson-eloszláshoz való hozzávetőleges ragaszkodást jelzik. A többszörös sejthalmazok aránya azonban 16%-kal magasabb volt a várt értéknél, ami valószínűleg a részmintavételi hiba vagy a sejt-sejt kölcsönhatások miatt következett be (a kézi számlálás során néhány kétsejtes csomót figyeltünk meg) (Kiegészítő ábra. 1b).
Cellavonalak és transzplantált betegminták
A Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) és 3T3 (ATCC CRL-1658) sejteket az ATCC-től szereztük be, és az ATCC irányelveinek megfelelően tenyésztettük. A friss PBMC-ket, a fagyasztott PBMC-ket és a BMMC-ket az ALLCELLS-től szereztük be. Az A donorból származó friss PBMC-kből úgy készítettünk fagyasztott PBMC-ket, hogy 1e6 sejtet fagyasztó médiumban (15% dimetilszulfoxid (DMSO) Iscove módosított, 20% FBS-t tartalmazó Dulbecco médiumában) óvatosan összekevertünk, és CoolCell FTS30-ban (BioCision) -80 °C-on legalább 4 órán át hűtöttük, mielőtt 3 hétig folyékony nitrogénben tároltuk volna.
A Fred Hutchinson Rákkutató Központ intézményi felülvizsgálati bizottsága jóváhagyta a transzplantációs mintákon végzett vizsgálatot. A követett eljárások összhangban voltak az 1975-ös Helsinki Nyilatkozattal és a közös szabályokkal. A mintákat azt követően nyerték, hogy a betegek írásbeli tájékozott beleegyezésüket adták a molekuláris elemzésekhez. A Fred Hutchinson Rákkutató Központban allogén vérképző őssejt-transzplantáción átesett AML-es betegeket azonosítottunk. Az AML diagnózisát az Egészségügyi Világszervezet felülvizsgált kritériumai alapján állítottuk fel33.
A csontvelőaspirátumokat a transzplantáció előtt 20-30 nappal a standard klinikai vizsgálatokhoz vettük, majd a transzplantáció után sorozatosan, a kezelési protokollnak megfelelően. A csontvelő-aspirátum aliquotjait a mintavételtől számított 2 órán belül dolgozták fel. A BMMC-ket Ficoll-gradiens (Histopaque-1077; Sigma Life Science, St Louis, MO, USA) segítségével centrifugálással izoláltuk. A BMMC-ket a szérum-Ficoll határfelületről egyszer használatos Pasteur-pipettával gyűjtöttük össze, és átvittük az 50 ml-es kúpos csőbe, amelyhez 2%-os betegszérumot adtunk 1 × PBS-ben. A BMMC-ket hemacitométerrel megszámoltuk, az életképességet pedig Trypan-kékkel vizsgáltuk. A BMMC-ket 90% FBS, 10% DMSO fagyasztási közegben reszuszpendáltuk, és Thermo Scientific Nalgene Mr Frosty (Thermo Scientific) segítségével -80 °C-os fagyasztóban 24 órán át fagyasztottuk, majd a hosszú távú tárolás céljából folyékony nitrogénbe helyeztük át.
A sejtenkénti RNS-tartalom becslése
A sejttípusonkénti RNS mennyiségét több különböző ismert számú sejtből (Maxwell RSC simplyRNA Cells Kit) kivont RNS számszerűsítésével (Qubit; Invitrogen) határoztuk meg.
Cellakészítés
A friss sejteket learattuk, 1 × PBS-szel mostuk és 1 × 106 sejt/ml mennyiségben 1 × PBS-ben és 0,04% szarvasmarha szérumalbuminban reszuszpendáltuk. A friss PBMC-ket 10 ×-ben lefagyasztottuk a PBMC-k DMEM+40% FBS+10% DMSO-ban történő reszuszpendálásával, CoolCell® FTS30 (BioCision) készülékben -by °C-ra fagyasztva, majd folyékony nitrogénben tárolva.
Az ALLCELLS és transzplantációs vizsgálatokból származó fagyasztott sejtampullákat 37 °C-os vízfürdőben ∼2 percig gyorsan felolvasztottuk. A fiolákat eltávolítottuk, amikor egy apró jégkristály maradt. A felolvasztott PBMC-ket kétszer mostuk a tápfolyadékban, majd szobahőmérsékleten 1 × PBS-ben és 0,04% szarvasmarha-szérumalbuminban reszuszpendáltuk. A sejteket 300 fordulatszámon 5 percig centrifugáltuk minden alkalommal. A felolvasztott BMMC-ket mostuk és újraszuszpendáltuk 1 × PBS-ben és 20% FBS-ben. A felolvasztott sejtek végső koncentrációja 1 × 106 sejt/ml volt.
Szekvenáló könyvtárépítés a GemCode platform segítségével
A sejtszuszpenziókat egy GemCode Single-Cell Instrumentre (10x Genomics, Pleasanton, CA, USA) töltöttük az egysejtes GEM-ek előállításához. Az egysejtes RNS-Seq könyvtárakat a GemCode Single-Cell 3′ Gel Bead and Library Kit (jelenleg P/N 120230, 120231, 120232, 10x Genomics) segítségével állítottuk elő. A GEM-RT-t C1000 Touch Thermal cyclerben végeztük 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197) segítségével: 55 °C 2 órán át, 85 °C 5 percig; 4 °C-on tartva. Az RT után a GEM-eket felbontottuk, és az egyszálú cDNS-t DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) és SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318) segítségével tisztítottuk. A cDNS-t a C1000 Touch Thermal cycler 96-Deep Well Reaction Module segítségével amplifikáltuk: 98 °C 3 percig; ciklikusan 14 × : 98 °C 15 s-ig, 67 °C 20 s-ig és 72 °C 1 percig; 72 °C 1 percig; 4 °C-on tartva. Az amplifikált cDNS-terméket az SPRIselect Reagent Kit (0,6 × SPRI) segítségével tisztítottuk. A cDNS-t ezt követően a Covaris M220 rendszer (Covaris; P/N 500295) segítségével ∼200 bp-ra nyírtuk. Az indexált szekvenáló könyvtárakat a GemCode Single-Cell 3′ Library Kitben található reagensek felhasználásával, az alábbi lépések szerint állítottuk elő: (1) végjavítás és A-tailing; (2) adapter-ligálás; (3) a ligálás utáni tisztítás SPRIselect segítségével; (4) mintaindex PCR és tisztítás. A vonalkódos szekvenáló könyvtárakat kvantitatív PCR segítségével számszerűsítettük (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). A szekvenáló könyvtárakat 2,1 pM-mal töltöttük fel egy Illumina NextSeq500-ra 2 × 75 párosított végű készletekkel, a következő olvasási hosszal: 98 bp Read1, 14 bp I7 index, 8 bp I5 index és 10 bp Read2. Néhány korábbi könyvtárat 5 nt UMI-vel készítettünk, és helyette 5 bp Read2-t kaptunk. Ezeket a könyvtárakat az 1. kiegészítő táblázatban dokumentáltuk.
ERCC assay
ERCC szintetikus spike-in RNS-eket (Thermo Fisher Scientific; P/N 4456740) hígítottunk (1:10 vagy 1:50) és betöltöttük egy GemCode Single-Cell műszerbe, a GEM-ek előállításához általában használt sejtek helyett. A Spike-in Mix1 és Mix2 keveréket egyaránt teszteltük. Kissé módosított protokollt alkalmaztunk, mivel a GEM-eknek csak kis hányadát gyűjtöttük össze az RT és a cDNS-amplifikációhoz. A GEM-RT befejezése után az emulzióból 1,25 μl-t eltávolítottunk, és hozzáadtuk a Recovery Agent (125 μl) (P/N 220016) és a 25 mM additive 1 (30 μl) (P/N 220074, 10x Genomics) kétfázisú keverékéhez. Ezután a recovery agentet eltávolítottuk, és a maradék vizes oldatot az SPRISelect Reagent Kit (0,8 × SPRI) segítségével tisztítottuk. A cDNS-t a C1000 Touch Thermal cycler 96-Deep Well Reaction Module segítségével amplifikáltuk: 98 °C 3 percig; ciklikusan 14 × : 98 °C 15 s-ig, 67 °C 20 s-ig és 72 °C 1 percig; 72 °C 1 percig; 4 °C-on tartva. Az amplifikált cDNS terméket az SPRIselect Reagent Kit segítségével tisztítottuk (0,8 × ) A cDNS-t ezt követően a Covaris M220 rendszer segítségével ∼200 bp-re nyírtuk, hogy 10x Genomics-adapterekkel rendelkező mintaindexált könyvtárakat hozzunk létre. A várható ERCC molekulák számát a felhasznált ERCC molekulák mennyisége és a minta hígítási tényezői alapján számoltuk ki. A számokat összehasonlítottuk a detektált molekulák számával (UMI számok) a konverziós hatékonyság kiszámításához.
ddPCR assay
Jurkat sejteket használtunk ddPCR vizsgálatokban a konverziós hatékonyság becsléséhez az alábbiak szerint: (1) az egy Jurkat-sejtre jutó RNS mennyiségét több különböző, ismert számú Jurkat-sejtből kivont (Maxwell RNA Purification Kits) RNS számszerűsítésével (Qubit, Invitrogen) határoztuk meg. (2) Tömeges RT-ddPCR-t (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) végeztünk a kivont RNS-en, hogy meghatározzuk nyolc kiválasztott gén sejtenkénti kópiaszámát. (3) Körülbelül 5000 Jurkat-sejtet dolgoztunk fel a GemCode Single-Cell 3′ platform segítségével, és az RT után egyszálú cDNS-t gyűjtöttünk GEM-ekben a “Szekvenáló könyvtár létrehozása a GemCode platform használatával” című részben felsorolt protokollok szerint. ddPCR (Bio-Rad ddPCR Supermix for Probes (no dUTP) P/N 1863024) segítségével határoztuk meg a nyolc gén cDNS-kópiáját. A tényleges Jurkat-sejtek számát a GEM-RT-reakciók egy részhalmazának MiSeq-en történő szekvenálásával állapítottuk meg. A konverziós hatékonyság a sejtenkénti cDNS-kópiák (3. lépés) és a tömeges RT-ddPCR-ből származó sejtenkénti RNS-kópiák (2. lépés) aránya, feltételezve az RT-ddPCR34 50%-os hatékonyságát.
A ddPCR-teszthez használt szondaszekvenciák a következők: SERAC1_f, 5′-CACGAGAGCCGCCAGC-3′ és SERAC1_r, 5′-TCTGCAACAGATGACGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCCCATGGTCTCTAAGC-3′ és AP1S3_r, 5′-CCTTGTCGACTGAAGAGAGCAATATG-3′; AP1S3_p: /56-FAM/CGGCCCCCAGC/ZEN/CACGATGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGGTCTCTCGTOR-3′ és AOV1_r, 5′-TTCTTCATTCATAGCCTTCCCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGAGAGGTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ és DOLPP1_r, 5′-GGCTCTCAGGTAGGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCCGCTGAAG-3′ és KPNA6_r, 5′-CCCTGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCCCGC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGACAGGCTACGCAACACAG-3′ és ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGCGCCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCCCGCTTCCA-3′ és LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGAGGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGGCAGACG-3′ és AP2M1_r, 5′-ATGGCGGCAGATCAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCT/ZEN/GAGAACACAGACCTGGTG/3IABkFQ/.
Cellafogó hatékonyságának kiszámítása
A hatékonyságot a szekvenálással detektált sejtek számának és a chipbe töltött sejtek számának hányadosa alapján számítják ki. Ez utóbbit a (hozzáadott térfogat × bemeneti sejtkoncentráció) egyenletből határozzuk meg. A sejtek bemeneti koncentrációját Countess II automatizált sejtszámlálóval (Thermo Fisher Scientific) határoztuk meg. Érdemes megjegyezni, hogy a sejtek számolásában 15-20%-os hiba van, ami legalább részben magyarázatot adhat a számított hatékonyságok változékonyságára.
Chimerism assay
A PowerPlex 16 rendszert (Promega) egy Applied Biosystems (Life Technologies) 3130xl Genetic Analyzerrel együtt használtuk. A donor BMMC-ket használtuk referencia alapvonalnak.
Alignment, vonalkód hozzárendelés és UMI számlálás
A Cell Ranger Single-Cell Software Suite-ot használtuk a minták demultiplexeléséhez, a vonalkód feldolgozásához és az egysejtű 3′ génszámláláshoz (http://software.10xgenomics.com/single-cell/overview/welcome). Először a minta demultiplexálását végeztük el a 8 bp-os mintaindex leolvasás alapján, hogy FASTQ-kat hozzunk létre a Read1 és Read2 páros végű leolvasásokhoz, valamint a 14 bp-os GemCode vonalkódhoz. A Read2-ből tíz bázispár UMI-címkét vontunk ki (14 könyvtárat készítettünk 5 bp UMI-címkével, amint az az 1. kiegészítő táblázatban szerepel, a módszerek egy korábbi iterációja miatt. Ezeknél a mintáknál a Read2-ből 5 bp UMI-jelöléseket vontunk ki). Ezután a cDNS inszertet tartalmazó Read1-et a STAR35 segítségével igazítottuk egy megfelelő referencia genomhoz. Az egérsejtek esetében az mm10-et, a humán sejtek esetében pedig a hg19-et használtuk. Az egér és humán sejtkeverékeket tartalmazó minták esetében a hg19 és az mm10 egyesítését használtuk. Az ERCC minták esetében az ERCC referenciát (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt) használtuk.
Ezután a GemCode vonalkódok és az UMI-k szűrése következett. A megfigyelt vonalkódtól 1Hamming-távolságra lévő vonalkódok összes ismert listáját figyelembe vettük. Ezután a megfigyelt vonalkód bázisminőségei és a jelölt vonalkód megfigyelésének előzetes (a teljes vonalkódszám-eloszlásból vett) valószínűsége alapján kiszámítjuk annak utólagos valószínűségét, hogy a megfigyelt vonalkódot szekvenálási hiba okozta. Ha bármelyik vonalkódjelölt utólagos valószínűsége legalább 0,975, akkor a vonalkódot a legnagyobb utólagos valószínűségű vonalkódjelöltre korrigáljuk. Ha az összes jelölt szekvencia egyforma valószínűségű, akkor a lexikális sorrend szerint elsőként megjelenő szekvenciát választjuk ki.
A >10 szekvenálási minőségi pontszámmal rendelkezőUMI-kat érvényesnek tekintettük, ha nem homopolimerek. A Qual=10 90%-os bázishívási pontosságot jelent. Az olyan UMI-t, amely 1Hamming-távolságra van egy másik (több olvasattal rendelkező) UMI-tól ugyanarra a sejt-vonalkódra és génre vonatkozóan, a több olvasattal rendelkező UMI-ra korrigáljuk. Ez a megközelítés közel azonos a Jaitin et al.4-ben alkalmazott megközelítéssel, és hasonló a Klein et al.8-ban alkalmazott megközelítéshez (bár Klein et al.8 szintén UMI-ket használt a multimapped olvasatok feloldására, amit itt nem valósítottunk meg).
Végül a PCR duplikátumokat jelöltük, ha két olvasatpár közös vonalkódszekvenciát, UMI taget és génazonosítót tartalmazott (az Ensembl GTF-eket GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz és GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz, használtuk). Csak a biztosan leképezett (MAPQ=255), érvényes vonalkóddal és UMI-vel rendelkező, nem-PCR duplikátumokat használtuk a gén-vonalkód mátrix létrehozásához.
A sejtek vonalkódjait az UMI-számok eloszlása alapján határoztuk meg. Az azonos nagyságrendű (>10%-a a felső n-edik vonalkódnak, ahol n a várhatóan visszanyert sejtek számának 1%-a) minden felső vonalkódot sejtvonalkódnak tekintettünk. Az értelmes információt nyújtó leolvasások számát négy metrika szorzataként számoltuk ki: (1) érvényes vonalkódok; (2) érvényes UMI; (3) sejtvonalkóddal társított; és (4) exonokhoz biztosan leképezett.
Az egér és ember keverési kísérletekben a multiplet-ráta az egér és ember esetében a jelentős UMI-számmal rendelkező sejtvonalkódok arányának kétszerese volt, ahol az UMI-számok felső 1%-át tekintették jelentősnek. A vonalkódok kereszthatásának mértékét a humán vonalkódokban lévő egér leolvasások töredéke alapján értékeltük, vagy fordítva.
A több csatornából feldolgozott minták kombinálhatók a gén-sejt-vonalkód mátrixok összekapcsolásával. Ezt a funkciót a Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit) biztosítja. Egy könyvtár több szekvenálási futtatásából származó szekvenálási adatok kombinálhatók a nem duplikált leolvasások számolásával. Ezt a funkciót a Cell Ranger csővezeték biztosítja. Ezenkívül a szekvenálási adatok almintavételezhetők, hogy adott számú UMI-számlálást kapjunk sejtenként. Ezt a funkciót a Cell Ranger R Kit is biztosítja, és hasznos, amikor több mintából származó adatokat kombinálnak összehasonlítás céljából.
Jurkat és 293T sejtek keverésének PCA-elemzése
A négy minta mindegyikéből származó gén-sejt-vonalkód mátrixot összefűztük. Csak olyan géneket használtunk fel, amelyeknél legalább egy sejtben legalább egy UMI-számot detektáltunk. Az UMI normalizálását úgy végeztük el, hogy először az UMI-számokat elosztottuk az egyes sejtek összes UMI-számával, majd megszoroztuk a sejtek összes UMI-számának mediánjával. Ezután az UMI-számok természetes logaritmusát vettük. Végül minden egyes gént normalizáltunk úgy, hogy az egyes gének átlagos jele 0 legyen, a szórás pedig 1. A PCA-t a normalizált gén-vonalkód mátrixon futtattuk. Az egyes gének normalizált UMI-számát a marker expressziójának tSNE-diagramon való megjelenítésére használtuk.
A Jurkat és 293T scRNA-seq-adatok SNV-elemzése
A SNV-ket a Cell Ranger által előállított genom BAM-on a Freebayes 1.0.2 (hivatkozás 36) futtatásával hívtuk ki. Kiválasztottuk a jó minőségű SNV-ket (SNV calling Qual>=100, legalább 10 UMI-számmal legalább két sejtből; az indeleket figyelmen kívül hagytuk), amelyeket csak a Jurkat vagy a 293T sejtekben (de nem mindkettőben) figyeltünk meg. A sejteket a Jurkat- és 293T-specifikus SNV-számok alapján Jurkat- vagy 293T-nek jelöltük, ahol a másik fajból származó számok aránya <0,2. Azokat a sejteket, amelyekben a bármelyik fajból származó SNV-k aránya 0,2 és 0,8 között van, multipleteknek tekintjük. A következtetett multiplet-ráta 2* megfigyelt multiplet-ráta (a Jurkat:Jurkat és 293T:293T multiplet-ek figyelembevétele érdekében).
PCA és tSNE PBMC-k elemzése
A legalább egy sejtben kimutatott legalább egy UMI-számmal rendelkező géneket használtuk. Az 1000 legváltozékonyabb gént átlaguk és szórásuk (variancia/átlag) alapján azonosítottuk, ami hasonló a Macoscko és munkatársai által alkalmazott megközelítéshez.7 A géneket 20 binsbe soroltuk az átlagos expressziójuk alapján. A normalizált szórást a szórás és az expressziós átlag medián szórása közötti abszolút különbségként számoltuk ki, az egyes bineken belüli medián abszolút eltéréssel normalizálva.
PCA-t futtattunk a top 1000 legváltozékonyabb gén normalizált gén-gerincmátrixán, hogy csökkentsük a jellemző (gén) dimenziók számát. Az UMI normalizálását úgy végeztük el, hogy először az UMI-számokat elosztottuk az egyes cellák összes UMI-számával, majd megszoroztuk a cellák összes UMI-számának mediánjával. Ezután az UMI-számok természetes logaritmusát vettük. Végül minden egyes gént normalizáltunk úgy, hogy az egyes gének átlagos jele 0 legyen, a szórás pedig 1. A PCA-t a normalizált gén-vonalkód mátrixon futtattuk le. A PCA lefuttatása után a t-SNE16 Barnes-hut37 közelítését végeztük el az első 50 PC-n, hogy a sejteket egy kétdimenziós térben megjelenítsük. Ötven PC-t használtunk, mert: (1) az összes PC használata a tSNE-elemzéssel nagyon sok időt venne igénybe; (2) a teljes variancia ∼25%-át magyarázták. K-means15 klaszterezést futtattunk a sejtek csoportosítására a klaszterelemzéshez. k=10-et választottunk a hiba négyzetösszegének scree plotja alapján (Kiegészítő 5d. ábra).
Klaszter-specifikus gének azonosítása és marker alapú osztályozás
Az egy adott klaszterben feldúsult gének azonosításához minden gén átlagos expresszióját kiszámítottuk a klaszter összes sejtjére. Ezután a klaszterből származó minden egyes gént összehasonlítottunk ugyanannak a génnek az összes többi klaszterben lévő sejtek kifejeződésének mediánjával. A géneket expressziós különbségük alapján rangsoroltuk, és minden klaszterből kiválasztottuk a 10 legjobban feldúsult gént. A hierarchikus klaszterezéshez kiszámítottuk az egyes klaszterek közötti páronkénti korrelációt, és az egyes gének centrális expresszióját használtuk a heatmap segítségével történő vizualizációhoz.
A PBMC-k osztályozására a klaszter-specifikus gének annotációjából következtettünk. A 10. klaszter esetében több sejttípus (például B, dendritikus és T) marker-expresszióját detektáltuk. Mivel a B, dendritikus és T relatív klasztermérete 5,7%, 6,6%, illetve 81%, azt várnánk, hogy a 10. klaszter (amely csak 0,5%) többnyire B:dendritikusból álló multipleteket tartalmaz (0.36%) és B:dendritikus:T (0,3%).
PBMC-k tisztított alpopulációinak kiválasztása
A tisztított PBMC-k minden egyes populációját lemintavételeztük ∼16k olvasásra sejtenként. PCA, tSNE és k-means klaszterezést végeztünk minden egyes lemintavételezett mátrixra, a PBMC-k PCA és t-SNE elemzésénél ismertetett lépések szerint. A legtöbb mintában csak egy klasztert észleltünk, összhangban a FACS-elemzésekkel (6. kiegészítő ábra). Az egynél több klasztert tartalmazó minták esetében csak azokat a klasztereket választottuk ki a downstream elemzéshez, amelyek a várt markergén-expressziót mutatták. A CD14+ monociták esetében két klasztert figyeltünk meg, amelyeket az FTL és a CLEC9A markergének expressziója alapján CD14+ monocitaként és dendritikus sejtként azonosítottunk.
Cellosztályozási elemzés tisztított PBMC-k felhasználásával
A tisztított PBMC-k minden populációját lemintavételeztük ∼16k biztosan leképezett olvasatra sejtenként. Ezután kiszámítottuk az összes sejtre vonatkozó átlagos (átlagos) génexpressziós profilt. Ezután a komplex populáció minden sejtjének génexpresszióját Spearman-féle korrelációval hasonlítottuk össze a tisztított PBMC-populációk génexpressziós profiljaival. Az a sejt a tisztított populáció azonosítóját kapta, amelyik a legmagasabb korrelációt mutatta az adott populációval. Megjegyzendő, hogy a legmagasabb és a második legmagasabb korreláció közötti különbség néhány sejt esetében (például a citotoxikus T- és NK-sejtek közötti különbség) kicsi volt, ami arra utal, hogy e sejtek esetében a sejtek hozzárendelése nem volt olyan biztos. Néhány tisztított PBMC-populáció átfedésben volt egymással. A CD4+ T-helper sejtek például az összes CD4+ sejtet magukban foglalják. Ez azt jelenti, hogy az ebből a mintából származó sejtek átfedésben vannak a CD4+ sejteket tartalmazó minták sejtjeivel, beleértve a CD4+/CD25+ T reg, CD4+/CD45RO+ T memória, CD4+/CD45RA+/CD25- naiv T. Így amikor egy sejthez a korrelációs pontszám alapján a CD4+ T-helper sejt azonosítót rendeltük, a következő legmagasabb korrelációt ellenőriztük, hogy az a CD4+ minták egyikéhez tartozik-e. Ezt a korrelációs pontszámot a CD4+ minták közül választottuk. Ha igen, akkor a sejt azonosítóját a következő legmagasabb korrelációval rendelkező sejttípusra frissítettük. Ugyanezt az eljárást végeztük el a CD8+ citotoxikus T és a CD8+/CD45RA+ naiv citotoxikus T (amely a CD8+ citotoxikus T egy alcsoportja) esetében.
A 68k PBMC-k és a tisztított PBMC-k elemzéséhez használt R-kód itt található: https://github.com/10XGenomics/single-cell-3prime-paper.
Cellaklaszterezés és osztályozás Seurat segítségével
A 68k PBMC-k gén-sejt-vonalkód mátrixát log-transzformáltuk a Seurat bemeneteként. A Seurat által kiválasztott 469 legváltozékonyabb gént használtuk a PC-k kiszámításához. Az első 22 PC a beépített jackstraw-elemzés alapján szignifikáns volt (P<0,01), és a tSNE megjelenítéséhez használtuk. A sejtek osztályozását a tisztított PBMC-ket használó sejtosztályozási elemzésből vettük át.
A friss és fagyasztott PBMC-k összehasonlítása
A 68k friss PBMC és 3k fagyasztott PBMC szekvenálási adatait lemintavételeztük úgy, hogy minden minta ∼14k biztosan leképezett olvasatot tartalmazzon sejtenként. Csak a legalább egy sejtben detektált géneket vettük be az összehasonlításba, amely az egyes gének összes sejtre vonatkozó átlagát használja.
A tisztított és fagyasztott PBMC-k közötti sejtosztályozás összehasonlításához az összes T- vagy természetes ölősejtként jelölt sejtet összevontuk. Ennek oka, hogy a T-sejteken belüli, illetve a T- és természetes ölősejtek közötti szubpopulációkat néha nehéz külön-külön klaszterezni. Nem akartuk, hogy a friss és fagyasztott sejtek közötti összehasonlítást befolyásolják az alkalmazott klaszterezési módszerek.
SNV-alapú genotípus-hozzárendelés
Az SNV-ket a Cell Ranger által előállított genom BAM-on a Freebayes 1.0.2 (hivatkozás 36) futtatásával neveztük meg. Csak olyan SNV-ket vontunk be, amelyek legalább két sejtbarkóddal, minimális SNV Qual pontszámmal >=30, minimális SNV base Qual>=1 támogatással rendelkeztek. Minden SNV-nél kiszámítottuk a referencia (R) és alternatív (A) allélszámokat, így létrehozva a sejt-referencia UMI-számok és a sejt-alternatív allél UMI-számok mátrixát. Ezeket a mátrixokat két genom keverékeként modelleztük, ahol a három genotípus (R/R, R/A vagy A/A) bármelyikének valószínűségét egy helyen binomiális eloszlásúnak vettük, 0,1%-os rögzített hibaaránnyal. Minden mintára két modellt vezettünk le párhuzamosan, egyet, ahol csak egy genom van jelen (K=1), és egy másikat, ahol két genom van jelen (K=2). A modellparaméterek (sejt-genom hozzárendelések és a genotípusok K halmaza) következtetését Gibbs-mintavevő segítségével végeztük el, hogy közelítsük azok utólagos eloszlását. A keverékmodellek Monte-Carlo következtetésénél a címkeváltás problémájának enyhítésére a mintavételezett sejt-genom hozzárendelések átcímkézését a Stephens et al.38
szerint végeztük el. Az in silico sejtkeverési kísérletekben, amikor a K=2 modell nem tudta megfelelően elkülöníteni a két genomot, a sejt-genom hívásokhoz 0,5 közeli poszterior valószínűségi eloszlást jelentett, ami azt jelezte, hogy nincs elég bizalom a hívásokban. A K=2 modell K=1 modellel szembeni kiválasztásához azt a követelményt alkalmaztuk, hogy a sejtek 90%-ának utólagos valószínűsége >75% legyen. A K=1 kiválasztása azt jelzi, hogy a keverékfrakció a módszer kimutatási szintje alatt van, amelyet a silico keverési kísérletekben 6000 sejt 4%-ának határoztunk meg.
Genotípus-összehasonlítás a tiszta mintával
A genotípusok egyedekhez való hozzárendelésének megállapításához csak a genotípuscsoport és a tiszta minta közötti közös SNV-ket vettük figyelembe. Ezután az összes sejt átlagos genotípusát összehasonlítottuk a tiszta minta genotípusával. Annak érdekében, hogy a különböző egyedek közötti %-os genotípus-átfedés bizonyos alapértékét megkapjuk, elvégeztük az azonos egyedekből (11 páronkénti összehasonlítás) vagy különböző egyedekből (15 páronkénti összehasonlítás) származó genotípusok páronkénti összehasonlítását. Az azonos egyének közötti százalékos genotípus-átfedés átlagosan ∼98±0,3%, míg a különböző egyének közötti százalékos genotípus-átfedés átlagosan ∼73±2%.
PCA és tSNE elemzés a BMMC-kről
Hat minta adatait használtuk fel: két egészséges kontroll, AML027 transzplantáció előtti és utáni, valamint AML035 transzplantáció előtti és utáni. Minden mintát lemintavételeztünk ∼10k biztosan leképezett olvasatra sejtenként. Ezután az egyes minták gén-sejt vonalkódmátrixát összekapcsoltuk. Az összevont mátrixon PCA, tSNE és k-means klaszterezést végeztünk, a PBMC-k PCA és tSNE elemzésénél ismertetett lépések szerint. A k-means klaszterezéshez K=10-et használtunk a négyzetes hibaösszeg scree plot kanyarja alapján.
A klaszter-specifikus gének azonosítása a “Klaszter-specifikus gének azonosítása és marker alapú osztályozás” című fejezetben ismertetett lépések szerint történt. Az osztályozást a klaszter-specifikus gének alapján, valamint az immunsejttípusok néhány jól ismert markerének expressziója alapján rendeltük el. A “Blastok és éretlen Ery 1” a 4. klaszterre utal, amely a CD34-et, a vérképzőszervi progenitorok markerét39 és a Gata2-t, a korai eritroidok markerét40 expresszálja. Az “Immature Ery 2” az 5. és 8. klaszterre utal, amelyek az eritropoézishez nélkülözhetetlen Gata1 transzkripciós faktor41 expresszióját mutatják, de nem a CD71-et, amely gyakran megtalálható az elkötelezettebb eritroid sejtekben39. Az “Immature Ery 3” az 1. klaszterre utal, amely a CD71 kifejeződését mutatja. Az “érett Ery” a 2. klaszterre utal. A HBA1, az érett erythroid sejtek markere, előnyösen kimutatható a 2. klaszterben. A 3. klasztert “éretlen granulociták”-ként jelöltük meg a korai granulocita markerek, mint az AZU1 és az IL8 (hivatkozás 42) expressziója, valamint a CD16 expressziójának hiánya miatt. A 7. klasztert “Monociták”-ként jelöltük ki, például a CD14 és az FCN1 kifejeződése miatt. A “B” a 6. és 9. klaszterekre utal az olyan markerek miatt, mint a CD19 és a CD79A. A “T” a 10. klaszterre utal, olyan markerek miatt, mint a CD3D és a CD8A.
Adatok elérhetősége
Minden releváns adat elérhető a szerzőktől. Az egysejtes RNS-seq adatokat a Short Read Archive-ban helyezték letétbe SRP073767 csatlakozási szám alatt. Az adatok a http://support.10xgenomics.com/single-cell/datasets címen is elérhetők. A 68k PBMC analízis elemzési kódja a https://github.com/10XGenomics/single-cell-3prime-paper.
címen érhető el.