- Vysokorychlostní zobrazování gelových kuliček a buněk v GEM
- Buněčné linie a vzorky pacientů po transplantaci
- Odhad obsahu RNA na buňku
- Příprava buněk
- Konstrukce sekvenační knihovny pomocí platformy GemCode
- ERCC test
- test ddPCR
- Výpočet účinnosti zachycení buněk
- Test chimérismu
- Zarovnání, přiřazení čárových kódů a počítání UMI
- PCA analýza míchání buněk Jurkat a 293T
- SNV analýza dat scRNA-seq Jurkat a 293T
- PCA a tSNE analýza PBMC
- Identifikace genů specifických pro shluk a klasifikace na základě markerů
- Výběr purifikovaných subpopulací PBMC
- Analýza klasifikace buněk pomocí purifikovaných PBMC
- Klastrování a klasifikace buněk pomocí programu Seurat
- Srovnání čerstvých a zmrazených PBMC
- Přiřazení genotypu na základě SNV
- Srovnání genotypů s čistým vzorkem
- PCA a tSNE analýza BMMC
- Dostupnost údajů
Vysokorychlostní zobrazování gelových kuliček a buněk v GEM
Mikroskop (Nikon Ti-E, objektiv × 10) a vysokorychlostní videokamera (Photron SA5, snímková frekvence=4 000 s-1) byly použity k zobrazení každého GEM, jak byl generován v mikrofluidním čipu. K počítání počtu generovaných GEM a počtu kuliček přítomných v každém GEM byl použit vlastní analytický software založený na detekci okrajů a kontrastu mezi okraji kuliček a okraji GEM a přilehlou kapalinou. Výsledky analýzy jsou shrnuty na obr. 1c. Pro odhad rozložení buněk v GEM bylo použito ruční počítání pro ∼28k snímků jednoho videa na podmnožině GEM. Výsledky naznačují přibližnou shodu s Poissonovým rozdělením. Procento vícenásobných buněčných obalů však bylo o 16 % vyšší než očekávaná hodnota, pravděpodobně v důsledku chyby při podvzorkování nebo interakcí mezi buňkami (při ručním počítání byly pozorovány některé shluky dvou buněk) (doplňkový obr. 1b).
Buněčné linie a vzorky pacientů po transplantaci
Buňky Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) a 3T3 (ATCC CRL-1658) byly získány od ATCC a kultivovány podle pokynů ATCC. Čerstvé PBMC, zmrazené PBMC a BMMC byly zakoupeny od společnosti ALLCELLS. Zmrazené PBMC od dárce A byly vyrobeny z čerstvých PBMC od dárce A jemným smícháním 1e6 buněk v mrazicím médiu (15 % dimethylsulfoxidu (DMSO) v Iscoveho modifikovaném Dulbeccově médiu obsahujícím 20 % FBS) a zchlazeny v chladicím zařízení CoolCell FTS30 (BioCision) při -80 °C po dobu nejméně 4 hodin před přenesením do tekutého dusíku na 3 týdny.
Studii na transplantovaných vzorcích schválila Institutional Review Board při Fred Hutchinson Cancer Research Center. Použité postupy byly v souladu s Helsinskou deklarací z roku 1975 a společnými pravidly. Vzorky byly získány poté, co pacienti poskytli písemný informovaný souhlas s molekulárními analýzami. Identifikovali jsme pacienty s AML, kteří podstoupili alogenní transplantaci krvetvorných kmenových buněk ve Fred Hutchinson Cancer Research Center. Diagnóza AML byla stanovena podle revidovaných kritérií Světové zdravotnické organizace33.
Aspiráty kostní dřeně byly získány pro standardní klinické vyšetření 20-30 dní před transplantací a sériově po transplantaci podle léčebného protokolu. Alikvoty aspirátu kostní dřeně byly zpracovány do 2 hodin od odběru. BMMC byly izolovány pomocí centrifugace přes gradient Ficoll (Histopaque-1077; Sigma Life Science, St Louis, MO, USA). BMMC byly odebrány z rozhraní sérum-Ficoll pomocí jednorázové Pasteurovy pipety a přeneseny do 50ml kónické zkumavky s 2% pacientským sérem v 1× PBS. BMMC byly spočítány pomocí hemacytometru a životaschopnost byla hodnocena pomocí Trypanovy modři. BMMC byly resuspendovány v 90 % FBS, 10 % DMSO mrazicím médiu a zmraženy pomocí Thermo Scientific Nalgene Mr Frosty (Thermo Scientific) v mrazničce při -80 °C po dobu 24 hodin, poté byly přeneseny do tekutého dusíku k dlouhodobému skladování.
Odhad obsahu RNA na buňku
Množství RNA na typ buňky bylo stanoveno kvantifikací (Qubit; Invitrogen) RNA extrahované (Maxwell RSC simplyRNA Cells Kit) z několika různých známých počtů buněk.
Příprava buněk
Čerstvé buňky byly sklizeny, promyty 1 × PBS a resuspendovány v množství 1 × 106 buněk na ml v 1 × PBS a 0,04 % hovězího sérového albuminu. Čerstvé PBMC byly zmraženy na 10 × resuspendováním PBMC v DMEM+40 % FBS+10 % DMSO, zmražením na -by °C v přístroji CoolCell® FTS30 (BioCision) a následným uložením do tekutého dusíku ke skladování.
Zmražené lahvičky s buňkami ze studií ALLCELLS a transplantačních studií byly rychle rozmraženy ve vodní lázni při 37 °C po dobu ∼2 min. Lahvičky byly odstraněny, jakmile v nich zůstal malý krystal ledu. Rozmražené PBMC byly dvakrát promyty v médiu a poté resuspendovány v 1× PBS a 0,04% bovinním sérovém albuminu při pokojové teplotě. Buňky byly centrifugovány při 300 otáčkách za minutu vždy po dobu 5 minut. Rozmražené BMMC byly promyty a resuspendovány v 1 × PBS a 20 % FBS. Konečná koncentrace rozmražených buněk byla 1 × 106 buněk na ml.
Konstrukce sekvenační knihovny pomocí platformy GemCode
Buněčné suspenze byly vloženy do přístroje GemCode Single-Cell Instrument (10x Genomics, Pleasanton, CA, USA) pro vytvoření jednobuněčných GEM. Jednobuněčné knihovny RNA-Seq byly připraveny pomocí sady GemCode Single-Cell 3′ Gel Bead and Library Kit (nyní prodávaná jako P/N 120230, 120231, 120232, 10x Genomics). GEM-RT byla provedena v C1000 Touch Thermal cycler s 96-Deep Well Reaction Module (Bio-Rad; P/N 1851197): 55 °C po dobu 2 h, 85 °C po dobu 5 min; udržováno při 4 °C. Po RT byly GEM přerušeny a jednořetězcová cDNA byla vyčištěna pomocí DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) a SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318). cDNA byla amplifikována pomocí C1000 Touch Thermal cycler s 96-Deep Well Reaction Module: 98 °C po dobu 3 min; cyklování 14 ×: 98 °C po dobu 15 s, 67 °C po dobu 20 s a 72 °C po dobu 1 min; 72 °C po dobu 1 min; udržováno při 4 °C. Amplifikovaný produkt cDNA byl vyčištěn pomocí soupravy SPRIselect Reagent Kit (0,6 × SPRI). Následně byla cDNA sestříhána na ∼200 bp pomocí systému Covaris M220 (Covaris; P/N 500295). Indexované sekvenační knihovny byly vytvořeny pomocí činidel v sadě GemCode Single-Cell 3′ Library Kit podle následujících kroků: (1) oprava konců a A-tailing; (2) ligace adaptéru; (3) vyčištění po ligaci pomocí SPRIselect; (4) indexová PCR a vyčištění vzorku. Sekvenační knihovny s čárovým kódem byly kvantifikovány pomocí kvantitativní PCR (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). Sekvenační knihovny byly načteny při 2,1 pM na zařízení Illumina NextSeq500 se sadami 2 × 75 párových konců s použitím následující délky čtení: 98 bp Read1, 14 bp I7 Index, 8 bp I5 Index a 10 bp Read2. Některé dřívější knihovny byly vytvořeny s 5 nt UMI a místo toho bylo získáno 5 bp Read2. Tyto knihovny byly zdokumentovány v doplňkové tabulce 1.
ERCC test
ERCC syntetické spike-in RNA (Thermo Fisher Scientific; P/N 4456740) byly zředěny (1:10 nebo 1:50) a vloženy do přístroje GemCode Single-Cell Instrument, čímž byly nahrazeny buňky běžně používané k vytváření GEM. Testovány byly směsi Spike-in Mix1 a Mix2. Byl použit mírně upravený protokol, protože pro RT a amplifikaci cDNA byla odebrána pouze malá část GEM. Po dokončení GEM-RT bylo 1,25 μl emulze odebráno a přidáno do dvoufázové směsi Recovery Agent (125 μl) (P/N 220016) a 25 mM aditiva 1 (30 μl) (P/N 220074, 10x Genomics). Poté bylo regenerační činidlo odstraněno a zbývající vodný roztok byl vyčištěn pomocí sady SPRISelect Reagent Kit (0,8 × SPRI). cDNA byla amplifikována pomocí termálního cykléru C1000 Touch s reakčním modulem 96 hlubokých jamek: 98 °C po dobu 3 min; cyklováno 14×: 98 °C po dobu 15 s, 67 °C po dobu 20 s a 72 °C po dobu 1 min; 72 °C po dobu 1 min; udržováno při 4 °C. Amplifikovaný produkt cDNA byl vyčištěn pomocí sady SPRIselect Reagent Kit (0,8 × ) cDNA byla následně sestříhána na ∼200 bp pomocí systému Covaris M220 pro konstrukci knihoven s indexovanými vzorky s adaptéry 10x Genomics. Očekávané počty molekul ERCC byly vypočteny na základě množství použitých molekul ERCC a faktorů ředění vzorku. Počty byly porovnány s počty detekovaných molekul (počty UMI) pro výpočet účinnosti konverze.
test ddPCR
Buňky Jurkat byly použity v testech ddPCR pro odhad účinnosti konverze následujícím způsobem: (1) množství RNA na buňku Jurkat bylo stanoveno kvantifikací (Qubit, Invitrogen) RNA extrahované (Maxwell RNA Purification Kits) z několika různých známých počtů buněk Jurkat. (2) na extrahované RNA byla provedena hromadná RT-ddPCR (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) pro stanovení počtu kopií na buňku osmi vybraných genů. (3) Přibližně 5 000 buněk Jurkat bylo zpracováno pomocí platformy GemCode Single-Cell 3′ a jednořetězcová cDNA byla shromážděna po RT v GEM podle protokolů uvedených v části „Konstrukce sekvenační knihovny pomocí platformy GemCode“. cDNA kopií osmi genů byla stanovena pomocí ddPCR (Bio-Rad ddPCR Supermix for Probes (no dUTP) P/N 1863024). Skutečný počet buněk Jurkat byl zjištěn sekvenováním podskupiny reakcí GEM-RT na přístroji MiSeq. Účinnost konverze je poměr mezi kopiemi cDNA na buňku (krok 3) a kopiemi RNA na buňku z hromadné RT-ddPCR (krok 2) za předpokladu 50% účinnosti RT-ddPCR34.
Sekvence sond pro test ddPCR jsou následující: SERAC1_f, 5′-CACGAGCCGCCAGC-3′ a SERAC1_r, 5′-TCTGCAACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCATGGTCTAAGC-3′ a AP1S3_r, 5′-CCTTGTCGACTGAAGAGCAATATG-3′; AP1S3_p: /56-FAM/CGGCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGGTCTCGTOR-3′ a AOV1_r, 5′-TTCTTCATAGCCTTCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGAGGTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ a DOLPP1_r, 5′-GGCTCAGGTAGGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ a KPNA6_r, 5′-CCCTGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCGC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGACAGGCTACGCAACAG-3′ a ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: (5): /56-FAM/AGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCGCTTCCA-3′ a LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGGCAGACG-3′ a AP2M1_r, 5′-ATGGCGGCAGATCAGTCT-3′; AP2M1_p:
Výpočet účinnosti zachycení buněk
Účinnost se vypočítá poměrem počtu buněk detekovaných sekvenováním k počtu buněk vložených do čipu. Ta se určí z (přidaný objem × vstupní koncentrace buněk). Vstupní koncentrace buněk byla stanovena pomocí automatického počítadla buněk Countess II (Thermo Fisher Scientific). Je třeba poznamenat, že při počítání buněk existuje 15-20% chyba, která by mohla vysvětlit alespoň část variability vypočtené účinnosti.
Test chimérismu
Systém PowerPlex 16 (Promega) byl použit ve spojení s genetickým analyzátorem Applied Biosystems (Life Technologies) 3130xl. Jako referenční základní linie byly použity dárcovské BMMC.
Zarovnání, přiřazení čárových kódů a počítání UMI
Pro demultiplexování vzorků, zpracování čárových kódů a počítání 3′ genů v jedné buňce byl použit software Cell Ranger Single-Cell Software Suite (http://software.10xgenomics.com/single-cell/overview/welcome). Nejprve byla provedena demultiplexace vzorku na základě 8 bp indexového čtení vzorku pro vygenerování FASTQ pro čtení Read1 a Read2 s párovým koncem a také 14 bp čárového kódu GemCode. Z Read2 byly extrahovány desetibázové UMI značky (14 knihoven bylo vytvořeno s 5 bp UMI značkami, jak je uvedeno v doplňkové tabulce 1, kvůli dřívější iteraci metod. U těchto vzorků byly z Read2 extrahovány 5 bp značky UMI). Poté byl Read1, který obsahuje cDNA insert, zarovnán k příslušnému referenčnímu genomu pomocí STAR35. Pro myší buňky byl použit model mm10 a pro lidské buňky model hg19. U vzorků se směsí myších a lidských buněk bylo použito spojení hg19 a mm10. Pro vzorky ERCC byla použita reference ERCC (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt).
Dále byly filtrovány čárové kódy GemCode a UMI. Byly zváženy všechny známé uvedené čárové kódy, které jsou vzdáleny 1-Hammingovu vzdálenost od pozorovaného čárového kódu. Poté se vypočítá posteriorní pravděpodobnost, že pozorovaný čárový kód vznikl chybou sekvenování, vzhledem k základním vlastnostem pozorovaného čárového kódu a předchozí pravděpodobnosti pozorování kandidátního čárového kódu (převzaté z celkového rozdělení počtu čárových kódů). Pokud je posteriorní pravděpodobnost pro jakýkoli kandidátský čárový kód alespoň 0,975, pak se čárový kód opraví na kandidátský čárový kód s nejvyšší posteriorní pravděpodobností. Pokud jsou všechny kandidátní sekvence stejně pravděpodobné, vybere se ta, která se podle lexikálního pořadí objeví jako první.
UMI se skóre sekvenační kvality >10 byly považovány za platné, pokud nebyly homopolymery. Qual=10 znamená 90% přesnost volby báze. UMI, který je vzdálen 1-Hammingovu vzdálenost od jiného UMI (s více čteními) pro stejný čárový kód buňky a genu, je opraven na UMI s více čteními. Tento přístup je téměř totožný s přístupem v Jaitin et al.4 a je podobný přístupu v Klein et al.8 (ačkoli Klein et al.8 také použil UMI k řešení multimapovaných čtení, což zde nebylo implementováno).
Naposledy byly označeny PCR duplicity, pokud dvě sady párů čtení sdílely sekvenci čárového kódu, značku UMI a ID genu (byly použity Ensembl GTF GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz a GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz). Pro vytvoření matice gen-čárový kód byly použity pouze spolehlivě zmapované (MAPQ=255), ne-PCR duplikáty s platnými čárovými kódy a UMI.
Čárové kódy buněk byly určeny na základě distribuce počtu UMI. Všechny horní čárové kódy v rámci stejného řádu (>10 % horního n-tého čárového kódu, kde n je 1 % očekávaného počtu obnovených buněk) byly považovány za buněčné čárové kódy. Počet čtení, která poskytují smysluplné informace, se vypočítá jako součin čtyř metrik: (1) platných čárových kódů; (2) platných UMI; (3) spojených s buněčným čárovým kódem a (4) s jistotou mapovaných na exony.
V myších a lidských směšovacích experimentech byla míra multipletů definována jako dvojnásobek míry buněčných čárových kódů s významnými počty UMI z myší i lidí, přičemž za významné bylo považováno horní 1 % počtů UMI. Rozsah křížení čárových kódů byl hodnocen podle podílu myších čtení v lidských čárových kódech nebo naopak.
Vzorky zpracované z více kanálů lze kombinovat spojením matic genů, buněk a čárových kódů. Tato funkce je k dispozici v sadě Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Sekvenační data z více sekvenčních běhů knihovny lze kombinovat počítáním neduplikovaných čtení. Tato funkce je k dispozici v pipeline Cell Ranger. Kromě toho lze sekvenační data podvzorkovat, aby se získal daný počet počtů UMI na buňku. Tato funkce je rovněž k dispozici v sadě Cell Ranger R Kit a je užitečná při kombinování dat z více vzorků za účelem porovnání.
PCA analýza míchání buněk Jurkat a 293T
Matrice genů a čárových kódů z každého ze čtyř vzorků byla spojena. Použity jsou pouze geny s alespoň jedním počtem UMI zjištěným v alespoň jedné buňce. Normalizace UMI byla provedena nejprve vydělením počtu UMI celkovým počtem UMI v každé buňce a následným vynásobením mediánem celkového počtu UMI napříč buňkami. Poté jsme vzali přirozený logaritmus počtu UMI. Nakonec byl každý gen normalizován tak, aby průměrný signál pro každý gen byl 0 a směrodatná odchylka 1. Na normalizované matici genů a čárových kódů byla provedena PCA. Normalizované počty UMI každého genu se používají k zobrazení exprese markeru v grafu tSNE.
SNV analýza dat scRNA-seq Jurkat a 293T
SNV byly vyvolány spuštěním Freebayes 1.0.2 (ref. 36) na genomu BAM vytvořeném programem Cell Ranger. Byly vybrány vysoce kvalitní SNV (SNV calling Qual>=100 s nejméně 10 počty UMI z nejméně dvou buněk; indely jsou ignorovány), které byly pozorovány pouze v buňkách Jurkat nebo 293T (ale ne v obou). Buňky byly označeny jako Jurkat nebo 293T na základě počtů SNV specifických pro Jurkat a 293T, kde podíl počtů z druhého druhu je <0,2. Buňky s podílem SNV z obou druhů mezi 0,2 a 0,8 jsou považovány za multiplety. Odvozená míra multipletů je 2* pozorovaná míra multipletů (pro zohlednění multipletů Jurkat:Jurkat a 293T:293T).
PCA a tSNE analýza PBMC
Používají se geny s alespoň jedním počtem UMI zjištěným v alespoň jedné buňce. Prvních 1 000 nejvariabilnějších genů bylo identifikováno na základě jejich průměru a rozptylu (rozptyl/průměr), což je podobné přístupu, který použili Macoscko et al.7 Geny byly zařazeny do 20 binů na základě jejich průměrné exprese. Normalizovaný rozptyl se vypočítal jako absolutní rozdíl mezi rozptylem a mediánem rozptylu průměru exprese, normalizovaný mediánem absolutní odchylky v rámci každého koše.
PCA byla provedena na normalizované matici gen-barcode 1 000 nejvariabilnějších genů, aby se snížil počet dimenzí rysů (genů). Normalizace UMI byla provedena nejprve vydělením počtu UMI celkovým počtem UMI v každé buňce a následným vynásobením mediánem celkového počtu UMI napříč buňkami. Poté jsme vzali přirozený logaritmus počtů UMI. Nakonec byl každý gen normalizován tak, že průměrný signál pro každý gen je 0 a směrodatná odchylka je 1. Na normalizované matici genů a čárových kódů byla provedena PCA. Po spuštění PCA byla na prvních 50 PC provedena Barnesova-hut37 aproximace t-SNE16 pro vizualizaci buněk ve dvourozměrném prostoru. Padesát PC bylo použito proto: (1) použití všech PC by při analýze tSNE trvalo velmi dlouho; (2) vysvětlily ∼25 % celkového rozptylu. Pro seskupení buněk pro shlukovou analýzu bylo provedeno shlukování K-means15 . k=10 bylo zvoleno na základě grafu součtu čtvercových chyb (doplňkový obr. 5d).
Identifikace genů specifických pro shluk a klasifikace na základě markerů
Pro identifikaci genů, které jsou obohaceny v určitém shluku, byla vypočtena průměrná exprese každého genu ve všech buňkách v daném shluku. Poté byl každý gen ze shluku porovnán s mediánem exprese stejného genu z buněk ve všech ostatních shlucích. Geny byly seřazeny podle rozdílu v expresi a z každého shluku bylo vybráno 10 nejvíce obohacených genů. Pro hierarchické shlukování byla vypočtena párová korelace mezi jednotlivými shluky a centrovaná exprese každého genu byla použita pro vizualizaci pomocí heatmapy.
Klasifikace PBMC byla odvozena z anotace genů specifických pro shluk. V případě shluku 10 byla zjištěna exprese markerů více buněčných typů (například B, dendritických a T). Vzhledem k tomu, že relativní velikost shluku B, dendritických a T je 5,7 %, 6,6 % a 81 %, očekávali bychom, že shluk 10 (který je pouze 0,5 %) bude obsahovat multiplety složené převážně z B:dendritických (0,5 %).36 %) a B:dendritic:T (0,3 %)
Výběr purifikovaných subpopulací PBMC
Každá populace purifikovaných PBMC byla downsamplována na ∼16k čtení na buňku. PCA, tSNE a k-means shlukování byly provedeny pro každou downsamplovanou matrici podle stejných kroků popsaných v analýze PCA a t-SNE PBMC. U většiny vzorků byl zjištěn pouze jeden shluk, což odpovídá analýzám FACS (doplňkový obr. 6). U vzorků s více než jedním shlukem byly pro následnou analýzu vybrány pouze shluky, které vykazovaly očekávanou expresi markerových genů. U CD14+ monocytů byly pozorovány dva shluky, které byly na základě exprese markerových genů FTL a CLEC9A identifikovány jako CD14+ monocyty a dendritické buňky.
Analýza klasifikace buněk pomocí purifikovaných PBMC
Každá populace purifikovaných PBMC byla downsamplována na ∼16k jistě mapovaných čtení na buňku. Poté byl vypočítán průměrný (střední) profil genové exprese napříč všemi buňkami. Poté byla genová exprese z každé buňky komplexní populace porovnána s profily genové exprese purifikovaných populací PBMC pomocí Spearmanovy korelace. Buňce bylo přiřazeno ID purifikované populace, pokud měla nejvyšší korelaci s touto populací. Všimněte si, že rozdíl mezi nejvyšší a druhou nejvyšší korelací byl u některých buněk malý (například rozdíl mezi cytotoxickými T a NK buňkami), což naznačuje, že přiřazení buněk nebylo u těchto buněk tak jisté. Několik populací purifikovaných PBMC se navzájem překrývalo. Například CD4+ T-helper buňky zahrnují všechny CD4+ buňky. To znamená, že buňky z tohoto vzorku se budou překrývat s buňkami ze vzorků, které obsahují buňky CD4+, včetně CD4+/CD25+ T reg, CD4+/CD45RO+ T memory, CD4+/CD45RA+/CD25- naive T. Když tedy byla buňce na základě korelačního skóre přiřazena ID buňky CD4+ T-helper, byla zkontrolována další nejvyšší korelace, aby se zjistilo, zda se jedná o jeden ze vzorků CD4+. Pokud tomu tak bylo, ID buňky bylo aktualizováno na typ buňky s další nejvyšší korelací. Stejný postup byl proveden pro CD8+ cytotoxické T a CD8+/CD45RA+ naivní cytotoxické T (což je podmnožina CD8+ cytotoxických T).
Kód R použitý k analýze 68k PBMC a purifikovaných PBMC naleznete zde: https://github.com/10XGenomics/single-cell-3prime-paper.
Klastrování a klasifikace buněk pomocí programu Seurat
Matrice genů a buněčných kódů 68k PBMC byla logaritmicky transformována jako vstup pro program Seurat. K výpočtu PC bylo použito 469 nejvariabilnějších genů vybraných programem Seurat. Prvních 22 PC bylo významných (P<0,01) na základě vestavěné jackstraw analýzy a bylo použito pro vizualizaci tSNE. Klasifikace buněk byla převzata z analýzy klasifikace buněk pomocí purifikovaných PBMC.
Srovnání čerstvých a zmrazených PBMC
Data sekvenování 68 tisíc čerstvých PBMC a 3 tisíc zmrazených PBMC byla zmenšena tak, aby každý vzorek měl ∼14 tisíc jistě zmapovaných čtení na buňku. Do srovnání byly zahrnuty pouze geny, které byly detekovány alespoň v jedné buňce, přičemž byl použit průměr každého genu ve všech buňkách.
Pro srovnání klasifikace buněk mezi přečištěnými a zmrazenými PBMC jsme spojili všechny buňky označené jako T nebo přirozené zabíječské buňky dohromady. Je to proto, že subpopulace v rámci T a mezi T a buňkami přirozených zabíječů je někdy obtížné shlukovat odděleně. Nechtěli jsme, aby srovnání čerstvých a zmrazených buněk bylo ovlivněno použitými metodami shlukování.
Přiřazení genotypu na základě SNV
SNV byly vyvolány spuštěním Freebayes 1.0.2 (ref. 36) na genomu BAM vytvořeném programem Cell Ranger. Byly zahrnuty pouze SNV s podporou alespoň dvou buněčných čárových kódů, s minimálním skóre SNV Qual >=30, minimální SNV base Qual>=1. U každého SNV byly vypočteny počty referenčních (R) a alternativních (A) alel, čímž vznikla matice počtů UMI referenčních buněk a počtů UMI alternativních alel buněk. Tyto matice byly modelovány jako směs dvou genomů, kde pravděpodobnost kteréhokoli ze tří genotypů (R/R, R/A nebo A/A) v daném místě byla považována za binomicky rozdělenou s pevnou chybovostí 0,1 %. Pro každý vzorek byly paralelně odvozeny dva modely, jeden, kde je přítomen pouze jeden genom (K=1), a druhý, kde jsou přítomny dva genomy (K=2). Odvození parametrů modelu (přiřazení buněk ke genomům a sad genotypů K) bylo provedeno pomocí Gibbsova vzorkovače k aproximaci jejich posteriorních rozdělení. Pro zmírnění problému záměny značek při odvozování směsných modelů metodou Monte Carlo bylo provedeno přeznačení vzorkovaných přiřazení buněk ke genomům podle Stephense a kol.38
Při experimentech s mícháním buněk in silico, kdy model K=2 nedokázal adekvátně oddělit dva genomy, vykazoval rozdělení posteriorních pravděpodobností blízké 0,5 pro volání buněk ke genomům, což naznačovalo nedostatek důvěry v tato volání. Pro výběr modelu K=2 před modelem K=1 jsme použili požadavek, aby 90 % buněk mělo posteriorní pravděpodobnost >75 %. Volba K=1 znamená, že podíl směsi je pod úrovní detekce metody, která byla v experimentech míchání in silico stanovena na 4 % z 6 000 buněk.
Srovnání genotypů s čistým vzorkem
Pro zjištění přiřazení genotypů jedincům byly zvažovány pouze společné SNV mezi skupinou genotypů a čistým vzorkem. Poté byl průměrný genotyp všech buněk porovnán s genotypem čistého vzorku. Abychom získali určitou základní hodnotu pro % překrytí genotypů mezi různými jedinci, provedli jsme párové porovnání genotypů vyvolaných od stejných jedinců (11 párových porovnání) nebo od různých jedinců (15 párových porovnání). Procentuální překryv genotypů mezi stejnými jedinci činí v průměru ∼98±0,3 %, zatímco procentuální překryv genotypů mezi různými jedinci činí v průměru ∼73±2 %.
PCA a tSNE analýza BMMC
Byly použity údaje ze šesti vzorků: dvě zdravé kontroly, AML027 před a po transplantaci a AML035 před a po transplantaci. Každý vzorek byl zmenšen na ∼10k spolehlivě zmapovaných čtení na buňku. Poté byla matice čárových kódů genů a buněk z každého vzorku spojena. Na sdružené matici byly provedeny PCA, tSNE a k-means clustering podle stejných kroků popsaných v analýze PCA a tSNE PBMC. Pro k-means shlukování bylo použito K=10 na základě ohybu v grafu součtu čtvercových chyb
Klastrově specifické geny byly identifikovány podle kroků popsaných v části „Identifikace klastrově specifických genů a klasifikace založená na markerech“. Klasifikace byla přiřazena na základě genů specifických pro klastr a na základě exprese některých známých markerů typů imunitních buněk. ‚Blasty a nezralé ery 1‘ se vztahuje ke klastru 4, který exprimuje CD34, marker hematopoetických progenitorů39 , a Gata2, marker časných erytroidů40. „Immature Ery 2“ se vztahuje ke shlukům 5 a 8, které vykazují expresi Gata1, transkripčního faktoru nezbytného pro erytropoézu41 , ale ne CD71, který se často vyskytuje u zralejších erytroidních buněk39. „Immature Ery 3“ se vztahuje ke shluku 1, který vykazuje expresi CD71. „Zralé Ery“ se vztahuje ke shluku 2. HBA1, marker zralých erytroidních buněk, je přednostně detekován ve shluku 2. Shluk 3 byl přiřazen jako „nezralé granulocyty“ kvůli expresi markerů časných granulocytů, jako jsou AZU1 a IL8 (ref. 42), a chybějící expresi CD16. Shluk 7 byl přiřazen jako „Monocyty“ například kvůli expresi CD14 a FCN1. „B“ označuje shluky 6 a 9 kvůli markerům, jako jsou CD19 a CD79A. ‚T‘ se týká shluku 10 kvůli markerům, jako jsou CD3D a CD8A.
Dostupnost údajů
Všechny příslušné údaje jsou k dispozici u autorů. Data z jednobuněčné RNA-seq byla uložena v archivu Short Read Archive pod přístupovým číslem SRP073767. Data jsou rovněž k dispozici na adrese http://support.10xgenomics.com/single-cell/datasets. Kód analýzy pro analýzu 68k PBMC je k dispozici na adrese https://github.com/10XGenomics/single-cell-3prime-paper.
.