- GEM:issä olevien geelihelmien ja solujen huippunopea kuvantaminen
- Solulinjat ja elinsiirtopotilasnäytteet
- RNA-pitoisuuden arviointi solua kohti
- Solujen valmistelu
- Sekvensointikirjaston rakentaminen GemCode-alustalla
- ERCC-assay
- ddPCR-määritys
- Solujen sieppaustehokkuuden laskeminen
- Chimerism assay
- Alignment, viivakoodien määritys ja UMI-laskenta
- PCA-analyysi Jurkat- ja 293T-solujen sekoituksesta
- SNV-analyysi Jurkat- ja 293T- scRNA-seq-datasta
- PCA- ja tSNE-analyysi PBMC:stä
- Klusterispesifisten geenien tunnistaminen ja markkereihin perustuva luokittelu
- Puhdistettujen PBMC:n osapopulaatioiden valinta
- Soluluokitusanalyysi käyttäen puhdistettuja PBMC:itä
- Solujen klusterointi ja luokittelu Seuratilla
- Vertailu tuoreiden ja pakastettujen PBMC:iden välillä
- SNV-pohjainen genotyypin määritys
- Genotyyppien vertailu puhtaaseen näytteeseen
- PCA- ja tSNE-analyysi BMMC:stä
- Tietojen saatavuus
GEM:issä olevien geelihelmien ja solujen huippunopea kuvantaminen
Mikroskoopilla (Nikon Ti-E, × 10 objektiivi) ja huippunopealla videokameralla (Photron SA5, kuvataajuus = 4000 s-1) kuvasimme jokaista GEM:iä sitä mukaa, kun niitä tuotettiin mikrofluidisessa sirussa. Räätälöityä analyysiohjelmistoa käytettiin laskemaan syntyneiden GEM:ien lukumäärä ja kussakin GEM:ssä olevien helmien lukumäärä perustuen reunojen havaitsemiseen ja helmien reunojen ja GEM:ien reunojen ja viereisen nesteen välisen kontrastin määrittämiseen. Analyysin tuloksista on yhteenveto kuvassa 1c. Solujen jakautumisen arvioimiseksi GEM:issä käytettiin manuaalista laskentaa ∼28k ruutua yhdestä videosta GEM:ien osajoukossa. Tulokset osoittavat, että jakauma noudattaa likimääräisesti Poisson-jakaumaa. Moninkertaisten solukapseloitumisten prosenttiosuus oli kuitenkin 16 % suurempi kuin odotettu arvo, mikä johtui mahdollisesti osittaisnäytteenottovirheestä tai solujen ja solujen vuorovaikutuksesta (manuaalisen laskennan aikana havaittiin joitakin kahden solun rykelmiä) (Supplementary Fig.
Solulinjat ja elinsiirtopotilasnäytteet
Jurkat- (ATCC TIB-152), 293T- (ATCC CRL-11268) ja 3T3-solut (ATCC CRL-1658) hankittiin ATCC:ltä ja niitä kasvatettiin ATCC:n ohjeiden mukaisesti. Tuoreet PBMC:t, pakastetut PBMC:t ja BMMC:t hankittiin ALLCELLS:ltä. Luovuttajan A jäädytetyt PBMC:t valmistettiin luovuttajan A tuoreista PBMC:istä sekoittamalla 1e6 solua varovasti pakastusmediassa (15 % dimetyylisulfoksidia (DMSO) Iscoven modifioidussa Dulbecco-mediassa, joka sisälsi 20 % FBS:ää) ja jäähdytettiin CoolCell FTS30:ssä (BioCision) -80 °C:n lämpötilassa vähintään 4 tunnin ajan ennen kuin ne siirrettiin nestemäiseen typpeen varastoitavaksi 3 viikoksi.
Fred Hutchinson Cancer Research Centerin institutionaalinen arviointilautakunta hyväksyi elinsiirtonäytteitä koskevan tutkimuksen. Noudatetut menettelyt olivat vuonna 1975 annetun Helsingin julistuksen ja yhteisen säännön mukaisia. Näytteet otettiin sen jälkeen, kun potilaat olivat antaneet kirjallisen tietoon perustuvan suostumuksen molekyylianalyyseihin. Tunnistimme AML-potilaat, joille oli tehty allogeeninen hematopoieettinen kantasolusiirto Fred Hutchinson Cancer Research Centerissä. AML-diagnoosi asetettiin Maailman terveysjärjestön tarkistettujen kriteerien mukaisesti33.
Luuydinaspiraatit otettiin tavanomaisia kliinisiä testejä varten 20-30 päivää ennen elinsiirtoa ja sarjoittain siirron jälkeen hoitoprotokollan mukaisesti. Luuydinaspiraatin aliquotit käsiteltiin 2 tunnin kuluessa näytteenotosta. BMMC:t eristettiin sentrifugoimalla Ficoll-gradientin läpi (Histopaque-1077; Sigma Life Science, St Louis, MO, USA). BMMC:t kerättiin seerumin ja Ficollin rajapinnasta kertakäyttöisellä Pasteur-pipetillä ja siirrettiin 50 ml:n kartioputkeen, jossa oli 2 % potilaan seerumia 1 × PBS:ssä. BMMC:t laskettiin hemasytometrillä ja elinkelpoisuus arvioitiin Trypan sinisellä. BMMC:t resuspendoitiin 90 %:n FBS:ään ja 10 %:n DMSO-pakastusmediaan ja pakastettiin Thermo Scientific Nalgene Mr Frosty -laitteella (Thermo Scientific) -80 °C:n pakastimessa 24 tunnin ajan ennen kuin ne siirrettiin nestemäiseen typpeen pitkäaikaissäilytystä varten.
RNA-pitoisuuden arviointi solua kohti
RNA:n määrä solutyyppiä kohti määritettiin kvantifioimalla (Qubit; Invitrogen) RNA, joka oli uutettu (Maxwell RSC simplyRNA Cells Kit) useista eri tunnetuista solumääristä.
Solujen valmistelu
Tuoreet solut kerättiin, pestiin 1 × PBS:llä ja resuspendoitiin 1 × 106 solua millilitrassa 1 × PBS:ssä ja 0,04 % naudan seerumin albumiinissa. Tuoreet PBMC:t pakastettiin 10 ×:ksi resuspendoimalla PBMC:t DMEM + 40 % FBS + 10 % DMSO:ssa, pakastamalla ne CoolCell® FTS30:ssä (BioCision) -lämpötilaan ja asettamalla ne sen jälkeen nestemäiseen typpeen säilytystä varten.
Jäädytetyt solupullot ALLCELLS- ja elinsiirtotutkimuksista sulatettiin nopeasti 37 °C:n vesihauteessa ∼2 min ajan. Injektiopullot poistettiin, kun jäljellä oli pieni jääkide. Sulatetut PBMC:t pestiin kahdesti väliaineessa ja resuspendoitiin sitten 1 × PBS:ssä ja 0,04 % naudan seerumin albumiinissa huoneenlämmössä. Soluja sentrifugoitiin 300 kierrosnopeudella 5 minuutin ajan joka kerta. Sulatetut BMMC:t pestiin ja suspendoitiin uudelleen 1 × PBS:ssä ja 20 % FBS:ssä. Sulatettujen solujen lopullinen konsentraatio oli 1 × 106 solua millilitrassa.
Sekvensointikirjaston rakentaminen GemCode-alustalla
Solususpensiot ladattiin GemCode Single-Cell Instrument -laitteeseen (10x Genomics, Pleasanton, CA, USA), jotta saatiin aikaan yksisoluisia GEM:iä. Yksisoluiset RNA-Seq-kirjastot valmistettiin käyttämällä GemCode Single-Cell 3′ Gel Bead and Library Kit -pakettia (nyt myynnissä P/N 120230, 120231, 120232, 10x Genomics). GEM-RT suoritettiin C1000 Touch -termosyklerissä, jossa on 96-Deep Well -reaktiomoduuli (Bio-Rad; P/N 1851197): 55 °C 2 h, 85 °C 5 min; pidetään 4 °C:ssa. RT:n jälkeen GEM:t rikottiin ja yksijuosteinen cDNA puhdistettiin DynaBeads MyOne Silane Beads -helmillä (Thermo Fisher Scientific; P/N 37002D) ja SPRIselect Reagent Kit -reagenssilla (0,6 × SPRI; Beckman Coulter; P/N B23318). cDNA:ta monistettiin C1000 Touch -termosyklaattorilla, jossa oli 96-Deep Well Reaction Module: 98 °C 3 minuutin ajan; syklit 14 × : 98 °C 15 s, 67 °C 20 s ja 72 °C 1 minuutin ajan; 72 °C 1 minuutin ajan; pidettiin 4 °C:ssa. Monistettu cDNA-tuote puhdistettiin SPRIselect Reagent Kitillä (0,6 × SPRI). Tämän jälkeen cDNA leikattiin ∼200 bp:ksi Covaris M220 -järjestelmällä (Covaris; P/N 500295). Indeksoidut sekvensointikirjastot rakennettiin käyttämällä GemCode Single-Cell 3′ Library Kitin reagensseja seuraavien vaiheiden mukaisesti: (1) päätykorjaus ja A-tailing; (2) adapteriligaatio; (3) ligaation jälkeinen puhdistus SPRIselect-ohjelmalla; (4) näyteindeksi-PCR ja puhdistus. Viivakoodisekvensointikirjastot kvantifioitiin kvantitatiivisella PCR:llä (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). Sekvensointikirjastot ladattiin 2,1 pM:n tarkkuudella Illumina NextSeq500 -laitteeseen, jossa käytettiin 2 × 75 pareittain päättyvää sarjaa ja seuraavia lukupituuksia: 98 bp Read1, 14 bp I7-indeksi, 8 bp I5-indeksi ja 10 bp Read2. Jotkin aikaisemmat kirjastot tehtiin 5 nt:n UMI:llä, ja niiden sijaan saatiin 5 bp Read2. Nämä kirjastot on dokumentoitu lisätaulukossa 1.
ERCC-assay
ERCC:n synteettiset spike-in RNA:t (Thermo Fisher Scientific; P/N 4456740) laimennettiin (1:10 tai 1:50) ja ladattiin GemCode Single-Cell Instrument -laitteeseen, jolla korvattiin solut, joita tavallisesti käytetään GEM:ien tuottamiseen. Spike-in Mix1 ja Mix2 testattiin molemmat. Käytettiin hieman muutettua protokollaa, koska vain pieni osa GEM:istä kerättiin RT:tä ja cDNA:n monistamista varten. GEM-RT:n päätyttyä 1,25 μl emulsiota poistettiin ja lisättiin kaksivaiheiseen seokseen, jossa oli Recovery Agent (125 μl) (P/N 220016) ja 25 mM lisäainetta 1 (30 μl) (P/N 220074, 10x Genomics). Tämän jälkeen talteenottoaine poistettiin ja jäljelle jäänyt vesiliuos puhdistettiin SPRISelect Reagent Kitillä (0,8 × SPRI). cDNA monistettiin käyttämällä C1000 Touch Thermal cycler -lämpösykleriä, jossa oli 96-Deep Well Reaction Module: 98 °C 3 minuutin ajan; syklit 14 × : 98 °C 15 s, 67 °C 20 s ja 72 °C 1 min; 72 °C 1 min; pidettiin 4 °C:ssa. Amplifioitu cDNA-tuote puhdistettiin SPRIselect Reagent Kitillä (0,8 × ) cDNA leikattiin sen jälkeen ∼200 bp:n pitoisuuteen Covaris M220 -järjestelmällä näyteindeksoitujen kirjastojen rakentamiseksi 10x Genomics -adapterilla. Odotetut ERCC-molekyylimäärät laskettiin käytettyjen ERCC-molekyylien määrän ja näytteen laimennuskertoimien perusteella. Lukumääriä verrattiin havaittujen molekyylien lukumääriin (UMI-lukumääriin) muuntotehokkuuden laskemiseksi.
ddPCR-määritys
Jurkat-soluja käytettiin ddPCR-määrityksissä muuntotehokkuuden arvioimiseksi seuraavasti: (1) RNA:n määrä Jurkat-solua kohti määritettiin kvantifioimalla (Qubit, Invitrogen) RNA:ta, joka oli uutettu (Maxwell RNA Purification Kits) useasta eri tunnetusta määrästä Jurkat-soluja. (2) uutetulle RNA:lle suoritettiin Bulk RT-ddPCR (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) kahdeksan valitun geenin kopiomäärän määrittämiseksi solua kohti. (3) Noin 5 000 Jurkat-solua käsiteltiin GemCode Single-Cell 3′ -alustalla, ja yksijuosteinen cDNA kerättiin RT:n jälkeen GEM:iin kohdassa ”Sekvensointikirjaston rakentaminen GemCode-alustalla” lueteltujen protokollien mukaisesti. Kahdeksan geenin cDNA-kopiot määritettiin ddPCR:llä (Bio-Rad ddPCR Supermix for Probes (no dUTP) P/N 1863024). Todellinen Jurkat-solujen määrä selvitettiin sekvensoimalla osajoukko GEM-RT-reaktioita MiSeq-laitteella. Muuntotehokkuus on cDNA-kopioiden solua kohti (vaihe 3) ja RNA-kopioiden solua kohti irtotavarana RT-ddPCR:stä (vaihe 2) saadun RNA-kopion (vaihe 2) välinen suhde olettaen, että RT-ddPCR:n tehokkuus on 50 %34.
DdPCR-määrityksessä käytettävät koettimien sekvenssit ovat seuraavat: SERAC1_f, 5′-CACGAGAGCCGCCAGC-3′ ja SERAC1_r, 5′-TCTGCAACAGATGACGCAATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCCCATGGTCTCTAAGC-3′ ja AP1S3_r, 5′-CCTTGTCGACTGAAGAGAGCAATATG-3′; AP1S3_p: /56-FAM/CGGCCCCCAGC/ZEN/CACGATGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGGTCTCGTOR-3′ ja AOV1_r, 5′-TTCTTCATAGCCTTCCCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGG/ZEN/CGGATGAGAGAGGTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ ja DOLPP1_r, 5′-GGCTCTCAGGTAGGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGCAGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ ja KPNA6_r, 5′-CCCTGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGACCCCCGCC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGACAGGCTACGCAACAG-3′ ja ITSN2_r, 5′-TCCTGAGTTTTCCTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGCGCCCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCCCGCTTCCA-3′ ja LCMT1_r, 5′-GGTCATGCCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGAGGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGGCAGACG-3′ ja AP2M1_r, 5′-ATGGCGGCAGATCAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCT/ZEN/GAGAACAGACCTGGTG/3IABkFQ/.
Solujen sieppaustehokkuuden laskeminen
Tehokkuus lasketaan ottamalla huomioon sekvensoinnilla havaittujen solujen lukumäärän suhde sirulle ladattujen solujen lukumäärään. Jälkimmäinen määritetään kaavasta (lisätty tilavuus × solujen syöttökonsentraatio). Syötettyjen solujen pitoisuus määritettiin Countess II -automaattisella solulaskurilla (Thermo Fisher Scientific). On syytä huomata, että solujen laskennassa on 15-20 prosentin virhe, mikä voi selittää ainakin osan lasketun tehokkuuden vaihtelusta.
Chimerism assay
PowerPlex 16 System (Promega) -järjestelmää (Promega) käytettiin yhdessä Applied Biosystems (Life Technologies) 3130xl Genetic Analyzer -laitteen kanssa. Vertailukohtana käytettiin luovuttajan BMMC:tä.
Alignment, viivakoodien määritys ja UMI-laskenta
Näytteiden demultipleksointiin, viivakoodien käsittelyyn ja yhden solun 3′-geenien laskentaan käytettiin Cell Ranger Single-Cell Software Suite -ohjelmistoa (http://software.10xgenomics.com/single-cell/overview/welcome). Ensin suoritettiin näytteen demultipleksointi 8 bp:n näyteindeksilukeman perusteella Read1- ja Read2-parilukemien FASTQ:iden luomiseksi sekä 14 bp:n GemCode-viivakoodin luomiseksi. Kymmenen basepairin UMI-tunnisteet erotettiin Read2:sta (14 kirjastoa tehtiin 5 bp:n UMI-tunnisteilla, kuten lisätaulukossa 1 mainitaan, menetelmien aikaisemman iteraation vuoksi. Näiden näytteiden osalta 5 bp:n UMI-tagit poimittiin Read2:sta). Tämän jälkeen Read1, joka sisältää cDNA-insertin, kohdistettiin sopivaan referenssigenomiin STAR35:n avulla. Hiirisoluille käytettiin mm10:tä ja ihmissoluille hg19:tä. Näytteissä, joissa oli hiiren ja ihmisen soluseoksia, käytettiin hg19:n ja mm10:n yhdistelmää. ERCC-näytteiden osalta käytettiin ERCC-referenssiä (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt).
Seuraavaksi suodatettiin GemCode-viivakoodit ja UMI:t. Kaikki tunnetut listatut viivakoodit, jotka ovat 1-Hamming-etäisyyden päässä havaitusta viivakoodista, otettiin huomioon. Sitten lasketaan posteriorinen todennäköisyys sille, että havaittu viivakoodi on peräisin sekvensointivirheestä, kun otetaan huomioon havaitun viivakoodin emäsominaisuudet ja ehdokasviivakoodin havaitsemisen ennakkotodennäköisyys (joka on otettu viivakoodien lukumäärän kokonaisjakaumasta). Jos jonkin ehdokasviivakoodin jälkitodennäköisyys on vähintään 0,975, viivakoodi korjataan siihen ehdokasviivakoodiin, jonka jälkitodennäköisyys on suurin. Jos kaikki kandidaattisekvenssit ovat yhtä todennäköisiä, valitaan leksikaalisessa järjestyksessä ensin esiintyvä.
UMI:t, joiden sekvensoinnin laatupisteet olivat >10, katsottiin kelvollisiksi, jos ne eivät olleet homopolymeerejä. Qual=10 tarkoittaa 90 %:n emäskutsutarkkuutta. UMI, joka on 1-Hamming-etäisyyden päässä toisesta UMI:stä (jolla on enemmän lukemia) saman solun viivakoodin ja geenin osalta, korjataan UMI:ksi, jolla on enemmän lukemia. Tämä lähestymistapa on lähes identtinen Jaitin ym.4:n lähestymistavan kanssa ja samankaltainen kuin Klein ym.8:n lähestymistapa (tosin Klein ym.8 käytti UMI:itä myös monikartoitettujen lukujen ratkaisemiseen, mitä ei toteutettu tässä).
Viimeiseksi PCR-duplikaatit merkittiin, jos kahdella lukuparisarjalla oli yhteinen viivakoodisekvenssi, UMI-tunniste ja geenin tunnistetieto (käytettiin Ensembl-GTF:iä GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz ja GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz). Geeni-viivakoodimatriisin luomisessa käytettiin vain varmasti kartoitettuja (MAPQ=255), ei-PCR-duplikaatteja, joilla oli kelvolliset viivakoodit ja UMI-tunnisteet.
Solujen viivakoodit määritettiin UMI-lukumäärien jakautumisen perusteella. Kaikki ylimmät viivakoodit samassa suuruusluokassa (>10 % ylimmästä n:nnestä viivakoodista, jossa n on 1 % odotetusta talteenotetusta solumäärästä) katsottiin soluviivakoodeiksi. Merkityksellistä tietoa antavien lukujen määrä lasketaan neljän metriikan tulona: (1) kelvolliset viivakoodit; (2) kelvolliset UMI:t; (3) soluviivakoodiin liittyvät; ja (4) varmasti eksoneihin kartoitetut.
Hiiren ja ihmisen sekoituskokeissa monikertojen määrä määriteltiin kaksinkertaisena niiden soluviivakoodien määrään, joilla oli merkittävät UMI-laskennat sekä hiireltä että ihmiseltä, missä ylin 1 % UMI-laskennoista katsottiin merkittäväksi. Viivakoodien ristiinkytkeytymisen laajuutta arvioitiin hiiren lukemien osuudella ihmisen viivakoodeissa tai päinvastoin.
Monikanavaisista kanavista käsiteltyjä näytteitä voidaan yhdistää ketjuttamalla geeni-solu-viivakoodimatriisit. Tämä toiminto sisältyy Cell Ranger R Kit -pakettiin (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Kirjaston useista sekvensointiajoista saadut sekvensointitiedot voidaan yhdistää laskemalla ei-duplikoituneet lukemat. Tämä toiminto sisältyy Cell Ranger -putkistoon. Lisäksi sekvensointidataa voidaan osittaisnäytteenottaa, jotta saadaan tietty määrä UMI-laskentoja solua kohti. Tämä toiminnallisuus on myös Cell Ranger R Kitissä, ja se on hyödyllinen, kun yhdistetään tietoja useista näytteistä vertailua varten.
PCA-analyysi Jurkat- ja 293T-solujen sekoituksesta
Kustakin neljästä näytteestä saadut geeni-solu-viivakoodimatriisit ketjutettiin. Käytetään vain geenejä, joissa on havaittu vähintään yksi UMI-luku vähintään yhdessä solussa. UMI:n normalisointi suoritettiin jakamalla UMI-lukemat ensin kunkin solun UMI-lukujen kokonaismäärällä, minkä jälkeen ne kerrottiin kaikkien solujen UMI-lukujen kokonaismäärän mediaanilla. Sitten otettiin UMI-lukujen luonnollinen logaritmi. Lopuksi kukin geeni normalisoitiin siten, että kunkin geenin signaalin keskiarvo on 0 ja keskihajonta on 1. PCA suoritettiin normalisoidulle geeni-viivakoodimatriisille. Kunkin geenin normalisoituja UMI-lukuja käytettiin markkerin ilmentymisen esittämiseen tSNE-plotissa.
SNV-analyysi Jurkat- ja 293T- scRNA-seq-datasta
SNV:t kutsuttiin ajamalla Freebayes 1.0.2 (ref. 36) Cell Rangerin tuottamaan genomin BAM:iin. Laadukkaat SNV:t (SNV calling Qual>=100 ja vähintään 10 UMI-lukua vähintään kahdesta solusta; indelit jätetään huomiotta), jotka havaittiin vain Jurkat- tai 293T-soluissa (mutta ei molemmissa), valittiin. Solut merkittiin Jurkat- tai 293T-soluiksi Jurkat- ja 293T-spesifisten SNV-laskentojen perusteella, kun toisen lajin laskujen osuus on <0,2. Soluja, joissa jommankumman lajin SNV:n osuus oli 0,2 ja 0,8 välillä, pidetään moninkertaisina. Laskennallinen multiplettien määrä on 2* havaittu multiplettien määrä (Jurkat:Jurkat- ja 293T:293T-multiplettien huomioon ottamiseksi).
PCA- ja tSNE-analyysi PBMC:stä
Käytetään geenejä, joissa on vähintään yksi UMI-laskenta, joka on havaittu vähintään yhdessä solussa. Tuhat eniten vaihtelevaa geeniä tunnistettiin niiden keskiarvon ja hajonnan (varianssi/keskiarvo) perusteella, mikä vastaa Macosckon ym. käyttämää lähestymistapaa.7 Geenit sijoitettiin 20 binssiin niiden keskimääräisen ilmentymisen perusteella. Normalisoitu hajonta on laskettu ekspressiokeskiarvon hajonnan ja mediaanihajonnan absoluuttisena erotuksena, joka on normalisoitu absoluuttisella mediaanipoikkeamalla kunkin binin sisällä.
PCA ajettiin tuhannen eniten muuttuvan geenin normalisoidulle geeni-viivakoodimatriisille ominaisuuksien (geenien) ulottuvuuksien määrän vähentämiseksi. UMI:n normalisointi suoritettiin jakamalla ensin UMI-lukumäärät UMI:n kokonaislukumäärällä kussakin solussa, minkä jälkeen se kerrottiin kaikkien solujen UMI:n kokonaislukumäärän mediaanilla. Sitten otettiin UMI-lukujen luonnollinen logaritmi. Lopuksi kukin geeni normalisoitiin siten, että kunkin geenin signaalin keskiarvo on 0 ja keskihajonta on 1. PCA suoritettiin normalisoidulle geeni-viivakoodimatriisille. PCA:n suorittamisen jälkeen t-SNE:n16 Barnes-hut37-approksimaatio suoritettiin 50 ensimmäiselle PC:lle solujen visualisoimiseksi kaksiulotteisessa avaruudessa. Viittäkymmentä PC:tä käytettiin, koska: (2) ne selittivät ∼25 % kokonaisvarianssista. K-means15 -klusterointi ajettiin solujen ryhmittämiseksi klusterointianalyysiä varten. k=10 valittiin neliövirheiden summan scree plotin perusteella (Täydentävä kuva 5d).
Klusterispesifisten geenien tunnistaminen ja markkereihin perustuva luokittelu
Voidaksemme tunnistaa geenit, jotka ovat rikastuneet tietyssä klusterissa, laskettiin kunkin geenin keskimääräinen ekspressio kaikista klusterin soluista. Sitten kutakin klusterin geeniä verrattiin saman geenin mediaani-ekspressioon kaikkien muiden klusterien soluissa. Geenit asetettiin paremmuusjärjestykseen niiden ekspressioeron perusteella, ja kustakin klusterista valittiin 10 parasta rikastunutta geeniä. Hierarkkista klusterointia varten laskettiin pareittainen korrelaatio kunkin klusterin välillä, ja kunkin geenin keskitettyä ekspressiota käytettiin visualisointiin lämpökartan avulla.
PBMC-solujen luokittelu johdettiin klusterikohtaisten geenien annotaatiosta. Klusterin 10 tapauksessa havaittiin useiden solutyyppien (esimerkiksi B-, dendriittisten ja T-solujen) markkeriekspressiota. Koska B:n, dendriittisten ja T:n suhteellinen klusterikoko on 5,7 %, 6,6 % ja 81 %, odottaisimme, että klusteri 10 (joka on vain 0,5 %) sisältäisi multipletteja, jotka koostuisivat enimmäkseen B:stä:dendriittisistä (0.36 %) ja B:dendriittinen:T (0,3 %).
Puhdistettujen PBMC:n osapopulaatioiden valinta
Jokainen puhdistettujen PBMC:n populaatio downsamplattiin ∼16k lukemaan solua kohti. PCA-, tSNE- ja k-means-klusterointi suoritettiin kullekin downsampled-matriisille noudattaen samoja vaiheita kuin kohdassa PBMC:n PCA- ja t-SNE-analyysi. Useimmissa näytteissä havaittiin vain yksi klusteri, mikä vastaa FACS-analyysejä (täydentävä kuva 6). Näytteistä, joissa oli useampi kuin yksi klusteri, vain ne klusterit, joissa näkyi odotettu merkkigeenien ilmentyminen, valittiin jatkoanalyysiin. CD14+ monosyyttien osalta havaittiin kaksi klusteria, jotka tunnistettiin CD14+ monosyyteiksi ja dendriittisoluiksi merkkigeenien FTL:n ja CLEC9A:n ilmentymisen perusteella.
Soluluokitusanalyysi käyttäen puhdistettuja PBMC:itä
Jokainen puhdistettujen PBMC:iden populaatio pienennettiin siten, että saatiin ∼16k varmasti kartoitettua lukua solua kohden. Sitten laskettiin kaikkien solujen keskimääräinen (keskimääräinen) geeniekspressioprofiili. Seuraavaksi monimutkaisen populaation jokaisen solun geeniekspressiota verrattiin puhdistettujen PBMC-populaatioiden geeniekspressioprofiileihin Spearmanin korrelaation avulla. Solulle annettiin puhdistetun populaation tunnus, jos sen korrelaatio kyseisen populaation kanssa oli korkein. On huomattava, että korkeimman ja toiseksi korkeimman korrelaation välinen ero oli joidenkin solujen osalta pieni (esimerkiksi sytotoksisten T- ja NK-solujen välinen ero), mikä viittaa siihen, että solun määrittäminen ei ollut yhtä varmaa näiden solujen osalta. Muutamat puhdistetuista PBMC-populaatioista olivat päällekkäisiä keskenään. Esimerkiksi CD4+ T-helper-solut sisältävät kaikki CD4+-solut. Tämä tarkoittaa, että tästä näytteestä peräisin olevat solut ovat päällekkäisiä sellaisten näytteiden solujen kanssa, jotka sisältävät CD4+-soluja, mukaan lukien CD4+/CD25+ T reg, CD4+/CD45RO+ T-muisti, CD4+/CD45RA+/CD25- naiivi T. Näin ollen kun solulle annettiin korrelaatiopistemäärän perusteella tunniste CD4+ T-helper-solu, tarkistettiin seuraavaksi korkeimmasta korrelaatiopisteestä, oliko se jokin CD4+-näytteistä. Jos näin oli, solun tunnus päivitettiin solutyypiksi, jolla oli seuraavaksi korkein korrelaatio. Sama menettely suoritettiin CD8+-sytotoksiselle T:lle ja CD8+/CD45RA+-naiiville sytotoksiselle T:lle (joka on CD8+-sytotoksisen T:n alaryhmä).
684>R-koodi, jota käytettiin 68k PBMC:n ja puhdistettujen PBMC:iden analysointiin, löytyy täältä: https://github.com/10XGenomics/single-cell-3prime-paper.
Solujen klusterointi ja luokittelu Seuratilla
684>68k PBMC:n geeni-solu-viivakoodimatriisi muunnettiin log-muotoiseksi syötteeksi Seuratille. PC:n laskemiseen käytettiin Seuratin valitsemia 469 eniten muuttuvaa geeniä. Ensimmäiset 22 PC:tä olivat merkittäviä (P<0,01) sisäänrakennetun jackstraw-analyysin perusteella, ja niitä käytettiin tSNE-visualisointiin. Soluluokitus otettiin Cell classification analysis using purified PBMCs.
Vertailu tuoreiden ja pakastettujen PBMC:iden välillä
68k tuoreiden PBMC:iden ja 3k pakastettujen PBMC:iden sekvensointidataa vähennettiin siten, että kussakin näytteessä on ∼14k varmasti kartoitettua lukua solua kohden. Vain geenit, jotka on havaittu vähintään yhdessä solussa, otettiin mukaan vertailuun, jossa käytetään kunkin geenin keskiarvoa kaikista soluista.
Puhdistettujen ja pakastettujen PBMC:iden soluluokitusvertailua varten yhdistimme kaikki T- tai luonnollisiksi tappajasoluiksi merkityt solut yhteen. Tämä johtuu siitä, että T-solujen sisällä sekä T- ja luonnollisten tappajasolujen välillä olevia osapopulaatioita on joskus vaikea klusteroida erikseen. Emme halunneet, että käytetyt klusterointimenetelmät vaikuttaisivat tuoreiden ja pakastettujen solujen väliseen vertailuun.
SNV-pohjainen genotyypin määritys
SNV:t kutsuttiin ajamalla Freebayes 1.0.2 (ref. 36) Cell Rangerin tuottamaan genomin BAM-muistioon. Mukaan otettiin vain SNV:t, jotka saivat tukea vähintään kahdesta solun viivakoodista ja joiden SNV Qual -minimipistemäärä oli >=30 ja SNV base Qual -minimipistemäärä >=1. Kullekin SNV:lle laskettiin referenssi- (R) ja vaihtoehtoisten alleelien (A) lukumäärät, jolloin saatiin matriisi solun referenssi-UMI-lukumääristä ja solun vaihtoehtoisten alleelien UMI-lukumääristä. Nämä matriisit mallinnettiin kahden genomin sekoituksena, jossa minkä tahansa kolmen genotyypin (R/R, R/A tai A/A) todennäköisyys jossakin kohdassa otettiin binomiaalisesti jakautuneeksi kiinteällä 0,1 prosentin virhetasolla. Kullekin näytteelle laskettiin rinnakkain kaksi mallia, toinen, jossa on vain yksi genomi (K=1) ja toinen, jossa on kaksi genomia (K=2). Mallin parametrien (solujen ja genomien väliset määritykset ja K genotyyppijoukkoa) päättely suoritettiin käyttämällä Gibbs-näytteenottajaa niiden posterioristen jakaumien approksimoimiseksi. Seosmallien Monte Carlo -inferenssissä esiintyvän label-switching-ongelman lieventämiseksi näytteestä poimittujen solu-genomi-assosiaatioiden uudelleenleimaaminen suoritettiin Stephens et al. 38
mukaisesti. Kun solujen sekoituskokeissa in silico solujen sekoituskokeissa K=2-malli ei pystynyt erottamaan kahta genomia riittävästi, se ilmoitti solu-genomi-assosiaatioiden posterioristen todennäköisyyksien jakauman, joka oli lähellä 0,5:tä, mikä osoitti, että kyseisiin assosiaatioihin ei voitu luottaa. Sovelsimme vaatimusta, jonka mukaan 90 prosentilla soluista on oltava posteriorinen todennäköisyys >75 prosenttia, jotta K=2-malli voidaan valita K=1-mallin sijaan. K=1:n valitseminen osoittaa, että sekoitusfraktio on alle menetelmän havaitsemistason, joka silico-sekoituskokeissa määritettiin 4 %:ksi 6000 solusta.
Genotyyppien vertailu puhtaaseen näytteeseen
Genotyyppien yksilöihin kohdistumisen varmistamiseksi otettiin huomioon vain genotyyppiryhmän ja puhtaan näytteen väliset yhteiset SNV:t. Tämän jälkeen kaikkien solujen keskimääräistä genotyyppiä verrattiin puhtaan näytteen genotyyppiin. Saadaksemme jonkinlaisen perustason genotyyppien prosentuaaliselle päällekkäisyydelle eri yksilöiden välillä suoritimme pareittaisen vertailun genotyypeistä, jotka kutsuttiin samoista yksilöistä (11 pareittaista vertailua) tai eri yksilöistä (15 pareittaista vertailua). Genotyyppien prosentuaalinen päällekkäisyys samojen yksilöiden välillä on keskimäärin ∼98±0,3 %, kun taas genotyyppien prosentuaalinen päällekkäisyys eri yksilöiden välillä on keskimäärin ∼73±2 %.
PCA- ja tSNE-analyysi BMMC:stä
Tietoja käytettiin kuudesta näytteestä: kahdesta terveestä kontrolliryhmästä, näytteestä AML027 ennen ja jälkeen elinsiirron ja näytteestä AML035 ennen ja ennen ja jälkeen siirron. Jokaisesta näytteestä otettiin näytteenäyte ∼10k luotettavasti kartoitettua lukemaa solua kohti. Tämän jälkeen kunkin näytteen geeni-solu-viivakoodimatriisi yhdistettiin. PCA, tSNE ja k-means-klusterointi suoritettiin yhdistetylle matriisille noudattaen samoja vaiheita kuin PBMC:n PCA- ja tSNE-analyysissä. K-means-klusteroinnissa käytettiin K=10 perustuen neliövirheiden summan scree plotin mutkaan.
Klusterispesifiset geenit tunnistettiin kohdassa ”Klusterispesifisten geenien tunnistaminen ja markkeripohjainen luokittelu” esitettyjen vaiheiden mukaisesti. Luokittelu annettiin klusterispesifisten geenien perusteella ja joidenkin tunnettujen immuunisolutyyppien merkkiaineiden ilmentymisen perusteella. ’Blastit ja epäkypsä Ery 1’ viittaa klusteriin 4, joka ilmentää CD34:ää, joka on hematopoieettisten esiasteiden merkkiaine39 , ja Gata2:ta, joka on varhaisten erytroidien merkkiaine40. ”Epäkypsä Ery 2” viittaa klustereihin 5 ja 8, jotka ilmentävät Gata1:tä, joka on erytropoieesille välttämätön transkriptiotekijä41 , mutta eivät CD71:tä, jota esiintyy usein sitoutuneemmissa erytroidisoluissa39. ’Immature Ery 3’ viittaa klusteriin 1, jossa esiintyy CD71:n ilmentymistä. ”Kypsä Ery” viittaa klusteriin 2. HBA1, joka on kypsien erytroidisolujen merkkiaine, havaitaan ensisijaisesti klusterissa 2. Klusteri 3 luokiteltiin ”epäkypsiksi granulosyyteiksi”, koska siinä ilmentyy varhaisia granulosyyttien merkkiaineita, kuten AZU1:tä ja IL8:aa (viite 42), ja koska siinä ei ilmentynyt CD16:aa. Klusteri 7 luokiteltiin ”monosyyteiksi” esimerkiksi CD14:n ja FCN1:n ilmentymisen vuoksi. ”B” viittaa klustereihin 6 ja 9 sellaisten merkkiaineiden kuten CD19 ja CD79A vuoksi. ’T’ viittaa klusteriin 10 sellaisten merkkiaineiden kuten CD3D ja CD8A vuoksi.
Tietojen saatavuus
Kaikki asiaankuuluvat tiedot ovat saatavilla kirjoittajilta. Yksisoluiset RNA-seq-tiedot on talletettu Short Read Archive -arkistoon liittymisnumerolla SRP073767. Tiedot ovat saatavilla myös osoitteessa http://support.10xgenomics.com/single-cell/datasets. Analyysikoodi 68k PBMC-analyysiä varten on saatavilla osoitteessa https://github.com/10XGenomics/single-cell-3prime-paper.
.