- Imagem de alta velocidade de esferas de gel e células em GEMs
- Linhas celulares e amostras de pacientes transplantados
- Estimativa do conteúdo de RNA por célula
- Preparação celular
- Construção de biblioteca de sequenciamento usando a plataforma GemCode
- ERCC ensaio
- ensaio ddPCR
- Cálculo da eficiência de captura de células
- Ensaio de quimicidade
- Alinhamento, atribuição de código de barras e contagem do IMC
- Análise PCA de mistura de células Jurkat e 293T
- Análise de SNV de Jurkat e 293T scRNA-seq dados
- PCA e tSNE análise de PBMCs
- Identificação de genes específicos do cluster e classificação baseada em marcadores
- Seleção de subpopulações purificadas de PBMCs
- Análise de classificação de células usando PBMCs purificados
- Aglomeração de células e classificação com Seurat
- Comparação entre PBMCs frescos e congelados
- Atribuição do genótipo baseado em SNV
- Comparação do genótipo com a amostra pura
- PCA e tSNE análise de BMMCs
- Disponibilidade de dados
Imagem de alta velocidade de esferas de gel e células em GEMs
Um microscópio (Nikon Ti-E, × 10 objetiva) e uma câmera de vídeo de alta velocidade (Photron SA5, frame rate=4.000 s-1) foram usados para imaginar todos os GEMs como eles foram gerados no chip microfluídico. Um software de análise personalizado foi usado para contar o número de GEMs gerados e o número de contas presentes em cada GEM, com base na detecção de bordas e no contraste entre as bordas das contas e as bordas do GEM e o líquido adjacente. Os resultados da análise estão resumidos na Fig. 1c. Para estimar a distribuição de células nos GEMs, foi utilizada a contagem manual de quadros em ∼28k de um vídeo sobre um subconjunto de GEMs. Os resultados indicam uma aderência aproximada a uma distribuição de Poisson. Entretanto, a porcentagem de encapsulamentos de múltiplas células foi 16% maior do que o valor esperado, possivelmente devido a erro de subamostragem ou a interações célula/células (algumas aglomerações de duas células foram observadas durante a contagem manual) (Fig. Complementar. 1b).
Linhas celulares e amostras de pacientes transplantados
Jurkat (ATCC TIB-152), 293T (ATCC CRL-11268) e 3T3 (ATCC CRL-1658) células foram adquiridas do ATCC e cultivadas de acordo com as diretrizes do ATCC. PBMCs frescos, PBMCs congelados e BMMCs foram adquiridos de ALLCELLS. PBMCs congelados do Donor A foram feitos de PBMCs frescos do Donor A misturando células 1e6 em meio de congelamento (15% de dimetilsulfóxido (DMSO) no meio de Dulbecco modificado da Iscove contendo 20% de FBS) suavemente, e resfriados em CoolCell FTS30 (BioCision) em -80 °C por pelo menos 4 h antes de serem transferidos para nitrogênio líquido para armazenamento por 3 semanas.
O Conselho de Revisão Institucional do Centro de Pesquisa do Câncer Fred Hutchinson aprovou o estudo sobre amostras de transplante. Os procedimentos seguidos estavam de acordo com a Declaração de Helsinque de 1975 e com a Regra Comum. As amostras foram obtidas após os pacientes terem dado o consentimento livre e esclarecido por escrito sobre as análises moleculares. Nós identificamos pacientes com LMA submetidos a transplante alogénico de células estaminais hematopoiéticas no Fred Hutchinson Cancer Research Center. O diagnóstico de LMA foi estabelecido de acordo com os critérios revisados da Organização Mundial de Saúde33,
O aspirado de medula óssea foi obtido para testes clínicos padrão 20-30 dias antes do transplante e pós-transplante em série de acordo com o protocolo de tratamento. As alíquotas de aspirado de medula óssea foram processadas dentro de 2 h após o sorteio. Os BMMCs foram isolados por centrifugação através de um gradiente Ficoll (Histopaque-1077; Sigma Life Science, St Louis, MO, EUA). Os BMMCs foram coletados a partir da interface sérum-Ficoll com uma pipeta Pasteur descartável e transferidos para o tubo cônico de 50 ml com 2% de soro de paciente em 1 × PBS. Os BMMCs foram contados usando um hematômetro e a viabilidade foi avaliada usando o Trypan blue. Os BMMCs foram ressuspendidos em 90% FBS, 10% de meio de congelamento DMSO e congelados utilizando um Nalgene Mr Frosty (Thermo Scientific) da Thermo Scientific em um freezer de -80 °C durante 24 h, antes de serem transferidos para nitrogênio líquido para armazenamento a longo prazo.
Estimativa do conteúdo de RNA por célula
A quantidade de RNA por tipo de célula foi determinada quantificando (Qubit; Invitrogen) o RNA extraído (Maxwell RSC simplyRNA Cells Kit) de vários números diferentes de células conhecidas.
Preparação celular
Células refrescantes foram colhidas, lavadas com 1 × PBS e ressuspendidas a 1 × 106 células por ml em 1 × PBS e 0,04% de albumina de soro bovino. As PBMCs frescas foram congeladas a 10 × por ressuspensão das PBMCs em DMEM+40% FBS+10% DMSO, congelando a -por °C em um CoolCell® FTS30 (BioCision) e depois colocadas em nitrogênio líquido para armazenamento.
Frozen cell vials from ALLCELLS and transplant studies were rapidly thawwed in a 37 °C water bath for ∼2 min. Os frascos foram removidos quando um pequeno cristal de gelo foi deixado. Os PBMC descongelados foram lavados duas vezes no meio e depois ressuspensos em 1 × PBS e 0,04% de albumina de soro bovino à temperatura ambiente. As células foram centrifugadas a 300 r.c.f. durante 5 min de cada vez. Os BMMCs descongelados foram lavados e ressuspensos em 1 × PBS e 20% de FBS. A concentração final de células descongeladas foi de 1 × 106 células por ml.
Construção de biblioteca de sequenciamento usando a plataforma GemCode
Suspensão celular foram carregadas em um instrumento GemCode de célula única (10x Genomics, Pleasanton, CA, EUA) para gerar GEMs de célula única. As bibliotecas RNA-Seq de uma única célula foram preparadas usando o GemCode Single-Cell 3′ Gel Bead and Library Kit (agora vendido como P/N 120230, 120231, 120232, 10x Genomics). GEM-RT foi realizado em um Termociclador de Toque C1000 com Módulo de Reação de Poço 96-Deep (Bio-Rad; P/N 1851197): 55 °C durante 2 h, 85 °C durante 5 min; mantido a 4 °C. Após a RT, os GEMs foram quebrados e o cDNA de fio único foi limpo com DynaBeads MyOne Silane Beads (Thermo Fisher Scientific; P/N 37002D) e SPRIselect Reagent Kit (0,6 × SPRI; Beckman Coulter; P/N B23318). cDNA foi amplificado usando o Termociclador C1000 Touch com Módulo de Reação de Poço de 96 Profundidade: 98 °C durante 3 min.; ciclado 14 × : 98 °C durante 15 s, 67 °C durante 20 s, e 72 °C durante 1 min.; 72 °C durante 1 min.; mantido a 4 °C. O produto de cDNA amplificado foi limpo com o Kit Reagente SPRIselect (0,6 × SPRI). O cDNA foi subsequentemente tosquiado para ∼200 bp usando um sistema Covaris M220 (Covaris; P/N 500295). Bibliotecas de sequenciamento indexadas foram construídas usando os reagentes do Kit de Bibliotecas de Uma Célula GemCode 3′, seguindo estes passos: (1) reparo final e encaixe A; (2) ligação do adaptador; (3) limpeza pós-ligação com SPRIselect; (4) PCR e limpeza do índice de amostra. As bibliotecas de sequenciamento de códigos de barras foram quantificadas por PCR quantitativa (KAPA Biosystems Library Quantification Kit for Illumina platforms P/N KK4824). As bibliotecas de sequenciamento foram carregadas a 2,1 pM em um Illumina NextSeq500 com kits de 2 × 75 paired-end usando o seguinte comprimento de leitura: 98 bp Read1, 14 bp I7 Index, 8 bp I5 Index e 10 bp Read2. Algumas bibliotecas anteriores foram feitas com 5 nt UMI, e 5 bp Read2 foi obtido em seu lugar. Estas bibliotecas foram documentadas na Tabela Complementar 1.
ERCC ensaio
ERCC spike-in RNAs sintéticos (Thermo Fisher Scientific; P/N 4456740) foram diluídos (1:10 ou 1:50) e carregados em um Instrumento de Célula Única de Código GemCode, substituindo as células normalmente usadas para gerar GEMs. Os instrumentos Spike-in Mix1 e Mix2 foram ambos testados. Um protocolo ligeiramente modificado foi usado, pois apenas uma pequena fração dos GEMs foi coletada para a amplificação de RT e cDNA. Após a conclusão do GEM-RT, 1,25 μl da emulsão foi removido e adicionado a uma mistura bifásica de Recovery Agent (125 μl) (P/N 220016) e 25 mM aditivo 1 (30 μl) (P/N 220074, 10x Genomics). O agente de recuperação foi então removido e a solução aquosa restante foi limpa com o Kit de Reagente SPRISelect (0,8 × SPRI). O cDNA foi amplificado usando o Termociclador C1000 Touch com o Módulo de Reação do Poço de 96 Profundidade: 98 °C durante 3 min.; ciclado 14 × : 98 °C durante 15 s, 67 °C durante 20 s, e 72 °C durante 1 min.; 72 °C durante 1 min.; mantido a 4 °C. O produto cDNA amplificado foi limpo com o Kit Reagente SPRIselect (0,8 × ) cDNA foi subsequentemente tosquiado para ∼200 bp usando um sistema Covaris M220 para construir bibliotecas indexadas a amostras com 10x adaptadores Genomics. As contagens esperadas de moléculas ERCC foram calculadas com base na quantidade de moléculas ERCC utilizadas e nos factores de diluição da amostra. As contagens foram comparadas com as contagens de moléculas detectadas (contagens UMI) para calcular a eficiência de conversão.
ensaio ddPCR
Células de Jurkat foram usadas nos ensaios ddPCR para estimar a eficiência de conversão da seguinte forma (1) a quantidade de RNA por célula de Jurkat foi determinada quantificando (Qubit, Invitrogen) o RNA extraído (Maxwell RNA Purification Kits) de vários números diferentes de células de Jurkat conhecidos. (2) RT-ddPCR a granel (Bio-Rad One-Step RT-ddPCR Advanced Kit for Probes 1864021) foi realizado no RNA extraído para determinar o número de cópias por célula de oito genes selecionados. (3) Aproximadamente 5.000 células de Jurkat foram processadas usando a plataforma GemCode Single-Cell 3′, e cDNA de cadeia única foi coletado após RT em GEMs seguindo os protocolos listados na seção ‘Construção de biblioteca de seqüenciamento usando a plataforma GemCode’. As cópias cDNA dos oito genes foram determinadas usando ddPCR (Bio-Rad ddPCR Supermix for Probes (no dUTP) P/N 1863024). A contagem real de células Jurkat foi encontrada seqüenciando um subconjunto das reações GEM-RT em um MiSeq. A eficiência de conversão é a razão entre as cópias cDNA por célula (passo 3) e as cópias RNA por célula de RT-ddPCR em bloco (passo 2), assumindo uma eficiência de 50% em RT-ddPCR34.
As seqüências de sondas para o ensaio ddPCR são as seguintes: SERAC1_f, 5′-CACGAGCCGCCAGC-3′ e SERAC1_r, 5′-TCTGCAACAGATGACGCAGATAAG-3′; SERAC1_p: /56-FAM/CGCCTGCCG/ZEN/GCAGAATGTC/3IABkFQ/. AP1S3_f, 5′-GAAGCAGCCATGGTCTAAGC-3′ e AP1S3_r, 5′-CCTTGTCGACTGAAGCAATATG-3′; AP1S3_p: /56-FAM/CGGGCCCAGC/ZEN/CACGATGATACAT/3IABkFQ/OR. AOV1_f, 5′-CCGGAAGTGGGGTCTCGTOR-3′ e AOV1_r, 5′-TTCTTCATAGCCTTCCCGATACCOR-3′; AOV1_p: /56-FAM/TCGTGATGGG/ZEN/CGGGATGAGGTTTTCA/3IABkFQ/. DOLPP1_f, 5′-ATGGCAGCGGACGGA-3′ e DOLPP1_r, 5′-GGCTCAGGGTAGGGCAAGGA-3′; DOLPP1_p: /56-FAM/CCACGTCGA/ZEN/ATATCCTGCAGGGTGATCT/3IABkFQ/. KPNA6_f, 5′-TGAAAGCTGCCGCTGAAG-3′ e KPNA6_r, 5′-CCCTGGGCTCGCCAT-3′; KPNA6_p: /56-FAM/CGGGACCCCCGC/ZEN/GATGGAGACC/3IABkFQ/. ITSN2_f, 5′-GTGGACAGGCTACGCAACAG-3′ e ITSN2_r, 5′-TCCTGAGTTTCCTTTGCTAGCT-3′; ITSN2_p: /56-FAM/AGGGGCGCCA/ZEN/GATGGCTGA/3IABkFQ/. LCMT1_f, 5′-GTCGACCCCGCTTCCA-3′ e LCMT1_r, 5′-GGTCATGCCAGCAGTAGCCAATG-3′; LCMT1_p: /56-FAM/ATGCTTCCC/ZEN/TGTGCAAGAGGTTTGC/3IABkFQ/. AP2M1_f, 5′-GCAGCGGGGCAGACG-3′ e AP2M1_r, 5′-ATGGCGGCAGATCAGTCT-3′; AP2M1_p: /56-FAM/CATCGCTCTCT/ZEN/GAGAACAGACACCTGGGTG/3IABkFQ/.
Cálculo da eficiência de captura de células
A eficiência é calculada tomando a razão entre o número de células detectadas pelo sequenciamento e o número de células carregadas no chip. Este último é determinado a partir de (volume adicionado × concentração de entrada de células). A concentração de entrada de células foi determinada usando um Contador de Células Automatizado Countess II (Thermo Fisher Scientific). Vale notar que há um erro de 15-20% nas contagens de células, que poderia ser responsável por pelo menos parte da variabilidade nas eficiências calculadas.
Ensaio de quimicidade
Sistema PowerPlex 16 (Promega) foi usado em conjunto com um Analisador Genético Aplicado de Biosistemas (Tecnologias de Vida) 3130xl. Os BMMCs doador foram usados como base de referência.
Alinhamento, atribuição de código de barras e contagem do IMC
O Cell Ranger Single-Cell Software Suite foi usado para realizar a desmultiplexação de amostras, processamento de código de barras e contagem de genes de célula única 3′ (http://software.10xgenomics.com/single-cell/overview/welcome). Primeiro, a desmultiplexação da amostra foi realizada com base no índice de amostra de 8 bp lido para gerar FASTQs para as leituras de ponta de tela Read1 e Read2, bem como o código de barras GemCode de 14 bp. Dez tags UMI basepair foram extraídos da Read2 (14 bibliotecas foram feitas com tags UMI de 5 bp, conforme observado na Tabela Complementar 1, devido a uma iteração anterior dos métodos. Para estas amostras, foram extraídos 5 bp UMI tags da Read2.). Em seguida, Read1, que contém a inserção de cDNA, foi alinhada a um genoma de referência apropriado usando STAR35. Para células de camundongos, foi utilizado mm10 e para células humanas, foi utilizado hg19. Para amostras com misturas de células de camundongos e humanos, foi utilizada a união de hg19 e mm10. Para amostras ERCC, a referência ERCC (https://tools.thermofisher.com/content/sfs/manuals/cms_095047.txt) foi utilizada.
Next, os códigos de barras GemCode e UMIs foram filtrados. Todos os códigos de barras conhecidos que estão a 1-Hamming-distância de um código de barras observado são considerados. Então, a probabilidade posterior de que o código de barras observado foi produzido por um erro de sequência é calculada, dadas as qualidades de base do código de barras observado e a probabilidade anterior de observar o código de barras candidato (tirada da distribuição geral de contagem de códigos de barras). Se a probabilidade posterior para qualquer código de barras candidato for pelo menos 0,975, então o código de barras é corrigido para o código de barras candidato com a probabilidade posterior mais alta. Se todas as sequências de candidatos forem igualmente prováveis, então a que aparece primeiro por ordem lexical é escolhida.
UMIs com pontuação de qualidade de sequenciamento >10 foram considerados válidos se não fossem homopolímeros. Qual=10 implica 90% de precisão da chamada base. Um UMI que está a 1-Hamming-distância de outro UMI (com mais leituras) para o mesmo código de barras e gene de célula é corrigido para o UMI com mais leituras. Esta abordagem é quase idêntica à de Jaitin et al.4, e é semelhante à de Klein et al.8 (embora Klein et al.8 também usassem UMIs para resolver leituras multimapped, que não foram implementadas aqui).
Last, duplicados PCR foram marcados se dois conjuntos de pares de leitura compartilhassem uma seqüência de código de barras, uma tag UMI, e um ID de gene (Ensembl GTFs GRCh37.82, ftp://ftp.ensembl.org/pub/grch37/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh37.82.gtf.gz e GRCm38.84, ftp://ftp.ensembl.org/pub/release-84/gtf/mus_musculus/Mus_musculus.GRCm38.84.gtf.gz, foram usados). Apenas mapeados com confiança (MAPQ=255), duplicados não-PCR com códigos de barras e UMIs válidos foram usados para gerar a matriz de código de barras do gene.
Códigos de barras de células foram determinados com base na distribuição de contagens UMI. Todos os códigos de barras superiores dentro da mesma ordem de grandeza (>10% do n-ésimo código de barras superior, onde n é 1% da contagem esperada de células recuperadas) foram considerados códigos de barras de células. O número de leituras que fornecem informações significativas é calculado como o produto de quatro métricas: (1) códigos de barras válidos; (2) UMI válido; (3) associado a um código de barras de células; e (4) seguramente mapeado para exons.
No experimento de mistura de mouse e humano, a taxa de multiplet foi definida como o dobro da taxa de códigos de barras de células com contagens significativas de UMI tanto de mouse quanto de humano, onde 1% do topo da contagem de UMI foi considerado significativo. A extensão do crosstalk do código de barras foi avaliada pela fração de leituras de mouse em códigos de barras humanos, ou vice-versa.
Amostras processadas de múltiplos canais podem ser combinadas através da concatenação de matrizes de código de barras gene-células. Esta funcionalidade é fornecida no Cell Ranger R Kit (http://support.10xgenomics.com/single-cell/software/pipelines/latest/rkit). Dados de seqüenciamento de múltiplas execuções de seqüenciamento de uma biblioteca podem ser combinados pela contagem de leituras não duplicadas. Esta funcionalidade é fornecida no pipeline do Cell Ranger. Além disso, os dados de seqüenciamento podem ser subamostrados para obter um determinado número de contagens UMI por célula. Esta funcionalidade também é fornecida no Cell Ranger R Kit, e é útil ao combinar dados de múltiplas amostras para comparação.
Análise PCA de mistura de células Jurkat e 293T
Matriz de código de célula de cada uma das quatro amostras foi concatenada. São utilizados apenas genes com pelo menos uma contagem UMI detectada em pelo menos uma célula. A normalização do IMC foi realizada dividindo-se primeiro as contagens do IMC pelo total de contagens do IMC em cada célula, seguido pela multiplicação pela mediana do total de contagens do IMC entre as células. Em seguida, tomamos o registro natural das contagens do IMC. Finalmente, cada gene foi normalizado de tal forma que o sinal médio para cada gene é 0, e o desvio padrão é 1. PCA foi executado na matriz normalizada de código de barras do gene. As contagens normalizadas do IMC de cada gene são usadas para mostrar a expressão de um marcador em um gráfico tSNE.
Análise de SNV de Jurkat e 293T scRNA-seq dados
SNV foram chamados executando Freebayes 1.0.2 (ref. 36) no genoma BAM produzido pelo Cell Ranger. SNVs de alta qualidade (SNV chamando Qual>=100 com pelo menos 10 contagens UMI de pelo menos duas células; indels são ignorados) que só foram observadas em Jurkat ou 293T células (mas não ambas) foram selecionadas. As células foram rotuladas como Jurkat ou 293T com base nas contagens SNV específicas de Jurkat e 293T, onde a fração de contagens das outras espécies é <0.2. Células com uma fração de SNV de qualquer das espécies entre 0,2 e 0,8 são consideradas multiplets. A taxa de múltiplos inferida é de 2* taxa de múltiplos observados (para contabilizar Jurkat:Jurkat e 293T:293T multiplets).
PCA e tSNE análise de PBMCs
Genes com pelo menos uma contagem UMI detectada em pelo menos uma célula são usados. Os 1.000 genes mais variáveis foram identificados com base em sua média e dispersão (variância/meios), que é semelhante à abordagem utilizada por Macoscko et al.7 Genes foram colocados em 20 silos com base em sua expressão média. A dispersão normalizada é calculada como a diferença absoluta entre a dispersão e a dispersão mediana da média da expressão, normalizada pelo desvio absoluto mediano dentro de cada bin.
PCA foi executada na matriz normalizada de código de barras de genes dos 1.000 genes mais variáveis para reduzir o número de dimensões das características (gene). A normalização do IMC foi realizada dividindo-se primeiro as contagens do IMC pelo total de contagens do IMC em cada célula, seguido pela multiplicação com a mediana do total de contagens do IMC entre as células. Em seguida, tomamos o registro natural das contagens do IMC. Finalmente, cada gene foi normalizado de tal forma que o sinal médio para cada gene é 0, e o desvio padrão é 1. O PCA foi executado na matriz normalizada do código de barras do gene. Após a execução do PCA, foi realizada a aproximação Barnes-hut37 ao t-SNE16 nos primeiros 50 PCs para visualização das células em um espaço bidimensional. Cinquenta PCs foram utilizados porque: (1) o uso de todos os PCs demoraria muito tempo com a análise do tSNE; (2) eles explicaram o ∼25% da variação total. K significa15 clustering foi executado para agrupar células para a análise de clustering. k=10 foi selecionado com base na soma do gráfico de erro quadrático do scree (Figura Complementar 5d).
Identificação de genes específicos do cluster e classificação baseada em marcadores
Para identificar genes que são enriquecidos em um cluster específico, a expressão média de cada gene foi calculada em todas as células do cluster. Em seguida, cada gene do cluster foi comparado com a expressão mediana do mesmo gene das células em todos os outros clusters. Os genes foram classificados com base na sua diferença de expressão, e os 10 principais genes enriquecidos de cada cluster foram selecionados. Para o agrupamento hierárquico, foi calculada a correlação em pares entre cada agrupamento, e a expressão centrada de cada gene foi usada para visualização pelo heatmap.
Classificação dos PBMCs foi inferida a partir da anotação dos genes específicos dos agrupamentos. No caso do cluster 10, foi detectada a expressão de marcadores de múltiplos tipos de células (por exemplo, B, dendrítico e T). Como o tamanho relativo do cluster B, dendrítico e T é de 5,7%, 6,6% e 81%, respectivamente, esperaríamos que o cluster 10 (que é apenas 0,5%) contenha múltiplos compostos principalmente de B:dendrítico (0.36%) e B:dendritic:T (0,3%).
Seleção de subpopulações purificadas de PBMCs
Cada população de PBMCs purificados foi reduzida para ∼16k leituras por célula. PCA, tSNE e agrupamento de meios k foram realizados para cada matriz diminuída, seguindo as mesmas etapas descritas na análise PCA e t-SNE dos PBMCs. Apenas um cluster foi detectado na maioria das amostras, consistente com as análises FACS (Suplemento Fig. 6). Para amostras com mais de um cluster, apenas os clusters que exibiam a expressão do gene marcador esperado foram selecionados para análise a jusante. Para monócitos CD14+, dois clusters foram observados e identificados como monócitos CD14+ e células dendríticas com base na expressão dos genes marcadores FTL e CLEC9A, respectivamente.
Análise de classificação de células usando PBMCs purificados
A cada população de PBMCs purificados foi reduzida para ∼16k, com confiança mapeada leituras por célula. Em seguida, foi calculado um perfil médio (médio) de expressão gênica em todas as células. Em seguida, a expressão gênica de cada célula da população complexa foi comparada com os perfis de expressão gênica de populações purificadas de PBMCs através da correlação de Spearman. À célula foi atribuído o ID da população purificada se ela tivesse a maior correlação com essa população. Note que a diferença entre a correlação mais alta e a segunda mais alta foi pequena para algumas células (por exemplo, a diferença entre células T citotóxicas e células NK), sugerindo que a atribuição de células não foi tão confiante para essas células. Algumas das populações PBMC purificadas sobrepunham-se umas às outras. Por exemplo, as células CD4+ T-helper incluem todas as células CD4+. Isto significa que as células desta amostra se sobrepõem às células de amostras que contêm células CD4+, incluindo CD4+/CD25+ T reg, CD4+/CD45RO+ memória T, CD4+/CD45RA+/CD25- T ingênuo. Assim, quando a uma célula foi atribuída a ID da célula CD4+ T-helper com base na pontuação da correlação, a próxima correlação mais alta foi verificada para ver se ela era uma das amostras CD4+. Se foi, o ID da célula foi atualizado para o tipo de célula com a próxima correlação mais alta. O mesmo procedimento foi realizado para CD8+ citotóxico T e CD8+/CD45RA+ citotóxico naive T (que é um subconjunto de CD8+ citotóxico T).
O código R usado para analisar 68k PBMCs e PBMCs purificados pode ser encontrado aqui: https://github.com/10XGenomics/single-cell-3prime-paper.
Aglomeração de células e classificação com Seurat
A matriz gene-células-barcode de 68k PBMCs foi log-transformada como uma entrada para Seurat. Os 469 genes mais variáveis selecionados pela Seurat foram usados para calcular os PCs. Os primeiros 22 PCs foram significativos (P<0,01) com base na análise jackstraw integrada, e usados para visualização do tSNE. A classificação celular foi retirada da análise de classificação celular usando PBMCs purificados.
Comparação entre PBMCs frescos e congelados
Os dados de sequenciamento de 68k PBMCs frescos e 3k PBMCs congelados foram reduzidos de tal forma que cada amostra tem ∼14k confiantemente mapeado leituras por célula. Apenas genes que são detectados em pelo menos uma célula foram incluídos para a comparação, que usa a média de cada gene em todas as células.
Para a comparação da classificação celular entre PBMCs purificados e PBMCs congelados, reunimos todas as células rotuladas como T ou células naturais assassinas. Isto porque as subpopulações dentro de T e entre T e as células assassinas naturais são por vezes difíceis de agrupar separadamente. Não queríamos que a comparação entre células frescas e congeladas fosse afectada pelos métodos de agregação utilizados.
Atribuição do genótipo baseado em SNV
SNV foram chamados executando Freebayes 1.0.2 (ref. 36) no genoma BAM produzido pelo Cell Ranger. Apenas SNVs com suporte de pelo menos dois códigos de barras de células, com pontuação mínima SNV Qual>=30, pontuação mínima SNV base Qual>=1 foram incluídas. Contagens de alelos de referência (R) e alternada (A) foram calculadas em cada SNV, produzindo uma matriz de contagens UMI de referência de células e contagens UMI de células-alternativas de alelos. Estas matrizes foram modeladas como uma mistura de dois genomas onde a probabilidade de qualquer um dos três genótipos (R/R, R/A ou A/A) em um local foi tomada para ser binomialmente distribuída com uma taxa de erro fixa de 0,1%. Para cada amostra, dois modelos foram inferidos em paralelo, um onde apenas um genoma está presente (K=1) e outro onde dois genomas estão presentes (K=2). A inferência dos parâmetros do modelo (atribuições célula a genoma e os conjuntos K de genótipos) foi realizada utilizando um amostrador de Gibbs para aproximar suas distribuições posteriores. Para amenizar o problema de troca de etiquetas na inferência de Monte Carlo dos modelos de mistura, a re-rotulagem das atribuições de célula a genoma amostradas foi realizada como por Stephens et al.38
Em experimentos de mistura de células silicas, quando o modelo K=2 falhou em separar adequadamente os dois genomas, ele relatou uma distribuição de probabilidades posteriores próxima a 0,5 para as chamadas de célula a genoma, indicando uma falta de confiança nessas chamadas. Aplicamos um requisito de que 90% das células têm uma probabilidade posterior >75% para selecionar o modelo K=2 sobre o modelo K=1. A seleção de K=1 indica que a fração de mistura está abaixo do nível de detecção do método, que em experimentos de mistura de silício foi determinado como sendo 4% de 6.000 células.
Comparação do genótipo com a amostra pura
Para determinar a atribuição de genótipos aos indivíduos, somente foram considerados SNVs compartilhados entre o grupo genótipo e a amostra pura. Em seguida, o genótipo médio de todas as células foi comparado com o da amostra pura. Para obter alguma linha de base para a % de sobreposição de genótipos entre diferentes indivíduos, realizamos a comparação de genótipos chamados a partir dos mesmos indivíduos (11 comparações de pares) ou de diferentes indivíduos (15 comparações de pares). A porcentagem de sobreposição de genótipos entre os mesmos indivíduos é em média ∼98±0,3%, enquanto que a porcentagem de sobreposição de genótipos entre os diferentes indivíduos é em média ∼73±2%.
PCA e tSNE análise de BMMCs
Dados de seis amostras foram utilizados: dois controles saudáveis, AML027 pré e pós-transplante, e AML035 pré e pós-transplante. Cada amostra foi reduzida para ∼10k confiantemente mapeada para leituras por célula. Em seguida, a matriz de código de barras gene-células de cada amostra foi concatenada. PCA, tSNE e agrupamento de meios k foram realizados na matriz agrupada, seguindo as mesmas etapas descritas em PCA e tSNE análise de PBMCs. Para o agrupamento de k significaans, K=10 foi usado com base na curva na soma dos quadrados de erro do gráfico de scree.
Genes específicos de clusters foram identificados seguindo os passos delineados em ‘Identificação de genes específicos de clusters e classificação baseada em marcadores’. A classificação foi atribuída com base em genes específicos de clusters, e baseada na expressão de alguns marcadores conhecidos de tipos de células imunes. Blasts and Immature Ery 1′ refere-se ao cluster 4, que expressa o CD34, um marcador de progenitores hematopoiéticos39, e Gata2, um marcador de eritróides precoces40. O “eritróide imaturo 2″ refere-se aos grupos 5 e 8, que mostram a expressão de Gata1, um fator de transcrição essencial para a eritropoiese41, mas não CD71, que são frequentemente encontrados em células eritróides mais comprometidas39. Imatura Ery 3′ refere-se ao aglomerado 1, que mostra a expressão de CD71. Urina Matura” refere-se ao grupo 2. HBA1, um marcador de células eritróides maduras, é detectado preferencialmente no aglomerado 2. O grupo 3 foi atribuído como “Granulócitos imaturos” devido à expressão de marcadores de granulócitos precoces como AZU1 e IL8 (ref. 42), e à falta de expressão do CD16. O Cluster 7 foi atribuído como ‘Monócitos’ devido à expressão de CD14 e FCN1, por exemplo. B’ refere-se aos clusters 6 e 9 por causa de marcadores como CD19 e CD79A. T’ refere-se ao cluster 10, devido a marcadores como CD3D e CD8A.
Disponibilidade de dados
Todos os dados relevantes estão disponíveis nos autores. Os dados de RNA-seq de célula única foram depositados no Short Read Archive sob o número de acesso SRP073767. Os dados também estão disponíveis em http://support.10xgenomics.com/single-cell/datasets. O código de análise para a análise 68k PBMC está disponível em https://github.com/10XGenomics/single-cell-3prime-paper.
.